阅读本文,如何轻松应对蜘蛛耗尽服务器资源问题?
- 内容介绍
- 相关推荐
换言之... 说实话,蜘蛛这玩意儿吧,有时候真挺让人又爱又恨的。
站在你的角度想... 你建个网站不容易啊, 天天盼着搜索引擎来收录,后来啊蜘蛛一来服务器资源直接被吃干抹净,访问量一高,IIS直接报错“service unavoidable”。
你懂的, 这问题一出,网站直接卡成PPT,访问量小得可怜,老板还问你:“你这网站是不是挂了?”,闹乌龙。
原来小丑是我。 害,咱就是说这事儿不能全怪蜘蛛,但也不能全怪蜘蛛不讲武德,对吧?
换个角度看.… 所以今天咱就来聊聊, 怎么让蜘蛛别那么“热情”,又不耽误它干活儿,还能保住咱的服务器资源。
蜘蛛来了服务器哭了
先说说为啥蜘蛛会把资源吃光?
主要原因是蜘蛛太勤快了呗!
请大家务必... 你网站内容多,蜘蛛一来恨不得把所有页面都爬一遍,后来啊服务器直接顶不住了。
你可能会说:“哎呀,这不是好事吗?蜘蛛来得多,收录得多,排名不就上去了?”
对,但问题是——蜘蛛太猛了服务器扛不住啊,说句实话…!
所以咱得给蜘蛛“上上课”,让它别那么“勤奋”。
这时候就得请出咱们的老朋友——robots.txt了。
这玩意儿就是蜘蛛的“行为准则”。
你写得好,蜘蛛就乖;你写得不好,它就到处乱跑,把你的服务器当自助餐。
robots.txt, 蜘蛛的“行为守则”
先来个例子,你感受一下:
user-agent:*
戳到痛处了。 disallow:/search.html
disallow:/index.php?
disallow:/tempweb/
这段代码啥意思呢?
精辟。 user-agent:* 是告诉所有蜘蛛:“你们都可以来但有些地方不能去。”
disallow:/search.htm 我天... l 是说:“搜索后来啊页别来爬,没意义。”
disallow:/index.php? 是说:“动态链接别来抓,浪费资源。”,提到这个...
disallow:/tempweb/ 是说:“临时文件夹也别碰,里头都是垃圾。”
你写得对,蜘蛛就省事,服务器也轻松。
你写得不对,蜘蛛就到处乱跑,服务器直接“我顶不住了”,反正吧…。
所以robots.txt写得好,蜘蛛不乱跑,服务器资源省着用,网站稳如老狗。
别让蜘蛛瞎跑,也别让它偷懒
咱的目标是啥?
不是不让蜘蛛来是让它来得恰到好处。
蚌埠住了... 你得让它知道:“你来可以但别把我家翻个底朝天。”
所以robots.txt里要写清楚哪些地方可以去,哪些地方不能去。
比如 你不想让它去抓取搜索后来啊页,你就写:,你看啊...
你不想让它抓取动态链接,你就写:
你不想让它去抓临时文件夹,你就写:
你还可以加点别的,比如不让蜘蛛抓取一些没意义的页面比如登录页、注册页、测试页,泰酷辣!。
这些页面蜘蛛来了也没用,还浪费资源。
别让蜘蛛把服务器当自助餐
蜘蛛一来 服务器资源直接被吃光,这事儿咱不能忍,简单来说...。
所以咱得给蜘蛛“上规矩”。
比如robots.txt里写清楚哪些地方不能去,蜘蛛就老老实实不乱跑。
你还可以设置爬虫频率,比如用Crawl-delay参数, 何苦呢? 告诉蜘蛛:“你慢点来别急。”
比如:
Crawl-delay: 10
意思是:蜘蛛你10秒来一次 别5秒就来一次服务器扛不住,拖进度。。
往白了说... 当然 不是所有搜索引擎都认这个参数,但至少Google认,百度认不认咱也不知道,但写上总没错。
换位思考... 你还可以用Sitemap,告诉蜘蛛:“你来抓取这些页面别的别乱跑。”
比如你有个sitemap.xml, 里面列 行吧... 了所有重要页面蜘蛛就只抓这些,别的就不管了。
这样蜘蛛来得有重点,服务器也轻松。
别让蜘蛛抓取没用的页面
比如搜索后来啊页, 你写:
比如动态链接,你写:
比如临时文件夹,你写:
比如测试页面你写:
disallow:/test/
比如后台页面你写:
disallow:/admin/
这样蜘蛛就不会乱跑,服务器资源也不会被吃光。
你还可以用Sitemap,告诉蜘蛛哪些页面可以抓,哪些不能抓,躺平...。
别让蜘蛛抓取没用的页面
一下
蜘蛛来得勤快是好事,但不能让它乱来。
你得给它“上规矩”,别让它把服务器当自助餐,他急了。。
robots.txt写得好,蜘蛛就老老实实不乱跑。
你还可以设置爬虫频率,告诉蜘蛛:“你慢点来别急。”
你猜怎么着? 别让蜘蛛抓取没用的页面比如搜索后来啊页、动态链接、临时文件夹、测试页面、后台页面。
换言之... 说实话,蜘蛛这玩意儿吧,有时候真挺让人又爱又恨的。
站在你的角度想... 你建个网站不容易啊, 天天盼着搜索引擎来收录,后来啊蜘蛛一来服务器资源直接被吃干抹净,访问量一高,IIS直接报错“service unavoidable”。
你懂的, 这问题一出,网站直接卡成PPT,访问量小得可怜,老板还问你:“你这网站是不是挂了?”,闹乌龙。
原来小丑是我。 害,咱就是说这事儿不能全怪蜘蛛,但也不能全怪蜘蛛不讲武德,对吧?
换个角度看.… 所以今天咱就来聊聊, 怎么让蜘蛛别那么“热情”,又不耽误它干活儿,还能保住咱的服务器资源。
蜘蛛来了服务器哭了
先说说为啥蜘蛛会把资源吃光?
主要原因是蜘蛛太勤快了呗!
请大家务必... 你网站内容多,蜘蛛一来恨不得把所有页面都爬一遍,后来啊服务器直接顶不住了。
你可能会说:“哎呀,这不是好事吗?蜘蛛来得多,收录得多,排名不就上去了?”
对,但问题是——蜘蛛太猛了服务器扛不住啊,说句实话…!
所以咱得给蜘蛛“上上课”,让它别那么“勤奋”。
这时候就得请出咱们的老朋友——robots.txt了。
这玩意儿就是蜘蛛的“行为准则”。
你写得好,蜘蛛就乖;你写得不好,它就到处乱跑,把你的服务器当自助餐。
robots.txt, 蜘蛛的“行为守则”
先来个例子,你感受一下:
user-agent:*
戳到痛处了。 disallow:/search.html
disallow:/index.php?
disallow:/tempweb/
这段代码啥意思呢?
精辟。 user-agent:* 是告诉所有蜘蛛:“你们都可以来但有些地方不能去。”
disallow:/search.htm 我天... l 是说:“搜索后来啊页别来爬,没意义。”
disallow:/index.php? 是说:“动态链接别来抓,浪费资源。”,提到这个...
disallow:/tempweb/ 是说:“临时文件夹也别碰,里头都是垃圾。”
你写得对,蜘蛛就省事,服务器也轻松。
你写得不对,蜘蛛就到处乱跑,服务器直接“我顶不住了”,反正吧…。
所以robots.txt写得好,蜘蛛不乱跑,服务器资源省着用,网站稳如老狗。
别让蜘蛛瞎跑,也别让它偷懒
咱的目标是啥?
不是不让蜘蛛来是让它来得恰到好处。
蚌埠住了... 你得让它知道:“你来可以但别把我家翻个底朝天。”
所以robots.txt里要写清楚哪些地方可以去,哪些地方不能去。
比如 你不想让它去抓取搜索后来啊页,你就写:,你看啊...
你不想让它抓取动态链接,你就写:
你不想让它去抓临时文件夹,你就写:
你还可以加点别的,比如不让蜘蛛抓取一些没意义的页面比如登录页、注册页、测试页,泰酷辣!。
这些页面蜘蛛来了也没用,还浪费资源。
别让蜘蛛把服务器当自助餐
蜘蛛一来 服务器资源直接被吃光,这事儿咱不能忍,简单来说...。
所以咱得给蜘蛛“上规矩”。
比如robots.txt里写清楚哪些地方不能去,蜘蛛就老老实实不乱跑。
你还可以设置爬虫频率,比如用Crawl-delay参数, 何苦呢? 告诉蜘蛛:“你慢点来别急。”
比如:
Crawl-delay: 10
意思是:蜘蛛你10秒来一次 别5秒就来一次服务器扛不住,拖进度。。
往白了说... 当然 不是所有搜索引擎都认这个参数,但至少Google认,百度认不认咱也不知道,但写上总没错。
换位思考... 你还可以用Sitemap,告诉蜘蛛:“你来抓取这些页面别的别乱跑。”
比如你有个sitemap.xml, 里面列 行吧... 了所有重要页面蜘蛛就只抓这些,别的就不管了。
这样蜘蛛来得有重点,服务器也轻松。
别让蜘蛛抓取没用的页面
比如搜索后来啊页, 你写:
比如动态链接,你写:
比如临时文件夹,你写:
比如测试页面你写:
disallow:/test/
比如后台页面你写:
disallow:/admin/
这样蜘蛛就不会乱跑,服务器资源也不会被吃光。
你还可以用Sitemap,告诉蜘蛛哪些页面可以抓,哪些不能抓,躺平...。
别让蜘蛛抓取没用的页面
一下
蜘蛛来得勤快是好事,但不能让它乱来。
你得给它“上规矩”,别让它把服务器当自助餐,他急了。。
robots.txt写得好,蜘蛛就老老实实不乱跑。
你还可以设置爬虫频率,告诉蜘蛛:“你慢点来别急。”
你猜怎么着? 别让蜘蛛抓取没用的页面比如搜索后来啊页、动态链接、临时文件夹、测试页面、后台页面。

