作为站长,都希望网站收录多越好,但是,很多的时候,大家都希望,百度蜘蛛你来抓取我的网站吧。但是,结果却是谷歌蜘蛛、头条蜘蛛、必应蜘蛛等,无用的搜索引擎蜘蛛,蜘蛛爬行频率过高,蜘蛛爬行次数过高,严重影响网站稳定。所以,禁止、限制、蜘蛛抓取频次,或者禁止不必要的蜘蛛抓取网站,更有利于服务器稳定哦。
允许蜘蛛采集时间段
User-agent:msnbot Visit-time:0855-1700
说明:指定每天允许BING蜘蛛采集的时间段,格式为mmss-mmss,例如0800-1700,即限制BING蜘蛛08:00-17:00访问。
允许蜘蛛多长时间抓取一次网页
User-agent:msnbot Request-rate:1/5 0900-1045
说明:限制BING蜘蛛在允许的时间段内(0900-1045)隔多少秒采集一次网页,例如1/5 0900-1055,即限制BING蜘蛛90:00-10:55访问,且每5秒访问一次。
蜘蛛两次抓取的间隔时间
User-agent:msnbot Crawl-delay:3600
说明:限制BING蜘蛛两次抓取的间隔时间,单位为秒。建议在蜘蛛的抓取频率过高时,可以制定蜘蛛抓取时间间隔,来降低服务器的负担,减少流量的不必要流失。
国内的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
国外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):bingbot
bing蜘蛛(MSN):msnbot
想看更多搜索引擎蜘蛛,看《如何识别搜索引擎蜘蛛?小千解说识别真假搜索引擎蜘蛛》一文,所有的蜘蛛都有哦。
使用robots.txt文件禁止蜘蛛抓取
robots.txt内容格式非常简单,用文本文件的每一行代表一个约定,或者可以使用《robots.txt文件生成器》超级简单的懒人站长工具。
• User-Agent: 适用下列规则的漫游器
• Allow: 充许被抓取的网页
• Disallow: 要拦截的网页
Robots.txt的两个常用符号
“*”: 匹配0或多个任意字符(也有所有的意思)
“$”:匹配行结束符。
禁止某一蜘蛛抓取
User-agent: 蜘蛛名(上面介绍得有)
Disallow: /
只充许某一蜘蛛抓取
User-agent: 蜘蛛名(上面介绍得有)
Disallow:
User-agent: *
Disallow: /
robots.txt扩展协议
robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。
一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
语法:Crawl-delay:XX
"XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。
二、Visit-time 指定蜘蛛的访问时间。
语法:Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630
三、Request-rate 指定采集的频率
语法:Request-rate:1/5 0600-0845
指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。
四、禁止指定类型后缀的文件抓取
Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$
另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。示例如下。
<meta name="robots" content="noindex,nofollow" />
举例说明,案例一
禁止所有搜索引擎访问网站的任何部分
User-agent: * Disallow: /
案例二
允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")
User-agent: * Allow: /
另一种写法是
User-agent: * Disallow:
案例三
仅禁止Baiduspider访问您的网站
User-agent: Baiduspider Disallow: /
案例四
仅允许Baiduspider访问您的网站
User-agent: Baiduspider Allow: /
案例五
禁止spider访问特定目录 ,在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
案例六
允许访问特定目录中的部分url
User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look
案例七
使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: * Disallow: /cgi-bin/*.htm
案例八
使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: * Allow:/ .htm$
案例九
禁止访问网站中所有的动态页面
User-agent: * Disallow: /*?*
案例十
禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider Disallow: /.jpg$ Disallow: / .jpeg$ Disallow:/ .gif$ Disallow:/ .png$ Disallow: /.bmp$
案例十一
仅允许Baiduspider抓取网页和。gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider Allow: .gif$ Disallow: /.jpg$ Disallow:/ .jpeg$ Disallow:/ .png$ Disallow: /.bmp$
案例十二
仅禁止Baiduspider抓取。jpg格式图片
User-agent: /Baiduspider Disallow:/ .jpg$
多看看别人的网站
http://www.baidu.com/robots.txt
比如百度的 robots.txt 文件就很值得研究一下,当然,还有其它的大型网站,都可以参考别人的写法。好了,以上,就是如何禁止搜索引擎蜘蛛频繁抓取网站的方法,希望对大家有所帮助。
以上便是小千给大家分享的限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和抓取次数,希望对大家有所帮助,如果想了解更多网站优化、SEO教程,请关注小千资源网吧~
建站教程2023-01-13
-
织梦现在怎么样了?织梦网友:梦的翅膀受了伤
织梦程序还有人在用吗?现在还有人用织梦吗?织梦CMS现在怎么样了?织梦网友:梦的翅膀受了伤。织梦圈的网友,用蒋雪儿的《梦的翅膀受了伤》歌曲名回答这个问题,我感觉很贴切。…
-
百度不收录网站怎么办?做网站优化的正确方法
作为站长,你是否也有遇到过?网站不收录,或网站收录过万,写好的原创被别人转载,盗版猖獗,原创排名石沉大海。过多教程都把问题过度夸大,小千,可以提供几个方法仅供参考。…
-
织梦怎么样了?织梦现在还能用来建站吗
最近有织梦的动向吗?织梦现在怎么样了,现在织梦CMS还能用来建站吗?织梦不授权可以吗?使用织梦CMS建站不购买授权可以吗?如何判断网站是不是用织梦CMS建的,答案解析尽在小千个人博客…
-
现在织梦CMS是不是凉凉了,我只能告诉你织梦很有研究价值
很多的小伙伴都想问,织梦CMS是不是彻底凉凉了。其实,织梦官网还能打开,织梦程序还能下载,织梦官方还在更新,虽然是已经收费,但是织梦CMS大有可玩,织梦CMS还是很有研究价值的。…
-
如何选择好的织梦模板,织梦模板推荐
免费织梦模板多,怎么找一个最合适的模板?哪种免费的织梦模板好用?织梦模板应该如何选择?对于一个专业的SEO优化人员来说。做模板可能也许不是自己的强项,最简单的就是自适应,响应…