限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和抓取次数

摘要:搜索引擎蜘蛛抓取频率过高,都希望提高百度蜘蛛抓取频次,但谷歌蜘蛛、头条蜘蛛、必应蜘蛛等搜索引擎蜘蛛,太频繁抓取网站,蜘蛛爬行频率过高,蜘蛛爬行次数过高,严重影响网站稳定。

作为站长,都希望网站收录多越好,但是,很多的时候,大家都希望,百度蜘蛛你来抓取我的网站吧。但是,结果却是谷歌蜘蛛、头条蜘蛛、必应蜘蛛等,无用的搜索引擎蜘蛛,蜘蛛爬行频率过高,蜘蛛爬行次数过高,严重影响网站稳定。所以,禁止、限制、蜘蛛抓取频次,或者禁止不必要的蜘蛛抓取网站,更有利于服务器稳定哦。

允许蜘蛛采集时间段

User-agent:msnbot
Visit-time:0855-1700

说明:指定每天允许BING蜘蛛采集的时间段,格式为mmss-mmss,例如0800-1700,即限制BING蜘蛛08:00-17:00访问。

允许蜘蛛多长时间抓取一次网页

User-agent:msnbot
Request-rate:1/5 0900-1045

说明:限制BING蜘蛛在允许的时间段内(0900-1045)隔多少秒采集一次网页,例如1/5 0900-1055,即限制BING蜘蛛90:00-10:55访问,且每5秒访问一次。

蜘蛛两次抓取的间隔时间

User-agent:msnbot
Crawl-delay:3600

说明:限制BING蜘蛛两次抓取的间隔时间,单位为秒。建议在蜘蛛的抓取频率过高时,可以制定蜘蛛抓取时间间隔,来降低服务器的负担,减少流量的不必要流失。

国内的搜索引擎蜘蛛

百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

国外的搜索引擎蜘蛛

google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):bingbot

bing蜘蛛(MSN):msnbot

想看更多搜索引擎蜘蛛,看《如何识别搜索引擎蜘蛛?小千解说识别真假搜索引擎蜘蛛》一文,所有的蜘蛛都有哦。

使用robots.txt文件禁止蜘蛛抓取

robots.txt内容格式非常简单,用文本文件的每一行代表一个约定,或者可以使用《robots.txt文件生成器》超级简单的懒人站长工具。

• User-Agent: 适用下列规则的漫游器

• Allow: 充许被抓取的网页

• Disallow: 要拦截的网页

Robots.txt的两个常用符号

“*”: 匹配0或多个任意字符(也有所有的意思)

“$”:匹配行结束符。

禁止某一蜘蛛抓取

User-agent: 蜘蛛名(上面介绍得有)

限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和抓取次数-小千织梦模板

Disallow: /

只充许某一蜘蛛抓取

User-agent: 蜘蛛名(上面介绍得有)

Disallow:

User-agent: *

Disallow: /

robots.txt扩展协议

robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。

一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。

语法:Crawl-delay:XX

"XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。

二、Visit-time 指定蜘蛛的访问时间。

语法:Visit-time:0930-1630

开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630

三、Request-rate 指定采集的频率

语法:Request-rate:1/5 0600-0845

指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。

四、禁止指定类型后缀的文件抓取

Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$ 
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$ 
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。示例如下。

<meta name="robots" content="noindex,nofollow" />

举例说明,案例一

禁止所有搜索引擎访问网站的任何部分

User-agent: * 
Disallow: /

案例二

允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")

User-agent: * 
Allow: /

另一种写法是 

User-agent: * 
Disallow:

案例三

仅禁止Baiduspider访问您的网站

User-agent: Baiduspider 
Disallow: /

案例四

仅允许Baiduspider访问您的网站

User-agent: Baiduspider 
Allow: /

案例五

禁止spider访问特定目录 ,在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /tmp/ 
Disallow: /~joe/

案例六

允许访问特定目录中的部分url

User-agent: * 
Allow: /cgi-bin/see 
Allow: /tmp/hi 
Allow: /~joe/look

案例七

使用"*"限制访问url 

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: * 
Disallow: /cgi-bin/*.htm

案例八

使用"$"限制访问url 

仅允许访问以".htm"为后缀的URL。

User-agent: * 
Allow:/ .htm$

案例九

禁止访问网站中所有的动态页面

User-agent: * 
Disallow: /*?*

案例十

禁止Baiduspider抓取网站上所有图片 

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider 
Disallow: /.jpg$ 
Disallow: / .jpeg$ 
Disallow:/ .gif$ 
Disallow:/ .png$ 
Disallow: /.bmp$

案例十一

仅允许Baiduspider抓取网页和。gif格式图片 

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider 
Allow: .gif$ 
Disallow: /.jpg$ 
Disallow:/ .jpeg$ 
Disallow:/ .png$ 
Disallow: /.bmp$

案例十二

仅禁止Baiduspider抓取。jpg格式图片

User-agent: /Baiduspider 
Disallow:/ .jpg$

多看看别人的网站

http://www.baidu.com/robots.txt

比如百度的 robots.txt 文件就很值得研究一下,当然,还有其它的大型网站,都可以参考别人的写法。好了,以上,就是如何禁止搜索引擎蜘蛛频繁抓取网站的方法,希望对大家有所帮助。

以上便是小千给大家分享的限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和抓取次数,希望对大家有所帮助,如果想了解更多网站优化、SEO教程,请关注小千资源网吧~

版权声明:本文为博主原创文章,未经博主允许不得转载。http://nikucms.com/w/901.html

建站教程2023-01-13

织梦爱好者

织梦爱好者织梦爱好者注册会员

没有挖不倒的墙角,只有不努力的小三!

猜你喜欢

优惠券