robots.txt禁止允许蜘蛛爬虫设置方法大全

2021-03-12 00:43   浏览:55638   SEO优化

       在运营网站过程中,蜘蛛爬虫有时候还会影响到我们网站的运行,大量的蜘蛛无脑的爬取网址占用大量的资源,导致网站又卡有慢。我们有些蜘蛛是不想要的,爬取抓取了大量的网页也有没什么流量,还有些国外的搜索引擎但没有什么用。那么我们可使用robots协议,建立robots.txt 文件来控制我们想要和不想要的蜘蛛,创建robots.txt上传至网站根目录即可。比如:https://tjuj.com/robots.txt,创建robots.txt的同时也记得创建地图:https://tjuj.com/sitemap.txt,更有利于优化搜索引擎收录。

robots.txt

       以下面robots为例:(robots检查工具

User-agent:Baiduspider

allow:/

User-agent:360Spider

allow:/

User-agent:Sogou News Spider

allow:/

User-agent:bingbot

Disallow:/

User-agent:Bytespider

Disallow:/

User-agent:Googlebot

Disallow:/

User-agent:YisouSpider

Disallow:/

User-agent:YoudaoBot

Disallow:/

User-agent:Sosospider

Disallow:/

说明:

allow:/(允许访问所有目录)

Disallow:/(禁止访问所有目录)

建议开放的蜘蛛:

百度蜘蛛:Baiduspider

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

建议禁止的蜘蛛:

谷歌蜘蛛:Googlebot

雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

有道蜘蛛:YoudaoBot,YodaoBot

搜狗蜘蛛:Sogou News Spider、Sogou XXX spider等

MSN蜘蛛:msnbot,msnbot-media

必应蜘蛛:bingbot

常规设置:

屏蔽所有搜索引擎爬取网站的语法:

User-agent: *

Disallow: /


允许所有搜索引擎爬取网站所有内容

User-agent: *

allow:/


只禁止百度抓取你网站的内容

User-agent: Baiduspider

Disallow: /


只允许百度抓取你网站的内容

User-agent: Baiduspider

allow:/

User-agent: *

disallow: /



温馨提示:请自行对该信息辨别真实和有效性,付款请找正规担保交易平台,以免造成损失!

声明:本站作为信息发布平台,拒绝任何违规、违法信息,发布的信息已经过审核处理。但无法对服务过程作出保证。

如有造成损失请保留证据并及时报警处理,本站不承担任何责任。对于虚假及欺骗信息请及时举报,本站第一时删除处理!