robots协议书就是指收索引擎与网站中间的协议书文档,也就是说爬虫协议书,用以特定spider在网站上的抓取范畴。其功效是能够屏蔽掉对网站对收索引擎不友善的连接,例如动态性和静态数据连接另外存有时屏蔽掉每日任务一切不愿被引用的网页。

 

robots协议书是正确引导蛛蛛抓取网站地形图,也用于维护网站信息和比较敏感信息内容,保证客户私人信息和隐私保护不被侵害。存有于网站根目录正,以文件格式存有,留意robots文件夹名称不可以随意变更。

书写::表达对于某一爬虫,
 
:表达禁止抓取
 
:容许抓取
 
.*通配符,表达全部
 
.$结束符,表达以哪些末尾
 
/根域下就是指网站根目录
 
注:灶具显示英文情况下的,而且后边有一个空格符,首写必须小写。
 
例:
 
1、User-agent:*Disallow:/对于全部爬虫禁止抓取根目录下的全部连接
 
2、User-agent:BaiduspiderDisallow:/禁止百度爬虫抓取网站全部联接
 
3、User-agent:*Disallow:/a/对于全部的爬虫禁止抓取网站根目录下的a目录
 
4、User-agent:*Disallow:/a对于全部的爬虫禁止抓取网站根目录下为“a”开始的文档5、User-agent:*Disallow:/*?*(?表达动态性符)禁止抓取网站根目录下带?号的动态性连接
 
6、User-agent:*Disallow:/*.js$禁止抓取网站根目录下边以.js末尾的文档
 
7、User-agent:*Disallow:/a/Allow:/a/b/禁止抓取网站根目录下边“a”,容许抓取“a”目录下边的“b”目录。
 
8、User-agent:*Disallow:/a/Allow:/a/b禁止抓取网站根目录下边“a”目录,容许抓取“a”目录中以“b”开始的文档。