一:什么是robots协议
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。
• Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
• 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。
二:robots.txt放置位置
robots.txt文件应该放置在网站根目录下。
例如,当spider访问一个网站(比如 http://www.taobao.com)时,首先会检查该网站中是否存在http://www.taobao.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
三:robots.txt文件的写法
操作步骤:
1.新建一个文本文档,命名为robots.txt
2.开始写robots
User-agent: * (*针对所有搜索引擎)
Disallow: / (禁止爬取所有页面,/代表目录)
Disallow: /admin/ (禁止抓取admin目录)
Disallow: /admin (禁止抓取包含admin的路径)
Allow: /admin/s3.html (允许抓取admin目录下s3.html文件)
一个“/”表示路径,两个“/”表示文件夹
Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)
Disallow: /.css$ (禁止抓取所有带.css的文件)
sitemap:***
注意:
• 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写
• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。
评论(0人参与,0条评论)
发布评论
最新评论