或者

什么是Robots协议?

作者:四色花 浏览:423 发布时间:2017-12-08
分享 评论 3

    1Robots.txt存储位置?


    Robots文件必须换在网站的根目录下,因为搜索引擎抓取网页是从根目录开始,而蜘蛛抓取网站内容时会先检测Robots文件,按照Robots文件的规则去抓取网站内容(即要查看其它网站的Robots文件可以直接输入“域名/robots.txt”就能看到具体内容)。


    2Robots与Nofollow的区别?


    Robots与Nofollow的本质区别在于Nofollow只是在当前网页禁止蜘蛛跟踪超链接,而蜘蛛可能会通过其它路径抓取到被Nofollow的网页。而Robots是禁止搜索引擎索引Disallow的网页。也就是说在搜索引擎可以搜索到Nofollow掉的网页,但是搜索不到Robots Disallow的网页。


    3Robots的语法规则?


    Sitemap指定网站地图的路径(即Sitemap: http://www.lincox.cn/sitemap.xml)。User-agent指定具体的搜索引擎蜘蛛(User-agent: *,代表所有搜索引擎、User-agent: Baiduspider指定百度搜索引擎蜘蛛、User-agent:Googlebot指定谷歌搜索引擎蜘蛛)。Allow:是允许抓取的路径,Disallow:是禁止抓取的路径。可以使用通配符:Disallow: /*.css$禁止蜘蛛爬取所有css文件(具体可以查看本站的Robots文件)。


    4Robots的运用?


    通过Robots禁止网站后台登入地址被搜索引擎收录,避免黑客使用搜索引擎的inulr命令找到网站后台的登入地址,以提高网站的安全性。同时也可以禁止蜘蛛抓取容量较大的文件,以提高网站的访问速度