Robots.txt文件的用法和作用
seo工作者应该不陌生,robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过该文件,搜索引擎就可以知道在你的网站中哪些文件是可以被索引的,哪些文件是被拒绝索引的,我们就可以很方便地控制搜索索引网站内容了。
首先我们应该明白Robots.txt文件是网站与搜索引擎之间的一种协议,当搜索引擎来抓取你网站的时候,首先会看你网站根目录的Robots文件,搜索引擎会根据你写的这个协议来抓取你的网站内容,当然抓取的页面都是由你写的Robots来确定的。
Robots的基本概念与作用
搜索引擎使用spider程序来访问网站里面的内容,但是你的Robots文件可以告诉它那个页面可以访问,那个页面不可以访问,有些人认为网站当然容许抓取访问了。错,一些网站后台隐私文件、js、死链这些都是需要屏蔽的。
Robots常见的规则
1.User-agent指令
此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的内容就对特定蜘蛛有效。
2.Disallow指令
指禁止搜索引擎抓取的路径,也就是说此指令定义了禁止蜘蛛抓取哪些内容。
3.Allow指令
允许搜索引擎收录的地址,此指令定义了允许蜘蛛抓些哪些内容,如果是某些内容允许,其它全部拒绝,则可以用这个指令,大多数网站只用到禁止指令。
User-agent的用法示例
此指令是用来定义蜘蛛名的:常见的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。
Disallow的用法示例
1.禁止整站被抓取:Disallow: /
2.禁止根目录下的woniuseo目录抓取:Disallow: /woniuseo/
3.禁止根目录下的woniuseo目录下的单个页面woniuseo.html被抓取:
Disallow:/woniuseo/woniuseo.html
4.禁止全站含有?的页面被抓取:Disallow: /*?*
5.禁止全站含有woniuseo的页面被抓取:Disallow: /*woniuseo*
6.禁止全站后缀为.aspx的页面被抓取:
Disallow: /*.aspx$
7.禁止全站后缀为.jpg的文件被抓取:Disallow:/*.jpb$
Allow的用法示例
1.允许所有页面被抓取:Allow: /
2.允许woniuseo的目录被抓取:Allow: /woniuseo/
3.允许抓取.html的页面:Allow: /*.html$
4.允许抓取.jpg的图片:Allow: /*.jpg$
评论(0人参与,0条评论)
发布评论
最新评论