或者

robots.txt文件到底有什么用呢?

作者:山里的苦丁 浏览:232 发布时间:2017-11-01
分享 评论 0

  前几天有朋友在网站通过聊天窗口问苦丁,有什么什么办法阻止搜索引擎的收录,因为自己网站上面有的东西不想被搜索引擎收录。其实是可以实现的,在这里就有必要好好介绍一下robots.txt文件,因为通过这个robots.txt全完可以实现搜索引擎收录的问题。


  其实不管是企业网站还是门户网站,上面都会有些资料是保密而不对外公开的。怎么样做到不对外公开呢?唯一的保密的措施就是不让搜索引擎来搜录这些信息。这 样就会不在网络上公司,那么要实现这个网站页面不收录,就体了robots.txt的作用啦!robots.txt是一个简单的记事本文件,这是网站管理 员和搜录引擎对话的一个通道。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。


  当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。


  既然我们这里知道了什么是robots.txt,我们该如何来应用呢?


  1、如果我们网站的内容为全部公开,则不需要要设置robots.txt或robots.txt为空就可以啦。


  2、robots.txt这个文件名必需要是小写而且都要放在网站的根目录下http://www.xxxxx.com/robots.txt一般要通过这种URL形式能访问到,才说明我们放的位置是正确的。


  3、robots.txt一般只写上两种函数:User-agent和 Disallow。有几个禁止,就得有几个Disallow函数,并分行描述。


  4、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。


  写法说明


  User-agent: *  星号说明允许所有搜索引擎收录


  Disallow: /search.html   说明 http://www.xxxxx.com/search.html 这个页面禁止搜索引擎抓取。


  Disallow: /index.php?   说明类似这样的页面http://www.www.xxxxx.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。


  常见的用法实例:


  允许所有的robot访问


  User-agent: *


  Disallow:


  或者也可以建一个空文件 “/robots.txt” file


  禁止所有搜索引擎访问网站的任何部分


  User-agent: *


  Disallow: /


  禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)


  User-agent: *


  Disallow: /01/


  Disallow: /02/


  Disallow: /03/


  禁止某个搜索引擎的访问(下例中的BadBot)


  User-agent: BadBot


  Disallow: /


  只允许某个搜索引擎的访问(下例中的Crawler)


  User-agent: Crawler


  Disallow:


  User-agent: *


  Disallow: /


  另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:


  Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。


  Robots META标签的写法:


  Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。


  INDEX 指令告诉搜索机器人抓取该页面;


  FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;


  Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。


  这样,一共有四种组合:


  <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>


  <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>


  <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>


  <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>


  其中


  <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;


  <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>


  目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:


  <META NAME=”googlebot” CONTENT=”index,follow,noarchive”>


  表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。


  robots.txt文件对于我们做SEO的朋友来说也是经常要用到的,所以我们还要好好了解他的具体操作方法。苦丁分享