robots.txt文件到底有什么用呢？-优化师博文-云客网SEO众包服务平台

触屏版
全国服务热线：0571-87205688

价格查询批量查询一键转入

查询

或者

立即发布需求

昵称：山里的苦丁

接单：244 关注TA

达标率 0%

博文分类

robots.txt文件到底有什么用呢？

作者：山里的苦丁 浏览：232次发布时间：2017-11-01

　　前几天有朋友在网站通过聊天窗口问苦丁，有什么什么办法阻止搜索引擎的收录，因为自己网站上面有的东西不想被搜索引擎收录。其实是可以实现的，在这里就有必要好好介绍一下robots.txt文件，因为通过这个robots.txt全完可以实现搜索引擎收录的问题。

　　其实不管是企业网站还是门户网站，上面都会有些资料是保密而不对外公开的。怎么样做到不对外公开呢？唯一的保密的措施就是不让搜索引擎来搜录这些信息。这样就会不在网络上公司，那么要实现这个网站页面不收录，就体了robots.txt的作用啦！robots.txt是一个简单的记事本文件，这是网站管理员和搜录引擎对话的一个通道。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

　　当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

　　既然我们这里知道了什么是robots.txt，我们该如何来应用呢？

　　1、如果我们网站的内容为全部公开，则不需要要设置robots.txt或robots.txt为空就可以啦。

　　2、robots.txt这个文件名必需要是小写而且都要放在网站的根目录下http://www.xxxxx.com/robots.txt一般要通过这种URL形式能访问到，才说明我们放的位置是正确的。

　　3、robots.txt一般只写上两种函数：User-agent和 Disallow。有几个禁止，就得有几个Disallow函数，并分行描述。

　　4、至少要有一个Disallow函数，如果都允许收录，则写: Disallow: ，如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。

　　写法说明

　　User-agent: * 星号说明允许所有搜索引擎收录

　　Disallow: /search.html 说明 http://www.xxxxx.com/search.html 这个页面禁止搜索引擎抓取。

　　Disallow: /index.php? 说明类似这样的页面http://www.www.xxxxx.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

　　常见的用法实例：

　　允许所有的robot访问

　　User-agent: *

　　Disallow:

　　或者也可以建一个空文件 “/robots.txt” file

　　禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

　　User-agent: *

　　Disallow: /01/

　　Disallow: /02/

　　Disallow: /03/

　　禁止某个搜索引擎的访问（下例中的BadBot）

　　User-agent: BadBot

　　Disallow: /

　　只允许某个搜索引擎的访问（下例中的Crawler）

　　User-agent: Crawler

　　Disallow:

　　User-agent: *

　　Disallow: /

　　另外，我觉得有必要进行拓展说明，对robots meta进行一些介绍：

　　Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

　　Robots META标签的写法：

　　Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

　　INDEX 指令告诉搜索机器人抓取该页面；

　　FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

　　Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

　　这样，一共有四种组合：

　　＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞

　　＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞

　　＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞

　　＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞

　　其中

　　＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”ALL”＞；

　　＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”NONE”＞

　　目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

　　＜META NAME=”googlebot” CONTENT=”index,follow,noarchive”＞

　　表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。

　　robots.txt文件对于我们做SEO的朋友来说也是经常要用到的，所以我们还要好好了解他的具体操作方法。苦丁分享

上一篇：博客内容可以来源于哪些主题 下一篇：当网站做SEO遇到瓶紧时应该如何操作

评论(0人参与，0条评论)

发布评论

博文分类

robots.txt文件到底有什么用呢？

猜你喜欢

评论(0人参与，0条评论)

最新评论