网址规范化(URL canonicalization)指的是搜索引擎挑选最合适的URL作为真正(规范化的)网址的过程。
如下面这几个URL一般指的是同一个文件:
http://www.domain.com/index.html
但是从技术上来讲,这几个URL都是不同的网址,搜索引擎也确实把它们当做不同的网址。虽然在绝大多数情况下,这些网址所返回的是相同的文件,也就是网站首页,但是从技术上说,主机完全可以对这几个网址返回不同的内容。
除了上面因为带与不带www造成的,以及结尾是否带index.html文件名造成的不规范网址,网址规范化问题还可能由于如下原因出现:
CMS系统原因,使用一篇文章 (也可以是产品,帖子等)可以通过几种不同的URL访问。
URL静态化设置错误,同一篇文章中有多个静态化URL。
URL静态化后,静态和动态URL同时存在,都有链接,也可同时访问。
目录后带与不带斜杠
网址不规范会有什么问题:
CMS系统在不同地方链接到不同的URL,分散了页面权重,不利于排名。
外部链接也可能指向不同URL,分散权重。
搜索引擎判断的规范化网址不是站长想要的那个网址。
如果网址规范化问题太严重,也可能影响收录,一个权重不很高的域名,能收录的总页面数和蜘蛛总爬行时间是有限的,搜索引擎把资源花在收录不规范的网址上,留下给独特内容的资源就减少了,
复制内容过多,搜索引擎可能认为有作弊嫌疑。
解决URL规范化问题的方法:
确保使用的CMS系统只产生规范化网址,无论是否有静态化。
所有内部链接保持统一,都指向规范化网址。以带与不带www为例,确定一个版本为规范化网址,网址内链接统一使用这个版本,这样搜索引擎也就明白哪一个是站长希望的规范化网址,由于用户习惯,通常选择带www的版本为规范化网址。
在Google管理员工具中设置首选域。
使用301转向,把不规范化URL全部转向到规范化URL。
提交给搜索引擎的XML网址地图中全部使用规范化网址。
评论(0人参与,0条评论)
发布评论
最新评论