或者

HITS算法与外部链接处理

作者:9527 浏览:205 发布时间:2017-04-08
分享 评论 0

HITS算法是一个非常常见的算法,无数的seoer都了解或者阅读过百度百科,不过,对于HITS算法的深层次理解的人想来却不是很多,例如最近在光年论坛上讨论的两个帖子,一个人是Hub主题确定处理现象,就是说首页由于内页的一个链接,导致在搜索内页title时候出现结果却是首页http://www.baidu.com/thread-15-1-1.html,另一个是GSA的测试http://www.baidu.com/thread-12-1-1.html,得出来的结果是含有锚链接的词域降低了TF。其实仔细想下,这两个现象都是和hits算法有关的,第二个的结论也是错误的,第一个的说法也没有说道实质上。不信,你可以仔细阅读下HITS算法就知道了。

说到HITS算法,我们可以说到两个值authority值与hub值的问题,一个是内容质量权威度一个是链接质量权威度(个人为了容易区分)。HITS算法最大的优势是基于主题关键词的计算,相对于PR仅仅计算链接关系来说,降低了内容挖掘和结构挖掘的量度,但是由于关系的复杂性和人为因素的影响,hits算法也有非常多的盲点和缺憾,其中最重要的有4点问题:

1,Hub主题难以确定-authority的主题漂移

由于hub页面的主题是由链向的页面确定的,很多时候链向页面的主题是非常复杂的,这样就导致了主题的多样性,例如光年论坛的第一个问题就是最好的证明。而且这种指向有时候是非常多的,导致首页的hub权重也非常高,影响就非常大。被指向的页面也会出现这样的事情,最常见的就是主题漂移。

其实解决这个问题,最好的办法是加大meta标签的权重,但是现实上并不理想,另外的方法就是降低hub页面的hub权重。(看到资料上有人说采用平均值降低hub页面的hub值,个人觉得很无语。谷歌PR修正算法中其实已经涉及到权重值的分配问题,所以剩下的就是主题性的确定,百度对于这个技术确实不行,所以很容易出现这些事情也是正常的。)