或者

对李彦宏百度搜索结果排序专利的思考

作者:山里的苦丁 浏览:111 发布时间:2017-09-01
分享 评论 0

  百度《一种对搜索结果进行排序的方法及设备》专利,申请于2011-05-09, 发明人:李彦宏 张子云,申请号:201110118082.6


  专利原文下载地址:http://pan.baidu.com/s/1c2bjT2g


  简单介绍该专利在说什么


  搜索引擎一般是通过搜索词和文章的相关度来排序,然后把排序后的结果展现给用户。这样的结果虽然速度快,但是它有一个缺点,就是排在前面的不一定是用户需要的搜索结果。所以就研发了该专利的方法来对结果进行修正。


  修正的条件包括但不限于以下几个方面:


  ?1、搜索结果所引用资源的有效性


  2、搜索结果所在站点的权威性


  3、搜索结果的页面级别


  4、搜索结果的页面类型


  5、搜索结果的页面质量


  6、搜索结果的页面编码类型


  7、搜索结果的页面丰富程度


  ?8、在相同的检索词得到的搜索结果中是否被点击过


  这个修正方法怎么工作的呢?


  ?通过对某类词设置相应的修正条件和每个修正条件所占的权重,然后通过 每个修正值×权重 再相加,得到最后的 最终排序值,由高到低排序。具体的算法大家可以参阅专利文献。


  思考来了,我列一些我的想法,大家补充


  ?1、不同的类型的网站的排序标准是不一样的


  根据专利所述,新闻站,医疗站更重视权威性,资源站(影视,下载)更重视资源的有效性(是否可以在线观看,可以下载)。所以我们在针对不同类型的网站优化需要有所区别。


  2、页面编码确实是有影响的


  ?参加或者观看过光年培训视频的同学应该记得,国平讲过要注意网站的charset要设置正确,不要中文网站设置成英文,英文设置成中文,这个用国外模板或系统的同学得注意。


  ?3、是否被点击过


  这个点击过是指之前这个结果在同样的检索词下,展现的时候是否有被用户点击过。有则标记为1,无则0。


  ?从技术的角度来讲,这个可以将展示次数和点击不成比例的搜索结果排除掉,因为有些不相关的搜索结果肯定是点击率低的。


  ?之前点击器横行跟这个应该有关,这个修正方案可能不像专利列举的只有0,1,可以还包括点击次数等。


  ?4、资源有效性的评分方式


  ?评分是通过 -N ,0,+N 来进行的, 资源全部可用为正分,资源部份可用为0 ,资源全部不可用为负分


  ?得到负分的结果基本从结果中被排除了。 因为 算法是 分值×权重 然后再加上别的修正项得分的,负分严重影响最终结果,最终得分难以有排名。


  ?5、页面级别


  专利列举了:首页,专题页和其它底层页面。越重要的页面其得到的分值越大,我认为不只这几种页面,比如: 列表页、搜索结果页


  ?6、排序的效率


  为了更快的对结果进行排序,大部份值是被事先进行计算,然后保存起来,比如站点权威值,页面级别这些修正值,但是一个搜索词相关的结果可能很多,这时为了节约资源和得升效率,会提取相关度最高的N条结果来参与后续的修正排序,所以如果你相关度不够挤入前N名里面,基本,你就是没戏。这个在专利里是有说明的。


  7、蛛丝马迹


  专利原文:“[0043] 在本实施例的方案中,为搜索结果的每种修正条件选择的修正参数携带在搜索结果的URL中(如搜索结果的PageRank的修正参数),或携带在搜索结果的检索词-网页(Query-URL)对中(如针对之前之用相同的检索词得到的搜索结果是否被点击过的修正参数),因此,根据预设的修正条件,可以从搜索结果的URL或Query-URL对中查询出已选择的修正参数”。


  ?根据这条,可能在百度的结果页或结果页的URL能找到使用了哪些修正参数的蛛丝马迹。


  PS:


  ?百度的专利并不是百分百就是这样子,我们可以从中得到一些启发,技术一直在进步,现在的排序方法肯定是比这个先进而有效率,请勿过于执着。大胆假设,小心求证。