或者

搜索引擎蜘蛛如何抓取网页数据

作者:坐看云起 浏览:180 发布时间:2017-11-10
分享 评论 0

  我们做网站优化都想方设法让搜索蜘蛛进入自己的网站进行爬行抓取,从而提高网页的收录,但是蜘蛛究竟是如何抓取网站数据的呢?今天网站排名优化就和大家分享下,搜索引擎蜘蛛是如何爬取我们网站数据的。


  在搜索引擎蜘蛛系统中,待爬取URL队列是决定性因素。蜘蛛爬取的网站页面URL顺序排列,形成一个队列结构,调整程序时每次从队列开头取出某个URL单元,发送给网页下载器页面内容,这样每个新下载的页面中就包含了上个URL单元,新加载的页面会追加到待爬取URL队列的末尾,如此形成一个循环,帮助蜘蛛爬行抓取网页信息。那么待爬取URL队列中的页面URL 的排列顺序是怎样确定的呢?下面就跟seo优化公司来进行更深入的分析。


  第一、宽度优化遍历策略


  宽度优化遍历策略是一种简单易行而且比较原始的遍历方法,从搜索引擎蜘蛛一出现就广为流传使用了。随着网站优化技术的进步,新提出的众多抓取策略往往也是以这种方法为基础加以改进,但值得注意到的是,这种原始策略是一种相当有效的方法,甚至要比很多新技术更加好用,所以至今这种方法仍被许多爬虫系统优先采用。网页爬取顺序基本按照网页的重要性排列。其用法类似于H标签,重要的优先检索,主次分明。实际上宽度优化遍历策略隐含了一些网页优化级假设。


  第二、非完全pagerank策略


  PageRank是一种谷歌的专有算法,用来衡量特定网页相对于搜索引擎网页的重要性。PageRank算法也可以套用在URL优化级排序上。但是不同的是,PageRank是个整体性算法,也就是说当所有网页下载完成后,其计算结果才是可靠的,而蜘蛛爬取网页时,在运行过程中只能看到一部分页面,这样就无法获得可靠的PageRank得分。


  第三、OPIC策略( Online Page Importance Computation)


  OPIC直译为“在线页面重要性计算”,可以看做是PageRank算法的一种改进。在算法开始之前,每个网站页面都要给予相同的现金,每当下载了某个页面P后,P页面就将自己拥有的现金根据链接走向平均分配给下面的页面,终将自己的现金清空。而对于待爬取URL队列中的网页,则根据页面所拥有的现金金额多少排序,优先下载现金充裕的网页。OPIC策略与PageRank思想基本一致,区别在于:PageRank每次都需要迭代计算,而OPIC策略则省去了迭代过程,加快了运算速度。