在做网站结构分析之前,要理解搜索引擎蜘蛛是拟人化的算法而已。算法就是按部就班的执行事先设计的抓取策略,所以良好的网站结构具备引导、分配权重、提高抓取效率等作用,只有内部框架搭建好之后,内容的布局才能井然有序,蜘蛛才能有序爬行。
网站结构
事先应该考虑到的问题:
蜘蛛是否实现逻辑上的全站抓取
蜘蛛是否可以区分页面重要性
蜘蛛是否可以提取页面的关键词
一、逻辑上全站爬行
网站结构优化
网站物理结构,即基于内容聚合的目录及文件位置决定的结构。目前的主流思维就是网站扁平化设计,即平行结构。
链接结构优化
两种蜘蛛抓取不到的页面:网站本身不希望被收录的页面;没有链接到达的页面,即孤岛页面。对于没有被首页推荐的页面,可以再内链上补充。合理的内链就是一个四通八达、井然有序的交通系统,蜘蛛就是来往的车辆。社会化、描文本、设置链接入口等。
Domain结构优化
主要是二级域名和二级目录的选择策略。没有绝对的好与不好,就科易网小编来说目前公司网站正在有二级域名网站结构向二级目录转变,只是采取适应当前科易网发展的核心:塑造公司品牌。所以根据自身特点选择合理的domain策略。
二、重要性的主导
对于搜索引擎来说,什么样页面会被认为“更重要”?有这么一句话:每个链接都是一个投票,意思是:页面的所有链接都是投票。在搜索引擎看来:获得更多内部投票的网页相对来说更加重要。
三、网页的标签:关键词
搜索引擎在分析页面的内容是优先从TDK入手,即title、description、keyword;之后就是H标签、alt标签;最后是TF-IDF ,即词频-文件频率。从三个的关联度定义页面的“标签”,即抓取的时页面的定义的关键词。
评论(0人参与,0条评论)
发布评论
最新评论