或者

哪些网页无法建入索引库

作者:9527 浏览:61 发布时间:2017-07-20
分享 评论 0

    上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:


    1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。


    2, 主体内容空短的网页


    1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃


    2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。


    3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。


    3, 部分作弊网页