以下为内容详情:
3 网站优化
3.1 抓取友好性
关于抓取的优先级,在此重点强调:
√ 网站更新频率:经常更新高价值的站点,优先抓取
√ 受欢迎程度:用户体验好的站点,优先抓取
√ 优质入口:优质站点内链接,优先抓取
√ 历史的抓取效果越好,越优先抓取
√ 服务器稳定,优先抓取
√ 安全记录优质的网站,优先抓取
顺畅稳定的抓取是网站获得搜索用户、搜索流量的重要前提,影响抓取的关键因素,站长可以通过本章节了解。
3.1.1 URL规范
网站的URL如何设置,可参考2.3. 1 中的URL设置规范
3.1.1.1 参数
URL中的参数放置,需遵循两个要点:
√ 参数不能太复杂
√ 不要用无效参数,无效参数会导致页面识别问题,页面内容最终无法在搜索展示
另外,很多站长利用参数(对搜索引擎和页面内容而言参数无效)统计站点访问行为,这里强调下,尽量不要出现这种形式资源,例如:
https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3
或者:
http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2 链接发现
3.1.2.1 百度蜘蛛
很多站长会咨询如何判断百度移动蜘蛛,这里推荐一种方法:只需两步,正确识别百度蜘蛛
查看UA
如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:
移动UA 1:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)
移动UA 2:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1
(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA 1:
Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA 2:
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)
反查IP
站长可以通过DNS反查IP的方式判断某只蜘蛛是否来自百度搜索引擎。根据平台不同验证方法不同,如Linux/Windows/OS三种平台下的验证方法分别如下:
在Linux平台下,可以使用hostip命令反解IP来判断是否来自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。
这里需要在提出一点,建议使用DNS更换为8.8.8. 8 后进行nslookup反向解析,否则很容易出现无返回或返回错误的问题。
在Windows平台下,可以使用nslookup ip命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。
在Mac OS平台下,网站可以使用dig命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
3.1.2.2 链接提交
链接提交工具是网站主动向百度搜索推送数据的工具,网站使用链接提交可缩短爬虫发现网站链接时间,目前链接提交工具支持四种方式提交:
√ 主动推送:是最为快速的提交方式,建议将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度抓取。
√ Sitemap:网站可定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查提交的Sitemap,对其中的链接进行处理,但抓取速度慢于主动推送。
√ 手工提交:如果不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度。
√ 自动推送:是轻量级链接提交组件,将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。
简单来说:建议有新闻属性站点,使用主动推送进行数据提交;新验证平台站点,或内容无时效性要求站点,可以使用Sitemap将网站全部内容使用Sitemap提交;技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;最后,还可以使用插件方式,自动推送方式给百度提交数据
评论(0人参与,0条评论)
发布评论
最新评论