蜘蛛陷阱是阻止蜘蛛程序爬行网站的障碍物,通常是那些显示网页的技术方法,目前很多浏览器在
设计的时候考虑过这些因素,所以可能网页界面看起来非常正常,但这些蜘蛛陷阱会对蜘蛛程序造
成障碍。
如果消除这些蜘蛛陷阱,可以使蜘蛛程序收录更多的网页。蜘蛛陷阱也是以前常常使用的黑帽方式
之一,就是用一些动态网站代码中,写一个无线循环的页面,使得蜘蛛爬进去后在这个无穷循环中
轮回收录,这样虽然会使得网站疾速进步排名,但也会随时给我们网站带来k站的影响,所以优越
SEO建议大家最好不要使用。特别是搜索引擎频繁调整算法的时期。
搜索引擎蜘蛛抓取结构原理
在此优越SEO也简单为大家介绍几种易导致蜘蛛陷阱的建站技术:
1、Flash动画
有得网站喜欢在首页放一个Flash动画片头、用户访问网站看完片头后被转向得真正得HTML版本得文
字网站首页。但搜索引擎不能读取Flash、一般也没办法从FlashIntro跟踪到HTML版本页面。如果
Flash效果是必需得、至少也需要在首页加上一个通往HTML版本得链接。这个链接应该是在Flash文
件之外得HTML代码中、搜索引擎跟踪这个链接可以抓取后面得HTML版本页面。
2、Session ID
有些网站使用Session ID跟踪用户访问、每个用户访问网站时都会生成独特唯一得SessionID、加在
URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新得用户、URL中会加上一个不同得SessionID,
这样搜索引擎蜘蛛每次来访问时所得到得同一个页面得URL将不一样、后面带着一个不一样得
SessionID。这也是最常见得蜘蛛陷进之一。这样就会产生了同一个页面但URL不同的情况,但这种
方法会产生复制内容页面,造成了高度重复的内容页。
3、框架结构
对搜索引擎来说、方位一个使用框架得网址所专区得HTML只包含其他HTML文件得代码、并不包含任
何文字信息、搜索引擎根本无法判断这个网址得内容是什么。虽然蜘蛛可以跟踪框架中所调用得其
他HTML文件、但是这些文件经常是不完整得页面、比如没有导航只是正文。搜索引擎也无法判断框
架中的页面内容应该数属于主框架、还是属于框架调用文件。
4、动态URL
动态URL指得是数据库驱动得网址所生成得、带有问号、等号及参数得网址。一般来说动态URL不利
于搜索引擎蜘蛛爬行、应该尽量避免。有的url会造成蜘蛛的死循环。
5、JS链接
由于Javascript可以创造出很多吸引人得视觉效果、有些网址喜欢使用Javascript脚本生成导航系
统。这也是比较严重得蜘蛛陷阱之一。虽然搜索引擎都在尝试解析JS脚本、不过我们不能寄希望于
搜索引擎自己去克服困难、而要让搜索引擎跟踪爬行链接得工作尽量简单容易。
6、要求登录
有些网站内容放在需要用户登录之后才能看到得会员区域、这部分内容搜索引擎无法看到。蜘蛛不
能填写用户名、密码、也不会注册。
7、强制使用Cookies
有些网站为了实现某种功能、如记住用户登录信息、跟踪用户访问路径等、强制用户使用Cookies、
用户浏览器如果没有启用Cookies、页面显示不正常。搜索引擎蜘蛛就相当于一个禁用Cookies得浏
览器、强制使用Cookies只能造成搜索引擎蜘蛛无法正常访问。
评论(0人参与,0条评论)
发布评论
最新评论