1、同一篇文章有多个URL出现,就算是原创文章,也会受到百度的惩罚。
2、采集过来的网站内容重复率很高,会被百度直接当做采集站处理掉。
3、网站的固定版块有太多的出现次数。一些网站会将一些栏目固定放在右侧,但很少进行更新,或者内容总是千篇一律,就会导致页面重复度高。
4、404错误页面未设置,如果某一个页面进行了删除,一定设置404状态码来提示用户和蜘蛛。如果没有进行代码设置,由于删除的页面是假想存在在蜘蛛那里的,会被多次收录。
5、动态页面和静态并存,百度在爬行目录时对大量动态页面进行了收录。
6、网站内容如果有较多的图片,但这些图片都是共用一个URL地址,这样的话就会被重复收录。
二、检测重复内容的方法
1、我们可以用title:+文章标题来找出有没有文章和你发布的内容相同。
2、从文中找一段话在百度上进行搜索,如果有大量红字出现,则说明文章有很高的重复度。
3、在站内进行搜索,将多次出现的内容找出来。
4、利用页面相似度查询工具,如果有80%以上的相似度,那这个页面的一些固定栏目就要处理了。
三、消除重复内容的方法
1、增加原创内容:这点本来就是一个关键,原创内容是用户和蜘蛛都喜欢的。
2、随机展示网站固定栏目内容:可以根据正文的关键词对右侧栏目的文章内容进行随机调阅,让每个页面的内容都不相同,避免大量页面有较高的相似度。
3、设置404页面:让用户和搜索引擎知道某些页面已被删除,避免大量死链被蜘蛛收录。
4、页面设置独立的Meta标签:每个页面都需要不同的关键词、标签、描述,我们可以手动进行修改,或者依据一定的规则进行设置。
评论(0人参与,0条评论)
发布评论
最新评论