采集很狡诈，识别原创很艰难-优化师博文-云客网SEO众包服务平台

触屏版
全国服务热线：0571-87205688

价格查询批量查询一键转入

查询

或者

立即发布需求

昵称：黑猫警长

接单：125 关注TA

达标率 0%

博文分类

采集很狡诈，识别原创很艰难

作者：黑猫警长 浏览：172次发布时间：2018-01-11

2.1 采集冒充原创，篡改关键信息
　　当前，大量的网站批量采集原创内容后，用人工或机器的方法，篡改作者、发布时间和来源等关键信息，冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。
　　2.2 内容生成器，制造伪原创
　　利用自动文章生成器等工具，“独创”一篇文章，然后安一个吸引眼球的title，现在的成本也低得很，而且一定具有独创性。然而，原创是要具有社会共识价值的，而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特，但是不具社会共识价值，此类伪原创是搜索引擎需要重点识别出来并予以打击的。
　　2.3 网页差异化，结构化信息提取困难
　　不同的站点结构化差异比较大，html标签的含义和分布也不同，因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全，又提得准，还要最及时，在当前的中文互联网规模下实属不易，这部分将需要搜索引擎与站长配合好才会更顺畅的运行，站长们如果用更清晰的结构告知搜索引擎网页的布局，将使搜索引擎高效地提取原创相关的信息。

上一篇：搜索引擎为什么要重视原创 下一篇：大型站点网站改版（更换域名）——工具篇

评论(0人参与，0条评论)

发布评论

博文分类

采集很狡诈，识别原创很艰难

猜你喜欢

评论(0人参与，0条评论)

最新评论