SEO如何处理采集内容-优化师博文-云客网SEO众包服务平台

触屏版
全国服务热线：0571-87205688

价格查询批量查询一键转入

查询

或者

立即发布需求

昵称：聚擎

接单：558 关注TA

达标率 0%

博文分类

SEO如何处理采集内容

作者：聚擎浏览：44次发布时间：2017-05-31

上回说道处理采集内容的两个先后步骤：

　　对原始内容的处理

　　对处理后内容进行组织

　　第一块，对原始内容的处理，上篇主要针对html源码信息的处理，但没说对文本信息该如何处理。

　　下面分享下本渣渣曾经使用的一些，对采集内容文本的处理方式…

　　对原始采集内容文本信息的处理

　　对元数据的处理，这边忽略，因为元数据主要是添加逻辑上的映射。比如我一个企业黄页的网站，去抓了“XXX公司的规模、商标、年营业额、法人信息”等元数据，我需将这些元数据与本站库内对应的企业做个关联即可。因为元数据属于短文本，即采即上，无需做重复性方面的处理。

seo内容

　　如果采集内容是连续大段的长文本，为了保证SEO效果，对html源码处理后，也可以进行文本的处理。

　　文本信息处理，包括标题和正文两部分（不考虑人工修改，只考虑批量处理）

　　标题

　　要我说SEO最重要的点、最最核心的点，就是“词”，其他的SEO手法、技巧都是在“选对词”的基础上才有大效果。

　　最终目的是让标题中出现用户可能会搜索的词，详情页标题中的词最好是有一点点搜索量的、百度搜索结果少的，而不是热词、谁都抢着做的词。

　　首先一个网页标题出现的关键词越热门，被收录的几率越低，这是可以肯定的，所以不要58赶集这些大站点做啥词，一个采集站也跟着做，除非本身权重高，否则基本没戏的。

　　其次，在垂直行业领域和充满个性化搜索内容的领域，竞争小且有些流量的词可以挖出很多的。垂直领域的这些词不容易找，因为需要对行业的理解，仅靠SEO工具不容易发现。

　　个性化搜索内容领域，如编程开发、娱乐八卦等，这类领域永远充满个性化的搜索词，随着时间的推移会源源不断的产生新的搜索行为，只要搜索引擎不完蛋，这个领域就永远充满搜索流量，所以仔细观察，好些活的挺长的流量站，内容选型大多符合这个特性，不像“招聘、二手车”之类的行业，用户的搜索行为基本是不变的，几个站都抢同一批词，都饱和白热化了，流量自然不好做。

　　采集标题如何插入搜索词

　　如果采集的目标网站，他们的标题本身就不符合SEO，比如抓了一堆新闻标题，如何让标题尽可能的集中用户可能会搜的词？本渣渣之前尝试过这些方法：

　　方法一：精简原始标题

　　步骤如下：

　　对原始标题分词

　　去除停止词

　　获取词缀词性

　　去除修饰词，如形容词、副词、介词…，保留原标题主谓宾，获取句子主干

　　基于python的jieba模块实现，要删除的修饰词可以预先分析大量的标题来提取，追加到字典中。github有现成的提取句子主干的轮子，好像用的nltk。

　　貌似1688部分产品页的title就是这么搞的，把用户发布的产品名中一些无关大雅的词缀干掉，提取主干放到title标签中。

　　方法二：插入搜索词

　　步骤如下：

　　搭建xunsearch或其他的开源搜索，对采集标题创建索引

　　用提前准保好的搜索词（就是要做的那些词）依次到搜索接口中搜索

　　对搜索结果中出现的标题前方插入当前搜索词

　　比如原标题是：“斗鱼美女主播直播睡觉一夜狂澜20万”…..，我要做的词有“斗鱼美女直播”，则标题前插入关键词：“[斗鱼美女直播]斗鱼美女主播直播睡觉一夜狂澜20万”

　　当然也可以：“{强行插入的搜索词}{精简后的原始标题}”

　　方法三：插入当前标题已包含搜索词的衍生词、相关搜索词

　　步骤如下：

　　抓取标题已包含搜索词的百度相关搜索或下拉框，或者通过Word2vec算法分析其他抓取内容正文，获取该搜索词的同义词..

　　标题中插入相关搜索或下拉框的词

　　如：”[{百度相关搜索词1}]{精简标题}”、“[{下拉框推荐词1}{原始标题}]”……相互组合啦……

　　正文

　　正文的处理主要是针对重复性，尽量降低与原始内容的相似性，本渣渣用过以下方法：

　　正文开头、结尾处插入随机文本

　　比如插入当前标题包含搜索词的相关搜索词：“本文包含其他主题：{相关搜索词1} {相关搜索词2} {相关搜索词3}…”

　　比如插入当前页面的历史referer词，“用户曾经通过 {referer词1} {referer词2} {referer词3}…搜索到本页”

　　比如提前准备一些能够通用的文本模板，随机调用

　　修改正文内容

　　基于pagerank提取关键词，textrank算法提取文本摘要，其实就是把正文内容精简，提取主干信息，可能最终获得原始内容50%左右的字数。

　　为了防止字数过少，可以提前用k-means和tfidf，找出当前文章的相似文章，可以提取它们正文字数最长的段落的摘要，加到当前的文章中用作字数上的补全。

　　这样基本上文章是读的通的，符合中文语法，且原始正文是以词缀为粒度的删减，所以一定程度能够减少搜索引擎三字一判的重复性识别，对用户和搜索引擎都相对友好，虽然肯定比不上人工编辑的质量，但比市面上粗暴的同义词替换、段落增删的软件比起来好很多。比中文原封不动不改好一些。

上一篇：大型SEO网站定位和优化策略深度分析 下一篇：分析百度快照回档的原因

评论(0人参与，0条评论)

发布评论

博文分类

SEO如何处理采集内容

猜你喜欢

评论(0人参与，0条评论)

最新评论