关于百度标题各个规则优先级的梳理,以 pc 端为例。
服务器
1. 百度蜘蛛判断网页编码字符集
2. 抓取网页标题,部分繁简转换
3. 部分全角标点符号转换半角标点符号
4. 阿拉丁结果(sp)、最新相关信息(中间页)等优先级高于过滤重复标点符号
5. 把连续重复超过 3 次的部分标点符号替换为 3 次
客户端
1. 选择何种编码的百度搜索(UTF-8, GB2312, Big5, etc.)
2. 搜索框输入查询字符串
3. “百度一下”替换不同编码,并将部分全角符号替换为半角符号及安全过滤
4. HTML 实体转换
5. 是否开启不纠错策略 f=12&nojc=0(开),f=13&nojc=1(闭)
服务器
1. 编码转换
2. F2-78 参数所指策略
3. 标题前后缀
4. 分词技术
5. 匹配飘红
6. 计算可展现字数
7. 各种截断
客户端
1. 展现在用户眼前的可见标题(3-64 字节)
2. 点击标题
服务器
1. 用户点击过的标题以 4-65 字节长度存入数据库
1.2 平板电脑
www.baidu.com/s?dsp=ipad&wd=ipad Pad 版
百度 Pad 版研究不多,新买了一块 iPad mini 2 测试 Pad 版搜索结果标题长度,大致和 pc 端规则一致。
评论(0人参与,0条评论)
发布评论
最新评论