百度搜索结果排序专利的思考

百度搜索结果排序专利的思考

zorro 暂无评论
SEO之剑Zorro

2011年5月百度申请了《一种对搜索结果进行排序的方法及设备》专利。

简单介绍该专利在说什么

搜索引擎一般是通过搜索词和文章的相关度来排序,然后把排序后的结果展现给用户。这样的结果虽然速度快,但是它有一个缺点,就是排在前面的不一定是用户需要的搜索结果。所以就研发了该专利的方法来对结果进行修正。

修正的条件包括但不限于以下几个方面:

1、搜索结果所引用资源的有效性
2、搜索结果所在站点的权威性
3、搜索结果的页面级别
4、搜索结果的页面类型
5、搜索结果的页面质量
6、搜索结果的页面编码类型
7、搜索结果的页面丰富程度
8、在相同的检索词得到的搜索结果中是否被点击过

这个修正方法怎么工作的呢?

通过对某类词设置相应的修正条件和每个修正条件所占的权重,然后通过 每个修正值×权重 再相加,得到最后的 最终排序值,由高到低排序。具体的算法大家可以参阅专利文献。

思考来了,我列一些我的想法,大家补充

1、不同的类型的网站的排序标准是不一样的
根据专利所述,新闻站,医疗站更重视权威性,资源站(影视,下载)更重视资源的有效性(是否可以在线观看,可以下载)。所以我们在针对不同类型的网站优化需要有所区别。

2、页面编码确实是有影响的
参加或者观看过光年培训视频的同学应该记得,国平讲过要注意网站的charset要设置正确,不要中文网站设置成英文,英文设置成中文,这个用国外模板或系统的同学得注意。

3、是否被点击过
这个点击过是指之前这个结果在同样的检索词下,展现的时候是否有被用户点击过。有则标记为1,无则0。
从技术的角度来讲,这个可以将展示次数和点击不成比例的搜索结果排除掉,因为有些不相关的搜索结果肯定是点击率低的。
之前点击器横行跟这个应该有关,这个修正方案可能不像专利列举的只有0,1,可以还包括点击次数等。

4、资源有效性的评分方式
评分是通过 -N ,0,+N 来进行的, 资源全部可用为正分,资源部份可用为0 ,资源全部不可用为负分
得到负分的结果基本从结果中被排除了。 因为 算法是 分值×权重 然后再加上别的修正项得分的,负分严重影响最终结果,最终得分难以有排名。

5、页面级别
专利列举了:首页,专题页和其它底层页面。越重要的页面其得到的分值越大,我认为不只这几种页面,比如: 列表页、搜索结果页

6、排序的效率
为了更快的对结果进行排序,大部份值是被事先进行计算,然后保存起来,比如站点权威值,页面级别这些修正值,但是一个搜索词相关的结果可能很多,这时为 了节约资源和得升效率,会提取相关度最高的N条结果来参与后续的修正排序,所以如果你相关度不够挤入前N名里面,基本,你就是没戏。这个在专利里是有说明 的。

7、蛛丝马迹

根据这条,可能在百度的结果页或结果页的URL能找到使用了哪些修正参数的蛛丝马迹。
文军二维码

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索