400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码

相关搜索的两种实现方式

相关搜索的两种实现方式

rude 暂无评论
搜索引擎技术

相关搜索,想必大家都不会陌生,尤其是对SEO、PM乃至各位文案编辑妹子来说,从中皆可以看到蛮多的有价值的讯息。

只是,你知道给定的用户查询,搜索引擎是怎么计算出相关搜索的吗?

一般来说,有两种方法:

1、基于查询会话的方法

大家都知道,搜索引擎会统计分析用户的搜索行为,将此转化为查询会话。然后通过各种数据挖掘算法来对查询会话进行统计处理,如果一个查询词a和查询词b经常一起出现,那么自然,我们可以认为两者是相互关联且值得推荐的。

当然,这样做也会有两个很明显的问题暴漏了出来,用户的一次连续的查询可能不是针对的同一个主题,这样,在对用户的两次查询进行拆分时,很难精准的进行切割。同时,该方法是以单个用户的查询会话作为基础来统计的,所以在对数据进行挖掘时不能体现不同用户查询之间的关联。

2、基于点击图的方法

当然,在用户的搜索日志中,除了简单的查询之外,还有对站点的点击数据。如果能将此利用起来,也不失为一种很好的查询相关搜索的方法。

一个简单的逻辑为:

用户查询了关键词p,然后点击了网址D1和D2分别6次和8次,那么此时我们就可以针对p建立起一个向量[0,6,8,0],针对另一个查询词q同样可以建立起对应的向量。

OK,这就再次回到了根据空间向量计算相似度的模型中。既定相似度大于某个值,则这两种搜索即为相关。

当然,如果需要做的严谨一些,就需要将被点击的内容之间的相似度计算考虑在内。因为不同的链接地址对应相同或相似内容的现象在搜索引擎中屡见不鲜。

额,细心的盆友们也发现了,这个计算量,还是蛮惊人的……
文军二维码

推荐阅读

WJMonitor试用

站内搜索