PR——基于链接的信息检索算法

PR——基于链接的信息检索算法

rude 暂无评论
搜索引擎技术

出链和入链将网页组成了彼此互相联系的一张关系网。正是这些个关系网,促成了一系列基于链接的搜索引擎算法的产生。

链接算法的出现,打破了传统信息检索系统只是简单的基于内容(比如前面提到过的TF-IDF算法)的局面。

PR,正是链接算法的典型代表。

PR的由来

Page Rank,拉里·佩奇(Larry Page)的专利(关于PR,这里还有一段小故事儿,有兴趣的同学看完第一段就可以回来了)。

PR的理论模型

每个算法,都是有理论基础作为支撑的,PR也不例外。

现实生活中,如果大家都认为A在某方面是个专家,那么你也会认为A就是一个专家。如果A说B在这方面也很棒,接着B就会因为A的赞美而声名鹊起。

PR模型-评价体系

将链接作为一种引荐关系来理解,PR模型就得以建立。

当然,从浏览网页的角度来说,PR还有另外一种意思,那就是网页被浏览到的概率的反馈。

假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值(请多读几遍,可能会不太好理解)。

PR的计算公式

将这种评价(或者浏览的概率)予以量化,就出现了PR的计算公式:

PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))

d为阻尼系数(一般取值0.85),PR(t1)为页面t1的PR值,C(t1)为页面t1上的链接导出个数。

其它的都十分好理解,关于d为什么会出现,这里简单的解释一下。

如下图,如果不加入d,则经过一系列的迭代计算之后,A、B、C、D、E的PR值将会达到无穷大。

从用户浏览的角度来说,用户不会一直顺着链接点击浏览页面,会跳出从而停止浏览,这个d也可以表示跳出浏览的概率。

链轮

PR的应用

上次我们提到的搜索引擎原理的第三步【排名阶段】,其中有一个环节叫做【初始子集的选择】,PR正是判定是否被选入初始子集的标准。

PR的缺点

看完了上述的内容之后,也许你已经开始思考如下几个问题:

1、在每个页面上PR是平均传递的

在一个关于SEO的网页上,难道会有一些链接是广告链接、不相关链接之类。对这些链接都同等的传递PR显然不太合适。

2、PR只考虑链接,不考虑内容

正是这一弊端,导致了知名的谷歌炸弹的产生。

3、对新网页不公平

木有PR,即便你再相关,权重再高,也进不了初始子集,还是白搭。

 
文军二维码

发表评论

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索