一个新名词-粒度

一个新名词-粒度

rude 2 条评论
百度动态

当然,这个对于我和一些不知道的人来说,是一个新名词。

额,貌似说了一句废话。

先说下粒度的概念,百度搜索引擎官方博客中给出的解释是:粒度是衡量文本所含信息量大小的一个名词,文本所含的信息量越大,则粒度越大,反之亦然。

嗯,还是上例子比较直接。

“缠绵”、“足球”、“钥匙链”、“移动电话”、“笑傲江湖”

对于前两个词来说,虽然都是两个字,但是相比较来说,“足球”的粒度要大一些,因为他可以拆分成“足”和“球”,且分别都有对应的意义,“缠绵”则不然。“钥匙链”、“移动电话”这两个词更不必说,同样可以拆分出多个词。

注意,相比较前四个词来说,“笑傲江湖”会是一个另类,因为搜索引擎在处理该搜索结果时,肯定需要把“笑傲江湖”当成一个不可拆分的专有词语来对待。

我们都知道,搜索引擎在用户搜索返回结果时会使用倒排索引。当用户在搜索某个词时,对该词粒度的判定从而选择合适的索引库就成为了一个问题。

以“兽兽门”这个词语来讲,按常理来说这会是一个专属的名词,但是如果你这么做了,必然会错失类似“兽兽艳照”、“兽兽艳照门”之类索引库信息。如果单纯的将其作为一个粒度较大的词来拆分成“兽”、“门”,必然会返回很多不相关的结果。

哎,只能感慨汉字的博大精深之处。

那么,如何来处理此类问题呢?这时就需要一个新概念出现了。

紧密度。简单些来说,就是信息被人们表达和接受的稳定程度。

当然,这种稳定是相对而言的。比如许多动宾结构的短语(“过马路”,“踢足球”),定中结构的短语(“红苹果”,“豪华轿车”),他们由于某些因素组合在一起,显然是不稳定的;而对于一些顺序不固定的词语来说(比如“鼠标护腕垫和护腕鼠标垫”),显然紧密度也是很低的。

这也可以做为一种解决上述问题的方法。对于紧密度很高的词,不拆分,而对于很多紧密度不高的词汇,我们就有理由将其进行拆分成粒度更小的词。

哎,再次感慨一下汉字的博大精深之处。哦,还有中文搜索引擎的苦逼之处。

本文伪原创于百度搜索官方博客《搜索引擎的粒度问题》。目前个人也是了解个大概,欢迎大家探讨。

 
文军二维码

2 条评论

rude

三月 30, 2013 at 2:28 下午

还是不懂什么意思,只觉得缠绵应该是粒度最小的,缠绵两个字意思相近。

 Reply

    rude

    四月 1, 2013 at 10:13 上午

    看原文,然后把自己当成机器来识别文字短语,会好很多。

     Reply

发表评论

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索