自然语言语义分析

自然语言语义分析

viker 暂无评论
SEO技术

处理词库的时候,特别是处理手游6.6亿词库的时候,性能消耗是非常头疼的事情!在性能优化的过程中,偶然间爆发了一个灵感–借助自然语言语义识别加速这个识别敏感词、游戏品牌的筛选过程。

回顾历史,语义识别跌跌撞撞!

自然语言语义分析经历了六十年的发展历程,历来不乏聪明的科学家苦心孤诣地研究。阿兰·麦席森·图灵,被称为”计算机科学之父“,最后一篇在《Mind》期刊上发表的论文:《图灵测试》。正是《图灵测试》开启了人类研究人工智能的热潮,直到现在依然经久不衰。不幸的是,图灵英年早逝,留给世人关于计算机人工智能的谜题。其实,那个时代的科学家普遍认为:想要计算机能够实现语义识别的前提,必须是计算机先具有跟人一般的智能。换言之,只有实现了人工智能,语义识别才有可能!正是在这样的误区下,科学陷入了数十年误区。探索总是漫长的,谷歌研究员吴军所著的《数学之美》中描述到:语义识别从基于文法规则到统计,最后到马尔克斯假设的N元模型计算,再到基于贾里尼克的邻近词元的二元模型计算语义,可以说真正的里程碑是,科学家们发现了数学可以精确的计算语义,并非人工智能!

反观当下,我面对着6.6亿的词库,12万的游戏品牌,反复地审核回档,两周的项目时间规划,每一个环节都颇具挑战,关键是性能!

我们来看一组数据,判断一个词精确地定位到12万游戏品牌,最笨的办法,就是迭代,每一个词就得计算12万次,我们以一次比对0.1ms为例,则一个词的计算需要12s,则去重后的数据量3000万需要定位游戏品牌,需要时间成本12s*3000/3600≈10小时,计算机跑一次就要10小时,那还是仅仅一个环节!如果采用这样的计算策略的话,最后项目延迟无可避免,时间成本大大增加。试想,如果计算机能够快速识别游戏品牌或者敏感词,那么计算开销将指数级降低!是的,实际效果是有天差地别的。比如”梦幻西游攻略“,计算机能快速识别”梦幻西游“而不是“西游”,而且计算机认为它是一种手游游戏,那么它就不需要去迭代12万的手游品牌词库,这种识别的开销只有几百次,一个词的识别只有20ms,我们再来计算下,3000*20/50/3600≈50分钟,实际时间通过多线程加速后,只有十几分钟。这种效果是惊人的,我通过计算机的语义识别来完成了手游词库过滤和筛选过程,首先是性能上大大地提升,同时它也启示我们有时候解决问题的方法并不是只有迭代,计算机语义识别让计算机识别手游、页游,甚至训练计算机能够识别人类文明以来各种各样的知识,帮助我们工作上的提升!

最后,语义识别依然任重道远,在完成手游词库项目的时候,还是发现一些问题,比如韩语、阿拉伯语言的识别障碍,导致中文识别的失败!同时词性的识别、同义词的快速识别依然是语义识别的难题!

 
文军二维码

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索