400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

行业词库如何整理

行业词库如何整理

viker 暂无评论
SEO技术

首先,我们在建立行业词库之前想一想:为什么要建立行业词库?

从搜索引擎本质上思考,不管是当今的百度、谷歌、雅虎等等,说白了都是做的关键词搜索,关键词就是网站内容的通道。一个网站应用好的关键词,如同建立了强有力的引流通道,在后期的建设过程中使得流量吸引的能力越来越强。

那么,如何建立行业词库?

这里,我拿到了一份8000万数据量的游戏行业词库,需要整理。整理流程分别为:去重、去噪、筛选、筛选敏感词反复去噪、规整、去重、产品划分、产品属性维度细分。

1 去重

8000万的数据量,去重浓缩到了1500万数据,将近20%。这个数据,我第一次看到并不吃惊,大量的网站,在整个行业中布局的词有很多词重复特别是主体页面上争的就是那些高流量的词,很正常。

2 去噪

初步去噪,识别ip段等数据直接删掉,一些特殊符号直接替换。

3 筛选

根据游戏词库将1500万词库一份为2,得到1200万词库和300万页游词库。游戏部领导的意思是,先从度高的300万词库入手,先反复去噪,用最短的时间先把这个库用起来。

4 筛选敏感词反复去噪

其实,最花时间的过程就是这一步,需要你每天做一件事,从中找敏感词,游戏行业敏感词有哪些。比较短的词风险比较大要慎重,长的词相对风险较小。词根是品牌的词相对来说直接过了,不是我们要找的词。举个case,“三国演义赵云”和”三国无双页游”,两个词的词根都是三国,其实你认为“三国演义赵云”需要删除,的确它跟页游无关,但它跟三国有关,这种词可以引流,它定位就是吸引潜在的游戏用户群体。但如果词根是一个形容词,这种词可以和各种词组合,这种词引流的意义就不大了,因为含义相关度太差,信息匹配度非常的低,就可以直接删了或者找出敏感词,进行过滤。

去噪,既是一件简单事,也是一件体力活,但是不同的人为什么效率不一样,自然再简单的事情也有其精髓所在。

5 规整

词库筛选的过程中,你会发现游戏词很多有一些脏的词比如后缀加了三个零等等,需要整体规整这些数据,保证数据的准确性。

6 再次去重

规整以后的数据,词库中会有大量的重复,需要二次去重。300万词库浓缩到->120万,1200万词库浓缩到->750万。

7 产品划分

将300万的词库按产品划分,这里主要分为三大类:页游、平台、其他。为什么这样划分?首先,300万的词库的词根都是属于页游品牌或平台商或其他类别。300万经过去噪后的数据可以再次根据这3份标准库进行分类。分类的过程中,有一个注意点:26.5g热血海贼王,既要出现在页游库的“热血海贼王”文件中,同时也应当在平台库的文件名为”26.5g“的文件中出现。

8 产品属性维度细分

从第7步,我们已经得到了分类词库的文件,每个产品生成页面首先都要一定的维度,我这边主要是按照:攻略、装备、礼包、辅助、开服表。

这些维度也就是后期我们要采集文章的维度。120万词库虽然体量很大,但是实际发现这些维度分下来,还有数据缺口,后期可能还要临时采集这些数据,去弥补。

页游行业词库建设,帮助我们后期生成大量的文章页面,通过强有力的内链架构,一方面增大网站的体量,增大收录规模,将产品聚合页、产品页撑起来,同时通过词库的建设进而计算词与词的关系进而利用程序生成大量的tag页面,将文章页面撑起来,这样的网站架构站内资源就极其丰富,如果增加一定的站外资源,根据排名=内部因素+外部因素,网站的整体排名就会优秀。点击率=排名*文案,文案优化好,点击率就会高。有了排名有了点击率,流量就会ok。由此可见,我们先做行业词库而不是直接写文章发外链,是在苦心孤诣地磨刀,老话说得好:磨刀不误砍柴工,刀磨好了,砍柴活何止事半功倍,更何况这活还是在SEO界!
文军二维码

推荐阅读

WJMonitor试用

站内搜索