400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

处理数据?木有工具都是浮云

处理数据?木有工具都是浮云

rude 暂无评论
数据分析

老祖宗曰:工欲善其事,必先利其器。古之人不与欺也,诚然。

对于俺们这种木有程序基础的苦逼SEOer,如果木有一个熟悉乃至精通的工具来处理面临的这些数据,一切都是浮云。

好吧,作业是这样的:

某网站,7万个关键词,对应的页面上放了一堆的产品(每个页面上的产品小于等于20个),要求对这些关键词进行整理,筛除无意义的关键词,整理出对应产品一模一样的关键词并分析以求解决方案。

作业

很简短的几行字,剖析一下,其中需要考虑的问题很多,下面列出其中两点:

1、这些页面是不是都是有效的

如果404设置正确,可以通过查询这7万个页面的http状态码来进行区分;如果木有设置404(关键词无对应产品的页面状态码也是200),好吧,你苦逼了,另外找特征筛选。

这个就显然是一个很苦逼的典型。

通过分析发现,在该案例中页面是否有效的特征可以是页面的title中是否包含对应的关键词。

额,抓取页面的title便成为了首要的问题。对于俺们这种不懂程序的人来说,好吧,找找其它的方法。

果断问度娘,发现了可以利用excel中的宏,启用的vba函数代码为:

Function Title(ByVal url As String) As String

On Error Resume Next
Dim html As String

With CreateObject(“Msxml2.XMLHTTP”)
.Open “get”, url, False
.send
html = .responsetext
If InStr(html, “charset=gbk”) > 0 Then html = StrConv(.responsebody, vbUnicode, &H804)
Title = Split(Split(html, “<title>”, , vbTextCompare)(1), “</title>”, , vbTextCompare)(0)
End With

End Function

调试了两次,终于生效了。只是抓取7万个页面的title,貌似需要一定的时间。

现在有一个小时了,貌似还没有抓完。

苦逼的等待中……

2、对关键词对应的产品一模一样的页面进行筛选

想想很简单,针对图中的产品id进行排序即可,但需要注意的是,排序之后如何从7万个数据中将对应产品一样的单独筛选出来。

额,鬼使神差的,我想到一个很狗血的方法。利用if函数。

=if(a4=(if(a3=a2,a4,a3)),1,0)

嗯,再次感谢伟大的excel函数一次!

当然,对于不知道我在做什么的人来说,读了这篇文章可能感觉不知所云。

哈哈,或许我只是想说:

1、不要以为了解了大中型网站建设的基本理论就以为什么都会做了,在操作方法以及一些细节问题的处理上我们每个人都是小白,一做就错的小白;

2、想要处理好数据,赶紧选中一个你喜欢使用的工具,了解她,熟练应用她,她会给予你很大的帮助。

好吧,继续苦逼的处理关键词中……
文军二维码

推荐阅读

发表评论

站内搜索