400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码

关于百度的抓取诊断工具升级?

关于百度的抓取诊断工具升级?

rude 暂无评论
百度动态

9月2日,百度站长平台连续出了三个声明,细心的观众或许已经发现,他们分别是在【产品动态】、【站长学院】、【活动沙龙】中,虽然从表现上似乎他们之间并没有什么特别的关联,但是从本质来说,这或许也是一种有目的的教化。帮助站长走向正轨,给站长们灌输官方说明以及束下条条框框的教化。

当然,这无关是与非。

拐入正题,先是抓取频次工具的升级。

1、新增抓取时间数据:

展示百度spider每次抓取网站的耗时,根据该数据站长可以了解spider抓取网站的时长,抓取耗时越短代表网站在访问速度方面的用户体验越好。

注意:抓取耗时数据的更新频次与抓取频次有关,抓取频次较高的站点数据更新相对较快。

Rude:好了,网站的相应速度,由此也有了一个更为官方的说法,当然,是针对百度的,如果你的网站相应时间过慢,那么你的网站收录比较慢也就不在话下了。

2、新增抓取状态统计数据:

新增四类抓取状态码统计:第一类:重定向(301, 302等);第二类、未找到(404);第三类、服务器无响应(501,502等);第四类:服务器连接超时。有助于站长更好的了解网站在spider中的抓取状态,更好的管理网站。

注意:这里统计的是Baiduspider每次抓取行为的状态,与网站中该状态页面实际数量不能等同看待。

Rude:恩?这些个http状态码的东西,不需要太多的说明了吧。

3、提升了抓取频次工具的响应速度:

加快了使用抓取频次工具调整抓取次数之后的生效时间。

Rude:哎呀,如果你嫌弃你的网站抓取量不够,赶紧来这里玩一玩。

想要了解更多的亲们,赶紧去实践吧,而且这里面,也是有图有真相的说。

第二个,百度关于索引量的再次说明。

百度算是很不错了,给了一个分析索引量的思维导图。具体图例如下:

索引分析

他的分析思路,很赞。

当然,如果你的index出现了问题,最好进行细分,以求出到底是哪里出了毛病。

这个毛病,不只是指索引量变小了,同时也有可能是索引量剧增了。如果你不理解剧增的潜在隐患,不妨看下面几种情况:

1、会不会是网站被黑客攻击后增加了大量垃圾网页

2、会不会是Robost协议出了问题,导致大批保密页面被百度抓取

3、大幅增加的url会不会占用有限的抓取配额,导致重要内容未被抓取

尤其是第三点,特别值得引起关注,当然,这里也是存在疑惑的,比如抓取配额具体是个什么概念,如果是个值,那么每个网站的配额应当是多少?会不会随着网站的权重增加而增大?都是一些个值得探讨的问题。

好了,今天,到此结束吧,欢迎大家来讨论关于配额的问题,同时,也祝大家中秋快乐!
文军二维码

推荐阅读

发表评论

WJMonitor试用

站内搜索