百度站长学院中的官方课件

百度站长学院中的官方课件

rude 暂无评论
百度动态

给客户准备培训的资料,无意间翻开了百度站长学院的课程页面,忽然发现,里面的很多细节给人一种眼前十亮(注意不是一亮)的感觉,所以觉得各位骚年们,十分之有必要细读耕耘一下。

嗯,现摘录几点,权作当个引子。

1、关于百度索引

百度:Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。

Rude:好了,这算是真正的看到关于索引的解释了,想必看到这个之后,大家也会对很多问题豁然开朗。我想说的是,似乎真相,又被锁在了重重迷雾之后……

2、关于百度蜘蛛的抓取策略

百度:由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到的抓取效果。

Rude:天天讲深度和广度,嘴皮子都快磨破了,然后发现自己竟然落伍了这么久,也这么远……

3、链接的重要程度

百度:链接重要程度:
1,目录层级——浅层优先
2,链接在站内的受欢迎程度

Rude:个人感觉第二部分最重要,受欢迎与否,即是内链指向多少的问题。

4、关于索引库

那么,哪些网页可以进入索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
2,内容的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富的内容。
3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。
4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。

Rude:随着时间的推移,原创似乎变的不那么重要了,更多的价值应当体现在整合与附加之上。

5、关于页面内容的提取

百度:页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等。

Rude:看看这些被提取的内容,或许你会得到更多。

写在最后:

隆重的推荐大家将其中的细节全部看一下,思考,再看一下,再思考,最后看一下,最后思考一遍。

然后再行动。
文军二维码

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索