400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码

百度大大们分享的技术

百度大大们分享的技术

rude 暂无评论
搜索引擎技术

好吧,又到了这个阶段,讨厌谈技术,觉得装逼,好为人师,爱扯淡,爱夸夸其谈。

真的发现,归零,是一个很需要修养的技能,火候不到,总归是无济于事的,在这条路上,我一直都还是个初行者。

一、百度大大们在广州沙龙上的技术分享

Q:百度快照时间与页面质量、抓取更新频率是否有什么关系?

A:快照时间没有任何参考价值,在排序时我们使用单独的抓取时间统计系统,外部不可见,站点完全不用关注百度的快照时间。

Rude:记得之前说过百度要取消百度快照,好了,现在快照有也形同虚设了。

Q:文章页的边栏、底部部署大量与当前文章间接相关的链接,是否会认被为噪声?是否影响页面本身内容识别和收录?

A:网页在建库时会判断页面的主体内容,而边框这部分的内容基本不算在内,所以基本不会有影响,只有一些链接发现的作用。

Rude:注意,这里有两个基本和一个只有。

Q:请问百度如何看待一个采集了内容,但浏览体验和访问性都好的网站?

A:对于百度来说,能够提供满足用户需求的内容、有良好用户体验的网站就是好网站。有些站点从从外站转载来内容,经过加工提供了内容增益,更好的满足了用户需求,同样可以得到好的展现。

Rude:如果你能从动态的眼光看待搜索引擎,你就会发现这必然是一个趋势,百度,已经完成了从全方位的收集内容到将内容做精做细,做出增益的转变,算法上肯定也会随之转变。只是,需要思考的是,百度如何判定这些内容经过了加工以及获得了增益。

Q:《301跳转常见问题汇总》文章中提到站点设置301后,“百度不会删除旧网页,新旧网页同时存在,百度在搜索结果中会优先展现新网页”,但实际情况是,会发生新旧页面交替获得排名的现象,这是什么原因?

A:这个问题主要是由我们的系统造成的。我们系统有非常多的模块,每个模块都要去单独处理301更替,偶尔有一些模块的处理逻辑可能有出现问题,可能出现一些波动。我们在6月份左右时做过一次大规模的改进,基本上把所有的模块都理了一遍,把所有归一化都做了统一,现在这样的问题比较少了。

Rude:哈哈,笑而不语。

二、昨天晚上的一个分享会

额,好吧,先说下,我是一边打游戏,一边听的分享会,或许,也只是听了个大概。

嗯,听下来之后,其实也就是在分享搜索引擎原理,至于分享人,据Zero说是百度的H大。

1、关于站点评级中的比例问题

百度的大大说,他们关于权重,有着自己内部的一套评判标准,其中一条细则,包括:站点规模、外链、点击量、入库率。然后重点说了一个,十分需要注意的是,比例问题。

2、关于外链

好了,百度的大大说,外链肯定是锚文本的好,纯文本的链接,也会被百度收录,但是效果,就是呵呵了。

3、页面内容的域

百度之前在获取页面主题内容时,之前只是title,正文内容,链接等,现在将评论也加入了其中。关于此,百度可能后期也会出一个算法,主要针对采集评论,评论乱入等。

 
文军二维码

推荐阅读

WJMonitor试用

站内搜索