百度算法攻城狮分享的干货?信不信由你

百度算法攻城狮分享的干货?信不信由你

rude 3 条评论
百度动态

下文为百度算法研究群(236313191)的群主㊣左倾45℃与百度某位算法工程师的对话文章。现整理记载如下:

度娘刘大嘴

@rude

求度娘电话号码(Rude批注:没想到他真的问了,哥就这样成功猥琐了一次)

答:度娘在内部有很多,不知要哪个?

@大耳巴

百度针对有质量,有内容的淘宝网站态度也是K?换句话说:无论怎样隐藏淘宝链接,一旦被百度识别出来,就会被降权或K站?

答:原则上是一视同仁的,这个应该是反作弊小组的行为,我们在算法上会过滤部分淘宝客的垃圾站。哪个行业垃圾规模大,就处理哪个行业(Rude批注:注意这句话)。

@布宜诺斯艾利斯的缠绵

1.如何能让一个关键词的排名稳定,这个和文章内的关键词的密度有关系吗,主要有哪些关系,应该如何去做。

2.关键词的匹配主要是怎么进行选择匹配的,依据是什么

3.网站的外链能传递权重吗,对网站来说外链还有用吗,友情连接,内链对网站的的影响是不是增加了

4.现在该如何去提升一个关键词排名,应该怎么去做,外链还起作用吗,做排名的思路是什么

答:

1.密度这些肯定是有影响的,我们算法内计算规则会很多,不会单纯的依靠密度比例这些,随着现在语义的发展,我们能够很精确的去判断一篇文章是写什么的什么含义。建议大家可以更具主题进行深入,深度挖掘用户的需求,那么这也会是百度需要的东西(Rude批注:虽然是打了个太极,但是这不得不说是个趋势)。

2.关键词匹配其实有多个规则来处理的,并非是简单的排序,首先我们会根据内容的相关性进行排序,其次民主选举(Rude批注,给个链接:浅谈网页搜索排序中的投票模型),间接展现等形式来获得最终的排序。

3.现在看来外链是肯定有效的,不过这个之前内部有争议,有部分人希望放弃外链,这块规则和算法实现和准确率都是相当有难度的。内链确实会提高内部的相关性(Rude批注:这堆人不识时务啊,宏哥还在,对他的专利就看不上了?)。

4.提升关键词目前除非破解百度算法用黑帽,否则好好做站,做到更新及时、原创性即可(Rude批注:在做好内容的前期下,要么黑帽百度,要么教育用户自己发外链,这是要逼不懂技术的SEOer去shi啊?)。

@漫步云端

百度:

1,目前,影响排名,收录的因素有哪些(是否有侧重的某一方面)

2,排名是否会针对某一个行业,进行有针对的“处理”(打击)

3,如果在算法更新后,站点被K,是否说明一定是这次算法影响了站点,还是也有能会是别的因素?

4,现在一个新站的成长周期一般要多久?

5,如果进入了沙盘申核期,如何更快的能够缩短所谓的申核周期

淘宝:

1,目前淘宝的排名是否会越来越接近于百度的一些算法?

2,淘宝的排名影响的因素有哪些?是否有侧重的某一方面

答:

1.点和面都非常广,首先收录要满足原创性,因为随着互联网信息大爆炸,数据的级别也越来越高,一篇原创的文章是用户需要的,而伪原创或者是抄袭百度的态度一贯都是拒绝的,因为不环保(Rude批注:不环保的意思是浪费存储的空间)。

2.前期确实有针对相关领域和行业,这个最主要是影响商业生态或者是主管部门的管制(Rude批注:利益至上,天朝威武)。

3.如果出现下滑和算法关系是密不可分的,当然了前提是操作还是一样操作的前提下,也不外乎是误伤(Rude批注:上次看了贝叶斯算法,怀疑每次算法上线他们都会用一次贝叶斯算法来测算一下特征站点作弊的概率)。

4.其实所谓的黑盒期是不存在的,但是确实我们延缓了部分规则的生效时间,比如更新周期等,因限制我也不能多说(Rude批注:这句话很真实,没绕弯子,不错)。

5.做最大努力积极向上吧,如果你因为一次降权而趴下我们肯定会认为你不能够经营好内容的(Rude批注:考量seoer的一个标准:有木有过硬的心理素质)。

6.两者区别比较大,因为淘宝是整站,而百度导出后是跟踪不到用户行为的。

7.主要是标题和内容的相关性,其次用户粘度和购买率。

@爱黑帽爱生活

1、百度是如何判断原创和伪原创的呢;

2、关键词在文字里面的比重和锚文本密度应该怎么样才合理;

3、百度对于网站内部链接建设是通过哪些作为判断和衡量标准;

4、目前百度经常会让网站排名发生波动,这里面是什么因素导致的呢;

5、外链建设应该如何布局会让搜索引擎喜欢呢;

6、被K掉排名的网站还有希望救活他么?

答:

1.我们是基于大数据就是策略研究的,根据大数据库可以判断出算法的准确率。

2 3 4 前面说过了。

5.外链只要不是买卖,恶意外链,网站的得分越高相关性越高的获得的传递值都是相对比较高的(Rude批注:介个,是不是太官方了)。

6.完全可以(Rude批注:求方法)。

@client

百度对一些例如灰色行业是怎么一个态度,是否有另一套算法?

答:封杀,存在。

@雀妹

1、百度已经可以识别 document.write 输出的内容,即使对输出的字符串进行简单的加密也可以完全获得。类似document.write(“‘1’+’2′”) 得到的结果是 12,也就是说用js输出邮箱等信息一样可以被抓取,只要是 document.write 输出,不管是函数还是变量,无论怎么加密,百度是否都能够识别。

2、百度是否会抓取页内,或外部引入的css进行分析,防止css作弊。

3、百度是否会有隐藏自己身份的爬虫对同一个页面进行不同的抓取,防止有网页是针对爬虫和网友各显示不同结果。

答:

1.能够简单识别。

2.应该会,这块我没有涉及。

3.有,用于监察(Rude批注:介个厉害了)。

@猪也想飞翔

因为我们网站是租房网,所以很多下线的房源就会产生很多死链下线房源,但是提交的话反映速度很慢,所以最近就没提交了,不提交的话是否会影响网站权重啊

答:会有部分影响,建议提交百度站长平台。

最后,给原文丢个链接:

1、提问的链接地址

2、回答的链接地址
文军二维码

3 条评论

rude

七月 13, 2013 at 11:04 上午

伪装爬虫身份

 Reply

rude

七月 11, 2013 at 10:54 下午

原来这么多东西是我们不了解!

 Reply

    rude

    七月 12, 2013 at 8:36 上午

    是的,路漫漫其修远兮,我们赤脚他们打的,怎么干的过?

     Reply

发表评论

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索