百度又一轮更新,动了不少站点,距离上次大规模K站,时隔两个月,这次一大特点就是很多原创站点受到了波及,其波及面比上次更大了,本人的博客也在此次波及中不幸被K掉了首页,那么很多站长们不禁要问,既然是尊重原创,那为何我的原创站会被惩罚?而那些垃圾站却反而没事呢?通过近期观察我手里以及朋友手里的一些站的反应,笔者在这里做一下揣测与分析。
在发表观点之前,我先声明,本人绝不是百度的托!我的博客纯原创、凝聚了我的经验与心血,不照样被K了首页么。上次本人的文章《由6.28百度K站 看百度SEO的未来趋势》被各个站点转载后,一些比较激动的站长们到我的博客上宣泄不满,可是你再怎么宣泄不满,再怎么迁怒于我,百度该更新的还是会更新,如今不就是再次更新么。我们seo要做的就是适应百度的变化。
那么我们先回想一下,在这次更新前后,百度有哪些变化。
1.进入8月份后,出现大量站点首页快照不更新,其中多表现在医疗与seo行业。
2.Lee在8.22发布更新公告,将针对胡乱采集与超链接作弊上线新的惩罚规则【本文主要讨论新上线的对于内容部分的规则,不涉及超链接,超链接部分会在今后的博文中再讨论】。同时Robin表示,经过求证后,新规则尚未上线,仅仅是先发了公告。
3.8月25日,很多站长们感觉到了新的规则引起的变化,众多站点被惩罚、降权、排名消失。其中有百度所要打击的采集站,但也不乏像本人博客这样纯原创的站点受到波及。同时一些关键词的搜索结果页面,有了翻天覆地的变化。这主要集中在医疗以及一些品牌词上。
那么百度的变化仅此而已吗?
其实不仅仅如此,还有一项变化,倘若你不细心,可能就会被忽略。就是这次百度对站点的态度与6月那次更新的不同。
由于笔者从事的是医疗行业,所以手中有一些医疗站点,下面为各位看个截图。
(图1)
上图1为本人手里的一个医疗站点,此站点5月时匆忙上线后,主做某一个病种词,经过本人优化,在6月的时候病种词的相关词已到百度首页(病种词本身首页明显被百度控制了,全部为第三方平台的站点的内容页)。但之所以说是匆忙上线,是因为模板始终都没有做出来,一直用的织梦首页,不够漂亮,导致用户体验不好。而在7月2日,被百度K掉,在百度站长工具的后台中,大家也看到了索引量降为0。
这段期间,我一直观察这个站,虽然后来更换为用户体验好的模板,但依旧没有恢复的迹象。这个站的文章虽说都是伪原创,但是是通过精心伪原创的,而且对用户都有帮助的。但既然还没有恢复,那自然在6月上线的惩罚机制中,将其认定为对用户无帮助的文章。也因此,我一直在想站在程序的角度,其如何判断文章是否对用户有帮助?因此我揣测出一个可能性,但觉得这么做弊端太多,但这次百度8月上线的规则让验证了我的想法,让我不得不说,百度你太狠了。
(图2)
上图2为本人博客在百度站长工具后台的截图,这里我将网址打出来不是做广告,是我后面分析需要用到具体网址。
本人博客文章绝对全部为原创,而且我的文章都是我根据我的从业经验而写的技术文章,而非那种百度一抓一大把的垃圾文章,绝对对用户有很大帮助的。我的外链也全部来自于其它站点转载我文章时的版权链接以及回答别人问答时签名中的介绍。我的问答回复全是是非常有意义的帮人解决实际的seo问题,发在seowhy上,有专门的版主审核,我的回答的被采纳率极高,不是那种为了留签名而做的垃圾回复。友链更是一些喜欢我文章的朋友和我交换的,这点在我首页被K后仍有不少朋友坚持不撤换掉我的友链,就能看出来。可以说我的博客从未做过扰乱搜索引擎的行为。
就是这个完全符合规则的博客在8月25日被K掉了首页,并K掉了50%以上的site数值。
(图3)
由上图相信大家就能看出来我的博客在此次算法更新上收到了极大的波及。但我不是在抱怨,而是希望大家看一个点,比较一下图1与图2的区别,大家会发现在6月K站的时候,站点被K则索引量也跟随相应的变化降为0,而在8月更新的时候,索引量未随着site数值变动趋势而改变。也就是说百度数据库中仍有你的数据,只不过不予排名,甚至不放进排名被选的缓存区中。
这就是我要提醒大家的一点,这个表明百度自身对算法更新的不自信。这次影响的绝大部分医疗站,遭遇要比我的博客要好,首页依旧幸存,但是排名全部丢失。大家想一下,若是百度对自己算法足够有信心,那么就像LEE说的,他们打击的是用户体验不好的作弊站,那作弊站是不是应该像6月那次处理方式一样K掉,而不是继续保存数据调整其排名。
那么为什么这么做?这次算法问题出在哪里?
笔者认为,在站内方向上,主要出现在两个字上,这两个字就是原创。即便是人工审查,我们有时候也很难确定原创与改写,那么搜索引擎作为一款程序,即便其有庞大的数据量作为基础,其在判断原创文章的时候,也必须有一个或若干特征辅助程序将其识别出来。本人在《搜索引擎工作的基础流程与原理》一文中,曾阐述搜索引擎对文件的保存形式。在此我再将其重复一遍。
当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。假如蜘蛛爬取的页面的URL是http://www.****.com/2.html,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。
(图4)
那么搜索引擎在判断文章是否为原创的时候,其处理的对象必然为这篇文章在分词后的关键词集合p。那么我们一起来揣测搜索引擎寻找的判定特征。
中国汉语在句子结构中,无非是主、谓、宾、定、状、补,而从词性上来说,无非是实词与虚词两大类,其中实词为名词、形容词、量词、代词。虚词包含副词、连词、介词、助词、叹词、拟声词。写到这里,相信经验丰富的seo们应该晓得,咱们之前做伪原创的时候,基本针对的是实词,因为虚词基本做了伪原创也不怎么管用。伪原创关键在个伪字,我们欺骗百度,让百度误以为非原创为原创,故而称之为伪,而百度这次是将伪识别出来。
(图5)
图5是百度官方对伪原创的回答,正如大家所看到的那样,百度没处理,非是百度态度上不处理,而是技术上未能实现处理,通过话语间,相信大家也明白了,伪原创对百度而言和其它非原创例如采集,在策略上无区别。
那么大家试想一下,百度若想将伪识别出来,就必须针对seo的一些操作进一步锁定精确化的原创的特征,那么其必然是由以前判断所有的实词改为判断部分实词。那么在名词、形容词、副词、量词、代词中,要具体挑哪几种呢?
代词本身也没几个词,自然不能作为特征来识别。
那量词呢?大家请看下面的截图。
(图6)
图6为百度官方的回答,由此可见,百度针对不同行业其对分词结果的处理方式不同,而且对量词,百度较为重视。由此可见,量词是百度识别原创的特征之一。
那其余的实词呢?名词经常作为句子主语,是具体的事物,自然应该作为原创的判定标准。而形容词用于修饰事物,往往通过不同的形容词的表达,句子所表达的意义就不同了,理应作为判断原创的特征之一,但笔者发现,此次更新,形容词被剥离出原创判定的特征,或者说其影响被骤然降小。而这也是这次误伤的主要原因。
总结一下,笔者认为,这次百度针对内容更改的算法之一,就是蜘蛛抓取完页面后,经过除噪得到了一个文本,对文本中的话在进行切词的时候,针对句子的主谓宾进行单独提取,同时配以量词,来与其它页面进行比对。
比如“小明开心的去打酱油”与“小明无聊的去打酱油”,这句话在以前会被识别为两句话,而如今会被百度识别为一句话,因为其比对相似度时,全部切分为了“小明”+“打酱油”。
咱们跳出搜索引擎,站在自身的角度来思考,如果你自己写一篇文章,而且是言之有物的对用户有帮助的文章,那么你整篇文章按照主谓宾的方式提取出来之后,必然在互联网上应该找不到一样的。
但倘若仅仅是这样操作,也不会有大范围的误伤,可是如果加上比例,则结果就出来了。而加比例也是百度为了识别有人用多篇文章凑出一篇文章的操作。百度设定一个百分比,倘若你文中主谓宾切出来后,有一定百分比与其它重复则判定为非原创,则结果就是先今百度的搜索结果。
但这种设计本身,就必然会产生误伤。正如我前文所述,形容词在有些时候,会决定句意,完全剥离必然不符合用户体验。同时,若是一些知识型的网站,本身知识点就是重复的,只不过在由知识点推理出结论的时候,不同的文章其结论不同。而对很多结论的推导过程都是由定状补部分完成的,这样这些用户体验很好的知识型文章会被百度误杀。
相反一些垃圾站,由于其原本伪原创的时候无意间动的是主谓宾的结构,进而躲过了这次算法更新,此消彼长,进而一些站点挤进了百度首页。
针对于此,百度所做的防范措施正如本人现在在《由6.28百度K站 看百度SEO的未来趋势》一文中所写,用域名年龄作为一些站点最后的救命稻草。
但是这样,就会损伤一些真实的原创文章了,下图是百度官方的说辞。
(图7)
图7是百度针对关于原创转载的官方回答,由此可见百度对于原创的态度并不是绝对的制高点地位,而往往有时是劣于被知名站点转载后的文章。
那么这套设计的缺陷就自然而然的显现出来了,一些小型域名年龄不长的提供原创文章的站点会在此次策略更新后受到误伤。
下面我再回过头看看上文中所述的百度的改变,其中一条为预告。且问大家,百度历次更新前,有过预告吗?百度大规模K站不是一次两次了,为何这次要提示公告呢。在这里笔者不禁想起来Google用于麻痹Spammer的专利,当然这里并不是说百度遵循此法来麻痹Spammer,而是说,搜索引擎算法已经像那些TVB的后宫电视剧一样,开始了阴谋论与心计。
首先挑选此次更新的主要行业,医疗与seo,医疗本身就是百度最大的收入来源,借此机会扩大自己的收入,同时不必担心对医疗的不好影响,有一个一个医疗seo团队领着各自老板的工资,完全不必担心由于这次更新引起该领域内被人为创造出来的数据量的下滑。而seo行业,我想我就不必多说了。
然后先预告一下,紧接着算法上线。百度自知这次算法升级具备天生缺陷,而弥补这些缺陷的唯一途径,就是上线规则后收集反馈数据进行改进。还记得我在《由6.28百度K站 看百度SEO的未来趋势》一文中曾指出,百度在6月K站稳定后,仍有一些词其排名变化几乎是几个小时一个变样,当时百度其实就是在收集数据为下次更新做准备,而这次其数据收集工作范围更大,不在是个别词,而是整个行业了。
最后百度深知这次更新有先天性问题。本人博客就是例子,上文中我贴出博客的网址,就不怕各位读者朋友们去查证,看我文章质量是否真的是高质量对用户有帮助的原创,看我外链是否有作弊。首先此次更新首先在判断上波及了我的原创文章,同时我站内多篇文章被各个大站所转载,进而导致我站点降权、被K首页。而像我这样,利用业余时间认认真真写文章分享的人,却恰恰是百度希望留住的内容制造者,因此百度此次提前预告,并精确指出要惩罚的对象,要我们自身明确自己是被误伤,同时百度保留了索引数据,不像6月那样直接索引归0,这都是为了后面算法修复奠定基础。
而那些首页未被K掉,仅是排名掉出百名之外的站点,则更加符合我所推断的这个情况。你想,既然作为对站点惩罚,则本应对你被判定重复的内容进行删除,但你首页快照依旧,site也未被明显拔毛,那与其说是惩罚,倒不如说是你的站点在百度数据结果测试中表现不佳更为妥当。而你的站点是否真正会被认定为被惩罚站点,恐怕要等百度收集完数据再次反应之后了。
那么针对站内内容,百度今后会怎么变?
我相信,百度会逐渐完善不同词性里,哪些词应该作为判定原创的特征,而哪些不应作为判定原创的特征。毕竟中文单词与词组仅仅几千个,百度这么多年下来,应该早已建立相应的数据库并经过初步分析,现在欠缺的仅仅是数据反馈而已。
至于这次更新是百度的即兴表演还是谋划已久呢?请大家看看百度官方在2010年时所说的吧。
正如LEE在2010年所说的,解决这个问题需要伤筋动骨的解决,而今年就是百度伤筋动骨之年。既然百度早已有所觉悟,那么请站长们不必再抱有其他的幻想了。
可是我们seo怎么办?
只要是程序,就会有漏洞。以前大家伪原创是针对以前的百度分词态度,相信等百度这一些列规则稳定后,针对新的分词态度,相应的伪原创方法也会很快出来,他重视什么词,你针对这类词操作就可以了。但是笔者不禁在此问一下各位站长,你们这么做值得吗?
在6.28的文章里,我抨击灰帽,告诉各位站长SEO团队时代的降临,很多站长经过各种途径向我表达了他们依旧抱有幻想,那么这次又是一次打击,我想你们该明白百度的决心了。
我相信,当百度这一轮数据收集完后,在完善原创文章识别后,在百度站长工具的后台中,又会有一些站其索引量开始剧烈变化,希望各位站长们能挺过去。
本文首发笔者的博客:http://www.seozhao.com/326.html 转载请注明。
责任编辑:陈星