算法

Google算法十年变迁史

Google算法每年的改变都多达500-600次,只不过很多改动都很小,但是每隔几个月,Google都会做一次比较大的算法升级,这些升级都会直接影响到搜索的排名结果。作为一个搜索引擎营销人员,了解这些算法的改变有助于分析网站排名以及流量的变化状况,下面我们列出了几次影响比较大的算法升级,熟悉这些算法的变动将会有助于你的SEO工作。 2000年 2000年12月 – Google工具条 Google发布了其浏览器工具条,正是这个工具条上绿色小条(PR值),日后让无数的站长为之疯狂,甚至形成了买卖产业链。每三个月一次的”Google Dance”之后,站长们最关注的就是这个绿色的小条有没有变长。 2003年 2003年2月 – Boston 在当年Boston召开的搜索引擎战略大会(SES)上正式命名的一次算法升级,也是Google第一个有名字的算法升级。起初Google主要是 按月进行升级,所以最开始的几次升级都是综合了一些算法改动以及收录刷新(Google Dance)。随着升级越来越频繁,月度升级计划很快消亡。 2003年4月 – Cassandra Google针对一些基本的外链质量问题发布的一次升级,比如从同一个域名获得的大量链接,其价值被降低。另外Cassandra针对隐藏文字及链接也进行了针对性的处理。 2003年5月 – Dominic 03年5月份Google进行了多项升级改动,Dominic具体升级了哪些参数并不明确。Google的 “纵” “横” 蜘蛛 “Freshbot” 及 “Deepcrawler”全网爬行,Google计算外链的方式似乎进行了很大的变化。 2003年6月 – Esmerelda 此次升级是Google月度升级计划中的最后一次,日后Google的升级将会更加频繁。”Google Dance”也被”Everflux”所替代。Esmerelda主要是针对搜索架构的一次集中性的升级。 2003年7月 – Fritz “Google Dance”随着Fritz升级走向终结。以前按照月度进行的索引升级,被如今的每天的索引变化所代替。 2003年9月 – Supplemental Index 为了在不破坏原有操作界面的基础上增加更多的内容,Google将部分结果纳入到“supplemental(补充)”链接。而进入“supplemental”的意义迅速成为SEO讨论的热门话题。一直到2006年Matt出来辟谣,结果依然没有定论… 2003年11月 – Florida 这次升级主要是针对一些现在早已过时的黑帽作弊手法,比如关键词堆砌等等 – 这些在当时来说都是非常流行的一些SEO方法。很多网站的排名大幅度滑落,狂怒惊喜皆有之。 2004年 2004年1月 – Austin Florida针对一些古老的黑帽技术做了一次清理,其中一些遗漏的地方,由Austin升级继续执行。Austin针对一些可以的单页优化行为, 包括隐藏文字,Meta标签的堆砌等等进行处罚。一些人猜测Google正在推行其”Hilltop”算法,对于内容的相关性更加重视。 2004年4月 – Brandy Google此次发布了大量的升级改动,其中包括索引数量的提升,潜在语义索引(Latent Semantic Indexing (LSI)),对锚文本相关性的重视,以及“链接邻居(那些链接了你网站的站点)”等等。LSI的应用标志着Google在语义及关键词分析的技术上迈向 了一个新的阶段。 2004年8月 – Google IPO 这个不是算法升级,而是Google历史中的大事件。2004年Google上市,发行1960万股,最初股价为85美元。这段历史可以说相当艰难,上市并不如预期中那样顺利,不管是股价还是股份,都较原计划缩小了25%,只是后来…你懂的。 2005年 2005年1月 – Nofollow 为了应付Spam以及控制链接质量,Google,Yahoo,Bing三大巨头共同推出了Nofollow标签。Nofollow有助于清除那些 无用的垃圾链接,包括一些垃圾博客评论等。Nofollow的推出在很大程度上影响了外链建设的思路。只是至今每个人对Nofollow标签的意义都没有 统一的定论。 2005年2月 – Allegra 站长们注意到了排名的波动,但是具体的因素并不明确。一些人认为Allegra牵扯到“沙盒效应”,有些人认为Google的“潜在语义索引(LSI)”正在发挥作用,还有一些人认为,Google正在针对那些“可疑”的链接进行惩罚。 2005年5月 – Bourbon “GoogleGuy”(Matt Cutts等人)宣称Google正在对搜索质量进行3.5个方面的升级,没有人知道这0.5指的是什么,不过很多人猜测Bourbon主要是针对重复性内容以及URL标准化进行处理。 2005年6月 – XML Sitemaps Google允许用户在站长工具后台提交XML网站地图,主要是为了有助于搜索引擎的收录所以。Google的XML地图文件如今已成为网站的标配。 2005年6月 – Personalized Search 不同于以往的根据你的设置进行的个性化搜索,此次升级主要采用了你的历史搜索数据。即使你没有登录账号,没有进行个性化设置,你的历史搜索记录也会影响到你的搜索结果。这个也解释了很多人关于换台机器搜索结果就不同的疑问。 2005年9月 – Gilligan 貌似是“虚惊一场”,站长们发现了排名的变化,但是Google则称近期没有进行算法升级。Matt Cutts对此发表了一篇Blog,称Google的排名每天都会有变化,但是工具条的PR值及其他一些参数是每三个月才变化一次。 2005年10月 – Google Local/Maps 自2005年3月推出本地商务中心(Local Business Center)并且鼓励商户上传他们的信息之后,Google将地图整合到LBC中。这次整合对本地SEO优化产生了一些影响。 2005年10月 – Jagger 这是Google发布的一次比较大的升级行动,主要针对一些低质量的外链,包括互惠链接,链接农场,付费链接等等。Jagger行动持续了至少3个月,从9月到11月,其中10月份造成的影响最大。 2005年11月 – Big Daddy 2006年 2006年11月 – Supplemental Update Google在一些搜索结果后面会加上Supplemental(补充)的链接。当你的网站内容成为别人的“补充内容”时,是好还是坏?这个结果没有定论,但是Matt随后称进入Supplemental,并不是对网站的惩罚,也不是个坏事。继续没有定论! 2006年12月 – False Alarm(虚惊一场) 网上有一些讨论说,自11月份排名变化之后,12月份又有一次算法升级,不过Google声明并没有大的改动。 2007年 2007年5月 – Universal Search 传统的10条结果界面自此一去不再复返,Google在其搜索结果将会包含更多的内容,其中包括新闻,视频,图片,本地信息以及其他一些内容。 2007年6月 – Buffy 为了对Vanessa Fox的离开表达敬意,Google进行了“Buffy”升级。很多人都不清楚这次升级到底改动了些什么,Matt Cutts则称Buffy是针对一些小变动的集中升级。 2008年 2008年4月 – Dewey 3月底4月初的时候,Google的排名状况发生了一次很大的波动,但是涉及的因素却不为人知。一些人怀疑Google开始推自家的服务(如百度那 样的垄断),比如Google Books等,但是并没有明显的迹象。Dewey这个名字来源于Matt Cutt,他在收集用户正对此次升级的反馈时,要求用户添加此词语。 2008年8月 – Google Suggest 当用户在搜索框输入关键词时,Google会以下拉框的形式给出搜索建议。Google Suggest后期升级为Google Instant,功能更加强大。 2009年 2009年2月 – Vince Google的这次升级似乎对大品牌情有独钟,一些大的品牌都占据了极好的排名。Matt Cutts声称“Vince”只是一次比较小的改动,但是很多人则认为这是一次影响长远的升级。 2009年2月 – Rel-canonical Tag(URL标准化标签) Google,Yahoo及Bing共同宣称支持新的标签:Canonical。该标签允许站长们在不影响用户使用的情况下,想搜索引擎表达标准化URL的信息。 2009年8月 – 咖啡因 (测试版) Google推出新的搜索架构预览版,新的架构可以提高爬行速度,提高索引量,并且能够实时的进行收录及排序工作。咖啡因于2010年6月份正式推出。 2009年12月 – Real-time Search(实时搜索) 此次实时搜索的结果包含了Twitter消息源(现已取消),Google News,最新收录内容以及其他一些信息源。并且这些消息源一直在扩充,其中包括很多社会化媒体的信息。 2010年 2010年4月 – Google Places 尽管Google在2009年9月份就推出了”Places”页面,但当时只是作为Google Maps的一部分。此次Places重新升级,名称也改为“本地商户中心”,与本地搜索结果的结合更加紧密,同时也添加了一些新的特征,包括本地广告选项。 2010年5月 – May Day 在四月末及5月初,站长们主要到很多长尾关键词的流量大幅度的下降。Matt Cutts随后确认了“May Day”是Google针对长尾关键词的一次算法升级,很多低质量内容的网站都受到了打击,特别是一些电子商务网站。此次升级同样也是熊猫行动的一个预兆。 2010年6月 – Caffeine咖啡因 (正式推出) 经过几个月的测试,Google正式推出咖啡因索引系统。咖啡因的推出不但加快了Google的搜索速度,而且在索引收录上得到极大的改善,新的内容能够更快的被收录,这也为日后的熊猫算法埋下了基础伏笔。 2010年8月 – Brand Update Google允许同一域名在搜索结果中多次展示。简单的说,在以往的搜索结果中,同一个网站在搜索结果中往往只会显示一到两条的内容,但是此次升级允许同一网站内容多次显示,只要这些内容OK。 2010年9月 – Google Instant 针对“Google Suggest”的一次扩展升级,Google Instant能够让用户在搜索框输入关键词的时候就即时看到对应的结果,而不需要再点击“Search”按钮,最简化的极致表现。此次升级主要针对搜索行为,而对搜索结果排序无太大影响。 2010年11月 – Instant Previews(即时预览) Google在其搜索结果返回条目的右侧添加了一个放大镜的图标,允许用户在Google结果页面上直接对网站进行预览。此次功能的升级昭示Google对Landing Pages的质量,设计及易用性的重新关注,同时也引起了SEO工作者对这些因素的重视。 2010年12月 – Negative Reviews(负面评论) 在纽约时报针对DecorMyEyes利用各个网站及论坛的负面评价(频繁曝光)来提高其排名的方式之后,Google针对此作弊方式针对性的改进其算法标准。 2010年12月 – Social Signals(社会化因素) Google与Bing均确认,他们会引用社会化因素作为新的排名依据,包括Facebook及Twitter上的数据。Matt Cutts这对Google来说是一个相对比较新的开发行动,尽管所有的SEO工作者已经对此期盼了相当长的一段时间。 2011年 2011年1月 – Overstock惩罚 Overstock被Google惩罚:同样是熊猫行动的预演。这则新闻在国内也是引起了比较大的波动。随之2月份,同样著名的品牌JCPenney也遭受了惩罚。这两次针对大型品牌站点的降权行动,都是为熊猫行动的推出做热身。 2011年1月 – Attribution(原创归属) Update 针对日益猖獗的Spam内容,Google针对原创内容以及分发和采集内容做出的算法升级,根据Matt Cutts的说法,此次升级影响了2%的搜索结果。此次升级是熊猫行动的先兆。 2011年2月 – 熊猫算法/内容农场 这是今年来Google做出的最大的一次算法升级,在全世界范围内引起了共同的关注。从Google官方数据得知,此次升级影响了12%的搜索结 果。熊猫算法主要针对那些低质量内容,内容农场、广告内容比过重以及其他一些质量因素。此次升级对一些大型站点都造成了非常显著的影响。 2011年3月 – +1按钮 在Plus推出之前,Google推出了其+1按钮,类似于Facebook的Like或者Twitter的Tweets等。该按钮不但可以为用户 在其网站上使用,而且直接整合到搜索结果中(包括自然结果及Adwords广告),让用户可以更加个性化的推荐自己需要的内容,并且影响到其整个社交圈子 (Circles)的排名。 2011年4月 – Panda 2.0 Google针对全球所有英语搜索结果进行“熊猫化”,而不限于以往的“英语国家”。此次升级也添加了一些新的排名因素,引用了用户针对搜索结果的行为作为排名因素,比如针对某些搜索结果的屏蔽等。 2011年5月 – Panda 2.1 最开始被站长们称为”熊猫3.0″,是Google在2.0基础上进行的又一次升级。此次升级的改动以及造成的影响都比较小,所以站长们讨论得也比较少。 2011年6月 – Schema.org Google, Yahoo以及Microsoft三大搜索巨头此次共同推出新的以Microdata格式为基础的通用标记词汇集。旨在通过这些通用的Microdata显示出更加丰富的搜索结果。 2011年6月 – Panda 2.2 熊猫2.2在SMX大会上得到Google官方确认。自熊猫推出以后,Google一直在针对该算法进行持续不断的改进升级。根据Cutt的说法,此次升级主要针对那些采集复制的内容,并且此次升级是人工开启。 2011年6月 – Google+ 在多个社交产品惨遭市场淘汰后,Google终于推出了其重磅产品:Google Plus,其矛头直指Facebook。Google+的特点在于以圈子形式进行内容分享,并且和其他的Google产品紧密结合,如Gmail等。G+ 的推出迅速得到用户的热捧,短短两周时间,用户数量就达到1000万。 2011年7月 – Panda 2.3 站长们开始争论Google的熊猫算法是否又进行了升级。Search Engine Land最终从Google处得到证实:“此次升级是我们每年高达500词算法变动中的一次”。目前尚未明确此次升级中是否添加了新的排名因素,或者只是 对原有的排名因素及数据的简单升级。 2011年8月 – Panda Goes Global Panda(熊猫算法)全球化部署,除了中文,日文及韩文网站之外,其他所有语言的搜索结构都已经Panda化。Google报告称此次升级将影响部署国家6-9%的搜索结果排序。 2011年8月 – 12-pack Sitelinks Google的Sitelinks扩展到12个。在Google生成Sitelink一直是SEO工作者的梦想,因为这标志着网站被Google的 认可程度以及品牌化程度。8月16日,Google在其官方博客宣称其Sitelinks算法以及进行改进,新的Sitelinks已经增加到12个,格 式包含:页面标题,URL以及简介。和正常的搜索结果类似,这样更加有助于用户寻找到该网站的热门内容。 0条评论 | czs05

阅读更多

Arrow不可能性定理:”独裁是唯一完美的选举制度”

    由于某些原因,最近在整理以前的日志。偶然翻到 这篇日志 时,顺便在 Wikipedia 复习了一下 Arrow 不可能性定理的证明,惊奇地发现这个定理的证明过程非常困难但又非常初等,是一个门槛很低、老少咸宜的思维游戏。虽然不少人都翻译过 Wikipedia 上的这段证明,但我也想自己写一个自己的理解,一来做个笔记,二来也锻炼一下自己的表达能力。     Arrow 不可能性定理是一个与选举制度有关的定理。选举制度,说穿了就是把所有选民的意见综合成一个全体意见的算法。选民的意见,无非是候选对象在心目中谁优谁劣,完整地反应在选票上,就是候选对象们从优到劣的一个顺序;形式最完整的全体意见,也就是候选对象的这么一个排列。因此,我们可以把整个选举制度想像成一个函数,输入 n 个排列(相当于 n 张选票),将会输出一个排列(相当于选举结果)。对输入数据的任何一处小改变,都有可能导致输出结果随之变化。作为一个合理的选举制度,它必须满足一些起码的要求。我们提出两个最基本的选举制度要求:       1. 如果每张选票都认为 X 比 Y 好,那么投票结果中 X 的排名也必须比 Y 更靠前;       2. 如果每张选票中 X 、 Y 的相对排名都不改变,那么投票结果中 X 和 Y 谁排名靠前也不能变。     我们将证明,同时满足上述两个条件的选举制度只有一种,就是选举结果唯一地由其中某个选民的选票决定。也就是说,独裁是唯一一种完美的选举制度。为了简便起见,让我们假设候选人只有 A 、 B 、 C 三个人。你会发现,下面的证明过程很容易扩展到多个人的情况。     假设每张选票都把 B 放在最后一名。也就是说,每张选票都认为, A 比 B 好, C 也比 B 好。根据条件 1 ,最终投票结果中也应该满足, A 和 C 都排在 B 前面。也就是说,投票结果里 B 也是最后一名。现在,让我们按照一定的顺序依次把每张选票里的 B 从最后一名挪到第一名的位置上去,同时不断关注在改票过程中选举结果的变化。当所有的票都改完了后,根据同样的道理,投票结果中 B 自然就排到了第一名。因此,在改票的过程中,一定存在这么一个人,改完他的选票后,投票结果中 B 的名次靠前了(从最后一名升了上来)。我们把这张选票叫做“枢纽选票”。     接下来的证明分成四个大步骤。我们第一步要证明的就是,在改票过程中,改完这张枢纽选票,投票结果中 B 的名次将会直接从最后一名一下子升到第一名。反证,假如此时 B 没有跑到投票结果的第一名去,那么投票结果要么是 A 、 B 、 C ,要么是 C 、 B 、 A 。不妨假设是 A 、 B 、 C 吧。现在,把每张选票中 C 的名次都改到 A 前面( C 本来就在 A 前面的那些选票就不用改了)。按照条件 1 ,最后的结果里 C 也应该跑到 A 的前面去。但同时,由于此时每张选票都把 B 列于第一名或者最后一名,调整 A 和 C 的顺序不可能影响到 B 、 A 之间的相对顺序,以及 B 、 C 之间的相对顺序,因此由条件 2 ,结果里 B 、 A 的相对排名和 B 、 C 的相对排名是不能变的。这就矛盾了:我们绝不可能在不改变 B 、 A 的相对位置以及 B 、 C 的相对位置的情况下,把投票结果 A 、 B 、 C 里 A 和 C 的位置互换。因此,把那张枢纽选票中的 B 提到第一名,一定让投票结果中的 B 也直接跑到了第一名去。       注意,枢纽选票的产生是有前提的:它要从某个满足“每张选票里 B 都排最后”的情形开始,再按照一定的顺序把选票里的 B 都改成第一名,在此过程中才能产生对应的枢纽选票。如果具体的初始情形不一样,枢纽选票还一样吗?答案是肯定的。在第二步,我们要证明的就是,只要满足每张选票都把 B 放在最后一名(不管选票的具体内容是什么),并且按照同样的顺序进行改票,枢纽选票总会是同一张。     这个原因很简单,关键就在于,我们总是把每张选票里的 B 从最后一名提到第一名。即使换一个不一样的初始情形,在改票过程的每一个时刻,每张选票里 B 和 A 、 B 和 C 之间的相对排名也都和原来一样,因而投票结果中 B 和 A 、 B 和 C 之间的相对排名也和原来一样。因此,投票结果里 B 的位置仍然会在同一个时候发生变化,枢纽选票还是同一张。       在第三步里,我们要证明的是,这张枢纽选票有一个非常牛的性质:在任何情形下,它都能独裁 A 、 C 之间的相对排名。也就是说,这张枢纽选票认为 A 比 C 好,投票结果里 A 就一定比 C 好;反过来,它说 C 比 A 好,投票结果里 C 就比 A 好;并且此性质不依赖于任何前提条件,即使 B 不在各选票中的特殊位置,结论同样也成立。现在,我们就考虑任意一组选票,无妨假设其中枢纽选票里 A 比 C 靠前,我们将证明投票结果中 A 也是排在 C 前面的。证明的思路是,对各选票进行一系列不涉及 A 、 C 间相对排名的修改,从而看出投票结果里 A 在 C 前面。我们先把所有选票中的 B 都排到最后一位去。然后,我们把枢纽选票之前的所有票里B的位置都挪到最前面,由前面的结论,结果中的 B 仍然处于最后一位(因而 A 位于 B 前面)。接下来,我们把枢纽选票(它应该是 A 、 C 、 B 的顺序)改成 A 、 B 、 C ,由于这张票中 A 、 B 的相对位置没变,因此结果中 A 、 B 的相对位置也没变, A 仍然在 B 前面。接下来,我们把枢纽选票改成 B 、 A 、 C ,由前面的结论,此时结果里的 B 跑到了最前面(因而排到了 C 前面),但把枢纽选票从 A 、 B 、 C 改成 B 、 A 、 C 时并没有改变 B 和 C 的相对位置,因此刚才的投票结果中 B 也应该在 C 的前面。也就是说,枢纽选票是 A 、 B 、 C 时,投票结果里 A 在 B 前, B 在 C 前,也就是说 A 排在 C 前面。但上述所有修改都不会改变任何一张选票里 A 、 C 的相对排名,因此投票结果中 A 其实自始至终都在 C 前面。这就证明了,投票结果里 A 、 C 的相对排名完全取决于这张枢纽选票,不管其它选票是什么样的。       最后一步证明就是,这张选票不但独裁了 A 、 C 的相对排名,它直接独裁了所有人的排名。原因很简单:按照之前的推理,还会有一张独裁 A 、 B 相对排名的选票,另外还有一张独裁 B 、 C 相对排名的选票;但一山不容二虎,这三个独裁者只能是同一个人,否则一个人说左一个人说右,就会立即产生矛盾。具体地说,首先,这三个独裁者肯定不可能是三个不同的人,否则 A 、 B 的独裁者说 A 比 B 好, B 、 C 的独裁者说 B 比 C 好, A 、 C 的独裁者说 C 比 A 好,投票结果就得同时满足 A 在 B 前、 B 在 C 前、 C 在 A 前,这是不可能的。这三个独裁者也不可能是两个人。比方说其中一人同时独裁了 A 、 B 和 A 、 C ,另一人则只独裁 B 、 C ,那么如果前者说 B 在 A 前面, A 在 C 前面,后者又说 C 在 B 前面,同样不会有兼顾两者的投票结果。因此,独裁者只能有一个,它就是填写枢纽选票的那个人。     至此,我们就证明了,满足那两个基本条件的选举制度只有一种——独裁制度。       上述结论有另外一种等价的表述方法:同时满足全体一致性、无关换位独立性(就是那两个基本条件)以及非独裁性这三个条件的选举制度理论上是不存在的。这就是美国经济学家 Kenneth Arrow 提出的 Arrow 不可能性定理:不存在完美的选举制度。

阅读更多

CDT/CDS今日重点

【CDT月度视频】十一月之声(2024)——“一路都被撞没了,估计一圈都没了”

【年终专题】“13条生命换不来1条热搜”……2024年度“每日一语”

【年终专题】“中文互联网上的内容每年都以断崖式的速度在锐减”……2024年度404文章

更多文章总汇……

CDT专题

支持中国数字时代

蓝灯·无界计划

现在,你可以用一种新的方式对抗互联网审查:在浏览中国数字时代网站时,按下下面这个开关按钮,为全世界想要自由获取信息的人提供一个安全的“桥梁”。这个开源项目由蓝灯(lantern)提供,了解详情

CDT 新闻简报

读者投稿

漫游数字空间