算法

霹雳炮 | 没想到这一天来的这么快大数据之下再无隐私

发布者一朵后浪 | 11 月 26, 2018

作者：肥肥猫来源：肥肥猫的小酒馆（ID:zhihufeifeimao）我最近发现个诡异的事情。...

游山打捕 | 全民思想审查需要具备什么样的条件

发布者小熊维尼 | 11 月 7, 2017

请安静。对个人的思想审查一直是有技术手段可以实现的，就是耗费足够人力调查一切，最不济还可以将人逼疯致幻，在此基础上专业审查小组可以条分缕析，编织结论。很多良心犯和思想犯的经历对此有淋漓解释。...

大象公会 | 非法信息消除指南

发布者小熊维尼 | 3 月 22, 2017

各网络公司既要确保消除非法信息，又要避免影响用户正常使用，怎样同时实现这两个目标？...

Google算法每年的改变都多达500-600次，只不过很多改动都很小，但是每隔几个月，Google都会做一次比较大的算法升级，这些升级都会直接影响到搜索的排名结果。作为一个搜索引擎营销人员，了解这些算法的改变有助于分析网站排名以及流量的变化状况，下面我们列出了几次影响比较大的算法升级，熟悉这些算法的变动将会有助于你的SEO工作。 2000年 2000年12月 – Google工具条 Google发布了其浏览器工具条，正是这个工具条上绿色小条（PR值），日后让无数的站长为之疯狂，甚至形成了买卖产业链。每三个月一次的”Google Dance”之后，站长们最关注的就是这个绿色的小条有没有变长。 2003年 2003年2月 – Boston 在当年Boston召开的搜索引擎战略大会（SES）上正式命名的一次算法升级，也是Google第一个有名字的算法升级。起初Google主要是按月进行升级，所以最开始的几次升级都是综合了一些算法改动以及收录刷新（Google Dance）。随着升级越来越频繁，月度升级计划很快消亡。 2003年4月 – Cassandra Google针对一些基本的外链质量问题发布的一次升级，比如从同一个域名获得的大量链接，其价值被降低。另外Cassandra针对隐藏文字及链接也进行了针对性的处理。 2003年5月 – Dominic 03年5月份Google进行了多项升级改动，Dominic具体升级了哪些参数并不明确。Google的 “纵” “横” 蜘蛛 “Freshbot” 及 “Deepcrawler”全网爬行，Google计算外链的方式似乎进行了很大的变化。 2003年6月 – Esmerelda 此次升级是Google月度升级计划中的最后一次，日后Google的升级将会更加频繁。”Google Dance”也被”Everflux”所替代。Esmerelda主要是针对搜索架构的一次集中性的升级。 2003年7月 – Fritz “Google Dance”随着Fritz升级走向终结。以前按照月度进行的索引升级，被如今的每天的索引变化所代替。 2003年9月 – Supplemental Index 为了在不破坏原有操作界面的基础上增加更多的内容，Google将部分结果纳入到“supplemental（补充）”链接。而进入“supplemental”的意义迅速成为SEO讨论的热门话题。一直到2006年Matt出来辟谣，结果依然没有定论… 2003年11月 – Florida 这次升级主要是针对一些现在早已过时的黑帽作弊手法，比如关键词堆砌等等 – 这些在当时来说都是非常流行的一些SEO方法。很多网站的排名大幅度滑落，狂怒惊喜皆有之。 2004年 2004年1月 – Austin Florida针对一些古老的黑帽技术做了一次清理，其中一些遗漏的地方，由Austin升级继续执行。Austin针对一些可以的单页优化行为，包括隐藏文字，Meta标签的堆砌等等进行处罚。一些人猜测Google正在推行其”Hilltop”算法，对于内容的相关性更加重视。 2004年4月 – Brandy Google此次发布了大量的升级改动，其中包括索引数量的提升，潜在语义索引（Latent Semantic Indexing （LSI）），对锚文本相关性的重视，以及“链接邻居（那些链接了你网站的站点）”等等。LSI的应用标志着Google在语义及关键词分析的技术上迈向了一个新的阶段。 2004年8月 – Google IPO 这个不是算法升级，而是Google历史中的大事件。2004年Google上市，发行1960万股，最初股价为85美元。这段历史可以说相当艰难，上市并不如预期中那样顺利，不管是股价还是股份，都较原计划缩小了25%，只是后来…你懂的。 2005年 2005年1月 – Nofollow 为了应付Spam以及控制链接质量，Google，Yahoo，Bing三大巨头共同推出了Nofollow标签。Nofollow有助于清除那些无用的垃圾链接，包括一些垃圾博客评论等。Nofollow的推出在很大程度上影响了外链建设的思路。只是至今每个人对Nofollow标签的意义都没有统一的定论。 2005年2月 – Allegra 站长们注意到了排名的波动，但是具体的因素并不明确。一些人认为Allegra牵扯到“沙盒效应”，有些人认为Google的“潜在语义索引（LSI）”正在发挥作用，还有一些人认为，Google正在针对那些“可疑”的链接进行惩罚。 2005年5月 – Bourbon “GoogleGuy”（Matt Cutts等人）宣称Google正在对搜索质量进行3.5个方面的升级，没有人知道这0.5指的是什么，不过很多人猜测Bourbon主要是针对重复性内容以及URL标准化进行处理。 2005年6月 – XML Sitemaps Google允许用户在站长工具后台提交XML网站地图，主要是为了有助于搜索引擎的收录所以。Google的XML地图文件如今已成为网站的标配。 2005年6月 – Personalized Search 不同于以往的根据你的设置进行的个性化搜索，此次升级主要采用了你的历史搜索数据。即使你没有登录账号，没有进行个性化设置，你的历史搜索记录也会影响到你的搜索结果。这个也解释了很多人关于换台机器搜索结果就不同的疑问。 2005年9月 – Gilligan 貌似是“虚惊一场”，站长们发现了排名的变化，但是Google则称近期没有进行算法升级。Matt Cutts对此发表了一篇Blog，称Google的排名每天都会有变化，但是工具条的PR值及其他一些参数是每三个月才变化一次。 2005年10月 – Google Local/Maps 自2005年3月推出本地商务中心（Local Business Center）并且鼓励商户上传他们的信息之后，Google将地图整合到LBC中。这次整合对本地SEO优化产生了一些影响。 2005年10月 – Jagger 这是Google发布的一次比较大的升级行动，主要针对一些低质量的外链，包括互惠链接，链接农场，付费链接等等。Jagger行动持续了至少3个月，从9月到11月，其中10月份造成的影响最大。 2005年11月 – Big Daddy 2006年 2006年11月 – Supplemental Update Google在一些搜索结果后面会加上Supplemental（补充）的链接。当你的网站内容成为别人的“补充内容”时，是好还是坏？这个结果没有定论，但是Matt随后称进入Supplemental，并不是对网站的惩罚，也不是个坏事。继续没有定论！ 2006年12月 – False Alarm（虚惊一场）网上有一些讨论说，自11月份排名变化之后，12月份又有一次算法升级，不过Google声明并没有大的改动。 2007年 2007年5月 – Universal Search 传统的10条结果界面自此一去不再复返，Google在其搜索结果将会包含更多的内容，其中包括新闻，视频，图片，本地信息以及其他一些内容。 2007年6月 – Buffy 为了对Vanessa Fox的离开表达敬意，Google进行了“Buffy”升级。很多人都不清楚这次升级到底改动了些什么，Matt Cutts则称Buffy是针对一些小变动的集中升级。 2008年 2008年4月 – Dewey 3月底4月初的时候，Google的排名状况发生了一次很大的波动，但是涉及的因素却不为人知。一些人怀疑Google开始推自家的服务（如百度那样的垄断），比如Google Books等，但是并没有明显的迹象。Dewey这个名字来源于Matt Cutt，他在收集用户正对此次升级的反馈时，要求用户添加此词语。 2008年8月 – Google Suggest 当用户在搜索框输入关键词时，Google会以下拉框的形式给出搜索建议。Google Suggest后期升级为Google Instant，功能更加强大。 2009年 2009年2月 – Vince Google的这次升级似乎对大品牌情有独钟，一些大的品牌都占据了极好的排名。Matt Cutts声称“Vince”只是一次比较小的改动，但是很多人则认为这是一次影响长远的升级。 2009年2月 – Rel-canonical Tag（URL标准化标签） Google，Yahoo及Bing共同宣称支持新的标签：Canonical。该标签允许站长们在不影响用户使用的情况下，想搜索引擎表达标准化URL的信息。 2009年8月 – 咖啡因（测试版） Google推出新的搜索架构预览版，新的架构可以提高爬行速度，提高索引量，并且能够实时的进行收录及排序工作。咖啡因于2010年6月份正式推出。 2009年12月 – Real-time Search（实时搜索）此次实时搜索的结果包含了Twitter消息源（现已取消），Google News，最新收录内容以及其他一些信息源。并且这些消息源一直在扩充，其中包括很多社会化媒体的信息。 2010年 2010年4月 – Google Places 尽管Google在2009年9月份就推出了”Places”页面，但当时只是作为Google Maps的一部分。此次Places重新升级，名称也改为“本地商户中心”，与本地搜索结果的结合更加紧密，同时也添加了一些新的特征，包括本地广告选项。 2010年5月 – May Day 在四月末及5月初，站长们主要到很多长尾关键词的流量大幅度的下降。Matt Cutts随后确认了“May Day”是Google针对长尾关键词的一次算法升级，很多低质量内容的网站都受到了打击，特别是一些电子商务网站。此次升级同样也是熊猫行动的一个预兆。 2010年6月 – Caffeine咖啡因（正式推出）经过几个月的测试，Google正式推出咖啡因索引系统。咖啡因的推出不但加快了Google的搜索速度，而且在索引收录上得到极大的改善，新的内容能够更快的被收录，这也为日后的熊猫算法埋下了基础伏笔。 2010年8月 – Brand Update Google允许同一域名在搜索结果中多次展示。简单的说，在以往的搜索结果中，同一个网站在搜索结果中往往只会显示一到两条的内容，但是此次升级允许同一网站内容多次显示，只要这些内容OK。 2010年9月 – Google Instant 针对“Google Suggest”的一次扩展升级，Google Instant能够让用户在搜索框输入关键词的时候就即时看到对应的结果，而不需要再点击“Search”按钮，最简化的极致表现。此次升级主要针对搜索行为，而对搜索结果排序无太大影响。 2010年11月 – Instant Previews（即时预览） Google在其搜索结果返回条目的右侧添加了一个放大镜的图标，允许用户在Google结果页面上直接对网站进行预览。此次功能的升级昭示Google对Landing Pages的质量，设计及易用性的重新关注，同时也引起了SEO工作者对这些因素的重视。 2010年12月 – Negative Reviews（负面评论）在纽约时报针对DecorMyEyes利用各个网站及论坛的负面评价（频繁曝光）来提高其排名的方式之后，Google针对此作弊方式针对性的改进其算法标准。 2010年12月 – Social Signals（社会化因素） Google与Bing均确认，他们会引用社会化因素作为新的排名依据，包括Facebook及Twitter上的数据。Matt Cutts这对Google来说是一个相对比较新的开发行动，尽管所有的SEO工作者已经对此期盼了相当长的一段时间。 2011年 2011年1月 – Overstock惩罚 Overstock被Google惩罚：同样是熊猫行动的预演。这则新闻在国内也是引起了比较大的波动。随之2月份，同样著名的品牌JCPenney也遭受了惩罚。这两次针对大型品牌站点的降权行动，都是为熊猫行动的推出做热身。 2011年1月 – Attribution（原创归属） Update 针对日益猖獗的Spam内容，Google针对原创内容以及分发和采集内容做出的算法升级，根据Matt Cutts的说法，此次升级影响了2%的搜索结果。此次升级是熊猫行动的先兆。 2011年2月 – 熊猫算法/内容农场这是今年来Google做出的最大的一次算法升级，在全世界范围内引起了共同的关注。从Google官方数据得知，此次升级影响了12%的搜索结果。熊猫算法主要针对那些低质量内容，内容农场、广告内容比过重以及其他一些质量因素。此次升级对一些大型站点都造成了非常显著的影响。 2011年3月 – +1按钮在Plus推出之前，Google推出了其+1按钮，类似于Facebook的Like或者Twitter的Tweets等。该按钮不但可以为用户在其网站上使用，而且直接整合到搜索结果中（包括自然结果及Adwords广告），让用户可以更加个性化的推荐自己需要的内容，并且影响到其整个社交圈子（Circles）的排名。 2011年4月 – Panda 2.0 Google针对全球所有英语搜索结果进行“熊猫化”，而不限于以往的“英语国家”。此次升级也添加了一些新的排名因素，引用了用户针对搜索结果的行为作为排名因素，比如针对某些搜索结果的屏蔽等。 2011年5月 – Panda 2.1 最开始被站长们称为”熊猫3.0″，是Google在2.0基础上进行的又一次升级。此次升级的改动以及造成的影响都比较小，所以站长们讨论得也比较少。 2011年6月 – Schema.org Google， Yahoo以及Microsoft三大搜索巨头此次共同推出新的以Microdata格式为基础的通用标记词汇集。旨在通过这些通用的Microdata显示出更加丰富的搜索结果。 2011年6月 – Panda 2.2 熊猫2.2在SMX大会上得到Google官方确认。自熊猫推出以后，Google一直在针对该算法进行持续不断的改进升级。根据Cutt的说法，此次升级主要针对那些采集复制的内容，并且此次升级是人工开启。 2011年6月 – Google+ 在多个社交产品惨遭市场淘汰后，Google终于推出了其重磅产品：Google Plus，其矛头直指Facebook。Google+的特点在于以圈子形式进行内容分享，并且和其他的Google产品紧密结合，如Gmail等。G+ 的推出迅速得到用户的热捧，短短两周时间，用户数量就达到1000万。 2011年7月 – Panda 2.3 站长们开始争论Google的熊猫算法是否又进行了升级。Search Engine Land最终从Google处得到证实：“此次升级是我们每年高达500词算法变动中的一次”。目前尚未明确此次升级中是否添加了新的排名因素，或者只是对原有的排名因素及数据的简单升级。 2011年8月 – Panda Goes Global Panda（熊猫算法）全球化部署，除了中文，日文及韩文网站之外，其他所有语言的搜索结构都已经Panda化。Google报告称此次升级将影响部署国家6-9%的搜索结果排序。 2011年8月 – 12-pack Sitelinks Google的Sitelinks扩展到12个。在Google生成Sitelink一直是SEO工作者的梦想，因为这标志着网站被Google的认可程度以及品牌化程度。8月16日，Google在其官方博客宣称其Sitelinks算法以及进行改进，新的Sitelinks已经增加到12个，格式包含：页面标题，URL以及简介。和正常的搜索结果类似，这样更加有助于用户寻找到该网站的热门内容。 0条评论 | czs05

Arrow不可能性定理：”独裁是唯一完美的选举制度”

发布者图样图森破 | 4 月 10, 2011

由于某些原因，最近在整理以前的日志。偶然翻到这篇日志时，顺便在 Wikipedia 复习了一下 Arrow 不可能性定理的证明，惊奇地发现这个定理的证明过程非常困难但又非常初等，是一个门槛很低、老少咸宜的思维游戏。虽然不少人都翻译过 Wikipedia 上的这段证明，但我也想自己写一个自己的理解，一来做个笔记，二来也锻炼一下自己的表达能力。 Arrow 不可能性定理是一个与选举制度有关的定理。选举制度，说穿了就是把所有选民的意见综合成一个全体意见的算法。选民的意见，无非是候选对象在心目中谁优谁劣，完整地反应在选票上，就是候选对象们从优到劣的一个顺序；形式最完整的全体意见，也就是候选对象的这么一个排列。因此，我们可以把整个选举制度想像成一个函数，输入 n 个排列（相当于 n 张选票），将会输出一个排列（相当于选举结果）。对输入数据的任何一处小改变，都有可能导致输出结果随之变化。作为一个合理的选举制度，它必须满足一些起码的要求。我们提出两个最基本的选举制度要求： 1. 如果每张选票都认为 X 比 Y 好，那么投票结果中 X 的排名也必须比 Y 更靠前； 2. 如果每张选票中 X 、 Y 的相对排名都不改变，那么投票结果中 X 和 Y 谁排名靠前也不能变。我们将证明，同时满足上述两个条件的选举制度只有一种，就是选举结果唯一地由其中某个选民的选票决定。也就是说，独裁是唯一一种完美的选举制度。为了简便起见，让我们假设候选人只有 A 、 B 、 C 三个人。你会发现，下面的证明过程很容易扩展到多个人的情况。假设每张选票都把 B 放在最后一名。也就是说，每张选票都认为， A 比 B 好， C 也比 B 好。根据条件 1 ，最终投票结果中也应该满足， A 和 C 都排在 B 前面。也就是说，投票结果里 B 也是最后一名。现在，让我们按照一定的顺序依次把每张选票里的 B 从最后一名挪到第一名的位置上去，同时不断关注在改票过程中选举结果的变化。当所有的票都改完了后，根据同样的道理，投票结果中 B 自然就排到了第一名。因此，在改票的过程中，一定存在这么一个人，改完他的选票后，投票结果中 B 的名次靠前了（从最后一名升了上来）。我们把这张选票叫做“枢纽选票”。接下来的证明分成四个大步骤。我们第一步要证明的就是，在改票过程中，改完这张枢纽选票，投票结果中 B 的名次将会直接从最后一名一下子升到第一名。反证，假如此时 B 没有跑到投票结果的第一名去，那么投票结果要么是 A 、 B 、 C ，要么是 C 、 B 、 A 。不妨假设是 A 、 B 、 C 吧。现在，把每张选票中 C 的名次都改到 A 前面（ C 本来就在 A 前面的那些选票就不用改了）。按照条件 1 ，最后的结果里 C 也应该跑到 A 的前面去。但同时，由于此时每张选票都把 B 列于第一名或者最后一名，调整 A 和 C 的顺序不可能影响到 B 、 A 之间的相对顺序，以及 B 、 C 之间的相对顺序，因此由条件 2 ，结果里 B 、 A 的相对排名和 B 、 C 的相对排名是不能变的。这就矛盾了：我们绝不可能在不改变 B 、 A 的相对位置以及 B 、 C 的相对位置的情况下，把投票结果 A 、 B 、 C 里 A 和 C 的位置互换。因此，把那张枢纽选票中的 B 提到第一名，一定让投票结果中的 B 也直接跑到了第一名去。注意，枢纽选票的产生是有前提的：它要从某个满足“每张选票里 B 都排最后”的情形开始，再按照一定的顺序把选票里的 B 都改成第一名，在此过程中才能产生对应的枢纽选票。如果具体的初始情形不一样，枢纽选票还一样吗？答案是肯定的。在第二步，我们要证明的就是，只要满足每张选票都把 B 放在最后一名（不管选票的具体内容是什么），并且按照同样的顺序进行改票，枢纽选票总会是同一张。这个原因很简单，关键就在于，我们总是把每张选票里的 B 从最后一名提到第一名。即使换一个不一样的初始情形，在改票过程的每一个时刻，每张选票里 B 和 A 、 B 和 C 之间的相对排名也都和原来一样，因而投票结果中 B 和 A 、 B 和 C 之间的相对排名也和原来一样。因此，投票结果里 B 的位置仍然会在同一个时候发生变化，枢纽选票还是同一张。在第三步里，我们要证明的是，这张枢纽选票有一个非常牛的性质：在任何情形下，它都能独裁 A 、 C 之间的相对排名。也就是说，这张枢纽选票认为 A 比 C 好，投票结果里 A 就一定比 C 好；反过来，它说 C 比 A 好，投票结果里 C 就比 A 好；并且此性质不依赖于任何前提条件，即使 B 不在各选票中的特殊位置，结论同样也成立。现在，我们就考虑任意一组选票，无妨假设其中枢纽选票里 A 比 C 靠前，我们将证明投票结果中 A 也是排在 C 前面的。证明的思路是，对各选票进行一系列不涉及 A 、 C 间相对排名的修改，从而看出投票结果里 A 在 C 前面。我们先把所有选票中的 B 都排到最后一位去。然后，我们把枢纽选票之前的所有票里B的位置都挪到最前面，由前面的结论，结果中的 B 仍然处于最后一位（因而 A 位于 B 前面）。接下来，我们把枢纽选票（它应该是 A 、 C 、 B 的顺序）改成 A 、 B 、 C ，由于这张票中 A 、 B 的相对位置没变，因此结果中 A 、 B 的相对位置也没变， A 仍然在 B 前面。接下来，我们把枢纽选票改成 B 、 A 、 C ，由前面的结论，此时结果里的 B 跑到了最前面（因而排到了 C 前面），但把枢纽选票从 A 、 B 、 C 改成 B 、 A 、 C 时并没有改变 B 和 C 的相对位置，因此刚才的投票结果中 B 也应该在 C 的前面。也就是说，枢纽选票是 A 、 B 、 C 时，投票结果里 A 在 B 前， B 在 C 前，也就是说 A 排在 C 前面。但上述所有修改都不会改变任何一张选票里 A 、 C 的相对排名，因此投票结果中 A 其实自始至终都在 C 前面。这就证明了，投票结果里 A 、 C 的相对排名完全取决于这张枢纽选票，不管其它选票是什么样的。最后一步证明就是，这张选票不但独裁了 A 、 C 的相对排名，它直接独裁了所有人的排名。原因很简单：按照之前的推理，还会有一张独裁 A 、 B 相对排名的选票，另外还有一张独裁 B 、 C 相对排名的选票；但一山不容二虎，这三个独裁者只能是同一个人，否则一个人说左一个人说右，就会立即产生矛盾。具体地说，首先，这三个独裁者肯定不可能是三个不同的人，否则 A 、 B 的独裁者说 A 比 B 好， B 、 C 的独裁者说 B 比 C 好， A 、 C 的独裁者说 C 比 A 好，投票结果就得同时满足 A 在 B 前、 B 在 C 前、 C 在 A 前，这是不可能的。这三个独裁者也不可能是两个人。比方说其中一人同时独裁了 A 、 B 和 A 、 C ，另一人则只独裁 B 、 C ，那么如果前者说 B 在 A 前面， A 在 C 前面，后者又说 C 在 B 前面，同样不会有兼顾两者的投票结果。因此，独裁者只能有一个，它就是填写枢纽选票的那个人。至此，我们就证明了，满足那两个基本条件的选举制度只有一种——独裁制度。上述结论有另外一种等价的表述方法：同时满足全体一致性、无关换位独立性（就是那两个基本条件）以及非独裁性这三个条件的选举制度理论上是不存在的。这就是美国经济学家 Kenneth Arrow 提出的 Arrow 不可能性定理：不存在完美的选举制度。

CDT/CDS今日重点

【CDT月度视频】十一月之声（2024）——“一路都被撞没了，估计一圈都没了”

【年终专题】“13条生命换不来1条热搜”……2024年度“每日一语”

【年终专题】“中文互联网上的内容每年都以断崖式的速度在锐减”……2024年度404文章

算法

Google算法十年变迁史

Arrow不可能性定理：”独裁是唯一完美的选举制度”

CDT/CDS今日重点

CDT专题

支持中国数字时代

蓝灯·无界计划

CDT 新闻简报

读者投稿

近期热门视频

近期热门播客节目

媒体报道

漫游数字空间

算法

霹雳炮 | 没想到这一天来的这么快 大数据之下再无隐私

游山打捕 | 全民思想审查需要具备什么样的条件

大象公会 | 非法信息消除指南

Google算法十年变迁史

Arrow不可能性定理：”独裁是唯一完美的选举制度”

CDT/CDS今日重点

CDT专题

支持中国数字时代

蓝灯·无界计划

CDT 新闻简报

读者投稿

近期热门视频

近期热门播客节目

媒体报道

漫游数字空间

霹雳炮 | 没想到这一天来的这么快大数据之下再无隐私