歪理邪说 | 我们永远也无法知道世界的真相

最近和Nana学会了使用 tl;dr 的办法,也就是说,如果觉得太长,你可以翻到结尾去看最后一段的 tl;dr (太长,不想读)版本。

最近遭到了我的朋友和菜头(槽边往事 公众号:bitsea)的无情嘲笑,原因是我一直到美国大选当天,还相信希拉里应该能获胜。之前英国退欧的事我猜对了,但这次我猜错了。和菜头嘲笑我主要是因为我相信了媒体的民调数据,他认为从各种社交媒体和网上调查就可以得到川普一定当选的结论,他认为民调远远脱离实际情况,没参考意义。猜错了结果我接受嘲讽,但是这个原因我不认同。这是一个相当复杂的话题,从数据到历史到互联网和社交媒体,很难说清。不过我还是觉得应该试着写一下。先亮明态度,我不喜欢希拉里也不喜欢川普,当然这两者比起来,更不喜欢川普,虽然他成功了。我不是美国人,如果非要问我的态度,如果我可以投票,在眼下的状况下,我想大概我会投桑德斯吧。

先说民调失灵这件事。民意调查受很多因素干扰,它本身也不可能非常准确,如果说美国总统大选前的民意调查失灵,这也不是新鲜事,最著名的一次民调失灵是1948年美国总统大选,那一次民调偏差比这一次厉害的多。所有民调都显示杜鲁门总统大败,但最后情况不仅杜鲁门大胜,而且选举人票和公众都票都是多数,顺便还夺回了两院控制权。对比这一次,希拉里输了选举人票但公众投票数反而取胜,双方选举人票差距也没有1948年那么大。如果民意调查错了就会死,1948年就死了,等不到今天。

民意调查错得这么厉害,它还可不可信,这个问题甚至可以放大到,传统方法的统计数据是否都变得没有价值?是否应该像和菜头那样,通过社交媒体上双方谁的转发和评论多来确定谁胜率更大?这两个问题我都回答“不是”。猜对一个事件结果并不足以到改变方法论,何况这道选择题只有两个选择,就算是扔硬币决定也有50%的准确率。社交媒体在这个过程中当然起了很大作用,这个一会再说。先看一份更好玩的数据:

640oko022tz

这些数据来自美国众议院投票结果,红色和蓝色分别代表共和党和民主党。因为投票是记名的,所以就很容易分析出来他们分属什么党派。上面这张图是最新的112届国会(2012)结果。

可见,两党差距已经非常大,大到中间没有任何交集了。这个现象是从哪一年开始的?往前拖一下,可以看到近期是从108届国会开始的双方完全没有交集的,那是2003年。两个主要党派之间区别已经如此之大,社会上对他们提出的各种议题支持者也应该有如此大的差距才是正常的。再看之前的年份,会发现双方重合度一度很高,上一次和现在这样完全没有交集的时候,是一战之前,再往前一次这样的情况,是南北战争。

如果看90年代的结果,图是这样的。

640aqxujo36

因为对这些情况的了解,我从来没认为过希拉里“一定”能获胜,而是“应该”能获胜。美国两党的社会共识已经越来越少,又各有足够的拥护者,造成的结果肯定是双方胜负差距不会太大。而且无论谁当选,也不可能代表所谓“多数人”,这次选举的投票率算是比较高的,也只有大约58%的选民真正投了票,两个候选人的实际得票率都只有26%多一点。26%多的人能代表大多数,甚至沉默的大多数吗?而且如果说多数人的选择,按照一人一票计算,希拉里得票率是高于川普的(到我写这篇文章时候NOV. 14, 2016, 1:02 AM ET,希拉里大众选票高出对方63万多票),但因为选举人团制度她反而做不了总统。真正的民意是什么?我们可能永远也无法探知到,最多是从各个方向逐渐试图接近它。

看下图,本次候选人得票率是20年最低水平,所谓的大多数根本不存在。

640onpoamij

我不想讨论这个制度是否合理,因为它一直都充满了争议。维基百科上说“截至2000年12月共有1028份建议修改选举团制度的国会议案,几乎占了修宪案的十分之一,而最早的提案还可以追溯到第一届国会”,甚至川普自己在2012年大选的时候做为旁观者也表示过选举人团制度是美国的灾难…然而最终还是这个最烂的制度送他做了总统,在美国历史上,输了大众选票而赢了选举人票的情况,这是第五次。

要预测人的行为非常困难,预测在一个事件中大量人口的行为更加困难。民调数据可能不准确,但这不是放弃它的理由。现在所有媒体和研究机构都在研究为什么这次民调偏差较大,这并不是给自己的错误找理由,而是在未来修正误差。科技发展到今天,人工智能和大数据应用已经太广了,我们不会因为各家网站的“猜你喜欢”猜的不准而嘲笑它,也不应该一次结果错误就认为民意调查毫无价值。当然,数据的采集和解说有各种各样的办法,用数据骗人的把戏更是无穷无尽,只看数据也未必就会得出正确结论,但看总比不看好一些。对比网上调查(就是我们常见的网站提供的那种投票),民意调查的数据可靠性还是高的太多了,至少网页投票和社交媒体转发评论任何人都可以参与,中国人俄罗斯人都可以去玩一下,而民意调查仅限于可以投票的人。前者连数据采样范围都错了。虽然通过错的论据仍然有可能得到正确的结果,但那并不是一件值得夸耀的事。

美国总统选举背后有诸多因素,比如,美国有29个州从来没选出来过任何一位女性议员,这些保守的地区自然也不会因为希拉里改变立场。对比2012年选举看,大多数地方的投票结果都和2012年结果差距不大。最大的变化发生在所谓的摇摆州。每次美国总统选举,改变历史的只是来自摇摆州中很少一部分人,有时候是年轻人,有时候是老人,有时候是退伍军人或者失业工人。最关键的摇摆州之一,2012年选了奥巴马,这次选了川普。但我事先就认为佛罗里达一定会倾向共和党,因为佛州近年来非常反对气候变化论,川普不承认气候变化正对他们的口味。但非常讽刺的是,佛州是遭受气候变化损失最严重的地区之一。气候变化是佛州的一种政治正确,州长甚至禁止环保部门工作人员使用“气候变化”、“全球变暖”、“海平面升高”之类的词… 中国人反气候变化论的人不算多,就算有往往也是出于经济原因,即“发展中国家不能顾及那么多,以免影响发展”,而不是完全认为这个理论是骗局。但在美国,反对气候变化论的人非常多,其中最大的原因是宗教原因,即“气候变化是上帝的事,人类不应该去研究它”。

如果考虑到这些因素,川普当选实在算不上是“黑天鹅”事件,他成功的概率一直很大。我确实曾经认为受过良好教育的美国选民是理性的,会降低这种概率。但很遗憾,他们生活的区域都集中在城市,在选举人票的制度下,他们人数占有,但最终选举人票数仍然会吃亏。华尔街日报统计了目前已知的投票结果,重新做了统计,你猜多少票翻转就可以改变选举结果?只需要10万人。这个结论更清楚的告诉我们,无论任何一方当选,赢的一方都是“少数人的支持”而不是多数人。当然,这就是美国大选的游戏规则,没什么可说的,双方都在一个游戏规则下玩了200多年,也分别占过便宜。把历史上所有选举结果看一遍,确实有几次是得票率极高的选举可以称作“多数人的选择”,比如2008年的奥巴马选举。但这次无论结果是谁获胜,都只是少数人的选择。

千万不要以为大选之后重新研究各种数据,是“输不起,找理由”,这也是传统的一种,同时也是为了人们更加理解社会发生了什么,胜利一方如何胜利,失败一方为啥失败,这是非常有意义的。我估计很多人是从这次才第一次关心美国大选,比如“为什么加州一开票就蓝了,这是不是偏袒希拉里?”,问这个问题的人一定是第一次看,因为提出这个问题就说明他并不知道各大电视台Call(判定)一个州的具体工作模式。所以,觉得什么奇怪,就多看看就好。除了美国,英国,澳洲,加拿大,法国…大选都可以看看,它们都不一样,但都值得一看。

这次大选中另外一个值得一说的话题是社交媒体,尤其是社交媒体对选举结果造成的影响。

这次美国总统大选的特色是,双方候选人不是说自己如何好,而是说对方如何坏。这也不是什么新鲜事,竞选时候互泼脏水的老前辈是1828年美国总统选举,那时候没有互联网,竞选双方利用报纸互相攻击,捏造对方的谣言。情况和今天非常像,只不过当时的报纸,换成了今天的社交网络。

社交网络起正面作用的时代,是2008年奥巴马那次选举。很多人认为这次川普通过社交网络和支持者对话,是一个创举。很遗憾这不是他的发明,而是2008年奥巴马参选的发明。川普的发明是通过社交网络传播对方的谣言以及谩骂对手,说各种极端言论,以获得更高曝光率,而越是离奇的谣言和极端言论,就越容易获得传播。本次大选期间最辛苦的网站应该算是著名的事实核查网站 Snopes ,因为Facebook上传播的假消息实在太多,Snopes拼了命去核查也只能验证其中极小的一部分。这个现象全球是统一的,中国用户也不陌生,在微信、微博上遇到过的假消息只多不少,从养生秘诀到这从关于希拉里的各种传说,假消息实在太多了。这些流传在社交媒体上的假消息是否影响了大选结果,现在已经是新闻媒体行业和互联网行业共同讨论的话题,甚至扎克伯格本身也卷入了这场讨论。这次大选可能会改变很多东西,比如硅谷公司是否还能坚持长久坚持的“技术中立”吗?甚至“技术中立”真的是对社会有利的吗?这些问题未来都需要得到一个答案,这些问题的答案都比选举结果本身更重要。更进一步是,如果有一天扎克伯格去竞选,结果会怎么样?(我想起来那个马化腾竞选的笑话了……)

前面说到了互相泼脏水的鼻祖1828年美国选举,在那一次选举中,竞选人杰克逊被描述成“杀俘虏、皮条客、强占别人老婆”。看看下面这张当年的宣传册小标题“杰克逊杀害6位军人” 对比下现在的“希拉里邮件门背负的5条人命”,是不是非常相似?比起来似乎当年做的小册子还精美一些,上面还画着棺材和挥刀杀人的照片。而在这之前,杰克逊取得了1812战争最大的一场胜利,是战争英雄,参选之后被当作了人渣。希拉里在几年前是美国政客中声望最高的人之一,参选之后被当作了骗子和罪犯, 是不是也和历史非常相似?人类世界似乎没什么新鲜事,所有我们今天看到的事情都能在历史上找到对应的事件。

6400z94wrzm

在那之后,利用报纸泼脏水甚至成了一个必须研究的技能。而这一次选举之后,很可能利用社交网络攻击对手也成了一个必须研究的技能。硅谷人士感觉万分沮丧,一方面是来自不喜欢的人做了总统,另外一方面恐怕是猛然发现了互联网尤其是社交网络不再是理想中的中立工具之后的失落感。相信我的读者也有同样的感受,谣言传播的永远比事实核查快的多,也广的多。这也是我为什么一直建议多阅读英文主流媒体的新闻。主流媒体的确有各种缺陷,但在事实的严谨性上还是好的太多了,如果你不信任某个媒体(比如这次过度偏袒希拉里的CNN),那就多读几份互相平衡。

综合这篇文章,我想说的是,无论是主流媒体还是各种数据,都有各种的缺陷,这是无可否认的事实。但是比起其他方法,这些还是相对可靠的,人们会修正它们,提升它们,改进它们,而不是放弃它们,人类就是这么进步的。

有一些人确实可以通过其他方式看到社会的真相,和菜头从社交媒体看到沉默的大多数,梅丽珊卓从火中的幻像看到未来,这是令人敬佩的能力,但很遗憾,这些能力我都没有,我只能依赖于媒体和数据来试图理解世界发生了什么。

tl;dr: 还记得AlphaGo那五场围棋比赛吗?如果你只看了第四局,你会嘲笑人工智能非常傻,还不如一个小孩下的好。但如果你看完所有五局,你会觉得机器和算法已经在某些方面追上了人类。最近DeepMind说,他们又做了很多提升,很快会再开始挑战人类。这一次,你猜结果会是什么呢?我想结果是AlphoGo仍然有可能大败。但未来总有一天,人类再也不可能胜过它。

预测选举结果这件事也一样,下一次预测会比这次做的更好,再下一次会更好。未来会不会有一天达到100%准确预测?我想在很久之后,会有这一天。但如果这一天到来,还需要选举干什么?机器就直接决定了结果。到了那一天,人们还需要一个人类的总统和内阁管理国家吗?是不是算法更公平的决定一切?到那一天,人类还是今天的人类吗?

其实,谁说对了谁说错了不重要。重要的是,你自己到底从中获得了什么好处。更确切的说,你的安全带系好了吗?附送一张图,这是EIU预测的2016全球十大风险。这张图在英国退欧成功时候曾经被广为传播,现在又是重新拿出来它的时候。

6403xcib2cg