被打飞 | 弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。

弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。

@被打飞

方韩争方兴未艾，但真正有水平的发言不多。昨天我的老朋友 @破破的桥
的文章《韩寒代笔探讨：强质疑、弱质疑、和忽悠》则毫无疑问的算一篇（我感觉是最好的一篇）。

http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html

概括来说，这篇文章把“质疑”分为三种，强质疑（找到发生概率仅为0.1%或更低的事件，下称强疑点），弱质疑（找到发生概率20%的事件，下称弱疑点），忽悠（拿发生概率50%甚至更高的事件当疑点）。他指出，目前质疑派并未提出强质疑，有的只是弱质疑和忽悠。

这篇文章写的非常之好，观察一下“质疑派”的反应，似乎也承认或默认目前没有发现强疑点。不过，我看来可惜的一点是，破桥文章并没有讲清弱疑点为什么“弱”的关键因素。

果然，很快不少人提出，弱疑点能够串起来增强质疑力，形成力度等同于强疑点的“证据链”。其中，@虚逐子
的反驳文章《只见树木不见森林》是典型。这篇文章甚至用数学手段示范了如何将忽悠级别的“疑点”组合成强证据链的。

一应用到数学，就有一个好处：正误标准一清二楚，用对了就是对了，不对就是不对，非黑即白，不存在中间状态。我们下面就来检查一下此文中数学的应用。

@虚逐子原文如下：

http://blog.sina.com.cn/s/blog_809332ae01011o5v.html

“我们来看看证据链是如何显著增强孤立“忽悠”的可靠性的。有这么四个“忽悠”：韩寒不知道《三重门》名字的来源；《求医》描述了一个他没出生年代的医院场景；病情描述和疥疮不符；视频访谈谈到赛车和女人时可以谈得眉飞色舞，但是谈到文学，特别是谈到以他的名义出版的那些作品时，他就一问三不知。假设韩寒没有代笔，这四个质疑是独立的，每一个几率是50%，50%的四次方=6.25%，这已经是很强的证据。并且形成了一个完整的指向韩文代笔的证据链，其可能性93%以上。如果进一步增加独立的或者弱相关的证据，这种可能性会更多，也许会达到能够接受的可能性。”

他这段写的有点不清不楚，甚至还存在基本概念上的混淆。不过未必人人都受过严格的概率学训练，不强求。我先帮助他把意思说的明确和严格一些。

@虚逐子
的意思是，假定从韩寒作品里找到ABCD四个疑点，如果韩寒真的没人代笔，每个疑点出现的可能性仅为50%，且相互独立。那么韩寒没代笔情况下该四个疑点同时出现的概率为50%的四次方，即6.25%，这是个较小的数字，反过来似乎说明了韩寒没代笔的“不可能性”。在统计学上，这种的数字小于5%，则认为可以构成“无代笔”的强证据。

（对概率不熟悉者此段可跳过当然，后面@虚逐子
网友画蛇添足的将此解释为“其（代笔）可能性93%”以上，是个错误，反应出他不理解逆概公式。但这不是个关键。因为统计学上，对某个假设的排除可直接根据原始p值，即这里计算得到的6.25%来进行，并不用计算逆概。）

很可惜。这种计算是完全错误的。为什么错？为什么忽悠和弱疑点不能这样叠加成强疑点？@破破的桥
的解释是，这些弱疑点不独立（也就是说，某个出现的话，其他的更有可能出现），因此概率上不能直接相乘。这是原因之一。但不是主要原因。因为既然弱疑点能找到很多，不排除其中有真正独立的，几个独立的一乘下来，证明力不就指数上升，真的形成强证据链了吗？

其实，弱疑点串不起来关键原因很简单：未考虑总样本数。一个简单的例子就能说清：扔硬币。假定我每扔一枚硬币，如果不作弊的话，正反面概率各为50%。我扔了100次，每次都把结果记录下来。最后正反面各约50次。然后你想来“质疑”我，采取一种方案，偷偷把我的记录中，所有出现硬币“反面”的结果抹去，换句话说，只把“正面”的结果拿出去给人看。然后别人会惊奇的发现，50次正面！如果没作弊，这样的概率是多少呢？50%的五十次方，实际上就是零。因此一般人都会感觉我肯定作弊了。但是，如果我告诉大家这五十次正面是我通过扔一百次硬币得到的，大家马上就明白：这没什么不正常。

聪明的读者可能已经看出来了，这已经解释了@虚逐子方法错在何处。下面我们再不厌其烦的针对他的具体例子做些较严格的数学计算。

为展示虚竹子的错误和运算方便，我们不妨把50%这个数值再调小一点，变成10%。也就是假定虚竹子真的找到了4个“弱疑点”，而不是什么忽悠。按照虚竹子的计算，如果韩寒没代笔，则四个疑点同时出现的概率将是10%的四次方，也就是万分之一，这无疑是很小的一个值，似乎更可以排除“无代笔”的假设。

但是，别忘了，这四个疑点是翻遍了韩寒的大量作品和访谈才找到的。为了描述方便起见，假定这四个疑点是韩寒作品中出现的四句话。而韩寒作品中与代笔问题有关联的话共有100句（这显然保守了），如果韩寒无代笔，则每一句达到此可疑程度的概率均为10%。那么问题正确的提法应该是：如果韩寒无代笔，找到4句以上此种可疑程度的话概率为多少？我们来计算一下。为简便起见，仍然不考虑相关性。

先用常识判断。既然每一句如此可疑的概率为10%，则100句中如此可疑的话总数应为

100×10%=10句

能挑出四句或更多的可能性极大。

再看看数值计算，具体公式这里不演示了，可利用二项分布或其正态近似。粗通统计学的本科生都应该会算，否则相应课程考试无法及格。答案约为98%。

换句话说，因为没考虑产生疑点的“样本总量”，将98%的可能性，误算成万分之一的可能性！

实际上，在统计学中，这叫survivial
bias。也就是说，专挑可疑的，但不看这些可疑事件是从多大样本量里挑出来的。而样本量足够大后，总能挑出来足够多，放在一起挺吓人的。但其实什么都说明不了。

这就是“弱质疑”到底弱在哪里的真正原因。有趣的是，我认为这正是一切深文周纳的阴谋论得以奏效的本质原因。有点可疑但不那么可疑的事情单独挑出来放在一起，对旁观者造成很大震撼，这时候，就算别人指出还有很多事不可疑，但人类心理天然反应，对那些不可疑的事情不大关心，但就是惦记着可疑的那些。此时，懂一点数学，就能有效的防止被忽悠。（我这好像成了现场反驳韩寒的数学无用论？）

本文由自动聚合程序取自网络，内容和观点不代表数字时代立场

Loading…

被打飞 | 弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。

CDT/CDS今日重点

支持中国数字时代

蓝灯·无界浏览器计划

CDT 新闻简报

读者投稿

近期热门视频

近期热门播客节目

媒体报道

被打飞 | 弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。

相关文章

张3丰的世界｜ “只向真理低头”，何其难也

海边的西塞罗｜“公知”，你到底有什么用？

幸存者筆記｜在2022年的中国，启蒙可以成为一门生意吗？

一只猫的折叠花筒｜司马南大行其道，背后是知识分子整体从公共空间退场

押沙龙yashl｜每个时代都应该有自己的王小波

CDT/CDS今日重点

支持中国数字时代

蓝灯·无界浏览器计划

CDT 新闻简报

读者投稿

近期热门视频

近期热门播客节目

媒体报道