以下这篇文章的作者是在哥伦比亚大学开设了“计算新闻学”课程的Jonathan Stray。他曾在一次工作坊中就此主题做了一个半小时的演讲(视频在Youtube可见),幻灯片点此。
由数据得出结论
撰文:Jonathan Stray
翻译:杨颖芝 方可成
数据记者的职责是将数据变成故事。若从一张癌症患病率的数据表开始,你的故事可能是“在炼油厂附近居住的人患肺癌率是其他人的三倍”。但真实的情况或许不是这样,因为你可能误读了数据。
解读数据
一则数据新闻报道通常会揭示出数据的一些模式。让我们回想一下那些新闻标题:《下降的犯罪率》、《人类活动导致气候变化》,或者《在持枪率更高的国家,有更多的人死于枪下》。这些标题到底在说什么,它们都是真的吗?
数据不会自己说话,否则数据记者也不必存在了。数据需要被解读。解读数据的过程包括:选择和获取相关数据,寻找有趣的事实或模式,然后把它们放在大背景中来解释其意义。在这个过程中,每一个步骤都可能会出错,很抱歉这样说,但即使是专业的记者有时也会写出错误的故事,像这篇和这篇。
很多原因都会造成你对数据的错误解读。你可能选择了错误的原始数据,或者你不了解原始数据是怎么收集的,它们有什么局限性。你可能以为自己发现了规律,但其实不过是巧合:有些现象可能只是偶然出现的,因而你不能把它当做事实来呈现。很多数据主导的新闻报道会声称或者暗示两个变量的因果关系,但因果关系其实是很复杂的,很容易被误解。或者,你可能只分析了很少量样本的数据,却错误地认为自己得出的结论能够推广至所有案例。
想知道自己是否正确地解读了数据,你可以问自己以下几个基本的问题。
1、数据是如何收集的?
数据当然不是从天而降的。它们是由专门的人员或者机器出于特定的目的收集而来的。数据可能跟一些人的经济或政治利益有关。比如,警察局想要看到犯罪率下降,这种期待可能就会影响犯罪案件的记录方式。你必须理解数据产生的过程和其过程中可能发生的错误。许多数据记者把这个过程称为“采访数据”。这些是你可以问的问题:
这些数字是哪里来的?
谁记录了这些数字?
怎么记录的?
出于什么目的收集这些数据?
我们怎么才能够知道数据是完整的?
这些数据的人口统计信息是什么?
用定量的方法解决这个问题是正确的吗?
这些数据中不包括什么?
这些数据的结果会对谁不利?
数据是始终如一的,还是由不同人统计的?
为了生成这些数据,需要做出哪些随意的决定?
这些数据与其他来源的数据相符吗?有谁已经分析过这些数据了?
数据有已知的缺陷吗?有多个版本吗?
Derek Willis在处理人种和种族的数据时的冒险经历很好地说明了,要想正确理解一组数据,会遇到哪些困难。
2、样本符合统计显著性的要求吗?
这个问题跟可能性有关,确切地说,很可能你看到的现象仅是偶然发生的。它可能是由完全无关的因素所导致的,这种可能性越大,你发现真相的几率就越小。
你知道纯粹的随机性长什么样吗?其实,真正的随机数据,比如掷骰子得出的数字,很可能并不是一团混乱,而是会带有十分有趣的模式,这种可能性比大多数人设想的要高得多。在演讲中,我提到了这方面的一些例子,它们有助于你更好地理解随机性。了解了这一点,我们就会知道,一定要问问自己观察到的现象是否只是巧合。对于一个统计学家或数据记者而言,“有多大的可能性?”并不是一个口头上的问题,而是需要通过定量研究来回答。
统计检验正是要弄清楚:你从数据中观察到的现象,有多大可能是偶然发生的。一些人觉得这个过程很可怕,因为需要数学计算。我的演讲大部分都在讲统计检验,但我用了很不一样的方式,你在大部分教科书中都找不到这种方式。有了这种新的方式,你可以通过使用少量代码来完成检验,无需涉及数学方程式。我在演讲中提到了一些例子,以下是具体介绍这个方法的相关文章和书籍:
- 《Statistical Modeling: A Fresh Approach》。这本书是我所知道的最棒的统计学教材,因为它采用了现代计算机和数据驱动的方法,并且清晰地解释了内在逻辑。前五章可供读者免费阅读,并且可以让你学会用R软件计算置信区间,这足够解决各种各样的统计问题。
- 《Permutation methods: a basis for exact inference》。它简短地介绍了一些简单的方法来做复杂的统计检验,比如检验两所学校学生的考试成绩是否有显著差异。内容的密度有些大,但依靠少许几行编码你就可以掌握其核心技术。
- 《Graphical inference for infovis》。它是对上一篇文章中逻辑的延伸,将之扩展到数据可视化领域。本文介绍了很实用的技术,适用于你能想象出的任何类型的数据可视化。每一个数据记者都该熟悉它。
- 《The introductory statistics course: a Ptolemaic curriculum》。这门课程讲述了置换法(permutation)和随机检验的历史,并介绍了为什么这些方法最近才被写入教科书。统计学通常不是这么教的,但这些方法完全可靠,在概念上也比z-scores, t-tests等等概念更易于理解。
3、你对因果关系的理解正确吗?
当我们说“在炼油厂附近居住的人患肺癌率较高”时,我们通常的意思是“炼油厂造成了较高的患癌率”。然而正如一句老话所说,相关性并不等于因果关系。“相关性”仅仅是指数据中的一种关系,当你在做视觉可视化时,需要这种关系。但即使你发现A与B是相关的,你仍然需要证明A是B的原因。
两个变量之间有相关性,通常只有少数几种原因。假设我们发现:持枪率更高的国家有更多的枪支杀人案件,那么原因可能有这几种:
- 拥有枪支滋生了杀人案(人们有了枪就会用它们杀人)
- 杀人案的存在导致更多人拥有枪 (在不安全的地方住,会买枪自卫)
- 其他某种可以同时导致杀人案与拥有枪支的原因(可能是贫困)
- 这只是巧合(用统计检验来排除这个可能性)
要证明你所设想的因果关系存在,最简单的方法就是排除其他的可能性。首先,你要排除偶然性,这正是统计检验要做的。如果通过了统计检验,那么很有可能的确存在因果关系,不过你仍需要弄清楚是怎样的因果关系。
当有时间元素出现的时候,这件事会变得很简单。例如,当“可爱”这个词出现在网络约会信息上时,会导致某些人回复,但一条回复并不会导致你写出“可爱”,因为回复发生在你发出信息之后。
在其它情况下,像枪支的例子,就很难确定其中的因果关系。请特别小心同时影响两个变量的潜在因子,我们叫它混淆变量。
4、你的结论能推而广之吗?
报道一则新闻时,你经常用很少的样本代表很大的总体。比如,你采访了五个学生的债务经历,却想由此得出所有学生都欠债的结论;你分析了一所学校的数据,却想对整个州所有学校的情况下定论。
有时候,你没有很明确地说自己是在推而广之,但假如你没有说清楚自己的分析有什么局限,读者就会自己做出概括。例如,可能由于媒体只报道最严重的暴力犯罪,美国人认为暴力犯罪一直在增长,但事实上暴力犯罪已经在20年前就呈减少趋势了。暗示性的报道也会加强刻板印象或者种族、收入和性别歧视。你也许会用Twitter上的数据做可视化,但这样的数据可视化只告诉了我们Twitter用户的情况,而Twitter用户多是年轻人、中产阶级和男性。这意味着你的可视化并不能说明每个人的情况,但当读者在欣赏漂亮的图片时,他们可能不会意识到这个问题。
任何的推而广之都是危险的,但在某些特定的情况下是可行的。比如,一千人的民意调查就可以推广至全国。这种调查可以推广是因为它采用了非常小心的抽样策略,而其代价就是误差幅度,它告诉你这种推论的错误可能性和错误程度有多大。我的演讲没有涉及民意调查和其它推论的具体方法,而是希望你确定问了自己这样的问题:
我说明或暗示自己的结果可以推而广之了吗?
如果是,我怎么知道它们可以推广?
读者有可能认为我的结果可以推而广之吗?
如果是,我怎么能够确定读者准确地理解了呢?
一个强大的工具包
回答这四个方面的问题,并不是解读数据的终点,但它们是很强大的工具,所有的基本概念都在这里了。其实,置换测试和图形推理可以用于更复杂的数据分析,你也可以根据自己的需求去学习其它分析方法。比技术性的知识更重要的,是知道自己需要问什么问题的直觉,以及确保他人在发表前问过这些问题的原则。
你要把这些问题运用到自己的作品以及同事的作品中,并且用它们去评价专家学者的发现。我每天都会读到错误解读的数据新闻,希望你的故事不是这样的。
本文由自动聚合程序取自网络,内容和观点不代表数字时代立场