传媒人

【舒立观察】量宽退出应成改革推进器

经济增速下降,加上量宽退出带来的外部压力,金融风险将陡然增加,亟须加快改革步伐 中国可能面临又一轮外部经济冲击。 此轮冲击来自后危机时代的宏观经济政策“正常化”进程,美联储退出量化宽松政策将对包括中国在内的新兴经济体构成严峻考验。上周,美国参议院批准珍妮特·耶伦出任美联储主席,其施政举措需密切关注。 为应对百年不遇的全球金融危机,美联储采取了力度空前的三轮量化宽松政策,其资产负债表大为膨胀,隔夜拆借利率压至零到0.25%之间。2013年1月,美联储公布了退出零利率政策的“门槛”,即失业率下降至6.5%或预期通胀率超过2.5%。此后,随着美国经济复苏,失业率门槛已经达到。尽管伯南克多次表示,这些设定只是退出的必要条件,而非触发条件,但是,从2014年1月起,量化宽松规模开始缩减,每月购债规模由850亿美元减少到750亿美元,量宽政策渐近尾声、行将扭转已无可争议。   阅读全文

阅读更多

【舒立观察】土地困局解套可从存量入手

尽快允许农村集体建设用地入市,盘活存量土地,为中国城镇化进程开拓宽阔空间 新一轮土地制度改革势在必行,却争议不断。 日前,国土资源部部长姜大明表示,“除生活用地外,原则上不再安排人口500万以上特大城市新增建设用地。”此番表述引起轩然大波。 其实,姜大明讲话自有依据,符合三中全会决议有关精神。不久前召开的中央城镇化工作会议也提出:“城镇建设用地特别是优化开发的三大城市群地区,要以盘活存量为主,不能再无节制扩大建设用地,不是每个城镇都要长成巨人。” 姜大明表述时以500万人口划线,扩大了限制范围,招致误解或非难,在情理之中。但其盘活土地存量的讲话要旨,无疑切中了新一轮土地改革的要害。三中全会的土改议题多有突破,值得期待,其中,只要盘活土地存量这一篇文章做好,就足以为未来中国城镇化进程开拓宽阔空间。   阅读全文

阅读更多

方可成 | 记者在做报道时应如何解读数据

以下这篇文章的作者是在哥伦比亚大学开设了“计算新闻学”课程的Jonathan Stray。他曾在一次工作坊中就此主题做了一个半小时的演讲( 视频在Youtube可见 ),幻灯片 点此 。 由数据得出结论 撰文:Jonathan Stray 翻译:杨颖芝 方可成 数据记者的职责是将数据变成故事。若从一张癌症患病率的数据表开始,你的故事可能是“在炼油厂附近居住的人患肺癌率是其他人的三倍”。但真实的情况或许不是这样,因为你可能误读了数据。 解读数据 一则数据新闻报道通常会揭示出数据的一些模式。让我们回想一下那些新闻标题:《下降的犯罪率》、《人类活动导致气候变化》,或者《在持枪率更高的国家,有更多的人死于枪下》。这些标题到底在说什么,它们都是真的吗? 数据不会自己说话 ,否则数据记者也不必存在了。数据需要被解读。解读数据的过程包括:选择和获取相关数据,寻找有趣的事实或模式,然后把它们放在大背景中来解释其意义。在这个过程中,每一个步骤都可能会出错,很抱歉这样说,但即使是专业的记者有时也会写出错误的故事,像 这篇 和 这篇 。 很多原因都会造成你对数据的错误解读。你可能选择了错误的原始数据,或者你不了解原始数据是怎么收集的,它们有什么局限性。你可能以为自己发现了规律,但其实不过是巧合:有些现象可能只是偶然出现的,因而你不能把它当做事实来呈现。很多数据主导的新闻报道会声称或者暗示两个变量的因果关系,但因果关系其实是很复杂的,很容易被误解。或者,你可能只分析了很少量样本的数据,却错误地认为自己得出的结论能够推广至所有案例。 想知道自己是否正确地解读了数据,你可以问自己以下几个基本的问题。 1、数据是如何收集的? 数据当然不是从天而降的。它们是由专门的人员或者机器出于特定的目的收集而来的。数据可能跟一些人的经济或政治利益有关。比如,警察局想要看到犯罪率下降,这种期待可能就会 影响犯罪案件的记录方式 。你必须理解数据产生的过程和其过程中可能发生的错误。许多数据记者把这个过程称为“采访数据”。这些是你可以问的问题: 这些数字是哪里来的? 谁记录了这些数字? 怎么记录的? 出于什么目的收集这些数据? 我们怎么才能够知道数据是完整的? 这些数据的人口统计信息是什么? 用定量的方法解决这个问题是正确的吗? 这些数据中不包括什么? 这些数据的结果会对谁不利? 数据是始终如一的,还是由不同人统计的? 为了生成这些数据,需要做出哪些随意的决定? 这些数据与其他来源的数据相符吗?有谁已经分析过这些数据了? 数据有已知的缺陷吗?有多个版本吗? Derek Willis在 处理人种和种族的数据 时的冒险经历很好地说明了,要想正确理解一组数据,会遇到哪些困难。 2、样本符合统计显著性的要求吗? 这个问题跟可能性有关,确切地说,很可能你看到的现象仅是偶然发生的。它可能是由完全无关的因素所导致的,这种可能性越大,你发现真相的几率就越小。 你知道纯粹的随机性长什么样吗?其实,真正的随机数据,比如掷骰子得出的数字,很可能并不是一团混乱,而是会带有十分有趣的模式,这种可能性比大多数人设想的要高得多。在演讲中,我提到了这方面的一些例子,它们有助于你更好地理解随机性。了解了这一点,我们就会知道,一定要问问自己观察到的现象是否只是巧合。对于一个统计学家或数据记者而言,“有多大的可能性?”并不是一个口头上的问题,而是需要通过定量研究来回答。 统计检验正是要弄清楚:你从数据中观察到的现象,有多大可能是偶然发生的。一些人觉得这个过程很可怕,因为需要数学计算。我的演讲大部分都在讲统计检验,但我用了很不一样的方式,你在大部分教科书中都找不到这种方式。有了这种新的方式,你可以通过使用少量代码来完成检验,无需涉及数学方程式。我在演讲中提到了一些例子,以下是具体介绍这个方法的相关文章和书籍: 《 Statistical Modeling: A Fresh Approach 》。这本书是我所知道的最棒的统计学教材,因为它采用了现代计算机和数据驱动的方法,并且清晰地解释了内在逻辑。前五章可供读者免费阅读,并且可以让你学会用R软件计算置信区间,这足够解决各种各样的统计问题。 《 Permutation methods: a basis for exact inference 》。它简短地介绍了一些简单的方法来做复杂的统计检验,比如检验两所学校学生的考试成绩是否有显著差异。内容的密度有些大,但依靠少许几行编码你就可以掌握其核心技术。 《 Graphical inference for infovis 》。它是对上一篇文章中逻辑的延伸,将之扩展到数据可视化领域。本文介绍了很实用的技术,适用于你能想象出的任何类型的数据可视化。每一个数据记者都该熟悉它。 《 The introductory statistics course: a Ptolemaic curriculum 》。这门课程讲述了置换法(permutation)和随机检验的历史,并介绍了为什么这些方法最近才被写入教科书。统计学通常不是这么教的,但这些方法完全可靠,在概念上也比z-scores, t-tests等等概念更易于理解。 3、你对因果关系的理解正确吗? 当我们说“在炼油厂附近居住的人患肺癌率较高”时,我们通常的意思是“炼油厂造成了较高的患癌率”。然而正如一句老话所说, 相关性并不等于因果关系 。“相关性”仅仅是指数据中的一种关系,当你在做视觉可视化时,需要这种关系。但即使你发现A与B是相关的,你仍然需要证明A是B的原因。 两个变量之间有相关性,通常只有少数几种原因。假设我们发现:持枪率更高的国家有更多的枪支杀人案件,那么原因可能有这几种: 拥有枪支滋生了杀人案(人们有了枪就会用它们杀人) 杀人案的存在导致更多人拥有枪 (在不安全的地方住,会买枪自卫) 其他某种可以同时导致杀人案与拥有枪支的原因(可能是贫困) 这只是巧合(用统计检验来排除这个可能性) 要证明你所设想的因果关系存在,最简单的方法就是排除其他的可能性。首先,你要排除偶然性,这正是统计检验要做的。如果通过了统计检验,那么很有可能的确存在因果关系,不过你仍需要弄清楚是怎样的因果关系。 当有时间元素出现的时候,这件事会变得很简单。例如,当“可爱”这个词出现在网络约会信息上时,会导致某些人回复,但一条回复并不会导致你写出“可爱”,因为回复发生在你发出信息之后。 在其它情况下,像枪支的例子,就很难确定其中的因果关系。请特别小心同时影响两个变量的潜在因子,我们叫它 混淆变量 。 4、你的结论能推而广之吗? 报道一则新闻时,你经常用很少的样本代表很大的总体。比如,你采访了五个学生的债务经历,却想由此得出所有学生都欠债的结论;你分析了一所学校的数据,却想对整个州所有学校的情况下定论。 有时候,你没有很明确地说自己是在推而广之,但假如你没有说清楚自己的分析有什么局限,读者就会自己做出概括。例如,可能由于媒体 只报道最严重的暴力犯罪 ,美国人认为暴力犯罪一直在增长,但事实上暴力犯罪已经在20年前就呈减少趋势了。暗示性的报道也会加强刻板印象或者种族、收入和性别歧视。你也许会用Twitter上的数据做可视化,但这样的数据可视化只告诉了我们Twitter用户的情况,而Twitter用户多是年轻人、中产阶级和男性。这意味着你的可视化并不能说明每个人的情况,但当读者在欣赏漂亮的图片时,他们可能不会意识到这个问题。 任何的推而广之都是危险的,但在某些特定的情况下是可行的。比如,一千人的民意调查就可以推广至全国。这种调查可以推广是因为它采用了非常小心的抽样策略,而其代价就是 误差幅度 ,它告诉你这种推论的错误可能性和错误程度有多大。我的演讲没有涉及民意调查和其它推论的具体方法,而是希望你确定问了自己这样的问题: 我说明或暗示自己的结果可以推而广之了吗? 如果是,我怎么知道它们可以推广? 读者有可能认为我的结果可以推而广之吗? 如果是,我怎么能够确定读者准确地理解了呢? 一个强大的工具包 回答这四个方面的问题,并不是解读数据的终点,但它们是很强大的工具,所有的基本概念都在这里了。其实,置换测试和图形推理可以用于更复杂的数据分析,你也可以根据自己的需求去学习其它分析方法。比技术性的知识更重要的,是知道自己需要问什么问题的直觉,以及确保他人在发表前问过这些问题的原则。 你要把这些问题运用到自己的作品以及同事的作品中,并且用它们去评价专家学者的发现。我每天都会读到错误解读的数据新闻,希望你的故事不是这样的。  

阅读更多

方可成 | 2014年数据新闻新趋势预测

站在2014年的开头前瞻一整年的媒体变革,已经获得相当多关注的数据新闻(Data-Driven Journalism)将继续成为核心关键词之一。 美国传播学者Amy Schmitz Weiss在 自己的网站 上预测了2014年的数据新闻新趋势。新闻实验室择要编译如下。 1、通过传感器获取的数据 2014年,通过传感器获取的数据将会成为前沿和中心。如今,很多设备都带有传感器(从你的冰箱到你的智能运动腕带)。它们获取的数据虽然是少量的、个人化的,但如果将这些数据集合起来,或许会令人大开眼界——它们能够展现出社会潮流和趋势,让我们真正了解这个世界上正在发生什么。 在很多情况下,这些数据被设备制造商或第三方机构获取,所以关键问题是:它们如何使用这些数据,如何准确地向公众展示这些数据?对于记者来说,或许可以关注对这些数据的使用情况(公共,还是私人?)。 更重要的是,新闻业如何有机会使用这些传感器获取的数据,以做出服务于公众利益的报道?2013年一则 利用传感器跟踪蝉在美国东海岸行踪 的新闻曾经展示了此类数据的威力。2014年,料将有更多精彩的报道项目建立在利用传感器获取的数据基础之上。 2、d3更多地用于地图制作 地图数据的大量使用在2013年是一大特点,并将在2014年继续扮演重要角色。我们将看到很多新闻机构和记者不再满足于使用传统的地图技术,而是开始探索使用d3。 D3是一个用于操作基于数据的文档的javascript库,它可以让用户控制数据的所有部分,同时可以在将数据定位于一个地点、地理坐标或地区的时候有强大的控制。要想详细了解这项技术,推荐阅读连线杂志Nick Stockton的 这篇文章 。 3、数据库 2014年,全世界范围内将出现更多的数据库(data libraries)。其中一些将由第三方机构创建,另一些则将通过记者的合作实现,还有一些会是新闻机构的作品。 这些数据库的种类将十分多样,有的是盈利性质,使用需要付费,有的则将是开源的。同时,数据库将不再仅仅是数字的集合,它们将会同时涵盖视频、图像、照片等等。2013年在新闻报道中使用的数据库包括 Quandl 、 Knoema 等等。《芝加哥论坛报》几年前创建的数据库工具 Panda 也在一些项目中发挥了重要作用。这一领域值得持续关注。 4、超级组合:JavaScript、jQuery和HTML5 2014年,越来越多的数据新闻项目将不再是由一件简单的工具制作而成。它们将会更多地借助JavaScript、jQuery和HTML5的强大组合。 一个展示这一强大组合的例子是 HighCharts 。它已经并将继续成为许多媒体绘制图表的得力助手。 如果你不确定怎样开始掌握这些技术,可以阅读这份关于使用HighCharts的 教程 。 5、深度分析数据的意义 2013年,全球新闻界贡献了一些卓越的数据新闻项目,一些美丽的数据可视化作品。但是更关键的问题是,这些数据到底意味着什么?一则数据驱动的新闻作品成功与否,最终取决于它背后的意义。 2014年,我们将会看到的趋势是,媒体将不满足于传统的数据展示,而要更深一步地分析数据,在此基础上做出更好的报道,帮助公众理解数据的意义。这项工作将需要最大限度地利用统计学和数据科学。 害怕统计学吗?别这样。现在是抓紧学点统计的最佳时机。这里有一份 启蒙读本 ,而 这篇文章 则教会记者怎样从数据中得出结论。 ◆ 本文首发于方可成的微信公众账号“新闻实验室 The News Lab”。欢迎关注,期待与你产生化学反应。 关注方法1:打开微信,选择“扫一扫”,扫描下面的二维码 关注方法2:打开微信,在添加朋友中搜索newslab

阅读更多

方可成 | 为什么美国最左的城市种族不平等最严重?

我在美国威斯康星州首府麦迪逊(Madison)读书。这里一直被认为是美国最左的城市之一,有着“麦迪逊人民共和国(The People’s Republic of Madison)”的绰号。美联社有一篇新闻的开篇第一句话是这样写的: 在威斯康星州的极端自由派首府城市里,什么都可能发生,从街头派对到裸体骑自行车活动(感兴趣的戳 这里 )。 社会平等议题是左派关心的重点。按照这样的逻辑推断,麦迪逊应该是一个平等程度很高、贫富差距很小的城市。然而,事实却正好相反——至少在种族平等方面如此。 去年10月,一个叫做 Race to Equity 的组织发布了一份报告,将麦迪逊(以及麦迪逊所属的丹恩郡)的种族不平等状况与美国整体的情况做了比较,结果相当惊人—— 2011年,丹恩郡的黑人失业率高达25.2%,而白人的失业率只有4.8%。作为对比,美国全国的黑人失业率是18%,白人8%。 丹恩郡内超过54%的非裔美国人生活在联邦政府的贫困线之下,是全国平均水平的两倍,而白人的贫困率只有8.7%。也就是说,黑人贫困的几率是白人的6倍多。 单看儿童的贫困率,差距就更大了。超过74%的黑人儿童生活在贫困线下,而白人儿童只有5.5%的贫困率。13:1的比率,足以使丹恩郡成为美国儿童贫富差距最大的地区。 在麦迪逊公立学区,非裔美国高中生的按时毕业率只有50%,而白人学生则有85%。黑人学生被停学的几率是白人的15倍。 虽然黑人青少年人数不到整个地区青少年人口的9%,但少管所(juvenile correctional facility)里的黑人却占到近80%。在2010年,丹恩郡黑人青少年被逮捕的几率是白人青少年的6倍——这个比率在威斯康星州是3:1,在全美国是2:1。 成年男性中,黑人比例只有4.8%,但2012年被投入监狱的人中却有43%是黑人。 在全部40项指标中,绝大部分数据都显示:丹恩郡的种族不平等状况比全国平均水平更严重,只有2项例外。 如果麦迪逊是一个向来以保守著称的城市,那么这些数据肯定不会那么令人惊讶。为什么一个高喊社会平等的城市,自身的黑白族群差距会这么大? 这份报告也试着给出了一些解读。报告作者认为,“罪魁祸首”之一,正是让麦迪逊人引以为傲的威斯康星大学。 麦迪逊是一座大学城,整座城市以威斯康星大学麦迪逊分校为中心。其后果之一是,源源不断到来的学生们抢走了很多工作。城市内及城市周边的大多数工作都要求较高的学历和技能,而这些工作往往被希望留在麦迪逊的毕业生们得到。教育水平相对较低的人,在这里能获得的机会非常少。 即便是那些不需要太高学历和技能的工作,比如零售、招待、劳务、建筑、制造、交通,也大量被学生们抢走——在校生们依靠这些兼职工作来赚取生活费。在和学生们的竞争中,黑人处于明显的劣势。 人力资源部门在招聘时的一些做法令情况更加恶化——他们往往要求证书、推荐信、培训,设置各类门槛。有意无意之间,给教育水平较低、相关经历较少的求职者构成了巨大的障碍。 当然,黑人的糟糕生存状况还与其他因素有关。比如,麦迪逊没有大型的黑人聚居区,他们分散聚集在十几个点上,构成了白人社会中的一块块小型“飞地”。在这些“飞地”中,往往没有大型超市、公立学校、教堂、市民中心、公共空间,甚至没有酒吧、餐厅,也没有大的雇主。在城市公交系统中,这些“飞地”获得的服务也往往很少或很不平均。 麦迪逊的例子展示了一个社会从理念到实际之间的遥远距离——在它们中间,横亘着公共政策、经济结构、人口构成、历史地理等许多因素。倘若忽视这些具体的变量,单单根据人们口头上喊什么做判断,很容易犯下想当然的错误。 (本文首发于 政见 团队在知乎开设的 专栏 )

阅读更多

CDT/CDS今日重点

【CDT月度视频】十一月之声(2024)——“一路都被撞没了,估计一圈都没了”

【年终专题】“13条生命换不来1条热搜”……2024年度“每日一语”

【年终专题】“中文互联网上的内容每年都以断崖式的速度在锐减”……2024年度404文章

更多文章总汇……

CDT专题

支持中国数字时代

蓝灯·无界计划

现在,你可以用一种新的方式对抗互联网审查:在浏览中国数字时代网站时,按下下面这个开关按钮,为全世界想要自由获取信息的人提供一个安全的“桥梁”。这个开源项目由蓝灯(lantern)提供,了解详情

CDT 新闻简报

读者投稿

漫游数字空间