禁词

译者 | 卡内基梅隆针对中国社交媒体上的“软审查”开展首次大规模分析

核心提示:卡内基梅隆大学(以下简称CMU)计算机系的研究者们分析了5700万条中国的微博,发现敏感词从”法轮功”到”碘盐”不一而足。删除的频率则根据当前时事和地理位置的变化,强度也有不同。 原文: Carnegie Mellon Performs First Large-Scale Analysis Of “Soft” Censorship of Social Media in China 来源:卡内基梅隆大学计算机系新闻简报 发表:2012年3月7日 本文由” 译者 “志愿者翻译并校对 【原文配图:全国范围内的网络审查。越红的地方审查力图越大。最严重的是西藏地区,高达53%的当地微博被删除。】 匹兹堡—— 卡内基梅隆大学(以下简称CMU)计算机系的研究者们分析了数百万条中国的微博,发现了一系列政治上敏感的短语,这些会引起中国的审查系统的注意。一旦博文中包括这些短语,通常都会被删除,删除的频率是基于当前热点或地理位置。 这一研究是首次大规模针对社交媒体上的政治内容审查进行的分析。今年早些时候,当推特(Twitter)宣布会按照国别政策删除不符合当地法律法规的推文时,这个议题引起了注意和争论。 在中国,在线审查高度发达,研究者们发现经常被删除的短语包括广为人知的禁词,比如法轮功,这是一个由中国政府禁止的教派运动,还有人权活动家艾未未和刘晓波。其他的禁词则是基于当前事件;在2011年2月期间,当两会成为指称”计划中的抗议”的暗语时,这个本来是指全国人民代表大会和政治协商会议的词成为了删除对象。 CMU的研究也展示出在某些省份微博的审查频率更高。这一现象在西藏尤其引人注目,西藏是政治抗议的温床,高达53%的当地微博被删除。 由语言技术学院(LTI)的助理教授诺兰·斯密斯(Noah Smith)、LTI的博士候选人大卫·巴曼(David Bamman)和机器学习系的博士候选人卜兰丹·康纳(Brendan O'Connor)联合这项研究的发表于同行审校的在线杂志《首个星期一》(论文 原文全文 )。 所谓的”防火长城”可以阻止中国居民登陆如谷歌和Facebook这样的外国网站,这是中国最广为人知的审查工具。其他的国家也会屏蔽网络,比如在去年阿拉伯之春抗议爆发时,埃及就曾经关闭过推特和其他的社交媒体网站。 巴曼说,但是中国或任何其他国家如果想要从网上交易或在线教育中受益的话,关闭所有网站是不可能的。替代的方式就是允许登陆网站,但是审查内容,去除那些被认为有害的信息。他还说,可以采用自动方式来删除一些信息,其余的则通过人工删除。带有敏感词的所有微博被删除的情况不常见,但某些特定的词语成为删除的对象,所发现的零散证据令人吃惊。 康纳说:”你会看到在某些微博中,博主甚至会问,’这会被删除吗?'”2010年年末,纽约时报的专栏作家纪思道(Nicholas Kristof)在中国的(新浪)微博网站上开了一个账号;在他发了一条关于法轮功的消息之后一小时之内,他的帐号被关闭了。 CMU的团队为了研究这种”软”审查,分析了新浪微博上将近5700万条消息,这是一个有超过2亿账号的类似于推特的中文网站。从2011年6月27日号-9月30号,他们用新浪微博提供给开发者的一个应用程序软件(API)来收集样本。 他们后来使用同样的API,以随机的方式检查了部分微博,查看它们是否被删除了,然后再取另一部分包括了已知的敏感词的微博进行测试。如果这条微博被删除,新浪则会回复给开发者一条信息:该微博已不存在。 举例来说,在6月底和7月初的时候,网络上开始流传江泽民的死讯,他是在1989年天安门抗议之后掌握权力的中共前总书记。在七月六日,传言达到了高峰,83条带有他的名字的信息当中有64条被删除,在七月七日,31条这样的信息中有29条被删除。 研究者们又作了一项调查,把新浪微博上的消息和推特上的中文消息进行对比,后者虽然在中国被屏蔽了,但还是有精通网络的用户能登录。七月六日,每75条推文中就会出现一次江泽民的名字,但在新浪微博上,5666条微博中才会出现一条——这是另一个证据说明在新浪微博上,关于江泽民的讨论被压制了。 经常被删除的许多微博包括了政治敏感的短语和名字,比如设计”防火长城”的方滨兴,以及提到中宣部的博文。其他的则体现出事件的敏感性,在去年七月温州动车事故造成40人死亡,之后”请辞”成为了删除对象,这明显指的是铁道部部长。 被删除的词语并非总是政治性的。2011年三月,日本福岛核灾难发生之后,政治上不敏感的短语,如碘盐和辐射强度都被大量删除。研究者们相信这是因为政府想要遏制谣言,不希望核事故导致囤积盐的行为。 研究者们注意到,不是所有的删除都遵照国家的审查机器指示,垃圾消息和色情信息都是删除的对象,这和美国一样。 研究者们建立起了研究中国的软审查的方法,他们说现在他们有了这样一个工具可以积极地观察社交媒体的审查如何随时间演变,他们同时也有方法可以让调查更深入了,比如找出那些用来规避审查机器的暗语和的隐喻。 相关阅读: 一位个人研究者公布的 中国微博上被屏蔽的378个”敏感词” 点击这里阅读更多和” 防火长城 “相关的译文 本文版权属于原出版公司及作者所有。©译者遵守 知识共享署名-非商业性使用-相同方式共享 3.0许可协议 。   译文遵循 CC3.0 版权标准。转载务必标明链接和“转自译者”。不得用于商业目的。发送邮件至 yyyyiiii+subscribe@googlegroups.com 即可订阅译文;到iTunes 中搜索“译者”即可订阅和下载译者Podcast;点击 这里 可以播放和下载所有译者已公开的视频、音频和杂志。(需翻墙)。

阅读更多

CDT/CDS今日重点

十月之声(2024)

【404文库】“再找演员的话,请放过未成年”(外二篇)

【404媒体】“等帘子拉开,模特已经换上了新衣”(外二篇)


更多文章总汇……

CDT专题

支持中国数字时代

蓝灯·无界计划

现在,你可以用一种新的方式对抗互联网审查:在浏览中国数字时代网站时,按下下面这个开关按钮,为全世界想要自由获取信息的人提供一个安全的“桥梁”。这个开源项目由蓝灯(lantern)提供,了解详情

CDT 新闻简报

读者投稿

漫游数字空间