核心提示:卡内基梅隆大学(以下简称CMU)计算机系的研究者们分析了5700万条中国的微博,发现敏感词从”法轮功”到”碘盐”不一而足。删除的频率则根据当前时事和地理位置的变化,强度也有不同。
原文:Carnegie Mellon Performs First Large-Scale Analysis Of “Soft” Censorship of Social Media in China
来源:卡内基梅隆大学计算机系新闻简报
发表:2012年3月7日
本文由”译者“志愿者翻译并校对
这一研究是首次大规模针对社交媒体上的政治内容审查进行的分析。今年早些时候,当推特(Twitter)宣布会按照国别政策删除不符合当地法律法规的推文时,这个议题引起了注意和争论。
在中国,在线审查高度发达,研究者们发现经常被删除的短语包括广为人知的禁词,比如法轮功,这是一个由中国政府禁止的教派运动,还有人权活动家艾未未和刘晓波。其他的禁词则是基于当前事件;在2011年2月期间,当两会成为指称”计划中的抗议”的暗语时,这个本来是指全国人民代表大会和政治协商会议的词成为了删除对象。
CMU的研究也展示出在某些省份微博的审查频率更高。这一现象在西藏尤其引人注目,西藏是政治抗议的温床,高达53%的当地微博被删除。
由语言技术学院(LTI)的助理教授诺兰·斯密斯(Noah Smith)、LTI的博士候选人大卫·巴曼(David Bamman)和机器学习系的博士候选人卜兰丹·康纳(Brendan O'Connor)联合这项研究的发表于同行审校的在线杂志《首个星期一》(论文原文全文)。
所谓的”防火长城”可以阻止中国居民登陆如谷歌和Facebook这样的外国网站,这是中国最广为人知的审查工具。其他的国家也会屏蔽网络,比如在去年阿拉伯之春抗议爆发时,埃及就曾经关闭过推特和其他的社交媒体网站。
巴曼说,但是中国或任何其他国家如果想要从网上交易或在线教育中受益的话,关闭所有网站是不可能的。替代的方式就是允许登陆网站,但是审查内容,去除那些被认为有害的信息。他还说,可以采用自动方式来删除一些信息,其余的则通过人工删除。带有敏感词的所有微博被删除的情况不常见,但某些特定的词语成为删除的对象,所发现的零散证据令人吃惊。
康纳说:”你会看到在某些微博中,博主甚至会问,’这会被删除吗?'”2010年年末,纽约时报的专栏作家纪思道(Nicholas Kristof)在中国的(新浪)微博网站上开了一个账号;在他发了一条关于法轮功的消息之后一小时之内,他的帐号被关闭了。
CMU的团队为了研究这种”软”审查,分析了新浪微博上将近5700万条消息,这是一个有超过2亿账号的类似于推特的中文网站。从2011年6月27日号-9月30号,他们用新浪微博提供给开发者的一个应用程序软件(API)来收集样本。
他们后来使用同样的API,以随机的方式检查了部分微博,查看它们是否被删除了,然后再取另一部分包括了已知的敏感词的微博进行测试。如果这条微博被删除,新浪则会回复给开发者一条信息:该微博已不存在。
举例来说,在6月底和7月初的时候,网络上开始流传江泽民的死讯,他是在1989年天安门抗议之后掌握权力的中共前总书记。在七月六日,传言达到了高峰,83条带有他的名字的信息当中有64条被删除,在七月七日,31条这样的信息中有29条被删除。
经常被删除的许多微博包括了政治敏感的短语和名字,比如设计”防火长城”的方滨兴,以及提到中宣部的博文。其他的则体现出事件的敏感性,在去年七月温州动车事故造成40人死亡,之后”请辞”成为了删除对象,这明显指的是铁道部部长。
被删除的词语并非总是政治性的。2011年三月,日本福岛核灾难发生之后,政治上不敏感的短语,如碘盐和辐射强度都被大量删除。研究者们相信这是因为政府想要遏制谣言,不希望核事故导致囤积盐的行为。
研究者们注意到,不是所有的删除都遵照国家的审查机器指示,垃圾消息和色情信息都是删除的对象,这和美国一样。
研究者们建立起了研究中国的软审查的方法,他们说现在他们有了这样一个工具可以积极地观察社交媒体的审查如何随时间演变,他们同时也有方法可以让调查更深入了,比如找出那些用来规避审查机器的暗语和的隐喻。
本文由自动聚合程序取自网络,内容和观点不代表数字时代立场