核心提示:尼曼新闻实验室试图用逆向工程的方法来解读中国数以千计的微博网页从互联网消失的规律。研究似乎能证明一个假设:新浪微博删贴数量与媒体报道敏感事件的热度高度相关。

原文:Reverse engineering Chinese censorship: When and why are controversial tweets deleted?
作者:Andrew Phelps
发表:2012年5月30日
本文由”译者”志愿者翻译并校对,参考了其他”同来源译文”

Inline image 1

【图:新浪微博在被删除后留下的错误信息】
审查中国的互联网一定是一件费心费力的工作,就好比用大拇指来堵消防水龙里的水流一样。新浪微博拥有三亿注册用户,日发帖量超过一亿。

当然,中国的整个互联网可能也不是像一些人想像的那样被审查。为什么有些微博被删了,其他的微博却没有呢?哪些话题会被认为是”和谐社会”的最大威胁呢?

章智竹(Chi-Chu Tschang)希望揭开这个黑盒子。章智竹是麻省理工大学斯隆商学院的MBA学生,曾任美国《商业周刊》驻中国记者。这学期就读伊桑·朱克曼(Ethan Zuckerman)的”互动媒体时代的新闻”课程。在做期末论文的时候,他收集了中国数千被删微博的数据来寻求答案。

他在论文中写道,”我们知道中国国内的博客、搜索引擎和微博在审查特定的话题,但是我们不知道审查的界线在哪里。部分原因是审查的界线在不断的变化。”

他引用了香港大学记者与媒体研究中心的研究结果。Cedric Sam 和King-wa Fu将新浪微博上最热门的内容进行实时智能化处理,并将2月1日以来超过12000条被删微博纳入其巨大的数据系统。

利用Tableau这款可视数据软件,章智竹将这些被删的微博信息按时间顺序制成柱状图,而后又将政治敏感事件叠加进去来提供关联信息。(点击这里查看大图)

Inline image 2

从2月1日至5月20日,删贴最多的一天出现在3月8日:那天开始流传薄熙来即将下台。这名高管正在被调查,原因之一是他的巨额财富。薄的儿子在哈佛学习,因为有报道说他驾驶一辆红色法拉利接洪博培的女儿约会而吸引了大量的注意。

其次就是3月15日,那天薄熙来被解职。

更有趣的一个数据点出现在3月18日,一辆黑色法拉利造成的致命车祸。几乎所有关于车祸的信息都从互联网上消失,甚至连”法拉利”这个词也被过滤了,这不禁使人联想到底什么人被牵涉其中。章智竹发现那天新浪微博删贴数量居中。

还有一天4月22日缺少数据。当天,人权活动家陈光诚逃出山东。为何会缺少数据呢?4月23日的一则出错信息显示因”加载问题”而临时无法收集数据。——这一出错的时机不得不说令人感到失望。很可能那天中国微博信息流量突然太大,因此造成服务器瘫痪;当然也说不定是什么其他原因造成的。

章智竹将原始数据罗列,码成了一幅字云,显示出哪些词条是微博删除最多的。

字云看上去不错,但却不能提供太多的关联信息。章说,他想更加细致的检查词条列表,过滤掉诸如”转发微博”和”哈哈”这类的词。他也想研究3500个被审查最多的微博用户的关系。这是不是要建立一幅公民不服从的聚合图呢?

章提出了一个假设:新浪微博删贴数量与媒体报道敏感事件的热度高度相关。他的这一假设与卡内基梅隆大学的一项类似的研究所得出的结论基本一致。该研究评估了5600万条微博,其中16%被删除。研究者发现一些关键词更容易被微博删除,比如”真理部”、法轮功、艾未未、花花公子等等。他们写道,”通过揭示网络审查方式对现行事件和不同地理区域的变化,该研究能够根据动态的变化积极监控到中国社交媒体的审查状态。”

最后,章还评估了一条微博需要多长时间被删除。他写道,”最快的,在刚刚发表4分钟的微博就被删除;最长的,管理者会花长达4个月的时间到处查找最终完全删除。对于在5月20日发表的并在当天被删除的微博,这款搜索软件要经过平均11小时才会发现什么被删除了。”

他还说,他怀疑一些微博是在几个月之后被删除的,因为那些微博中的内容突然重现于中国媒体。

他甚至也试过在新浪微博上发布一些比如有关陈光诚、薄熙来和台独之类的敏感信息,想看看会发生什么。

结果不到14小时,他收到了来自新浪微博系统管理员的一封信,说他关于”陈光诚”的两个帖子”不合适”,已被审查。尽管当时他仍然可以看到自己微博账户上的那两条关于”陈光诚”的帖子,但其他人已经看不到了。奇怪的是,他的有关”薄熙来”和”台独”的帖子却没被审查。

不过有言在先,章不能100%确定被删的微博不是被博主自己所删,而是由”网络审查员”删。但是新浪微博的应用程序接口(API)对于被删的微博可以给出很有帮助的区分信息。出错信息对于不存在的微博只会有两种显示:”该微博不存在”或”权限禁止”。因此,我们可以像章智竹或是香港大学的研究员们一样推断,”权限禁止”等同于”已被审查”。

此外,什么时间在微博上最好发布政治敏感信息呢?研究数据表明是星期五晚上11点钟之后。

章还写道,”有趣的是,每个星期六新浪微博删除信息的数量都很少,我不是很确定为什么是这样,也许网络审查员周末也要休息。”

相关阅读:
本文版权属于原出版公司及作者所有。©译者遵守知识共享署名-非商业性使用-相同方式共享 3.0许可协议。
译文遵循CC3.0版权标准。转载务必标明链接和“转自译者”。不得用于商业目的。点击这里查看和订阅《每日译者》手机报。穿墙查看译者博客、书刊、音频和视频

本文由自动聚合程序取自网络,内容和观点不代表数字时代立场