荷广 | 解密微博小秘书的审查工作
近日来自莱斯大学、新墨西哥大学和鲍登学院的计算机学者的研究表明,30%的微博删帖活动发生在发帖后5到10分钟内,90%的删帖发生在24小时之内。 文:丁笔 微博于2010年正式与中国用户见面,在短短3年之间吸引了5亿用户。据统计,微博用户每天要发送大约1亿条微博,相当于每分钟就有7万条微博的产生。尽管每条微博有140个汉字的字数限制,每条信息却往往承载着巨大的信息量。同时,微博传播的高效性,便捷性和广泛性给微博的审查部门带来了巨大的挑战。 锁定敏感用户群 莱斯大学的Dan Wallach与其他几位电脑科学专家,于2012年对新浪微博进行了审查机制的调查研究,本月发表了一份研究报告。追踪微博上的每一个用户是不现实的,所以研究人员重点锁定敏感用户群,即其微博被频繁删除的用户。从2012年7月20日到9月8日,研究人员一共追踪研究了3500位敏感用户,共收集了数百万帖子,用以分析和识别微博小秘书们的删贴力度和速度。 研究结果发现这些敏感用户每天发送的微博大约总共有4500条被删除,占所发总微博数量的12.75%。同时30%的删帖活动发生在发帖后5到10分钟内,90%的删帖发生在24小时之内。在删贴无法完全用自动化方式处理的情况下,如此大规模的审查力度,5到10分钟的删贴速度是如何实现的? 辛勤作业的小秘书 从大部份的删帖行为发生在微博发布的5-10分钟之内,研究人员总结说,微博小秘书们在以实时高效的方式进行审查。如果完全靠小秘书们手动删帖,假设一个微博小秘书平均每分钟能阅读50个帖子,那么审查每分钟发出的的7万新帖子需要1400人同时工作。就算每个小秘书每天平均工作8小时,那么一共需要4200人才能满足审查需要,这显然是不现实的。所以研究认为微博在审查过程中结合了手动和一些特定而高效的技术。 最典型的一个是关键词警报。当一个关键词出现时,这条微博会立即在小秘书们的屏幕上被标出。同时,有发布违规微博历史的用户会被特别盯梢。Wallach认为,新浪内部可能有一个决策办公室,微博小秘书们聚集其中,每天的工作就是发现并审查关键词和敏感贴,一旦处理决定下达,删除工作就马上进行。 此外,Wallach的研究观察了24小时周期内的微博删除率,发现小秘书们的删贴量从午夜到凌晨4点一路下降。所以,小秘书们每天早上都面临着积压的删帖任务,并致力于在中午前赶上进度。有趣的一个发现是,在晚上7点《新闻联播》节目放映时,小秘书们的审查工作也有所放松。 哪些话题被严格监管? Wallach的研究发现最敏感的话题包含:“支持叙利亚革命”、 “政府说谎”、 “滥用一胎政策”和“群交”等关键词。 在最短时间内引起大规模删帖力度的的,则是那些结合了微博的头条热门话题(如性丑闻)和政治敏感话题的帖子。例如2012年7月22日,在网民愤怒声讨政府对于北京大雨的应对不力,造成至少77人死亡之后, “北京暴雨”在微博上马上变成禁忌词。这一主题在接下来的几天里都保持了被禁话题第一名的位置。7月31日,仅仅是“事故”一词也位于被删除最多的主题之列。在2012年的7月底8月初,谷开来成为最热的被禁话题。8月20日,谷开来被被判处死缓的那天,她的话题再一次成为被禁头条。在钓鱼岛问题上,新浪微博严格控制着网上的相关言论。当第一轮反日游行在中国爆发时,8月17日、19日、20日,“反日”等关键词统统成为新浪微博被禁最多的主题。Wallach的团队在2012年8月1日尝试发布一条包含“政法委书记”的微博,系统马上提示‘抱歉,此微博不适宜对外公开。如需帮助,请联系客服。’ 在长期发帖和删帖的抗争中,微博用户发明了一套应对微博小秘书严格审查的策略。他们通过使用外文、昵称、暗语、字谜或相似的汉字来巧妙地代替关键词,进而讨论敏感话题。然而,微博小秘书们也在不断的实践中提高反侦测的能力,通过深入敌方的方法来识破这些有趣的花招。 关于微博审查的几个真相 1.新浪微博有一个审查关键词列表,微博小秘书会重点浏览包含这些关键词的帖子,并决定是否删除。 2.微博会有针对性地审查频繁发敏感帖子的用户。 3.在发现一个敏感帖子之后,小秘书们会追溯所有相关的转贴,并一次性地全部删除。 4.小秘书的工作是分布式,相对独立的,其中部分人可能是兼职。 5.删贴速度根据帖子主题的敏感度而存在差异,结合了当下热门话题和政治敏感性的帖子最容易在短时间内被删除。 6.微博的过滤机制包括:显式过滤,即小秘书通知发贴人他们的帖子内容违反了内容政策;隐式过滤,小秘书需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,即其他用户看不到这位用户的帖子。 7.由于审查而被删除的帖子和由用户自己删除的帖子,在被请求再次打开时的反馈信息是不同的。若微博因被审查而删除,则会看到“请求不允许”的信息。若是用户自己删除微博,则会看到“微博不存在”的信息。
阅读更多