微信每月活跃用户超过10亿,那么,如何实现实时自动审查巨量的聊天中所发送的图片呢?多伦多大学公民实验室发布了一份最新研究报告。
WeChat Logo
微信
(德国之声中文网)题为”未阅先焚2:微信如何实现实时审查用户对话中的敏感图片”的报告于7月15日发表的报告。其核心发现是:
微信的审查包括识别图片中的敏感文字图形、以及与黑名单上画面相似的图片;
微信使用MD5哈希算法,以实现对话中图片的实时、自动审查;
朋友圈、群聊的审查力度大于一对一的对话;
微信图片审查的主题主要是政治内容以及与政府、社会抗争有关的主题,同时也对新闻事件作出反应。
根据中国法律,互联网平台对内容负责,因而要借助科技手段进行自我审查。
审查:从朋友圈到一对一聊天
多伦多大学公民实验室(Citizenlab)此前曾对微信朋友圈进行研究,发现:在图片发表后,微信会审查图片是否包含敏感关键字、以及图片是否与黑名单画面类似。如果是,图片会被屏蔽,但发图者以及海外账户仍可见该图片。
此次的研究则针对微信聊天。由于上述审查方式需要强大的计算能力,难以实现聊天中图片的实时审查,因此,微信使用MD5哈希算法,即审查图片的MD5值是否在过滤列表上。这样的好处是快,坏处是很不灵活:一旦MD5值有细微变化,尽管图片内容变化不大,仍会过关。
Screenshot Website WeChat (WeChat)
报告作者发现,微信公众号被屏蔽的文章中,图片也被列入黑名单
为应对这一局限,微信在MD5实时审查后,会再次使用非实时的过后审查。报告作者发现,经修改MD5值的敏感图片第一次发送会成功,但数秒之后再次发送,即会失败。
报告作者还发现,一对一聊天、群聊和朋友圈的审查范围不尽相同。后两者范围更大。
哪些图是敏感图?
报告的另一部分内容,则是对微信审查图片的主题进行分类。研究者首先建立了一个测试敏感图库,来源是香港大学的一个项目WeChatscope,该项目收集了微信公共账号被屏蔽的帖子。报告作者则把这些帖子中的图片集合起来。
由于微信测试账号大多难以获得身份验证,报告作者不得不诉诸审查相似的腾讯另一平台QQ空间,来进行敏感图的测试。
报告作者共发现212张会被过滤的敏感图,其中:与中国政府有关的图片为75张,内容不单有讽刺漫画,也有中性的政府政策、领导人图片。其中一幅被审查的图片是位于法国的欧洲电视台Euronews的一则新闻画面截图,显示的是中国国家主席习近平2019年3月访问意大利前夕,一位艺术家在意大利使用拖拉机在田野上创作出一幅习近平微笑的巨大头像。
在这212张被过滤的图片中,与新闻事件有关的有60张,内容涉及:文革、天安门事件、范冰冰逃税事件、最高法院卷宗丢失事件、华为孟晚舟事件、中美贸易战、2018美国中期选举、胚胎基因编辑事件等。
受到最多审查的图片:最高法卷宗丢失案
其中,最高法院卷宗丢失事件受到审查的图片数最多,为24张。其中绝大多数是一封据说为法官王林清指控最高法院院长周强指使他人盗走卷宗的信件图片。与华为孟晚舟事件相关的被审查图片则为10张。中美贸易战也有8张。
在212张被过滤的图片中,报告作者列入”社会抗争”类别的有25张。其中包括有崔永元的照片、已故诺贝尔和平奖得主刘晓波”空椅子“的照片等。此外,涉及裸体的图片无论主题如何也很有可能被屏蔽。不过,也有一些图片被审查的原因不明,如一张大猩猩研究者古道尔的图片。
报告作者发现,许多微信公众号被屏蔽的文章中的图片,无论其是否敏感,似乎都会受到过滤。作者因此提出假设:腾讯的图片审查黑名单是从被屏蔽的微信公众号帖子中收集而来的。
相关链接:“未阅先焚”2:微信如何实现实时审查用户对话中的敏感图片
相关阅读: