编者按:加拿大多伦多大学公民实验室的研究人员发布报告,分析了腾讯审查微信图像的技术。 研究人员发现,微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。
本报告分析了微信朋友圈上的敏感图片过滤技术。微信是中国腾讯控股有限公司旗下的即时通讯应用,目前是中国最受欢迎的聊天软件之一,也是全球排名第四的最流行聊天软件。朋友圈是微信上最常用的功能之一,其中图片是用户最期望看到的内容分享形式。
根据中国相关法律法规,互联网公司往往需要对内容进行过滤。公民实验室此前的研究报告发现了微信的“一APP两制”关键词过滤机制,在新浪微博,Tom-Skype和新浪UC等即时通讯软件,以及直播平台上的审查机制。此前,我们留意到微信除了过滤关键词,部分与敏感事件相关的图片也会被审查。
主要发现
- 微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。
- 我们发现微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。
- 微信基于图片相似度的的图片过滤算法并没有使用机器学习来判别目标图片是否属于某个不良图片类别。
- 在研究这两种不同算法的同时,我们发现用以检测不良内容的技术同样可以被用来反审查。
- 通过分析了解文字识别算法和图片相似度检测算法,我们发现了这两种算法并非万无一失。算法的弱点让用户得以通过编辑图片,使经过编辑的图片与原敏感图片在能够被普通读者识别理解的同时欺骗机器算法,从而不被过滤。
相关阅读: