【编者注】北京理工大学副教授、大数据搜索挖掘实验室主任张华平长期致力于中文分词、大数据处理的研究。近日,张在微博宣称,该实验室开发了一套名为“九眼智能过滤”的敏感词检测系统,可“智能识别各类变形变拆字,语义排歧”等。该微博很快引来大量愤怒的网民围观,许多人更是将之与方滨兴相提并论,认为他也是甘作党国打手、助纣为虐的所谓学者。张随后删除了相关微博。
与方滨兴类似,张华平很显然也并不理解饱受审查之苦的中国网民的愤怒。他是如此回复的:
@ICTCLAS张华平博士:似乎捅到了马蜂窝,一堆没认证以骂人为本职的匿名英雄漫游而来,无理谩骂犹如七伤拳,先伤自身肝肺,污自己的眼和嘴,再污染环境,于我则不过徒增笑料,为净化空气,我删除了相关微博,见识了各类大义凛然的朝阳群众,感动于各位大侠为国为民而不惜牺牲自己的教养。让人失望的是键盘侠汉语水平之匮乏,我们其实可以识别并声称几十万种骂人的话回击,也可以分析道背后一堆水军的背景和诉求,无暇为之也不屑为之。
截至发稿时,智能过滤在线演示页面尚在,但敏感词库已被更换,基本无法使用。
附:
@Ag_Bullet:别人家的NLP是用来辅助人机交互,用来提高服务可用性的;贵国的NLP怕还是要用来给主子们做打狗棒,给自己做吸金石的。所谓博士教授,学者主任,没准也不过如此而已。图一是下午做测试时候的结果,两类关键词,以先碰到假阴性样本为准,真正侵害身心健康的反而容易绕过。有趣,有趣,佩服,佩服。
附:敏感词库更换前,李银河论审查制度一文测试结果截图(网民为躲避审查,将原文转化成日语和“火星文”传播,同样被删)