全文共 4011字,阅读大约需要 8分钟

  • 在看到自己输入法的App中开放了相册和位置信息时,谢渊很诧异,迅速将位置信息关闭了。
  • 一些输入法嵌入的广告SDK(软件开发工具包),会获取用户的画像及标签,以便推荐个性化广告。这也是为什么我们在聊天场景中提到的信息会出现在其他平台。
  • 用户同意隐私条款的内容,不意味着输入法公司有权将相关用户个人信息与第三方共享。

文 | 南方周末记者 周小铃

南方周末实习生 张坤

责任编辑 |张玥

2020年1月19日,“微信之父”张小龙现身微信之夜,陈述了微信未来的发展路径,准备推出自己的输入法,“至少在安全性方面,我们可以做得足够好。”

他说经常会收到投诉,在微信里聊到什么,在其他App里就看到这个东西的广告。但他说微信从不会分析用户的聊天记录,即便因此损失了很多广告收入。

此言一出,把输入法推向风口浪尖。输入法是信息泄露的“元凶”吗?

一位受访者对南方周末记者描述,几天前朋友家要换马桶,她微信回信息说了自家用的牌子,下次打开手机WPS时,开屏广告就成了京东马桶。“这种N年不提的话题,不可能这么巧吧?”她怀疑是输入法泄密。

根据Mob研究院数据,2020年搜狗、讯飞和百度三家输入法占据了国内市场九成的活跃用户,其中搜狗占有率最高,54%。2020年9月,腾讯全资收购了搜狗。

易观一组数据表明,中国第三方输入法的活跃用户在2019年达到7.71亿。输入法已成网民刚需。

 输入法会获取哪些信息

谢渊今年26岁,在上海一家房企工作,工作中经常需要处理文字。他曾用过三款输入法,最后选择了搜狗,因为它能记录用户的语言习惯,关联词库与需求更贴合。

使用输入法软件需同意隐私政策,南方周末记者比照了三家软件的隐私政策,都长达万字,搜狗输入法的隐私协议最长,有18791字。隐私协议过长,术语繁琐,谢渊虽然同意了该隐私政策,但从未阅读过。

登录搜狗输入法App的初始界面,提示用户开启设备(通话状态及移动网络信息)、存储(访问照片、媒体内容及文件 )、位置、通讯录权限。拒绝同意这四项授权,也不会影响基本功能使用。

谢渊说,“只要不是特别冒犯,不会在意软件要求开通什么权限。”但看到自己开放了相册和位置信息时,他依然诧异,并迅速将位置信息改为关闭状态。

很多时候,大多用户不了解开放某项权限将带来何种影响。一位讯飞输入法的用户告诉南方周末记者,“不同意就不能用,我屈服了。”

梳理三份隐私政策,输入法软件可能收集的用户信息有11类,涉及调用的手机权限有12项。

cdtimg

根据隐私政策,输入法根据产品服务内容,在必要、合理、正当等原则下向用户申请调用手机权限。比如,为方便用户快速输入好友人名而获取通讯录,为了加载地方词库、定位方言区而获取地理信息,为了方便用户下载、存储表情而获取存储权限。

用户同意隐私政策也不意味着同意企业收集所有类型的个人信息。

百度方面回应南方周末记者。每收集一项信息,输入法都会弹窗提醒,由用户选择是否同意。“是否‘必要’由用户决定。”

“操作日志”是一项特别的权限,针对参与用户体验改进的用户,即自愿提供具体信息,如操作行为记录等,帮助优化产品。三家中,仅百度输入法默认勾选该计划,用户也可取消勾选。

高远曾在一家头部输入法公司工作十余年。他透露,输入法本身不倾向于收集过多数据,也有存储成本,实际收集到的用户数据比例仅为3%。因为用户基数庞大,只要有1%的人参与用户体验计划,这些数据也够用了。

一位从事网络安全相关工作的人士透露,从技术原理上,输入法的确具备收集用户隐私的能力。实际上大部分App都具备这一能力。相比之下,输入法是一个比较集中的口子,因此,很多金融类App会自带输入法来降低信息泄露风险。

 拿了信息有什么用

收集的用户信息,输入法将如何处理?

三份隐私协议给出了较为一致的答案:一是为了向用户提供基本的产品服务,二是为了向用户推送、展示个性化广告内容。

蒋青野从事输入法商业化工作,他告诉南方周末记者,输入法作为一款用户刚需产品,活跃度高,调取次数频繁,在头部互联网公司的业务生态中扮演着流量入口和“数据池”的角色。

搜狗CEO王小川曾谈到从输入法到浏览器到搜索的“三级火箭”产品战略:依靠输入法导流,扩大浏览器市场份额,培养搜狗搜索用户。

搜索是赚钱的业务。搜狗(股票代码SOGO.US)2020年三季度,搜索及搜索相关广告占总营收九成左右,其中竞价广告收入占广告收入超过八成。

南方周末记者在搜狗输入法和百度输入法的移动端界面上,都能看到工具栏右上角的搜索图标,点击该图标可跳转至相应浏览器,并在该浏览器内进行搜索。可见“三级火箭”的思路在手机上也成立。

但一位搜狗输入法的前员工告诉南方周末记者,“‘三级火箭’是PC端时代的战略了。”在实际工作中,感觉这一传导路线并不如理想般通畅,输入法商业化路径不够清晰,反而运营维护需要支出高昂成本。

搜狗书面回复南方周末记者,否认其自身依赖广告和流量进行变现,但未回应盈利模式的问题。

目前,手机厂商几乎都会预装头部输入法的定制版产品。借此,各家输入法在占据手机终端时把握主动。预装软件收集的信息没有让用户事先同意的流程。

蒋青野介绍,输入法厂商获取的数据中最关键的是用户行为数据和用户安装App的分析数据。前者为其关联产品的智能化、大数据处理提供基础,后者有助于为用户的行为数据准确找到应用场景,比如,用户需要买化妆品,会去搜索这个化妆品名称,当她打开电商App时,就会被精准推荐该化妆品。

百度回应南方周末记者称,百度输入法的首要目标是为用户在各场景各设备下提供准确、智能的输入体验。输入法作为百度AI的重要落地场景,对百度的主要价值是让用户体验到百度AI的实力。百度输入法AI功能包括语音输入、手写输入、整句预测等。

高远说,百度希望输出自己的语音识别能力,就需要获取相关用户数据做语音模型训练,提升识别的准确率。百度大脑AI开放平台上,其语音识别技术在手机输入、机器人对话、语音分析和转写等领域均有应用。

“头部输入法变现场景相对靠后。”对比了几家头部输入法公司的商业化路径后,蒋青野选择进入商业模式较清晰的输入法公司,它将广告植入输入法,用户观看广告视频后可获得输入法皮肤。

 用户个人信息是否会被“共享”

在A平台交流某些话题,却在B平台出现相关资讯或广告推送的情况,是输入法的一种“变现方式”吗?

南方周末记者随机咨询了十三位输入法用户,1/3曾经历上述情况,但只有两三个用户能清楚回忆起具体场景,受访者多认为是通讯软件或手机在“窃听”。

蒋青野解释,一些输入法嵌入的广告SDK(软件开发工具包),可以让服务商获取用户画像及标签,以便展开个性化的广告推荐。这也是为什么我们在聊天场景中提到的信息会出现在其他平台。

但他补充,正规的App都会经过用户同意获取信息,不会作过分解读。即使是个性化广告,第三方SDK获取的用户信息也会经过脱敏、匿名处理。输入法对接入的第三方SDK获取的信息、调动的权限披露在隐私政策里。

高远举例,通常情况下,大家用的手机或App,在能够获取用户数据的前提下,会给数据打上标签。用户输入的是具体的关键词,输出的是这些标签。“用户信息脱敏的原则就是不能被回溯到这个人是谁,否则对企业也是一个隐患。”

在前一家头部输入法公司工作期间,高远曾听到内部有人提出将脱敏后的数据转售给第三方,用作商业活动。“公司态度还是保守的,没有做到这一步。”

关于第三方SDK获取用户数据的规定,三份隐私协议表述不尽相同。

讯飞输入法将所有SDK及其所需用户权限及信息全数列入,同意隐私政策即视作同意第三方SDK收集并处理个人信息。搜狗、百度输入法仅列出第三方SDK及其可能调用用户信息权限的范围,同时提醒还需参考第三方SDK隐私政策了解其具体如何收集、处理用户信息。

cdtimg

三家隐私协议表示,用户信息共享方主要为输入法服务商的关联公司、合作伙伴。合作伙伴包括广告、分析、信息推广服务类的授权合作伙伴,供应商、服务提供商和其他合作伙伴如第三方SDK,以及提供风控服务的合作方。

搜狗书面回应南方周末记者,搜狗不会与任何关联方及合作方共享用户个人信息,也从未进行过用户交流内容的“共享”“转售”等行为。目前接入的第三方SDK主要用于授权登录、支付服务(针对输入法内所涉及的付费项目)以及统计用户规模。

百度表示,接入第三方 SDK主要为满足产品功能需求。百度输入法不会主动给第三方共享用户个人信息数据。

北京厚大合川律师事务所企业法律顾问中心主任罗思翔告诉南方周末记者,用户点击确认同意隐私条款的所有内容,不意味着输入法公司有权将相关用户个人信息与其第三方共享。尤其在不明确列出信息共享主体,不能明确、具体说明用户个人信息与第三方共享的目的、方式、范围时,即使获取了用户的同意,这一“共享”行为也是违法的。

 输入法曾涉泄密风波

此前,输入法个人信息泄露案件就曾多次发生。

2013年6月,网络信息安全问题反馈平台乌云在微博发布消息,指出搜狗输入法存在导致大量用户敏感信息泄露的设计缺陷,在信息发送过程中相应信息被存储到云端,又由于相应配置和其他原因造成会话信息泄露。乌云同时引用了三名被曝光用户信息截图,其中包含用户个人敏感信息。

乌云指出,这一漏洞出自搜狗输入法中的“多媒体输入”功能,用户直接分享的图片、语音、文字上传搜狗服务器后,都会形成一个可点击查看的链接。

风波中,搜狗将多媒体信息泄露归咎于搜索引擎违反robots.txt,该协议是搜索引擎访问网站时查看的第一个文件,里头明确规定服务器上什么文件可以被查看。涉事搜索引擎否认了这一说法。

事后,搜狗输入法表态将设置更严格的访问限制,在robots.txt协议之外,防止搜索引擎抓取和收录。

他发现搜狗输入法和百度输入法明文传输(即不加密)用户输入的内容到服务器,即使用户未加入用户体验改进计划。

不仅国内如此,国外也有一款输入法软件因数据库配置错误而导致3100万用户的个人数据暴露在网上。其曝光的信息类型从用户身份信息到社交媒体资料不一而足。

上述案件中,输入法泄露的原因主要为平台本身的信息安全问题,“尤其是数据库配置错误,是比较低级的错误。”蒋青野提到,有时,输入法信息泄露是来自外部的风险,诸如黑客反编译、第三方程序恶意获取数据等。

百度方面书面回复南方周末记者,为保护用户个人信息安全,凡涉及用户联网通信的功能,都采用加密方式传输,对用户个性化数据也进行加密、隔离,防止第三方软件盗取。

截至发稿,科大讯飞未回应南方周末记者采访请求。
(应受访者要求,高远、蒋青野为化名。)