crab-and-twitter大家都知道,相对于微博来说,推特上不存在言论管制,但是这种事情怎么可以让他发生呢?那还不天下大乱?随时随地都要关心你的组织当然得把伟大的光芒投射到这一片「法外之地」,于是从很久以前开始,组织就会弄很多帐号来关心大家的思想动态。当然,有的负责听,有的负责说。不过之前的手段都很粗糙,特别是顶着一个蛋头,说一些连微博上的五毛都不好意思说的话,广大推友们迅速就能识别,要么拉黑要么举报,很快的这些帐号就消失了,也不知道组织设立这些帐号的成本有多大。当然,另一方面,如果只是以发推数目来计算工作量,而不是以「舆论导向」的结果来算的话,我觉得这些帐号还是完成任务了的。

很长一段时间都没有被这样的五毛帐号(我称之为「老五毛」)骚扰了,突然前几天,我发了一条

中纪委给老外解释“四风”:都是“胖子”干坏事:形式主义:一个干部模样的胖子被公章、文件包围;官僚主义:还是那个胖子坐在高椅上,另外一个瘦瘦的群众模样的人可怜地站在下面仰望他;享乐主义:胖子躺进酒杯里,脸喝得红扑扑;奢靡之风:摆满大餐的桌前,胖子大吃大喝——习总:尼玛

过会在推上突然就遭到了围攻,如下图:

twitterwumao01

然后我点开进去这些账号的页面看了看,发现似乎官方在利用另一个方法来开展五毛活动(我称之为「新五毛」),具体表现如下:

  • 头像不再是蛋头,而且昵称显得比较正常
  • 用户名多数是字母+数字,而且多数情况下字母是若干英文名拼起来的,比如matthewjesus00,quentinsamuel8
  • 大多数时间,自动发鸡汤段子,而且一定带图,鸡汤段子一般来自Twitter for Google TV这个客户端,估计是自己写的,而且一看就是自动发的,比如这条
  • 条件触发后,若干个账号会开始同时攻击,攻击推文一般来自Twitter for iPhone和TweetDeck
  • 不再关注「敏感人士」,而是关注其他的「五毛账号」

既然有这最后一点,于是我写了个爬虫,从某一个账号开始,抓取他的关注列表,筛选后放入数据库,然后再抓这些关注列表中五毛的关注列表,就这样不断循环。筛选标准为

  • 发的是中文推
  • Fav很少,这里阈值我取的是5
  • 最后一推基本上来自iPad、Windows Phone、Google TV、TweetDeck和Mac这几个客户端,显然是用的官方Key/Secret
  • 注册时间晚于13年1月1日

一开始我还想着这样的账号很多,我这样抓应该是抓不完的,万万没想到,最后抓取能够完成,并且形成了一个封闭的集合。一共抓取到2581名用户,148995条互相关注的信息。

下面是对这些账号和关注情况的分析:

  1. 74.6%采用字母+数字作为账号,纯字母为25.1%,纯数字不到1%

  2. 有很多很明显的冒充账号,集中在 @huangbin87 和 @ggnn9,前者有19个冒充账号,后者有22个冒充账号,名字和头像都一样。这个冒充账号 @huanqbin87 简直可以以假乱真,看foer里面有不少是上当受骗了的。

  3. 都是2014年注册的,注册月份分布如下图:看来六月份一定有什么要紧的事件,需要这么多的账号来引导舆论。twitterwumao02

  4. 计算一下在他的Foing/Foer里面有多少是抓取到的五毛,这个分布说明抓取的结果还是不错的twitterwumao03

  5. Foing/Foers数分布集中在200左右,如下图twitterwumao5

  6. 最后一推的客户端分布,以TweetDeck和Google TV为主twitterwumao4

  7. 日推分布,不高:twitterwumao3

  8. 将他们的最后一推按时间分布,看不出什么规律,不过似乎我们睡觉的时候五毛也睡了。twitterwumao2

  9. 最后,看一张「新五毛网络」全图:twitterwumao1

  10. 在这个高度互相关注的「新五毛网络」里面,Foer最多的是 @eubinnvrok 这个账号,高达719位,而他实际上也就只有719个Foer,第二多的是 @ioannrfcptasy 这个账号,有642位「新五毛」关注了他,但是他的Foer是有643位,是哪一个正常账号会关注他呢?一看是一位叫做「五毛党主席」的 @lpzhawei,实至名归。

总结:看来现在组织对之前的「人盯人」五毛已经不是很满意了,开发出了新一代的「鸡汤五毛」,平时装作鸡汤手,还能骗几个fo,条件一触发(不知道是人肉还是自动)就展开攻击。但是能不能装得更像正常人一点呢?或许人工智能的突破口就在这里呢。