Baidu’s Internal Monitoring and Censorship Document Leaked (3)

The first law of Chinese cyberpolitics is “Where there are River Crabs, there are Grass-Mud Horses (那里有河蟹,那里就有草泥马).” According to this “Law of the Grass-Mud Horse,” online censorship will always face resistance.

The latest hot item circulating in the Chinese blogosphere is a compressed folder leaked from a Baidu employee. It contains a set of working documents from Baidu’s internal monitoring and censorship department, with details including staff names, their performance records, company contact lists, censorship guidelines, operating instructions, and specific lists of topics and words to be censored and blocked, guidelines of how to search information which needs to be banned, the backend URL, and other internal company information from November 2008 through March 2009.

Baidu, China’s leading search engine company, has a long history of being the most proactive and restrictive online censor in the search arena. These newly available materials reveal and confirm how censors at the search engines distort and manipulate the search experiences of Chinese netizens. These complete documents are being rapidly spread, and quickly deleted, in Chinese cyberspace. CDT selectively posts some of those working documents here, including the list of filtered keywords (in Chinese).

3. Work-Flow of How to Control Baidu Post Bar:

MIS后台先审后发区审核流程

一. 先审后发贴吧区

(一)判断规则

1,判断帖子所在贴吧,是否为敏感贴吧,如果是则仔细浏览全贴。
2,否,则浏览包含敏感词汇字段,如果仍无法判断,则仔细浏览全文。
3,如果帖子包含图片,判断图片性质。
4,判断发帖人id或者ip是否异常(恶意注册的id)

(二)处理流程

1,如果帖子违反贴吧协议,搜索清理该id或者ip的发言。
2,摘取帖子中关键词进行搜索,清理相关结果。
3,根据帖子的内容,添加A类或者强过滤词。
4,如果帖子包含图片,且图片包含黄反信息,则把图片加入url过滤。
5,将该贴子选中,结束该页审核。
6,如果该帖子发的数量多,速度快,可放出一条到前台,封锁该id或者ip。
7,如果发现有未加入mis词表的敏感词汇,向本组负责人提请添加。

二. 带图先审后发贴吧区

(一) 判断规则

1,判断图片是否为黄色,反动图片(如果图片无法显示,则获取其url直接访问)
2,判断图片是否涉及恐怖,暴力。

(二) 处理流程

1, 如果判断为黄反图片,搜索该id/ip,进行清理。
2, 把该图片加入url过滤,转码则加入强过滤。
3, 将该帖子选中,结束该页审核。

三. 广告严重贴吧区

(一) 判断规则

1,判断帖子是否带有链接,且链接是否已经转码
2,判断该帖子内容与所在贴吧是否相关。
3,判断发帖id,是否为机器注册。
4,如果帖子包含图片,判断图片性质。
5,如果无法判断则,摘取部分关键词到后台检索,或者检索发帖id/ip。

注:1,如果及时搜索帖子,没有或只有少量搜索结果,不能准确通过发帖行为判断是否属于广告性质,可先记录IP/ID、关键词,一段时间后再搜索处理。
2,如果帖子内容仅为“d”或者“顶”,或者其他简短且无意义的字符,则需要到前台查看一楼帖子是否为广告。

(二) 处理流程

1,如果判断为广告,先添加A类过滤词。
2,如果是转码,则添加强过滤词。
3,放出一条帖子到前台,封锁ip或者id。
4,搜索ip/id,关键词清理。
5,如果帖子包含图片为广告,后者其他黄反信息,添加url过滤。
6,将该帖子选中,结束该页审核。
7,如果发现未加入mis词表的广告词,向本组负责人提请添加。

四. 特定IP段区

(一) 判断规则

1,判断帖子所在贴吧,是否为敏感贴吧或者为常出现其他违法类信息的贴吧,如果是则仔细浏览全贴。
2,否,则浏览包含该词表过滤词汇的字段,所在ip段,如果仍无法判断,则仔细浏览全文。
3,如果帖子包含图片,判断图片性质。

(二) 处理流程

1, 如果帖子违反贴吧协议,搜索清理该ip的发言。
2, 该帖子发的数量多,速度快,放一条到前台封锁该ip。
3,摘取帖子中关键词进行搜索,清理相关结果。
4,根据帖子的内容,添加A类或者强过滤词。
5,如果帖子包含图片,且图片包含黄反信息,则把图片加入url过滤。
6,将该帖子删除,结束该页审核。
7,如果发现有未加入mis词表的敏感词汇,向本组负责人提请添加。

五. 包含过多数量判断词区

(一) 判断规则

1, 判断帖子所包含的关键词。
2, 判断帖子所在贴吧,是否为敏感贴吧,如果是则仔细浏览全贴。
3, 如果帖子包含图片,判断图片性质。
4, 判断发帖人id或者ip是否异常(恶意注册的id)

(二) 处理流程

1,如果帖子违反贴吧协议,搜索清理该id或者ip的发言。
2,摘取帖子中关键词进行搜索,清理相关结果。
3,根据帖子的内容,添加A类或者强过滤词。
4,如果帖子包含图片,且图片包含黄反信息,则把图片加入url过滤。
5,将该贴子选中,结束该页审核。
6,如果该帖子发的数量多,速度快,可放出一条到前台,封锁该id或者ip。
7,如果发现有未加入mis词表的敏感贴吧,向本组负责人提请添加。

六. WAP贴吧区

(一) 判断规则

1, 判断帖子所在贴吧,是否为敏感贴吧,如果是则仔细浏览全贴。
2, 判断帖子的发帖数量是否为刷屏或是恶意灌水。

(二) 处理流程

1,如果帖子违反贴吧协议,搜索清理该ip的发言。
2,摘取帖子中关键词进行搜索,清理相关结果。
3,根据帖子的内容,添加A类或者强过滤词。
4,将该贴子选中,结束该页审核。
5,如果发现有未加入mis词表的敏感贴吧,向本组负责人提请添加。
6,如果发现有经常恶意刷屏的ip,向本组负责人提请添加至wap ip区。

七. WAP IP过滤区

(一) 判断规则

判断帖子所在贴吧,是否为游戏类贴吧或是经常出现刷屏的贴吧。

(二) 处理流程

1,如果该帖子发的数量多,速度快,可放出一条到前台,封锁该ip。
2,主要以删除为主。

八. 新建贴吧先审后发帖子区

(一) 判断规则
      
禁止创建类贴吧吧名:
1,时政类吧名禁止创建。如:XX左翼联盟、世纪军事等。
2,暴力色情吧名禁止创建。
3,国家领导人、政治人物吧名禁止创建。
4,民族宗教类贴吧吧名禁止创建。
5,国家明令禁止的毒品药品名称。
6,文史类吧名称禁止创建。如:五四、世界史、青年等。
7,包含“党”“派”“血腥”“游行”字吧名禁止创建。
8,包含国家企业名称。如:XX铁道部、XX铁路局、XX派出所、XX银行、XX邮局等。
9,社会焦点话题类贴吧禁止创建。如:17大、两会、民工。
10, 包含以上所列举的拼音吧名称不得创建。
11, 所有以人名创建的吧名称均要通过网页搜索查看结果。

(二) 处理流程

以上贴吧不得创建,一经发现连同拼音吧名立即加入只读列表,并且按照关键字进行相关搜索,很明显的词先加入只读列表后加如精确屏蔽。
在审核时如遇到不理解的吧名称必须通过网页搜索查看结果,拿不准的请务必发到邮件组中讨论!

4. Guidelines on Impermissible Content for Post Bars:

审帖管理尺度说明

对于贴吧后台管理工作,原则上只删除对贴吧产生危害的内容,尤其是直接影响贴吧生存的内容。如:各种违法信息、反动信息、广告信息及不相关信息。所以在我们执行删除过滤操作之前,请权衡一下该帖是否对贴吧产生危害。

一. 删除类型

1. 反动(敏感)信息

(1) 攻击共产党和国家领导人、攻击政府以及当前社会制度的帖子。

(在敏感吧、热门贴吧等贴吧中相应尺度要严格)

(2) 宣扬法轮功邪教及其它邪教组织的帖子。

(3) 宣扬89年“六四”天安门学生暴乱事件的帖子。

(4) 颠覆国家安全以及各民族间相互攻击的帖子。

(5) 其它政府机关临时通知过滤的帖子。

(6) 攻击部级以上的领导人的帖子。

(7) 转载大量的爱国文章至其它不相关贴吧。

(8) 转载大量外国媒体的涉及我国内政的帖子

2.色情信息

(9) 色情交友:以一夜情为主的交友信息。对方会留下里联系方式,如:电话、QQ等。

(10) 色情交易:以招妓为主的信息。对方同样会留下联系方式。包括同性色情交易。

(11) 色情文章及色情小说:以淫秽词语为主架构的文章。

(12) 色情图片:以露点图片为基准,发现后即可删除,一些有比较过分的挑逗内容的图片,裸体艺术图片避免聚集讨论。

(13) 宣传色情网站。

(14) 包含淫秽词语的帖子。

3.暴力信息

(15) 凶杀过程的图片及教唆他人犯罪的信息。

(16) 引导他人自杀的信息。

4.其它违法、犯罪信息

(17) 毒品交易。

(18) 赌博及六合彩等信息。

(19) 器官买卖。

(20) 枪手及代考信息等作弊信息,尤其是在国家范围内的大型考试中。

(21) 假证办理。

(22) 枪支买卖

(23) 一切不符合法律的违法犯罪交易

5.恶意信息

(24) 用户在贴吧当中大量传播广告信息。

(25) 用户在贴吧当中刷屏。

(26) 用户在贴吧当中发布大量的不相关信息。(个人贴吧除外)

(27) 用户在贴吧当中发布带有攻击性或恶意诅咒的信息。

(28) 用户间恶心中伤辱骂、有挑衅性的言论。

6.相关性

(29) 帖子的内容是否与这个吧的主题相关联

(30) 在个人贴吧和地方贴吧可以放宽尺度

(31) 具体情况具体分析可以根据发贴人和帖子的质量来衡量帖子存在意义

特殊吧的管理像汤加丽吧传奇吧铃声吧就有它的特殊性有它管理的方式

[Baidu Post Bar 百度贴吧, operated by Baidu, is one of the country’s most popular online communities, where individual discussion communities (“post bars”) are generated by Baidu users based on common search keywords. Through these groups, users can instantly join a discussion thread about the keywords they search on Baidu. Users have established more than 1.2 million Baidu communities.

Read also: Banned from Discussion: List of Community Forums Censored by Baidu on CDT.]

5. Work instructions for how to search information which needs to be banned

搜词的方法和要领

一:搜词的方法

搜索一个帖子,分为三部分,发贴人,标题,关键语句,其中每部份搜索都对应不同的需求。

1:发贴人

需要搜索发贴人时,多是因为刷屏或广告,少量情况是因为此人发违法贴吧原则的文章,这时我们搜索发贴人,查找此人是否发出更多的反动或色情文章,这些人会在很多贴吧转贴,所以需要搜索发贴人,此方法更多适用于处理刷屏和广告。

2:标题

当一篇需要删除的帖子多次出现在贴吧时,可以搜索标题,此方法适用于流传于各个贴吧的文章,由于广告经常性变换标题,所以搜索标题对处理广告的效果并不明显。

3:内容

经过以上两种搜索后,还需要搜索帖子的内容,如果时较长的文章,可以从文章的开头,中部和尾部分别节选一句代表性语句,进行搜索,这样搜索可以提高搜索的准确度,经过搜索语句后,这篇文章应该已经从贴吧消失,此时要从帖子里挑选出富有代表性的词汇进行搜索,这样可以搜索出更多的相关文章,根据挑选出的词汇的发帖量,决定每日或每周搜索。

正确的搜索方法:

当处理广告时,首先搜索发贴人,并及时封锁,之后挑选帖子内容,要挑选网址和帖子内容一起搜索,当确保完全删除后,搜索标题进行确认,此时如果搜索出其它网址或内容,再一次进行清楚。

例如:

k`a`o66 6 .c om 99,这种拆散的词汇,应该搜索o66 6 c om,因为搜索.是没有结果的。

处理反动贴时,由于互联网上的反动文章多数是流传性质的,很少有人去原创一些反动文章,所以我们首先搜索内容,此时需要挑选出3~5段关键语句进行搜索并添加A类词,确保完全删除的情况下,搜索标题,查看是否有换内容的帖子,之后再搜索发贴人,对其言论进行筛选。

处理色情的图片,后台审核时发现后,只需要搜索发贴人即可。

二:搜词的要领

首先要明确当前阶段主要打击的对象,按照打击的方向去搜词。

其中有一些固定的搜索方向:89事件、法轮功、反动言论

另外一些阶段性的搜索,根据时间不同进行重点搜索:反日、中考等等

搜词的宗旨在于精,不在于多。

例如:

搜索共产党,可以带出操共产党、打倒共产党等等

搜索中央,可以带出打倒中央、推翻中央等等

这样的词虽然搜索结果多,但是前后加的一些字简单明了就能看到,如果自己去想打倒共产党这样的词,难免有遗漏,要合理的利用网友的头脑。

也有一些例外的情况,例如搜索党应该出现共产党,实际上搜索结果里共产党出现的并不全,这个需要大家在工作中积累经验。

新发的帖子需要5分种左右才可以进入后台,搜词的时候会有这段延迟搜索不到结果,这个需要注意一下,不是搜不到东西就一定没有。

另外搜词过程中,首先看讨论区,出现在敏感讨论区的应该更加重视,另外通过搜词,可以看到一些不好的讨论区,这时候应该发给贴吧巡视的人员。

任何工作都是需要合理的搭配,搜词也需要和后台审核结合工作,例如打 倒 共 产 党,这个内容在后台审核就很容易被发现,后台审核隐蔽性高的,搜词和前台巡视可能就容易发现了,贴吧是一个整体的团队,脱离了组织,任何一个独立的工作都是不可能完美的,大家一起努力才能使贴吧更好的成长。

See also:
* Baidu’s Internal Monitoring and Censorship Document Leaked (1)
* Baidu’s Internal Monitoring and Censorship Document Leaked (2)

Full list of the documents, via the GFW blog:

* 网上传的百度内部资料:屏蔽网址
* 网上传的百度内部资料:搜词表12.18.htm
* 网上传的百度内部资料:空间搜词表12.31.htm
* 网上传的百度内部资料:网监要求备份(长春组织游行)
* 网上传的百度内部资料:搜词表
* 网上传的百度内部资料:信息遗漏及部分工作质量评判原则
* 网上传的百度内部资料:MIS后台先审后发区审核流程
* 网上传的百度内部资料:MIS后台先发后审帖子列表操作审核流程
* 网上传的百度内部资料:MIS后台操作审核流程
* 网上传的百度内部资料:后台审核流程
* 网上传的百度内部资料:巡视原则
* 网上传的百度内部资料:审帖管理尺度说明
* 网上传的百度内部资料:搜词的方法和要领
* 网上传的百度内部资料:贴吧过滤词添加、维护流程