话说又到周末了,所以……囧三大人就又跑来更新blog了。
这次标题很是莫名……这两样东西怎么能扯到一起?其实,我也很惊异于我的联想能力……
不多说了,先上缘起

说吧,其实这个东西,我在上个礼拜就准备写了,但是一直奔忙于学校的日常事务,所以就一直拖到了今天。
Ok,说回缘起。上个礼拜天,也就是3月8号,传说中的妇女节,不是腐女节……

在我很小的时候,嗯对,就是我还很好奇的时候,我总是很纠结于男女的差异。但是,这种小问题,显然是不能够难住我的。经过我长期的观察,我明白了原 来男女的差异就在于:女性的胸比较大!

好吧,好吧……我知道你们在笑……后来的一件事情,让我认识到了我的理解的荒谬性……
不不不,我说的不是小粉……那个时候我还不认识小粉……
但是,我认识了另外一个人,一个真正的纯爷们
没错了,他/她就是传说中:拳上能站人, 命根能走马, 胸口碎大石,菊花开瓶盖,的春哥!
好吧,好吧……我对他/她的敬仰之情已经滔滔江水、黄河决堤了……
就是这样一位传说中的人物,让我认识到了:其实,男女是不能用胸来区分的……

于是,我又一次陷入了长久的困扰之中……
直到有一天,我知道一个词:大姨妈……
虽然,不是很清楚这个词的渊源是怎样的,但是据我所知,基本上每个女的,好吧暂时不考虑小loli这种生物,都会有这么一个亲戚的。
而且据说,这么一个亲戚是一个很麻烦的人物。
不过这一切都是据说,毕竟我家里都是独生子女,亲戚比较少,实在没办法认识一位自己的大姨妈……

呃……又扯远了……好好,我们来整理一下思路:
上个礼拜天是38妇女节,女性与男性的区别在于大姨妈这么一个亲戚……
可是,大姨妈和今天的主题有什么关系呢?
(天音:tmd,你自己都不知道,我们怎么会知道!)
嗯,上个礼拜天,为了庆祝妇女节,让广大网民(我估计主要是针对我这样的宅男&geek一族)体会到作为女性,大姨妈的痛苦之处,我们的GFW(Game For Windows)也专门来了一次大姨妈……

那天的剧情是这样的:早上,淘宝网无法正常访问;中午,备案网无法正常访问;晚上,股沟不能正常访问。

所谓不能正常访问,就是说用我(和很多国内其他人)的电信线路(也许有其他ISP)无法直接访问,但是架上梯子又可以访问了。
靠谱的说,其实,并不知道到底是不是GFW来大姨妈了,不过现在只要网络不正常,我们都习惯性的把问题归结为GFW,毕竟她来大姨妈已经不是一次两次 了……

喘口气,绕了一圈,我终于还是把话题扯回到了主题上。
今天,我们来谈一谈以及相关的关键词过滤

特别提示:
娱乐内容到此结束
无聊看客就不需要猛击了

再次特别提示:
以下内容……
很长很长……

“你难道不明白,新话的全部目的是要缩小思想的范围?
最后我们要使得大家在实际上不可能犯任何思想罪,因为将来没有词汇可以表达。凡是有必要使用的概念,都只有一个词来表达,意义受到严格限制,一切附带含意都被消除忘掉。在十一版中,我们距离这一目标已经不远了。但这一过程在你我死后还需要长期继续下去。词汇逐年减少,意识的范围也就越来越小。当然,即使在现在,也没有理由或借口可以犯思想罪。这仅仅是个自觉问题,现实控制问题。但最终,甚至这样的需要也没有了。语言完善之时,即革命完成之日。新话即英社, 英社即新话,”他带着一种神秘的满意神情补充说。

一、 GFW只是手段,不是目的

大家都知道什么是GFW吧?算了,不知道的我也就不多说了。

很多人在上网遇到问题的时候,都会把责任怪罪到GFW上。
这样,其实是一种很缺乏思考的结果。按照我们现在这样一种现状,即便是没有GFW,也会有诸如GFL(Game For Linux),GFU(Game For Unix),GFM(Game For Mac)之类的东西出现。这一点是毋庸置疑的。
一个很简单的例子就是,我们的报纸。传说中,诸如新浪、网易这样的网媒,有一条内部规定:对于南方报业的报道,在未经确认前,不得作为正规消息转载。当然,这个只是传说,我不是内部人士,只能够不明真相。

对于GFW的过滤技术手段和原理,据说外国已经有人研究过了,考虑到内容比较专业,如果不是自行爬墙的话,知道了也没什么意义。而且现在市面上已经出现了不少一键使用的梯子工具,大家完全可以忽略这些东西。

在这里,我们特别的提出:GFW是一个自动化的软件。
我的意思是,GFW的运行过程是无人值守的。这一特性和我之前说的报纸审核很不一样。报纸审核,始终脱离不了实体人的审查,很无奈的一个例子就是前一阵子那个舔屁沟。

这样一个差异的出现,主要有这样两个原因:

首先,
报纸中信息的传递,主要是一个文字流。这与网络数据的比特流是完全不同的。尽管我们很多地方都实现了电子化办公,譬如说文章会录入成电脑文件。但是在实际使用的时候,依然是以一个文字,或者说图像的形式。每一个编辑在审稿的时候,他考虑的都是:这样一句话在说什么,而不是这句话写了些什么。
有一句话说的非常好:比特,天生就是用来被拷贝的。
这是因为,比特是明确的,无二义性的。一个字符串,无论你是写成0101001的样子,还是“滴答滴答滴滴答”的形式,它表示的都是一个意思。
但是,文字就会出现很大的歧义,譬如说,我爱炒鸡蛋。到底是我喜欢吃“炒鸡蛋”这个菜,还是说我喜欢“炒”鸡蛋这样一个过程。
所以说,对于比特流,我们只需要设置一个恰当的字符串匹配原则,就能实现良好的过滤。

上面那个差异,是一个质的差异,那么下面要说的,就是一个量的问题。
很显然,相比之下,每天的报刊的数据量是要比网络流少很多的。
如果每天报纸的发行量不是按版、印张这样的单位来算,而是按GB,TB,PB的话,估计我们的就业问题就会被“编辑”这样一种职业解决。
很显然,对于每天这么庞大的网络数据流,要实现人工审核,本身就是不现实的。

二、 GFW的原则

由于以上问题,制定一张良好的关键字匹配列表,就显得尤为重要。这样一个唯一需要:人,来参与的过程,自然成为了整个系统的核心部件。

很显然,想要实现高效的过滤,我们不能使用那些常见的词汇,譬如说“的”,“吗”,“哦”这样的词汇。否则,我们还是干脆不要上网的了……
那么,核心词汇的选择就是一个很重要的过程

在这里,我先举一个反面例子:魔兽世界……
怎么说呢……这个游戏,实在是悲情的有些过分了……且不说lichking已经被摧残的不成样子……光是聊天系统里的关键词过滤,就很是让人哭笑不得。
举个例子吧,操,这个字你总认识了吧。喂喂,那个“操”字不是语气词啊!事实上是, 如果你在山口山里说:“你的操作不错”,会被系统自动变成“你的@#作不错”。同样无奈的还有“银行门口交易”中的口交……
说这些可能被思想下流的人低俗的话,那么还有些诸如“沙僧”,“牛魔王”这样的词汇也被屏蔽,就只能让人百思只得其囧了……

这里多说一个题外话,我的英语不是很好。每次在英语阅读理解的时候,都会遇到很多面目可憎的名词,而且它们总是不厌其烦的反复出现在文章中。
当然,我作为有智商没情商的囧三大人,自然不会被这种东西难住。我一律对它们进行关键词替换变成something。于是,一篇文章就看完了,无非是一个什么东西,然后它怎样怎样了。

再举个例子吧,我看到一篇新闻,说马加爵杀了几个人。
显然,我不会认识马加爵,要不然我现在能不能活着坐在这里,都是一个问题。
但是,这并不重要。他到底是叫“马加爵”,还是“驴加爵”或者“骡子加爵”,对我来说一样。我只要知道的是,那个叫马加爵的人,他因为打牌,用锤子杀了几个人。
那么,下次我在和别人打牌的时候,我可以说:你们不许赢哦!小心我成马加爵
或者,当我拿着一把锤子的时候,我可以说:快给我钱,我是马加爵

这里,我想说明的是:

关键词过滤的核心,应该是那些有着特殊意义的名词。

首先,
这些名词往往难以获得一个二义性
即便是名词活用做其他词性,它表达的还是那么一个意思。
譬如说,我们说马加爵,无论我们说,我很马加爵的(做形容词)还似乎我要马加爵你(作动词),想表达的,其实都是那么一个意思。

那么一个意思,到底是怎样一个意思呢?
这就是我要说的第二点:
这些名词往往含义丰富,想要解释清楚,总是一件比较麻烦的事情。
我们还是拿马加爵说事。我要马加爵你或者我很马加爵,都是说,你别惹我,我可能会为了一些小事情,做出一些对你很不利的事情来。

正是由于上面那个特点,这些名词有了下面的第三个特点:
我们乐于通过使用这样的名词,来简洁的表达一个复杂的概念。

既然如此,在交流中,反复、大量使用这一类名词,就成了一种很自然的现象。

由于以上的特点,我们可以得到这样一个结论:
对于讨论某一类特别的话题的时候,必然会出现一些(甚至大量的)特殊名词。然而,这些名词,一般是不会出现在其他与这个话题无关的讨论中。
我们可以想象:我对另外一个人说,哎呀,你这个代码写的,真是马加爵啊!这是怎样一个莫名其妙的场景……

在这一节的最后,我再重复一下之前提出的论点:
关键词过滤的核心,应该是那些有着特殊意义的名词。

三、 图灵测试前,一切都是扯淡

如前文所说,比特流的特点是:无二义性,所以我们说比特天生就是用来被拷贝的。
正是这么一个无二义性,为我们过滤核心名词提供了便利。

但是,我们面临着一个很棘手的问题:一切比特流,都是我们使用的文字流的一个映射,而不是我们思想交流的直接反映。 归根结底,我们在思考的时候,用的还是文字的图像,而二义性如此而生。

换句话说就是,我想的是1,而我说的是2,于是网络把2传递到了你面前。但是,根据语境,你知道我说的2其实是1的意思。
于是,一个加密传输就这么完成了。

特别需要强调的是,这样的加密,对于机器而言,理论上是不可破解的。就像我在标题里说的那样,这对于机器,或者说过滤器而言,就是一个图灵测试
如果它成功的过滤了,那我们只能得到这么一个结论:要么机器成精了,要么就是有人看到了这样的加密,并且将它程序化了。(这样子的例子,事实上是大量存在 的,我将在后面介绍)

所以,面对这样一个冷冰冰的机器,我们战胜它的首要手段就是:图灵测试,换句话说,就是发挥我们人之为人的创造力和想象力。

下面,我会试图介绍几种常见的突破关键字的方法。

1. 符号填充

符号填充,本质上是一种非常低级的技术手段,而且随着现在技术的发展,这样一种手段已经越发不实用了。
符号填充就是在我估计会成为特殊词汇的词中间加上一些毫无意义的冗赘信息,譬如说 “三@真#是?猥x琐^的|令$人~发(指”这样。
这种方法的好处是,实施起来简单易行。

但是它也由于过于简单,想要封锁它也是非常简单。
我们只需要将关键词中每一个字分组,然后设置一个“相关度”。如果这些单字之间的距离很近,我们就说这些单字实际上是 “相关”的。

在这里说一句我生活中的实际故事。
我家里住在高校里。前些日子,有一个抵制家乐福的事情。然后,学校的网管就非常脑残的把“家乐福”放到了学校内部防火墙的记录里。
于是呢,只要数据流的明文里出现“家乐福”这样的字符串,就会被ban。包括我在Google里搜索“家乐福”,或者在浏览器的地址栏里写“www.家乐福.com”都会超时错误。
但是呢……我后来在Google里输入“家 乐 福”(注意,每个字中间都有一个空格),就可以正常得到结果。

2. 谐音转变

这是最常见的一种方式。
事实上,我们利用的是汉语特有的一音多字的特点。譬如说最近流行的十大神兽,啊,亚美蝶啊,都是这样的。

这种谐音,最大的好处就是,简单易行,好写好读,一看就明白。

举一个例子,有一个词,呃……明文我就不写了,写了这个帖子必然会被和谐……那我讲个故事好了。
说我国有一个县,叫淋巴县,你别奇怪,为什么会有这么奇怪的县名,中国这么大是吧,而且外国还有叫fuck的town呢。咱们说回淋巴县,那里呢有一个县长。那个县长和一只老鹤关系不错。但是吧,那个县长呢,有些不老实,想要把自己管理的淋巴县搞独立。结果吧,现在那只鹤就被诛连到了,被放到了石河子这个地方放养。
好了,故事说完了。看没看明白就是你自己的事情了。

3. 象形文字

这种方法也很常见。它是利用了汉字的特殊的组合结构。譬如说,我们说“强”,可以写成“弓虽”的样子。还有之前很流行的“圭寸杀殳三易口隹”。

但是,象形这个方法,在实际使用上,远不及谐音易用

而且它还面临另外一个问题:它的变化相对单一
譬如说汤,我们很难想到除了“三易”以外的其他变化。那么,我们在下次封杀汤唯的时候,可以连同“三易口隹”也一起“圭寸杀殳”了,毕竟这样的词也符合之前提到的特殊词汇的概念。
事实上,实际过滤中,也正是这样的。我就曾经在某网站用“车仑”代替轮,以表示某非法组织的时候,遭到了屏蔽……

当然,除了这样的分解,我们也可以使用“直八”来代替“真”,用“公瓦”代 替“瓮”。不过,这样的象形,相对上面提到的而言,是难以理解的。

特别的,我更愿意把用“住”、“注”等代替“主”,这样加偏旁的同音字结为象形法。
尽管我们在创造它们之初,可能用的是谐音。但是在看的时候,我们不会像“草泥马”那样读出来,而是看到字的主体部分,然后近乎自然的把它们理解成了 “主”。
就像我在写“拨河”的时候,你可能很难注意到,我写的其实是“拨动”的“拨”,而不是“拔”。

4. 同义替换

(此处严重缺乏实例,欢迎提供)
这个用的不是很多,方法是把一个名词中的某一个字,换成其他词组,而这个字和这个词组在普通语境中,含义是一样的。

譬如说,我们说西藏的时候,说成“西不干净”。
不过,拼音用户要注意,不要写成“洗不干净”了,这样可能会造成完全的无法理解。

也就是说,对于特殊词汇AB,我们用a来代替A以后,aB不应该是一个有正常含义的词汇。

5. 特定语境

这样一种方法的使用,如名称所写,需要用到特定的语境。这种感觉很像时评,当前环境下,它是不言自明的,而脱离了这个环境,它就会成为一篇不知所云的东西。

譬如说,我现在说“20年前那件事”,你可能很快就会联想到我要说什么。但是,要是过了今年,或者脱离了我现在说话的背景,你可能只能通过我后面反复提到关于那件事的其他细节,来猜测我到底是想说什么。

6. 结构变化
所谓结构变化,可以说和藏头诗很像。
我们在发送信息的时候,是按一行一行的横着书写,但是阅读的时候,却会很自然的竖着读。

前些日子,流行过一个古文竖排书写器,就是这样一个东西。
可惜我基本没有用过那个东西,而且,现在也找不到了,囧……

不过,我这里有另外一个更加强大的例子。这次不是什么特殊词汇的讳饰,而是一个灰常灰常强大的藏头诗……

我替春[春]
对各位[哥]哥姐姐们有话说:
她那么[纯]洁一个小姑娘,美丽又可爱
我奶奶[爷]爷都觉得她不错
怎么你[们]就不能理解她呢?
难道你[铁]石心肠?
或是冷[血]动物?
大方认[真]性格活泼的春春打动不了你们,你们也不要侮辱她啊
一幅痴[汉]的模样
像群傻[子] 、白痴!
你们是[人]嘛?
天下人[民]千千万,有那么多好人,偏往赖的方面学
学点儿[好]行不行!
不尊敬[兄]长、
不疼爱[弟]妹这些我都管不着
也都是[父]母生养,你们对得起父母吗!
多少为[亲]人着想,他们为了把你们养大付出了多少
踏实作[好]本职工作,你们都做到了么!
整天吊[儿]郎当无所事事,你们很无聊知道吗
像群疯[子]一样
动不动[拳]头解决问题,两句不合就威胁我们玉米
成天来[上]我们玉米帖吧爆吧,发那么多无聊的信息
你们有[能]耐
别再网[站]上耍横,有种下来啊
都是凡[人],我还真不怕你们
三头六[臂]你也变不出来,我怕你?
只在网[上]折腾可见你们的水平
算什么[能]耐
就趁早[走]人吧,否则惹恼了我们玉米
单枪匹[马]一个人来
我可以[胸]有成竹告诉你 你干不过我们玉米的!
有些人[口]口声声说爱春春,却用那种图片来侮辱丑化她
真是杂[碎]的行径,无耻!
居然还[大]言不惭,谈什么爱!
就是连[石]头人听到你们的胡言乱语都会害羞
有诗咏[菊]:不是花中偏爱菊,此花开尽更无花
是那菊[花]的魅力征服了诗人,菊花本身有什么错!
让玉米[开]心的春春,就好比菊花,除了她,我们别无所爱!
你们一[瓶]子不满半瓶子逛荡,一群空虚的人
还大帝[盖]世无敌
没日没[夜] 的就知道膜拜什么大帝
玩什么[御]宅腐女那一套
你们都[十]几二十的人了
御宅腐[女],还觉得自己特骄傲
真刀真[枪]干出一番事业,光明磊落地生活
有什么[不]好的,瞧瞧你们的德性
站着东[倒]西歪,抽烟喝酒,吃饱了撑得就来侮辱春春
再看那[菊]花的诗,
是那菊[花]的魅力征服了诗人,诗人多情,菊花本身有什么错!
春春是[百]里挑一,哦不,是独一无二的,不容你们污辱
打着圣[战]的旗号来爆吧,来侮辱春春,无聊透顶!
有个词[色]厉内荏,我想来形容你们再合适不过了!
若你们[仍]我行我素,来爆吧
小兔子[红]了眼还咬人呢,我们玉米不是好惹的

7. 词语联想

这是一种极其高端的讳饰方式。它充分利用了一个人的想象力和创造力。好吧……我解释不清楚……只好靠例子说话。

例句:因为东躲问题,我决定起开始抵制法国。从小处做起,从今天做起,所以,我以后决定不再使用笛卡尔直角坐标系,不再使用傅立叶变换。
好了,知道东躲是什么意思么?请参考成语:东躲西藏。

再来一个例子:
99,999,999+444,444
大家知道上面那串数字是什么意思了吧。

这样一个突破过滤的方法有很多缺点:
首先,它难于创造,其次它同样难于理解。
虽然它难以被过滤。但是对于阅读者,如果不是强烈的语境,更多,我们只能把它当成一个精妙的笑话来 看。

四、 冲出了网,却跳上了岸

好了,以上总结的那些方法,总的来说,都是通过一种结合语境的变换方式,实现了一种指桑骂槐的过程。

这样的方式,似乎的确突破了关键词过滤的限制,但是我们当初绞尽脑汁的文字游戏,真的能实现最初写这些东西的目的么?

为了说明这么一个问题,我们先进入下一节,讨论一些背景内容。

五、 墙字,有两种写法

这一节,我们将简单探讨一下我们当前环境下的网络管制状况
而要说明这个问题,牛博网是一个很好的例子。

如标题所述,我们现在的网络管制,主要有两种方法。
简单的说,对内实行的是自我处理,对外是用信息屏蔽的方法。当然,这些过滤规则, 依然是来源于我之前说的那种关键词过滤。差异只在于操作手法而已。

现在,我们拿牛博来说事。
在当初,就是前些日子,牛博还没有倒下的时候。它的服务器还是放在国内的。对于,国内的信息,操作手法通常是这样的:
防火墙过滤到了一些特殊词汇,然后上报管理员,就是我们俗称的王景叔叔。王景叔叔看了以后,发现这些东西的确很不和谐,就通知牛博网的管理员, 说你们看着办吧。
再然后呢?那些不和谐的文章就被看着办掉了……

对于国外的服务器,可就没这么好办了。
一来吧,王景叔叔估计没有钱打越洋长途到米国的机房,通知和谐;
再者吧,王景叔叔即便打了电话,那边估计也听不懂
最后吧……王景叔叔貌似管不到米国那边……

那么,对于这种问题,我们之前提到的GFW就开始发挥作用了。
譬如说吧,现在的牛博服务器已经放到米国了,而且运转的非常良好。但是,我们在国内通常是不能访问的。其中的技术细节就不多说了。
总之就是,被屏蔽了。

俗话说,好吧,无所谓到底是或者,到底谁是一尺,谁是一丈……
总之,对于这两种形式的管制,我们都是有办法突破的。

对于国内模式,硬件上肯定是没办法了,别说删你的帖,就算王景叔叔说要格式化你的硬盘,你也只能照办。
那么我们的思路就只能转为从软件上逃避检查。方法呢,也就是我在第三节中提到的那些方法。

对于国外模式,方法就相对简单一些。

因为那些信息的物理载体是实际存在的,只是由于某些技术手段,我们无法看到而已。
举个例子来说吧,我近视了,看不见前面的人,但是这并不意味着我前面的人不存在。

那么,近视了以后,要怎么做呢?戴眼镜,没错。对于网络管制,我们也有这样 一个类似眼镜的东西。

通常情况下,我称其为梯子。
当然,叫什么不重要,关键是那么一个东西。(抱歉,这里不能给出它的一个准确的名字,不然我会被和谐的……)
有了这么一个东西以后,我们就能看到之前被GFW屏蔽的那些东西了。

六、 要是字典里只有“和”,“谐”两个字多和谐

还有人记得我在文章开头引用的《一九八四》的段子么。那个是语言学家赛麦是我很喜欢的一个人物,不过,他不是今天故事的重点。为了方便大家阅读,我把这段话再引述一遍:

你难道不明白,新话的全部目的是要缩小思想的范围?最后我们要使得大家在实际上不可能 犯任何思想罪,因为将来没有词汇可以表达。凡是有必要使用的概念,都只有一个词来表达,意义受到严格限制,一切附带含 意都被消除忘掉。在十一版中,我们距离这一目标已经不远了。但这一过程在你我死后还需要长期继续下去。词汇逐年减少,意识的范围也就越来越小。当然,即使 在现在,也没有理由或借口可以犯思想罪。这仅仅是个自觉问题,现实控制问题。但 最终,甚至这样的需要也没有了。语言完善之时,即革命完成之日。新话即英社,英社即新话,

很多人都以为,关键词过滤的目的,在于限制思想
嗯,就像马伯庸在《寂静之城》中描绘的那样,从黑名单到白名单,实现绝对的过滤,再从白名单变成了无 名单……从此,寂静之城。

好吧,这的确是一个很恐怖的场景。不过,这只是一篇科幻小说,一如我们对《一九八四》的定位那样。
于是,有人戏称,我们以后的新华字典,完全不需要搞那么厚,实在是太浪费纸张了,只要有“和”,“谐”两个字就足够了。

在这里,我以为,这样一种观点,是一种缺乏深思熟虑的意见。

我曾经在某门学校哲学系老师开的选修课上,遇到一位同学问老师,大意是说,你们每天研究的问题,有很多,甚至可能是大部分,都是与我们推荐的马克思哲学相悖的。那么在这些学术著作是否会通过文化审批呢

当时,那个老师稍微愣了一下,大约是他从来没有思考过这样一个问题。
但是,他后来说,基本上,只要不是纯粹直接批判国家的东西都不会被禁。那些纯学术的东西,也许是审批人员也没看懂,也许是他们看懂了,但是考虑到一般读者看不懂,而能看懂的只有那么一小撮学者,这些一小撮人,写了也就看了吧……

从某种意义上说,魔和道的关系,也是一个辩证的对立统一的概念。
正所谓知己知彼,我们只有充分研究了不和谐的理论,才能从更好的发展和谐的理论。
如果,我们都不知道别人是怎么批判我们的,我们又如何能应对这些批判呢?

明白我的意思了吗?
这些反动思想,在这么一群学术研究者中流传,是无所谓的,甚至可能是受到鼓励的。关键是,不能让这些东西流传到群众当中去。

这里的说法,有些类似于《一九八四》中温斯顿说的希望在无产者中那样。
OK,这些东西想要讲明白,涉及到一些的群体心理学的问题……我不是太能说清楚……那我还是直接给结论好了……

网络管制的目的在于:限制某些不适当的内容在公众中的自由传播。而对于小范围的流传,是不关 心的。

我们的目的不是限制思想,而是控制思想。

大禹治水的故事,大家都知道吧?
治人如治水,限制思想,总是会失败的。但是,如果我们能够诱导出一种期望的思想,从客观上实现对其他思想的排斥,就能最终达到控制思想的境界。

好了,好了,说了这么多东西,让我们回归今天的主题:关键词过滤
那就让我们继续之前说了一半的第四节:

七、 冲出了网,却跳上了岸(续)

让我们回忆一下,网络管制的两种方式:屏蔽海外服务器与要求国内服务器删贴
那我们再回一下对应的突破方法:使用翻墙软件和使用关键词替换

好,对于第一组攻防,
我们要说的是:对于广大正常网络使用者,他们是不会使用这些东西的, 尽管这些软件只需要一个双击执行。而懂得并且习惯于翻墙的用户,永远只是少数中的少数。

这里又涉及到一个群众理论:广大人民群众,是无知而懒惰的
也就是说,哪怕他们是各自行业的顶尖专家,只要他们到了不是自己专业的领域,他们都是无知的,而且是不 愿意去思考的,即便这个思考需要的知识,对他们来说就是一个常识问题。

问一个不需要互动的互动问题,大家在用Google找东西的时候,如果打开一个链接,得到的提示是无法打开。那 么你会怎么想?
我想说,绝大多数情况中,不是那个网页被删了,而是被GFW挡住了

事实上,即便是我,看到一个网页被GFW,我很多时候,也是懒于去翻墙的。(当然,我看到那些东西,大都是一种倒霉的诛连,譬如说陶哲轩的blog 被墙……而对于一些特别内容,我还是会去翻墙的。)

让我们再想想那些对于不和谐理论有着深刻研究的学者们,要求他们精通于这样的翻墙技术,是不现实的。
而那些不和谐事件发生第一线的当事人们,他们更多的是一些平凡的普通人,甚至根本没有受过高等教育。你又如何能要求他们在第一时间上网、、发布消息?

可以说,GFW在限制信息传播上,它的目的是达到了的。

那么,我们再来看看第二组攻防:突破关键字
这里,我先问一个问题:假定你在我的blog里看到我说,武汉,或者说华工发生了什么什么不和谐事件。但是迫于压力,我不能说的太清楚,我只给出了几个关 键字。这个时候,你会怎么办?

如果,我没有猜错的话,你要么直接关了我的blog,打了个电话到我这里,向我问详细情况,要么就是去Google上搜索关键字。

对于第一种情况,已经脱离了网络的概念,我们不予讨论。我们直接进入第二种情况的讨论。

首先,我假设你是一个不会翻墙的普通用户。
依照前文,这个假设是非常合理的。
如果我给的关键词是明文,也就是说,这些词是没有按照第三节 说的方式进行讳饰的。那么,很有可能你搜索到的网页,都无法显示。

那我现在假设,我给的关键字是密文,譬如说,我把武汉写成了五 汗

让我们再回忆一下突破关键字封锁的思想:用多样化、不相关的表达,来代替原来的特殊词汇。
加密的关键是讳饰的随意性,解密的关键是结合语境。

举个例子来说,对于同一件事情,我们可以用这些关键字:五月35号,八乘八,444,444,二十年前等等。
那么,我们在搜索的时候,想得到关于这件事的全部信息,究竟应该使用怎样一个关键字呢?
结论是,都不行……

好了,我要说的问题是这样的:
如今,我们获取资讯的方式,更主要的是通过搜索引擎。那么,我们在获得自己想要的信息的时候,从本质上说,和王景叔叔的工作是相似的。
通过一组关键字,由机器完成第一步的信息筛选,再由人来进行第二部的确认。

那么,既然我们的方法可以让王景叔叔无法发现,那我们又如何让其他人获得这些信息呢。

如果你想说,我是一个知名blogger,我不需要靠搜索引擎来吸引读者,他们会自然到我这里来。好吧,那这个时候,其实你已经不需要讳饰你的关键 字了。因为,这个时候,你的网站基本上已经被GFW了……

当然,还有一种可能,就是一个讳饰词汇,在私下里偷偷流传,以至于大家都知道了,譬如我们现在都不说“操你妈”, 而说“草泥马”。
但是,那些网络观察员(俗称五毛)又怎会不知道这些通用讳饰呢?
这些固定的替换词汇,依然是符合最初提出的特殊词汇的特征,而难以逃脱被过滤的命运的。

说回主题,关键字讳饰,可以实现封锁突破,但是却阻碍了信息的流通。
而我们网络管制的基本思路就是:限制信息自由流通。
可以说,在这一次比较中,关键词封锁,又一次取得了胜利。

现在是不是有这么一种感觉,我们抱着鱼死网破的准备,冲出了网,最后却发现,自己跳到了岸 上?

好了,今天的故事就说到这里了。看了一下word的字数统计,已经破万了……估计也没什么人仔细看完了吧?
其实,我想要说的,不是说,我们应该如何如何翻墙,或者应该怎样怎样封锁……
我只是很感兴趣这样的攻防互搏。
你能理解一个纯看客的心理么?

末了,让我再引用一段1984,内容还是说那个我很喜欢的语言学家的:

温斯顿突然相信,总有一天,赛麦要化为乌有。他太聪 明了。他看得太清楚了,说得太直率了。党不喜欢这样的人。有一天他会失踪。这个结果清清楚楚地写在他的脸上。


此段已被自我和谐
sorry

==============
(要翻墙,用赛风 http://fanqiang123.info)
==============

Original post:

和谐泥潭原文