搜狐

何三畏:我想学习“敏感词”

“敏感词”终于成为一个可以公开报道的内容。当我看到搜狐网转载北京日报的报道《搜狐严格过滤不健康内容,每天屏蔽五千微博》时,我深感好奇。“敏感词” 使用多年,使“敏感词”这个词本身,变得不再敏感,尽管“敏感词”都是什么样子,都长在什么部位,仍然不得而知。这就像“网络评论员”(俗称“五毛”)这一个工作或职业,也逐渐变得可以公开谈论,并出现在网络里,写在报纸上,但谁是“网络评论员”,仍然没有人知道。   我想,这样的潜规则的公开,对于网络公司来说,意味着什么呢?现在的企业爱美誉自己为“企业公民”,表示一个有道德人格的主体。那么,网络公司会不会为过去长期使用“过滤词”这一不公开的暗器对付网民而不好意思呢?而这一消息来自北京日报,北京日报应该是很政治主流和政治正确的报纸。它的报道应该有道理。再查,看到搜狐网络自己把它放在显眼位置,还在论坛里作为网民讨论的话题。这说明作为事主,网络公司认为这是光明正大的,视为表扬自己的“正面报道”的。   根据报道,这些“敏感词主要是涉枪、涉黄、涉暴”。“每天屏蔽五千微博”,差不多每十四五条当中,就有一条“不健康”。这真叫人伤心。一但“严格”起来,微博就显得这么黄色和暴力。这么看来,喜欢上微博的人,思想也太“不健康”了。可是,微博不是这个时代最有知识,最有判别力的人在玩吗。如果他们是如此 “不健康”,那么,不意味着我们这个社会,或者说我们这个民族的素质“不健康”吗。或者,是否也说明网络公司“太严格”,敏感词“太敏感”了,才得出这个 “不健康”的诊断呢?   “敏感词”的真容还在敏感中,不能依据它来做评论。但是,它的数量,“主要是涉枪、涉黄、涉暴”的敏感词即有1000多个,这可能太多了,会给微博写作带来极大的麻烦。微博使用的语言是简单的,基本上应该在两千多个不同汉字的范围,而从中又去掉了1000多个字、词或词组,难怪帖子那么容易被过滤。令人困惑的是,汉语词典里涉枪、涉黄、涉暴的字词应有尽有, 假如某微博抄一段而被过滤掉,是否意味着对不起我们的文化?   这里必然产生两个问题。一,为什么需要“敏感词”,它们是怎么产生的,有没有合法的途径?二,如果需要而且合法地产生了“敏感词”,那么,应该怎样使用。很显然,它应该成为“上网须知”,最好是放在网上供网民学习。规定不能背诵60%以上,不能开机。一旦有新的“敏感词”产生了,还要及时增录,广而告知。本人上网的时间不多,但偶尔也被过滤。可是,我自认为我既不黄,也不暴,简直不明白什么原因。所以,我迫切需要学习掌握“敏感词”。 欢迎订阅《政府丑闻》博客! RSS地址: http://feeds.feedburner.com/GoveCN 《政府丑闻》RSS广告: 威众安全路由器,硬件翻墙解决方案! http://bit.ly/9T4yAg UseSSH,为个人提供私密匿名网络访问! http://bit.ly/usessh YesVPN,美国VPN服务包月仅10元! http://bit.ly/YesVPN

阅读更多

“平均每十几条就屏蔽掉一条;监控的敏感词有1000多个”

搜狐网监控中心负责人王国欣告诉记者,包括微博、博客在内的网民互动式互联网产品,文字帖一般采用1000多个敏感词进行过滤,如果其中含有敏感词就直接删除。这些敏感词主要是涉枪、涉黄、涉暴的内容。     据悉,微博被过滤掉的内容,绝大多数是涉黄,另外就是发帖做广告,或者是用语言攻击其他人。王国欣说,搜狐微博是24小时都有人做过滤监控,微博每天出现的七八万个帖子,过滤掉的大约有5000多个。在搜狐社区每天出现的20多万个帖子中,有4万多个会被过滤掉。     除了文字要进行过滤监控,图片过滤也是互联网监控的一个重要内容。王国欣称,搜狐对网民在搜狐社区上传的图片采取软件自动过滤加人工审核的方法,搜狐使用的软件名为图片过滤器,能通过肤色、纹理、动作、人脸等多个参数,对图片进行要素的提取。“人的肤色介于红黄之间,当肤色大于一张图片面积的40%,图片就基本认定为情色图片,进入人工审核程序。”狮子的皮毛是黄颜色,这样的图片会不会直接过滤掉呢?对于这样的疑问,王国欣说,图片过滤的一个选项是纹理,通过软件可以发现狮子的边缘很杂乱,与人体图片的边缘不同,不会被过滤掉。     记者在搜狐公司看到,一位负责网络监控的员工正在进行图片的人工审核。网民上传的照片按照每行5张、每屏40行的标准显示在电脑屏幕上。当发现照片有露点、挑逗动作内容时,他就会在图片下面的方框内点一下,图片就不会上传到网上公开发表了。

阅读更多

你咋不去删搜狐网的原文呢?

通知:您的文章《“平均每十几条就屏蔽掉一条;监控的敏感词有1000多个》中因含有不适当内容,已被设置为私密博文。2010-08-24 21:08 ————————————————- 你咋不去把搜狐网的原文删了呢 : http://it.sohu.com/20100822/n274384538.shtml 搜狐严格过滤不健康内容 每天屏蔽五千条微博 来源: 北京晚报 2010年08月22日15:56   敏感词过滤 组建妈妈评审团 寻找微博安全路径   微博的兴起,使得人们多了一个畅所欲言的场所,但是,一些人却在网上发帖卖假证,有的甚至卖枪弹毒品,这些自然在被禁止之列。昨天,搜狐公司相关人士告诉记者,微博监控有1000多个敏感词,主要是涉枪、涉暴、涉黄等。    上千敏感词监控网络安全   目前,新浪、搜狐、网易、腾讯、人民网等各家网站均提供有微博,上微博发言被网民称为“织围脖”。但是,微博的快速发展也出现了一些问题,一些涉黄、涉暴的内容也在微博上出现。搜狐网监控中心负责人王国欣告诉记者,包括微博、博客在内的网民互动式的互联网产品,文字帖一般采用1000多个敏感词进行过滤,如果其中含有敏感词的就直接删除。这些敏感词有1000多个,主要是涉枪、涉黄、涉暴的内容。“AK47可以说,但是教人怎么做炸药或者直接贩卖枪支弹药毒品的帖子肯定要删除,绝大多数国家都不允许网上出现这种不健康不安全的内容。”   据悉,微博被过滤掉的内容,绝大多数是涉黄,另外就是发帖做广告,或者是用语言攻击其他人。“网络口水战的内容可以发出来,但是‘国骂’就不行了。”王国欣说,搜狐微博是24小时都有人做过滤监控,微博每天出现的七八万个帖子,过滤掉的大约有5000多个。在搜狐社区每天出现的20多万个帖子中,有4万多个会被过滤掉。    图片过滤“软件+人工”   除了文字要进行过滤监控,图片过滤也是互联网监控的一个重要内容。王国欣称,搜狐对网民在搜狐社区上传的图片采取软件自动过滤加人工审核的方法,搜狐使用的软件名为图片过滤器,能通过肤色、纹理、动作、人脸等多个参数,对图片进行要素的提取。“人的肤色介于红黄之间,当肤色大于一张图片面积的40%,图片就基本认定为情色图片,进入人工审核程序。”狮子的皮毛是黄颜色,这样的图片会不会直接过滤掉呢?对于这样的疑问,王国欣说,图片过滤的一个选项是纹理,通过软件可以发现狮子的边缘很杂乱,与人体图片的边缘不同,不会被过滤掉。   记者在搜狐公司看到,一位负责网络监控的员工正在进行图片的人工审核。网民上传的照片按照每行5张、每屏40行的标准显示在电脑屏幕上。当发现照片有露点、挑逗动作内容时,他就会在图片下面的方框内点一下,图片就不会上传到网上公开发表了。    妈妈评审团置顶过滤器   文字和图片过滤,拿捏的火候很难掌握。昨天,搜狐举行“快乐假期,绿色家园”活动,10多位家长和儿童,以及搜狐社区的多位版主来到搜狐公司,现场交流“绿色网络”的建设。搜狐网副总编辑梁春元说,网络在删除一些不良信息的同时,也要保证正常网民不能受到伤害,对于正常的网上交流帖子不能删除,也不能人为耽误上传的时间。   在网络扫黄中,北京网络媒体协会组建的妈妈评审团曾经引起社会关注。昨天,“妈妈评审团”成员之一冯云对这种图片过滤器软件很感兴趣。她认为应该在各家网站大力推广这种软件过滤技术。同时,她希望网站能做出视频过滤器软件,对网上一些不良视频进行过滤。   搜狐媒体副总裁于威说,自己是个两岁女儿的妈妈,搜狐网上的内容是否做到让女儿将来放心上网,现在还不敢说。北京网络媒体协会魏莞说,国内网民数量已经达4.3亿,其中三分之一左右是未成年人,媒体有责任提供健康绿色的内容。“搜狐的好经验值得在全行业进行推广。”   本报记者 贾中山

阅读更多

国新办领导大骂搜狐张朝阳,指责他阴险

来自: GFW Blog – FeedzShare    发布时间:2010年07月21日,  已有 6 人推荐 来源: 墙外楼 17日星期六,笔者陪同一位领导参加东四的一个饭局, 饭局上有一位来自国新办网络局的小领导。当时在座的几乎都是各单位领导与陪同。不知道是谁,提起了7月14日搜狐一下子关闭了上百个博客的事,一位领导问 这位网管局来的,到底发生了什么事,他说他孙女喜欢的一位博客也被关闭了,对他吵起了这事。 这位网管局的领导说,前段时间修理搜狐网是真的,搜狐自从张朝阳年初讲话后,下面得寸进尺,容忍很多不健康内容,一下子成了各大网站中最冒头的。但他也强调,只是以搜狐为起点,还会对网易与腾讯做一些清理整顿工作。 他随即就开始大骂搜狐的老板张朝阳,他说,网管局确实一度要求搜狐微博关闭整顿,也指出他们的博客有些问题,但我们最关注的是他们的评论与新闻跟帖。可 是,张朝阳就阳奉阴违,在我们已经停止了整顿,也重开了搜狐的微博的时候,张朝阳突然下令一下子关闭了一百多位搜狐博客。这些博客都是很有影响力的博客。 有些内容确实有问题,可大多数并不应该一下子关闭。 张朝阳如此作为,给外界一个印象,好像是北新办逼迫他关闭博客,他是万不得已的受害者,其实,这些博客都是搜狐自己一夜之间挑选出来关闭的,而挑选的这些 博主都是很有影响力,又能搞事的,有些还是国内外著名的人物,例如贺卫方、杨恒均、章力凡、许志勇、滕彪等。搜狐之所以挑选这些人的博客关闭,而且事前一 个招呼也不大,根本目的就是想借被关掉博客的这些名人来炒作一把,一是扩大搜狐在国内外的影响力(他们认为这次整顿他们是吃了哑巴亏),二是让国新办网络 局难堪。 这位国新办领导说,搜狐张朝阳肯定是达到了目的,这几天,海外多家媒体和外国驻华机构打电话到国务院新闻办与国新办,询问博客被关的事。弄得政府很被动, 回答他们说这些博客关闭不是政府的指令吧,也不对,毕竟政府是要求各大网站整改并关闭博客的;说是政府的指令吧,我们这次却是没有让他们关闭某个具体人的 博客,更不会用这种一下子关闭一百多个名博的蠢办法。 这位国新办领导还说,张朝阳这人很阴毒,他看到这几年形势有些变化,很有点想从政的打算,搜狐就快要成为他的从政工具了。这次这种做法就很明显。不过,他 要给外人一个北京政府在压他关闭博客的印象,也有事与愿违的,因为大家可以问一下其他门户网站,是否收到了类似的指令?我们不会只要求搜狐收紧,对别的网 站网开一面吧? 在一位在座的陪同外事办领导一起来吃饭的年轻秘书询问是否有管部门要对张朝阳年初的一个讲话进行报复的时候,这位领导说,至少从他了解到的情况看,没有这回事。他说,一个吃喝嫖赌的人,偶尔发了一次那种言论,有什么大不了的?外界过分解读了。 这个话题没有继续下去,原因是在座的几位领导对这件事并不知情,也没有兴趣去了解。他们不上网,对网络上发生的事,除非关系到自己所在部门,一般不去关心。他们更关心当晚的鲍鱼与龙虾是产自哪里的。 翻墙利器”赛风”(数字时代版)新址:http://ifuwocheng.info。被墙网站收集:http://delicious.com/GFWbookmark,请使用GFWlist为标签,帮助我们收集被墙网站的信息。敬请订阅GFW Blog:http://feeds2.feedburner.com/chinagfwblog,邮件订阅:https://groups.google.com/group/gfw-blog。更多翻墙工具介绍和下载: 推客浏览器(http://twitbrowser.net/blog/,墙内镜像:http://tm005.nl.am/),Sesawe(http://www.sesawwe.net/)。翻墙互助小组邮件列表: http://groups.google.com/group/bypassgfw。

阅读更多

蓝天博客:搜狐微博之后,网易微博被维护

上周末,搜狐微博因为触及某个“敏感词”,惨遭“真理部”和谐,“被维护”了好几天。然后,新浪微博、搜狐微博、网易微博、腾讯微博等主要门户网站的微博都打上了“测试版”或者“Beta”的标识。在天朝这样一个怪像频生的国度,有些东西不但不会进步,反而会倒退—— …

阅读更多
  • 1
  • ……
  • 5
  • 6
  • 7
  • ……
  • 17

CDT/CDS今日重点

十月之声(2024)

【404文库】“再找演员的话,请放过未成年”(外二篇)

【404媒体】“等帘子拉开,模特已经换上了新衣”(外二篇)


更多文章总汇……

CDT专题

支持中国数字时代

蓝灯·无界计划

现在,你可以用一种新的方式对抗互联网审查:在浏览中国数字时代网站时,按下下面这个开关按钮,为全世界想要自由获取信息的人提供一个安全的“桥梁”。这个开源项目由蓝灯(lantern)提供,了解详情

CDT 新闻简报

读者投稿

漫游数字空间