网上传的百度内部资料:搜词的方法和要领
来自China Digital Space
搜词的方法和要领
一:搜词的方法
搜索一个帖子,分为三部分,发贴人,标题,关键语句,其中每部份搜索都对应不同的需求。
1:发贴人
需要搜索发贴人时,多是因为刷屏或广告,少量情况是因为此人发违法贴吧原则的文章,这时我们搜索发贴人,查找此人是否发出更多的反动或色情文章,这些人会在很多贴吧转贴,所以需要搜索发贴人,此方法更多适用于处理刷屏和广告。
2:标题
当一篇需要删除的帖子多次出现在贴吧时,可以搜索标题,此方法适用于流传于各个贴吧的文章,由于广告经常性变换标题,所以搜索标题对处理广告的效果并不明显。
3:内容
经过以上两种搜索后,还需要搜索帖子的内容,如果时较长的文章,可以从文章的开头,中部和尾部分别节选一句代表性语句,进行搜索,这样搜索可以提高搜索的准确度,经过搜索语句后,这篇文章应该已经从贴吧消失,此时要从帖子里挑选出富有代表性的词汇进行搜索,这样可以搜索出更多的相关文章,根据挑选出的词汇的发帖量,决定每日或每周搜索。
正确的搜索方法:
当处理广告时,首先搜索发贴人,并及时封锁,之后挑选帖子内容,要挑选网址和帖子内容一起搜索,当确保完全删除后,搜索标题进行确认,此时如果搜索出其它网址或内容,再一次进行清楚。
例如:
k`a`o66 6 .c om 99,这种拆散的词汇,应该搜索o66 6 c om,因为搜索.是没有结果的。 处理反动贴时,由于互联网上的反动文章多数是流传性质的,很少有人去原创一些反动文章,所以我们首先搜索内容,此时需要挑选出3~5段关键语句进行搜索并添加A类词,确保完全删除的情况下,搜索标题,查看是否有换内容的帖子,之后再搜索发贴人,对其言论进行筛选。 处理色情的图片,后台审核时发现后,只需要搜索发贴人即可。
二:搜词的要领
首先要明确当前阶段主要打击的对象,按照打击的方向去搜词。 其中有一些固定的搜索方向:89事件、法轮功、反动言论 另外一些阶段性的搜索,根据时间不同进行重点搜索:反日、中考等等 搜词的宗旨在于精,不在于多。
例如:
搜索共产党,可以带出操共产党、打倒共产党等等 搜索中央,可以带出打倒中央、推翻中央等等 这样的词虽然搜索结果多,但是前后加的一些字简单明了就能看到,如果自己去想打倒共产党这样的词,难免有遗漏,要合理的利用网友的头脑。 也有一些例外的情况,例如搜索党应该出现共产党,实际上搜索结果里共产党出现的并不全,这个需要大家在工作中积累经验。 新发的帖子需要5分种左右才可以进入后台,搜词的时候会有这段延迟搜索不到结果,这个需要注意一下,不是搜不到东西就一定没有。 另外搜词过程中,首先看讨论区,出现在敏感讨论区的应该更加重视,另外通过搜词,可以看到一些不好的讨论区,这时候应该发给贴吧巡视的人员。
任何工作都是需要合理的搭配,搜词也需要和后台审核结合工作,例如打 倒 共 产 党 ,这个内容在后台审核就很容易被发现,后台审核隐蔽性高的,搜词和前台巡视可能就容易发现了,贴吧是一个整体的团队,脱离了组织,任何一个独立的工作都是不可能完美的,大家一起努力才能使贴吧更好的成长。
2009/04
(原文链接)
数字空间相关链接
- 89事件
- CDS专页:大陆人看香港抗争
- Falun
- 《零八宪章》
- 一体化联合作战平台
- 专制
- 专制主义
- 世界人权日
- 中共中央
- 中国地下教会
- 中央
- 中美意识形态竞争
- 主流媒体
- 九号文件
- 习远平
- 人权
- 供灯
- 信仰自由
- 共产党
- 共惨党
- 共铲党
- 冲破黎明前的黑暗
- 劳动法
- 反革命暴乱
- 器官捐献
- 大国院士
- 大纪元新闻
- 宗教迫害
- 打倒共产党
- China Digital Space:文章馆
- 朱森林:歪理
- 法轮功
- 法轮大法|大法
- 活摘器官
- 红二代
- 网上传的百度内部资料:审帖管理尺度说明
- 苏家屯
- 藏族 (Tibetans)
- 西藏
- 资产阶级
- 达赖
- 马克思列宁主义