关键词过滤

敏感违禁词汇系统自动审查过滤

关键词过滤,也称关键字过滤,指网络应用中,对传输信息进行预先的程序过滤、嗅探指定的关键字词,并进行智能识别,检查网络中是否有违反指定策略的行为。类似于入侵检测系统的过滤管理,这种过滤机制是主动的,通常对包含关键词的信息进行阻断连接、取消或延后显示、替换、人工干预等处理。

关键词过滤的主要布置在路由器、应用服务器、终端软件上,对应的应用场合主要有网络访问、论坛、网志、即时通讯、电子邮件等。

路由器关键词过滤

路由器网关防火墙中设置关键词过滤,对URL、数据包进行酌别。可用于对内部网对外通讯进约束,也可用于互联网的管理。

对于HTTP等应用层协议,防火长城使用深度包检测技术实现关键字过滤。

应用服务关键词过滤

论坛、网游、新闻评论、网志等互联网应用的服务器端进行过滤,常用于对色情、暴力、宗教或其它策略要求的言论进行控制。

通常对关键词的信息不予显示、替换或转人工审查。

终端软件关键词过滤

网络应用软件自身附带关键词列表,对指定关键词进行处理。

QQ(包括QQ游戏)、VeryCD公司基于官方eMule修改的eMule VeryCD ModEasyMule(官方eMule中无关键字词过滤)、TOM-Skype等中国大陆网络软件中,被很多使用这些软件的网友发现有内容几乎相同的关键字词过滤文件。[来源请求]

在2006年,黑客发现 eMule VeryCD Mod 有一个关键词过滤文件。[1]

同年,有中国大陆黑客发现QQ有一套过滤词汇表,是QQ游戏目录下的COMToolKit.dll,[2][3]过滤词汇内容与eMule VeryCD Mod的关键词过滤文件内容几乎相同。[3]这套过滤程序收录了1041个词汇,与相关的约占15%,其余基本都是与政治相关。[4]由于中国大陆网络审查缺乏对公众透明,这个关键词过滤文件是否是由中国大陆的网络警察创作的,目前没有明确的说法。

并且,为了某些安全上面的需要,某些网页游戏(flash编写)中有一部分资源文件亦有使用as脚本编写的敏感词过滤文件(扩展名为swf),不过必须使用专门的软件对其进行反向工程才可以查看包含的敏感词。[来源请求]

影响

斯肯索普问题,指的是整句字词里含有部分字符子串含有敏感字符(如“开放性交互式编辑界面”一词含有“性交”一词),从而被网站关键词过滤。英国小镇斯肯索普 (Scunthorpe) 含有英文字词 "cunt" (阴道、“屄”),1996年,当地居民称无法从美国在线注册,因故得名“斯肯索普问题”。

参见

参考文献