1、引言
随着信息通信技术的迅速发展,网络信息安全问题日渐突出,特别是网上色情、暴力、反动等不良信息的传播、泛滥,严重地败坏了社会风气,极大地影响了广大青少年的健康成长,已经成为世界各国共同面对的难题和挑战。根据Internet Filter Review的统计结果表明,目前全球大约有420万个色情网站,占所有网站总数的12%,互联网上色情网页超过了3.72亿个。由于大多数色情网站可以随意进入,导致许多未成年人在毫不知情的情况下误入黄网。网络色情对青少年的健康成长存在极大隐患,由浏览各种黄色信息而引发各种社会犯罪现象时有发生,而且呈上升趋势。特别是在我国,近年来由于短信支付的方便,使网络色情之火正呈现燎原之势。因为有了短信这一支付平台,无形的网络色情产品开始形成一条具有成熟盈利模式的产业。如何实现对互联网有害内容的控制,保护未成年人的健康上网是整个社会、学校、家庭所面临的急需解决的问题。
为趋利避害,积极规范互联网给青少年带来的负面影响,把互联网变成青少年成长进步的绿色阶梯,我国有关电信运营商提出了“绿色上网”口号,推出了“绿色上网”业务,国家有关部门启动了“中国青少年绿色网络行动”。信息产业部于2006年2月启动了“阳光绿色网络工程”系列活动,以引导绿色上网行为,中国电信启动了“绿色网络遍神州工程”,中国通信标准化协会、中国互联网协会也正在积极开展绿色上网相关标准研究。
2、国内外绿色上网现状
网络不良信息泛滥已经成为全世界共有的现象,国内外运营商和互联网服务商都纷纷提供绿色上网业务,为未成年人提供健康的上网条件。美国在线(AOL)和MSN两大互联网服务商专门为父母提供监控儿童网络活动的业务,父母可以通过定制过滤器阻止孩子访问某些网页,限制或者定制孩子对电子邮件、即时消息以及聊天室的使用。瑞典网络公司从2005年5月开始对以儿童色情为内容的网页加设网络过滤器,控制网上色情信息。目前,已有1000多个含有儿童色情内容的网络被加设了这样的过滤器。中国电信、中国网通等运营商从2004年起陆续在全国各地推出“绿色上网”业务。雏鹰网、赛尔在线、263集团等互联网服务商也纷纷推出了绿色上网业务,为上网的未成年人提供不良信息过滤服务。
除运营企业提供的绿色上网业务外,目前国内外还出现了一些绿色上网产品。这些产品包括基于PC终端的软件,基于移动终端的软件,部署在网吧、校园或ISP的网关型产品等。其共同点就是:能根据相关规则对互联网文本、图像等内容进行过滤和拦截,禁止或限制用户访问不良互联网内容。在国外,此类产品也常称为互联网过滤器或家长管理软件。据非营利调查组织Pew发表的研究报告称,美国12-17岁家庭有54%的家长使用互联网过滤器来限制未成年人访问有害的网络内容。常见的国外产品有:Content Watch公司的Content Protect、Solid Oak软件公司的CYBERsitter、IBM公司的WebSphere、LookSmart公司的Net Nanny、SurfControl PLC公司的CyberPatrol、McAfee公司的McAfee Parental Controls以及SF4公司的FilterPak等。国产软件主要有:郑州金惠计算机系统工程有限公司的“绿坝”、北京大正语言知识处理研究院有限公司的“花季护航”、武汉市硅丰科技发展有限责任公司的“硅丰佳盾”、北京网中行信息技术有限公司的“网中行”、深圳市任子行网络技术有限公司的“任子行互联网管理软件”、珠海捷朗菱网络科技有限公司的“过滤王”等。
3、绿色上网参考模型
绿色上网实质是利用互联网内容管理技术,禁止或限制用户访问不良的互联网信息,从而为广大网民特别是青少年网民提供健康、安全、文明的网络环境和内容。
互联网上不良信息的表现形式主要有色情文学、黄色图像、色情动画、色情声音、成人电影等,基本覆盖了互联网上信息存在的所有形式:文本、图像、音频、视频。
互联网上不良信息的主要传播途径有:
- Web。使用者利用WWW可以轻易地连接全世界色情网站,浏览各种色情信息,是最方便的接触色情网站的方式,不需太多计算机相关技能。
- BBS讨论区。以文字讨论为主,也可表现图案。BBS提供色情讨论区让使用者张贴色情文章及性、色情方面的讨论。
- FTP。以FTP传送的色情信息,包括静态影像、动态影像、数字声音。
- 新闻讨论区。利用新闻群组已将不同主题分类的特性,浏览搜寻色情相关信息,使用相当方便。
- E-mail。利用电子信件夹带色情图片、文字、动画等,使用相当普及。
- 聊天室。提供线上色情声音交谈交友。
- 即时通信。装设ICQ、QQ、MSN等即时通信软件者可以实时地传送信息、实时交谈、实时文件接收与传送。
为有效禁止或限制用户访问不良的互联网信息,控制互联网上不良信息的传播,绿色上网产品必须获取并识别淫秽、色情等不良互联网信息,然后根据一定的规则进行过滤,换言之就是获取、识别并过滤含有不良信息的网址、文本、图像、视频、音频。
当用户浏览网页时,绿色上网产品首先截获网络上传送的数据包,进行IP包解析或帧还原,将数据包头中的IP地址、URL、域名等与不良网址库比对,如果是不良网址则丢弃数据包;如果不是不良网址,则进一步对还原的内容进行识别以判断相关的文本、图像、视频、音频是否含有不良信息,如果是不良信息则采取相应的手段进行拦截或过滤,同时自动将含不良文本、图像、音频、视频的网址标记为不良网址,加入不良网址库。
绿色上网参考模型如图1所示。
图1 绿色上网参考模型
在图1所示模型中,绿色上网产品将与不良网址库、关键词库、知识库、图像特征库等数据库交互,依据这些数据库判断相关的网址是否为不良网址,相关的文本是否含有不良关键词或不良文本,相关的图像是否为色情图像或其他不良图像。目前,由于音频、视频识别、过滤技术还不是十分成熟,绿色上网产品一般主要采取网址过滤、关键词过滤、语义分析过滤和图像过滤等技术手段。
绿色上网产品除具有获取、识别并过滤含有不良信息的网址、文本、图像、视频、音频等主要功能外,一般还应具备应用程序管理、时间管理等辅助过滤功能以及权限管理、日志管理、软件升级和帮助等功能,其中:
- 应用程序管理。主要是可选择禁止或限制常用即时通信软件、游戏、网络下载软件、媒体播放软件等应用程序的执行。
- 时间管理。可根据用户学习和工作需要限定上网时间。
- 权限管理。设置管理员负责开启/关闭全部或部分过滤功能、设定上网时间、查阅/删除日志、卸载绿色上网产品、修改过滤规则等管理操作。
- 日志管理。日志管理可提供事后查看用户的访问记录,包括正常网络访问、对不良网址或不良内容的过滤和拦截、所拦截的应用程序日志以及软件的启动、关闭和更新等,甚至有些软件还可以定时保存屏幕截取图片。
- 软件升级。同杀毒软件一样,绿色上网产品一般都可在线升级,升级的内容包括:主过滤引擎、不良网址库、关键词库、知识库、图像特征库等。
- 帮助功能。提供产品使用的在线帮助。
4、绿色上网相关技术及其发展趋势
根据上述参考模型,绿色上网涉及到的关键技术主要包括数据获取、内容识别以及内容过滤3大类技术。
4.1 数据获取技术
数据获取指采用旁路或串联方式捕获网络上的数据包,并对这些数据包按照TCP/IP的标准进行重组和剖析。旁路式指通过镜像或旁路侦听方式获取数据,其特点是获取的内容仅限于进出本地网络的数据流,不会对网络造成额外流量,对网络运行不存在影响和风险。串联式指以代理的方式串联在网络出入口,分析网络数据流中包含的数据包,对数据包头中的IP地址、URL、文件名等进行分析判断。
数据获取的关键问题是数据捕获的实时性问题。数据的捕获能力是决定绿色上网产品性能高低的重要因素,它决定产品的可用性。为提高数据捕获能力,近两年出现了“零拷贝”技术。零拷贝技术是指数据包收发过程中不会出现任何内存间的拷贝,发送时数据包由应用程序的用户缓冲区直接经过网络接口到达外部网络,接收时网络接口直接将数据包送入用户缓冲区。采用零拷贝技术和内核驱动开发技术提高数据包捕获的处理效率,尽可能减少内存拷贝开销,是数据获取技术发展的趋势。
协议分析策略的优劣也影响着数据获取的性能。当数据被捕获后,接下来便对这些数据进行协议分析,进行IP包解析或帧还原。为提高绿色上网产品协议分析的速度,可根据内容过滤的需要对协议分析的具体策略进行定制,没有必要完全依照TCP/IP的规则进行。如根据需求,先对于数据包进行有目标的过滤,仅将所需数据包发送给协议分析模块,而且有些数据包不需要进行校验和检验,这就提高了处理速度,节约了协议分析的时间。
除优化协议分析策略外,“并行协议栈还原技术”也可大大提高协议分析的效率。并行协议栈还原技术就是采用多线程技术将捕获的以太网数据报文还原成应用层数据来进行高效分析处理。目前哈尔滨工业大学已成功开发出支持HTTP、FTP、SMTP、POP3、IMAP、TELNET等多个应用层协议的高性能并行协议栈还原系统。
4.2 内容识别技术
内容识别是指对获取的网络信息内容进行识别、判断、分类,确定其是否为所需要的目标内容,识别的准确度和速度是其中的重要指标。内容识别的对象主要有文本、图像、音频、视频等。
文本识别包括关键词、特征词、属性词识别,语法、语义识别,主题、立场、属性识别,涉及到规则匹配、串匹配、自然语言理解、分类算法、聚类算法、词频语义模型等技术。目前基于关键词的识别技术相对成熟,其优点是实现简单,易构造,但容易产生误报。基于语义数据模型的识别技术,通过对所使用语言的语义倾向和所涉及的场景两个维度分析,综合判断文本类型,有效地提高了判断的准确率。因此,下一代文本识别技术必将是基于语义数据模型分析技术的。语义分析技术当前研究的重点和难点是中文分词和词性自动标注技术,如切分歧义处理、生词处理等。如果中文文本做了分词和词性标注,后续的处理技术其实都可以从英文处理技术中照搬过来,所以这两项技术是最基本也是最关键的。国内这方面的相关研究已进行了十几年,清华大学计算机系、北京大学计算语言学研究所和山西大学计算机系等都有接近实用的实验系统。国际上在语言计算中运用得最为广泛的语义系统当推美国的WordNet,另外Microsoft有MindNet,欧洲也参照WordNet构建了面向欧洲主要语言的EuroWordNet。国内有影响的语义系统是董振东教授的“知网”(HowNet),比较有影响的理论有中国科学院声学研究所黄曾阳先生的HNC(hierarchical network of concept,概念层次网络)理论和朱德熙先生提出的词组本位语法体系。
图像识别技术指利用计算机视觉、图像理解、模式识别等技术,对图像的颜色、形状、纹理、轮廓、对象的空间关系等视觉特征进行自动提取,并与图像特征数据库中的候选图像在视觉特征上进行相似度匹配。图像特征提取算法主要有纹理和颜色直方图、基于马尔可夫随机场的纹理分析法、自回归模型法、小波轮廓表示法、不变矩法等。相似度匹配方法常基于向量空间模型,即将视觉特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征间的相似度。20世纪90年代以来,图像内容识别技术的研究和应用得到了长足的发展。1996年Forsyth利用计算机视觉和图像理解技术对裸体图片识别进行了研究,通过对图片肤色分割和人体姿态的几何特征检测判别图片是否含有裸体。目前国内哈尔滨工业大学、中科院自动化所、解放军信息工程大学、西安交通大学等单位正在开展相关研究。郑州金惠已将图像识别技术应用到绿色上网产品中,该产品综合利用了肤色、人脸、姿态和特殊器官等特征来识别黄色图像。
音频内容识别分析技术的研究属于音频信息检索领域的范畴。音频信息检索即从音频数据中提取听觉特征信息,特征信息可以分为:听觉感知特征和听觉非感知特征。听觉感知特征包括音量、音调、音强等,听觉非感知特征即物理特征。有关音频信息检索的研究工作是从20世纪90年代中后期开始的,近年来,引起了众多研究机构和学者的广泛重视。美国卡内基梅隆大学、麻省理工学院、英国剑桥大学等都对音频信息检索做了大量的研究工作,美国的Muscle fish公司推出了较为完整的原型系统,对音频的检索和分类有较高的准确率,国内的浙江大学、中科院声学所等多家单位也开展了相关的研究工作。目前国内绿色上网产品都不具备音频识别和过滤功能,但对色情聊天室的管理和过滤是当前急需解决的问题,因此下一代绿色上网产品必将支持音频识别和过滤功能。
视频识别技术目前尚在实验室研究阶段,是当前多媒体数据库发展的一个重要研究领域,它通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段——镜头,作为基本单元,在此基础上进行代表帧的提取和动态特征的提取。其中,视频分割、代表帧和动态特征提取是视频内容识别的关键技术。目前相关的研究有:MPEG-7标准“多媒体内容描述接口”,它是一种多媒体内容描述的标准,定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的检索。卡内基梅隆大学的informedia数字视频图书馆系统,结合语音识别、视频分析和文本检索技术,支持2000 h的视频广播的检索。国内复旦大学、哈尔滨工业大学、中科院计算所、国防科技大学等单位也正在开展相关研究。目前国内绿色上网产品都不具备视频识别和过滤功能,但由于淫秽、色情影像以及成人电影的泛滥,对色情等不良视频的识别和过滤势在必行,因此下一代绿色上网产品必将支持视频识别和过滤功能。
4.3 内容过滤技术
内容过滤作为互联网内容管理的主要技术手段,当前广泛用于绿色上网、垃圾邮件防范、病毒防护、版权保护等领域。早在1995年万维网联盟(W3C)就根据“communications decency act”(通信内容端正法)提出内容过滤技术标准“Internet内容选择平台”,微软也从IE4.0开始支持内容过滤,加入“Internet内容选择平台读取器”。目前内容过滤主要是针对TCP、UDP的上层协议的内容信息进行处理,且内容主要是明文或伪明文,如base64编码、压缩等,对加密后的信息进行内容过滤还有相当的难度。内容过滤的实现方式主要包括网址过滤、关键词过滤、语义分析过滤和图像过滤等。
网址过滤就是基于预定义的不良网址数据库,当用户访问相关网页时,绿色上网产品根据网页对应网址的属性判断是否为不良网址,如果是则拦截。这种基于网址的过滤策略较为简单,易于实现,目前多数绿色上网产品都采用此技术。网址数据库作为绿色上网产品判定一个网址是否有害的依据,其有效性的维护是网址过滤技术的关键。互联网上黄色网站数量超过百万,不良网址数据库如果所包含的网址不够多,过滤时的漏判率就会很高,难以达到期望的过滤效果。如果网址库基本覆盖了互联网上黄色网站,那么如何维护如此庞大的数据库?网址数据库如果条目上百万,遍历一次数据库势必要花一定时间,这不仅影响过滤的实时性,也直接影响网络的运行效率,上网速度会下降,必将影响用户使用绿色上网的积极性。另外,黄色网站为了逃避过滤,往往会随时变更网址,如何跟踪?如何保证内容过滤的实时性?这些都是当前的难题。要解决上述问题,必须将基于图像、文本、音频、视频等内容的智能模式识别技术应用到绿色上网产品中,将传统网址过滤技术的被动过滤方式改进为主动过滤方式。
关键词过滤是指在文本中匹配关键词,根据定义的关键词过滤规则认定是否为禁止的内容。关键词过滤的作用范围包括:对URL请求的域名、路径、查询部分分段过滤,拒绝符合关键词规则的URL请求;对浏览器的窗口标题进行关键词过滤,关闭符合关键词规则的浏览器窗口;对浏览器的显示内容进行关键词过滤,关闭符合关键词规则的浏览器窗口;对应用程序的标题名称进行过滤,关闭符合关键词规则的应用程序。关键词过滤存在的主要问题是受语言种类的限制。目前我国相关产品采取的关键词过滤主要适用于中英文,而不能对其他语种进行过滤,但日文、韩文、俄文黄色网站不比中英文少。虽然,支持日、韩、俄等其他语种关键词过滤,在技术上不存在难点,但由于厂商需要增加开发成本,况且政府没有强制要求,因此国内的绿色上网产品基本上都不支持中、英以外其他语种过滤。
语义分析过滤指在访问互联网内容时,采用语义分析的方法对内容进行实时扫描,过滤被禁止访问的内容。语义分析指通过对所使用语言的语义倾向和所涉及的场景两个维度分析,来综合判断文本类型,其中语义倾向直接从词语的语义获得,场景从情景框架获得,即在敏感词语判断的基础上通过情景框架分析进行言语模式的判断,进而判定文本类型。语义分析的可靠性和性能完全依赖于语义规则的质量以及分配的权重值。语义分析过滤技术通常以知识库体系作为支撑,通过知识库的扩充实现对不同领域的过滤。目前国内已有部分绿色上网产品采用了语义分析过滤技术,如“HNC信息智能过滤器”就可对信息进行语义语境分析,区分正反两方面言论,结合过滤规则,判断信息的合法性。
图像过滤实质上就是对上网过程中的图像进行特征提取和分析,并与图像特征数据库中的图像特征进行相似性匹配判决,对符合匹配条件的图像进行过滤。它对网上色情图像和不良信息内容是主动拦截,与不断变化的色情网址无关,是非常有效的第二代信息过滤技术。其核心问题和难点是图像分类问题,主要是因为图像的内容非常丰富,很难简单地从图像中抽取出可以区分不同类别图像的有效特征。计算机只能自动提取一些低层次的视觉特征,能表征图像内容的高层次语义特征需要人工标注,图像是否有色情内容实际上是一种高层次的语义特征。如何通过机器学习手段,从大量色情图像样本中发现出该类图像的规律,利用这些规律去分析现实世界中的其他图像,是当前研究的重点。国内已有部分绿色上网软件厂商将图像识别过滤技术应用到绿色上网软件上,如“金惠堵截黄色图像及不良信息专家系统”就可以直接识别和拦截黄色图像。
总的说来,内容过滤技术越来越受到安全厂商青睐,甚至有人认为内容过滤是今后安全防护主流趋势,但目前内容过滤还处于初级阶段,实用的技术相对比较单一,主要表现为:网址过滤和关键词过滤技术基本成熟;图像过滤、语义分析过滤技术还有待完善,面临着图像的智能识别和语义分析计算对计算机性能存在负面影响的障碍;音频和视频过滤技术都还处于起步阶段;大多在应用层实现,适应性和安全性较差。未来的内容过滤技术将融合多方面的信息,比如将信源地址和信息内容相结合,将信息内容和信息行为相结合,将图片信息和文字信息相结合,将声音、影像信息和文字信息相结合等,并与操作系统网络底层处理融合,从而进一步提高准确性和兼容性。由于信息的不同特征是异质的,因此这些信息如何有机地融合在一起是当前研究的重点和难点。在Windows环境缺乏底层资料的情况下,如何在不影响操作系统原有功能的基础上有机融合也是当前的一大难点。
5、结束语
互联网不良信息的整治是一项复杂的、系统的社会工程,需要经济、法律、技术、行政等多种手段综合利用,才能达到标本兼治的目的。绿色上网作为互联网不良信息治理的手段之一,主要是借助于高科技手段来管理、监督未成年人的上网行为,对色情、暴力、迷信等不良互联网内容进行过滤,对未成年人的上网行为和上网时间进行计算机控制和管理,从而有效防范网上负面信息对青少年的危害,保护青少年健康成长。
尽管目前绿色上网相关技术和产品面临一些困难和瓶颈,还有些难点尚待克服,但随着政府政策支持的加大,运营企业的积极参与,尤其是用户需求的增强,绿色上网必将在今后一段时间迎来一个新的发展高潮。
没有评论:
发表评论