绿色上网现状、技术发展趋势及其标准化(上)

来源:中国联通
1、绿色上网现状

  互联网给人们带来资源共享的同时,色情、暴力、反动等不良信息也日益泛滥,目前在互联网上活动的黄色网站达数百万个,而且每天都在增长,对青少 年的健康成长存在极大隐患,由浏览各种黄色信息而引发各种社会犯罪现象时有发生,而且呈上升趋势。如何实现对互联网有害内容的控制,保护未成年人的健康上 网是整个社会、学校、家庭所面临的急需解决的问题。

  为趋利避害,积极规范互联网给青少年带来的负面影响,把互联网变成青少年成长进步的绿色阶梯,我国有关电信运营商提出了"绿色上网"口号,推出 了"绿色上网"业务,国家有关部门启动了"中国青少年绿色网络行动"。信息产业部也于2006年2月启动了"阳光绿色网络工程"系列活动,以引导绿色上网 行为,保障广大青少年身心健康。

  绿色上网实质是利用互联网内容过滤技术,禁止或限制用户访问淫秽、色情等不良的互联网内容,从而为广大网民特别是青少年网民提供健康、安全、文明的网络环境和内容。

  美国、英国、德国、法国、日本、新加坡等国家,近些年来不断颁布了多项法律,加强了对网络色情犯罪的打击力度,加强对互联网色情的调查和惩处,特别注意保护青少年网民,许多国家的ISP都纷纷提供绿色上网业务,为未成年人提供健康的上网条件。

  我国政府也一直高度关注互联网不良信息治理整治工作,政府和相关组织出台了一系列法律法规和政策措施。已颁布并实施的法律法规有《全国人大常委 会关于维护互联网安全的决定》、《中华人民共和国计算机信息网络国际联网管理暂行规定》、《互联网信息服务管理办法》、《计算机信息网络国际联网安全保护 管理办法》、《互联网上网服务营业场所管理条例》、《互联网电子公告服务管理办法》、《互联网电子邮件管理办法》等。

  中国电信、中国网通等运营商从2004年起,陆续在全国各地推出"绿色上网业务"。绿色上网业务是基于ADSL接入业务基础上的一项电信增值服 务,主要面向家庭用户,提供有害信息拦截、无害信息访问和上网时间控制等服务。通过在电信局端对用户的上网行为进行控制和管理,过滤掉各种毒害青少年身心 健康的不良网络信息(如黄、赌、毒、邪、暴力、恐怖等网页),灵活地控制青少年的上网时间,确保孩子安全上网。

  除运营商提供的绿色上网服务外,目前国内外还出现了一些绿色上网产品。这些产品包括基于PC终端的软件,基于移动终端的软件,部署在网吧、校园 或ISP的网关型产品等。其共同点就是:能根据相关规则对互联网文本、图像等内容进行过滤和拦截,禁止或限制用户访问不良互联网内容。在国外,此类产品也 常称为互联网过滤器或家长管理软件。

2、绿色上网相关技术及其发展趋势

  文本、图像、音频、视频,网址是各种形式的互联网信息的位置标志。互联网上淫秽、色情等不良信息的表现形式主要有色情文学、黄色图像、色情动画、色情声音、成人电影等,基本覆盖了互联网上信息存在的所有形式。

  网络不良信息的主要传播途径有:WEB、BBS讨论区、FTP、新闻讨论区、E-mail、聊天室、即时通讯等。

  为有效禁止或限制用户访问不良的互联网信息,控制互联网上不良信息的传播,绿色上网产品必须获取并识别淫秽、色情等不良互联网信息,然后根据一 定的规则对其进行过滤,换而言之就是获取、识别并过滤含有不良信息的网址、文本、图像、视频、音频。因此,绿色上网主要涉及到互联网信息获取、内容识别和 内容过滤三方面技术。

  2.1 信息获取技术

  信息获取一般采用旁路式和串联式两种方式。旁路式指在网络出入口上通过镜像或旁路侦听方式获取网络信息。其特点是获取的内容仅限于进出本地网络 的数据流,不会对网络造成额外流量,对网络运行不存在影响和风险。目前部分网关型产品采用旁路方式获取网络信息。其中的关键问题是信息捕获的实时性问题, 丢包率是多少,能够实现对哪些协议的内容还原,协议还原的实时性如何。串联式指以代理的方式串联在网络出入口,分析网络数据流中包含的数据包,对数据包头 中的IP地址、URL、文件名等进行分析判断。

  数据获取的关键问题是数据捕获的实时性问题。数据的捕获能力是决定绿色上网产品性能高低的重要因素,数据捕获能力的高低决定产品的可用性。为提 高数据捕获能力,近两年出现了"零拷贝"技术。"零拷贝"技术是指数据包收发过程中不会出现任何内存间的拷贝,发送时数据包由应用程序的用户缓冲区直接经 过网络接口到达外部网络,接收时网络接口直接将数据包送入用户缓冲区。通过采用零拷贝技术和内核驱动开发技术,提高数据包捕获的处理效率,尽可能减少内存 拷贝开销,是数据获取技术发展的趋势。

  协议分析策略的优劣也影响着数据获取的性能。当数据被捕获后,接下来便对这些数据进行协议分析。为提高绿色上网产品协议分析的速度,可根据内容 过滤的需要对协议分析的具体策略进行制定,没有必要完全依照TCP/IP协议的规则进行。如根据需求,先对数据包进行有目标的过滤,仅将所需数据包发送给 协议分析模块,而且有些数据包不需要进行校验和检验,这就提高了处理速度,节约了协议分析的时间。除优化协议分析策略外,"并行协议栈还原技术"也可大大 提高协议分析的效率。并行协议栈还原技术就是采用多线程技术将捕获的以太网数据报文还原成应用层数据来进行高效分析处理。目前哈尔滨工业大学已成功开发出 支持HTTP、FTP、SMTP、POP3、IMAP、TELNET等多个应用层协议的并行协议栈还原系统。

  2.2 内容识别技术

  内容识别是指对获取的网络信息内容进行识别、判断、分类,确定其是否为所需要的目标内容,识别的准确度和速度是其中的重要指标。内容识别的对象主要有文本、图像、音频、视频等。

  文本识别包括关键字、特征词、属性词识别,语法、语义、语用识别,主题、立场、属性识别,涉及到规则匹配、串匹配、自然语言理解、分类算法、聚 类算法、词频语义模型等技术。目前基于关键字的识别技术相对成熟,其优点是实现简单,易构造,但容易产生误报。基于语义数据模型的识别技术,通过对所使用 语言的语义倾向和所涉及的场景两个维度分析,来综合判断文本类型,有效地提高了判断的准确率。因此,我们相信,下一代文本识别技术必将是基于语义数据模型 的,基于语义分析技术的。语义分析技术当前研究的重点和难点是中文分词和词性自动标注技术研究,如切分歧义处理、生词处理等。如果中文文本做了分词和词性 标注,后续的处理技术其实都可以从英文处理技术中照搬过来,所以这两项技术是基本也是最关键的。国内这方面的相关研究已进行了十几年,清华大学计算机系、 北京大学计算语言学研究所和山西大学计算机系等都有接近实用的实验系统。国际上在语言计算中运用得最为广泛的语义系统当推美国的WordNet,另外 Microsoft有MindNet,欧洲也参照WordNet构建了面向欧洲主要语言的EuroWordNet。国内有影响的语义系统是董振东教授的 "知网"(HowNet),比较有影响的理论有中国科学院声学研究所黄曾阳先生的HNC理论和朱德熙先生提出的词组本位语法体系。HNC理论是 "Hierarchical Network of Concepts(概念层次网络)"的简称,是关于自然语言理解处理的一个理论体系。

  图像识别技术指利用计算机视觉、图像理解、模式识别等技术,对图像的颜色、形状、纹理、轮廓、对象的空间关系等视觉特征进行自动提取,并与图像 特征数据库中的候选图像在视觉特征上进行相似度匹配。图像特征提取算法主要有纹理和颜色直方图、基于马尔可夫随机场的纹理分析法、自回归模型法、小波轮廓 表示法、不变矩法等。相似度匹配方法常基于向量空间模型,即将视觉特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征间的相似度。 20世纪90年代以来,图像内容识别技术的研究和应用得到了长足的发展。1996年Forsyth就利用计算机视觉和图像理解技术对裸体图片识别进行了研 究,通过对图片肤色分割和人体姿态的几何特征检测来判别图片是否含有裸体。目前国内哈尔滨工业大学、中科院自动化所、解放军信息工程大学、西安交通大学等 单位正在开展相关研究。

  音频内容识别分析技术的研究属于音频信息检索领域的范畴。音频信息检索即从音频数据中提取听觉特征信息,特征信息可以分为:听觉感知特征和听觉 非感知特征,听觉感知特征包括音量、音调、音强等,听觉非感知特征即物理特征。有关音频信息检索的研究工作是从20世纪90年代中后期开始的。近年来,引 起了众多研究机构和学者的广泛重视,美国卡内基梅隆大学、麻省理工学院、英国剑桥大学等都对音频信息检索做了大量的研究工作,美国的Muscle fish公司推出了较为完整的原型系统,对音频的检索和分类有较高的准确率,国内的浙江大学、中科院声学所等多家单位也开展了相关的研究工作。

  视频识别技术目前尚在实验室研究阶段,是当前多媒体数据库发展的一个重要研究领域,它通过对非结构化的视频数据进行结构化分析和处理,采用视频 分割技术,将连续的视频流划分为具有特定语义的视频片段――镜头,作为基本单元,在此基础上进行代表帧的提取和动态特征的提取。其中,视频分割、代表帧和 动态特征提取是视频内容识别的关键技术。目前相关的研究有:MPEG-7标准"多媒体内容描述接口",它是一种多媒体内容描述的标准,它定义了描述符、描 述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的检索;卡内基・梅隆大学的informedia数字视频图书馆系统,结合语音识别、视频 分析和文本检索技术,支持2000小时的视频广播的检索;国内复旦大学、哈尔滨工业大学、中科院计算所、国防科技大学等单位也正在开展相关研究。

  2.3 内容过滤技术

  内容过滤作为互联网内容管理的主要技术手段,当前广泛用于绿色上网、垃圾邮件防范、病毒防护、版权保护等领域。目前内容过滤主要是针对TCP、 UDP协议的上层协议的内容信息进行处理,且内容主要是明文或者是伪明文的,如base64编码、压缩等,对加密后的信息进行内容过滤还有相当的难度。内 容过滤的实现方式主要包括网址过滤、关键词过滤、语义分析过滤和图像过滤等。

  网址过滤的基本原理是基于预定义的不良网址数据库,当用户访问相关网页时,过滤软件根据网页对应网址的属性判断是否为不良网址,如果是则拦截。 这种基于网址的过滤策略较为简单,易于实现,目前多数绿色上网产品都采用此技术。网址数据库作为过滤软件判定一个网址是否有害的依据,其有效性的维护是网 址过滤技术的关键。互联网上黄色网站数量超过百万数,不良网址数据库包含了多少网址?如果所包含的网址不够多,过滤时的漏判率就会很高,难以达到期望的过 滤效果;如果网址库基本覆盖了的互联网上黄色网站,那么如何维护如此庞大的数据库?网址数据库如果条目上百万,遍历一次数据库势必要花一定时间,这不仅将 影响过滤的实时性,也将直接影响网络的运行效率,上网速度会下降,必将影响用户使用绿色上网产品的积极性。另外,黄色网站为了逃避过滤,往往会随时变更网 址,如何跟踪?如何保证内容过滤的实时性?这些都是当前的难题。

  关键词过滤是指在文本中匹配关键词,根据定义的关键词过滤规则认定是否为禁止的内容。关键词过滤的作用范围包括:对URL请求的域名、路径、查 询部分分段过滤,拒绝符合关键字规则的URL请求;对浏览器的窗口标题进行关键字过滤,关闭符合关键字规则的浏览器窗口;对浏览器的显示内容进行关键字过 滤,关闭符合关键字规则的浏览器窗口;对应用程序的标题名称进行过滤,关闭符合关键字规则的应用程序。关键词过滤存在的主要问题是受语言种类的限制。目前 我国相关产品采取的关键词过滤主要适用于中英文,而不能对其他语种进行过滤,但日文、韩文、俄文黄色网站不比中英文少。

  语义分析过滤指在访问互联网内容时,采用语义分析的方法对内容进行实时扫描,过滤被禁止访问的内容。语义分析指通过对所使用语言的语义倾向和所 涉及的场景两个维度分析,来综合判断文本类型,其中语义倾向直接从词语的语义获得,场景从情景框架获得,即在敏感词语判断的基础上通过情景框架分析进行言 语模式的判断,进而判定文本类型。语义分析过滤技术通常以知识库体系作为支撑,通过知识库的扩充,可以实现对不同领域的过滤。目前国内已有部分绿色上网产 品采用了语义分析过滤技术,如"HNC信息智能过滤器"就可对信息进行语义语境分析,区分正反两方面言论,结合过滤规则,判断信息的合法性。

  图像过滤实质上就是对上网过程中的图像进行特征分析、特征提取,并与图像特征数据库中的图像特征进行相似性匹配判决,对符合匹配条件的图像进行 过滤。其核心问题和难点是图像分类问题,主要是因为图像的内容非常丰富,很难简单地从图像中抽取出可以区分不同类别图像的有效特征。计算机只能自动提取一 些低层次的视觉特征,能表征图像内容的高层次语义特征需要人工标注。图像是否有色情内容,实际上是一种高层次的语义特征。能够通过机器学习手段,从大量色 情图像样本中发现出该类图像的规律,利用这些规律去分析现实世界中的其他图像,是当前研究的重点。国内已有部分绿色上网软件厂商将图像识别过滤技术应用到 绿色上网软件上。

  总的说来,内容过滤技术还处于初级阶段,实用的技术相对比较单一,主要表现在网址过滤和关键词过滤技术基本成熟,而图像过滤、语义分析过滤技术 还有待完善,面临着图像的智能识别和语义分析计算对计算机性能存在负面影响的障碍,音频和视频过滤技术都还处于起步阶段。未来的内容过滤技术将融合多方面 的信息,比如将信源地址和信息内容相结合,将图片信息和文字信息相结合,将声音信息和文字信息相结合等等,将信息内容和信息行为相结合等,从而进一步提高 准确性。由于信息的不同特征是异质的,因此这些信息如何有机地融合在一起是当前研究的重点和难点。

没有评论: