班成英:增强统计挖掘技术应用 实现舆情分析预警功能

转自:国家统计局网站

统计数据显示,我国正在跃升为全球领先的舆论媒体大国。截至
2006年初,电视用户数量、报纸发行量和30岁以下网民人数均已排名全球首位;现有3000多个电视频道、2000多份报纸和9000多 种杂志。在舆情媒体规模、媒体种类等发展迅猛的同时,舆情导向的监测预警显得愈发重要,特别是互联网这把“双刃剑”,既提供了大量进步、健康、有益的提倡 性信息,也有不少反动、迷信、低级的误导性言论,这样就更需要有舆情监测预警的出现,防范误导性舆论的社会危害于未然,把握和保障正确舆论的前进导向,为 构建和谐社会的舆情保驾护航。

  1 需求与可行性分析

   舆情分析预警系统的实现具有可行性。一方面,舆情导向的预测不是一种抽象的可能性,而是现实的可能性,这种现实可能性并非凭空想象而是有其现实基础,是 对舆情的历史信息和其他因素经过判断、分析而得出的结论。虽然舆情导向具有随机性,从而使其难以准确预测。但是,难以预测并不等于不能预测。舆情也同其他 事物一样,是一种客观存在,有其产生、发展、变化的规律。只要对其予以客观、全面、科学的考察,细致、认真、仔细地分析,对舆情导向的有无、好坏、大小, 是可做出基本准确的评价和预测的。另一方面,描述统计和推断统计理论的完善,信息技术的高速发展,搜索引擎、数据仓库和数据挖掘等技术的不断应用,为实现 这一需求提供了有力的技术保障,使舆情分析预警的实现具有了可能。

  2 信息数据的主要来源

   从横向上讲,舆论媒体数据的来源可以来自不同的媒体宣传部门,所以应该努力实现媒体所有者的数据共享;从纵向上看,舆情分析预警所基于的数据不仅应该包 括现在,还应该取自于历史,才能做出对未来的预测。横、纵向广泛的数据采集才能构建舆情分析预警系统所基于的海量数据库及数据仓库。

   对报纸、电视等传统媒体数据信息的采集难度相对容易,主要通过媒体数据所有者将数据共享就可以得到。数据来源的难度主要集中在互联网数据的准确采集上, 因为互联网是完全开放的,每个人都有机会成为网络信息的发布者,每个人都有选择网络信息的自由,互联网世界的“虚拟”加大了网络中信息采集的难度。但是, 任何舆论总要通过一定的物质媒介或人际渠道来发布和流传,采集舆论信息也需要依靠这些媒介和渠道。互联网上的舆论信息也一样,它的发布和传输依靠了高科技 的网络,采集也必须应用多样的先进网络技术手段。

  3 体系结构和主要实现思想

  下面主要从构建舆情分析预警系统的信息化手段上,从体系结构和各个结构层面所采用的主要技术进行表述。

  3.1体系结构

  从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖掘预测、结果展示三个阶段。(如图1

1 舆情分析预警系统系统结构

3.2主要实现思想

  在数据信息采集阶段,由于数据共享技术成熟,通过互联网或者专用网络获得媒体数据部门所掌握的数据相对容易;难度比较大的是从“虚拟”的互联网中采集信息,从互联网的各种应用(如论坛、博客、新闻评论等)中采集舆情信息所用到的主要方法有:

  1、对于明确主题的舆情信息采集,可以采用搜索引擎方法。

  由于主题明确的舆情信息具有可描述的特征,如名称等,所以可以借助“类似”日常的搜索引擎进行查找。简单的理解,就同浏览器作为访问工具的传统搜索引擎一样,当用户通过浏览器访问一个搜索引擎时,浏览器就与Web服务器建立了连接,用户通过浏览器向搜索引擎提交舆情主题信息检索请求,Web服务器对用户的请求进行预处理和分析后,在索引数据库中查找相匹配的索引项,并通过浏览器把检索结果提供给用户。

   但是,舆情分析预警系统不能是一个单纯的搜索引擎,由于担负着收集正确导向和危害社会等舆论信息这样的特定任务,以及向特定用户群体(如公安系统)提供 信息服务的职能,所以它应该具有自身的特点,而且由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整。所以在舆情分析预警系统中,建立在 多个独立搜索引擎上的技术方法值得提倡,以便实现多个单搜索引擎搜索结果的整合、调用、控制和优化。但是又不应该与一般意义上讲的元搜索引擎相同,由于它 担负着特殊的职责,以及向特定用户群体服务的职能,所以它必须具有凌驾于普通搜索引擎索引库之上的索引数据库,而且还应该有用户管理这样的功能。

  2、对于采集后的明确主题的舆情信息,必须首先整理优化,然后采用数据挖掘技术分析。

   对于按某一舆情主题查询出的结果,必须要整理优化。首先要做的是重复分析。由于是建立在多个搜索引擎之上,而每个搜索引擎都是在独立、并行执行用户提交 的检索请求,对于互联网中存在的某一信息,很有可能被多个搜索引擎索引,也就是说,在这些搜索引擎返回的结果中必然存在一些重复的结果。但是,又不能像传 统搜索引擎所采用的方法那样,将这些重复的检索结果删除或合并来减少用户浏览结果的时间。因为分析预警系统的目的所在,这些检索结果的重复意味着舆情关注 的焦点,所以重复性可以作为各信息主题价值尺度的度量,以及作为今后挖掘预测中的预测系数。

   另外,对于过滤整理后的主题信息还需要进一步采取挖掘算法进行挖掘预测。比如最常见的分类挖掘算法。分类要解决的问题是对一个事件或对象的归类。在使用 上,既可以用分类模型分析过滤整理后的主题信息,也可以用它来预测未来的数据。数据挖掘分类技术的工作方法是通过分析已知分类信息的历史数据总结出一个预 测模型。这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据,如以往一些社会事件引发的不同类别的舆情焦点特征数据(如表1)。

1 关于不同社会事件的训练集

训练集类别

网络传播渠道

突发案件舆情信息

网络新闻报道、新闻评论、BBS讨论、个人博客评论、聊天记录、其他

刑事案件舆情信息

经济案件舆情信息

自然灾害舆情信息

恐怖事件舆情信息

群体事件舆情信息

总之,分类技术首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的算法,建立分类模型,从采集整理后的信息中提取与训练集类别有关的信 息,对于没有分类的数据进行分类。分类的例子再如分类挖掘舆情信息的时间、空间分布等特征情况,在此基础上实现正确的舆论监督和引导。

  3、对于主题舆情信息的整理结果和无主题舆情信息的采集、整理以及根据这些信息进行的预测,应该充分利用数据挖掘技术。

  社会舆情信息的主题往往是很难确定的,比如人们对危害社会的舆情种类只有发生过的才知道存在这种危害。所以对舆情信息按主题一般也是很难分类,分类标准也难以确定。比如不属于表1中所列的人为操控的虚假信息。这使得数据挖掘中的聚类技术得以发挥它的作用。聚类是对信息进行分组,把相似的记录聚在一个聚类里,如对某一网络新闻出现了思路一致、语气相似、IP地 址集中分布的评论,那么有理由判断可能出现人为操控的舆情。聚类和分类的区别在于聚类不依赖于预先定义好的类,不需要训练集,而分类则必须事先确定好分类 标准。比如:查看舆情信息发布地点的分布特征,一开始是不知道有多少个类和他们具体分布的特征。聚类在于要揭示所考察对象之间本质的“抱团”性质,根据对 象的不同特征划分成不同的类,使得同一个类中的对象之间的差别尽可能的小,而不同类中的对象之间的差别尽可能的大,如发布信息的IP地址集中地在一个无规则的区域内,这个无规则区域内的对象IP地址差别很小。

  另外,关联分析数据挖掘技术也可用在舆情分析预警系统中。关联分析决定哪些事情将一起发生,表明一些事情之间的相互关系。实际生活中一些社会危害事件的舆情信息肯定是有关系的,关联分析描述为X=>Y,解释为“满足X中条件的记录也满足Y中条件”。两种常用的技术是关联规则和序列模式,关联规则是寻找不同项的相关性,例如:某社会危害事件A发生后,常常导致B的发生,即A=>B(关联规则);序列模式与此类似,它寻找的是时间上的相关性,是用过去的信息来预测未来的信息,这些信息的区别是信息所处时间的不同,某群体A在参与社会事件后,隔一段时间还会参与该类事件,即为序列模式。关联分析可应用在某种社会危害事件的动态跟踪预警上,从时空角度发现相关联事件的发展规律与趋势。

  总之,预测是通过分类、聚类、关联分析等数据挖掘技术起作用的,也就是说,通过数据挖掘技术得出模型,该模型用于对未知事件发生的预测。预测的目的是对未来未知量的预言,这种预言是需要时间来验证的,也必须经得起时间的检验。

  4 主要实现的功能作用

  系统应该至少提供以下功能:

  1、明确主题舆情信息的主题搜索。如上所述,采取类似传统搜索引擎但又不同于传统搜索引擎的技术。

  2、 支持基于内容的“相似检索”,根据对检索内容的理解来进行搜索。使用者输入主题信息内容,这里另外还需采用目前相对成熟的汉字语意分词等技术,在海量的数 据仓库中或互联网上查找与某个给定信息“相似”的数据内容,其有别于传统的精确匹配,它不是针对对象的某个或几个具体属性,而是针对对象的多种属性的综合 特征来检索,有助于使用者对信息的全面深入了解。

  3、针对文档与媒体数据的海量高维特性以及异常样本(即孤立点)的特性,充分挖掘隐含的、内在的信息,起到预警的作用。

  4、由于舆情分析预警系统是服务于特殊的部门和特殊的使用者,所以系统必须提供灵活的系统参数配置和用户安全权限等管理功能。

  5、结果展示阶段提供多种展现的渠道,如Web浏览,邮件发送,短信,PDA等,可以以报表、图片、多媒体等形式展现,以方便和有说服力的将结果提供给使用者。

  6、具备舆情信息的统计分析、生成报表和分析图的功能,就是支持用户的二次统计分析功能,并支持跟常用软件的互通兼容。

  5 结束语

   舆情分析预警系统涉及多媒体数据共享、互联网搜索、统计分析、数据仓库和数据挖掘以及人工智能等领域和技术,是一个复杂却新颖的应用领域。它通过对海量 信息的采集,分类、聚类、监测分析、专题追踪等,实现用户对舆情检索、监测和预警的信息需求,形成简报、报告、图表等多种形式的分析结果,为使用者全面掌 握群众思想动态,做出正确舆论引导,提供分析依据。

  因为舆情分析预警系统将来是要用到实践中的,不能光堆砌一些先进技术理论,所以本文的表述尽力通俗易懂的达到这样的目的:既要有一定的先进科学理论作为支持,又要使得实行起来可行,做到理论不空洞,实行有依据。另外,也试图从项目实施的角度进行了简单的表述。

(作者单位:北京市统计局)

没有评论: