厦门美亚柏科吴鸿伟:互联网舆情分析技术

 
[李鸿飞]: 厦门美亚是一家致力于信息技术研究开发和服务的高科技企业,公司95%以上的产品具有完全的自主知识产权,下面有请厦门美亚有限公司总经理吴鸿伟,他演讲的题目是:互联网舆情分析技术。 (2008-11-28 17:29:58.0)

[厦门美亚]: 各位领导、各位嘉宾下午好!很高兴有机会在这里跟大家交流一下互联网舆情分析技术,大家可能不是太熟悉厦门美亚公司。我简单介绍一下,我们公司主要从事互联网信息内部安全的专业软件公司,是国内最大的计算机取证产品的服务提供商,主要涵盖公安、安全、保密这块。我们的产品有五个系列,互联网信息内容监控是一种,还有信息内容的过滤、计算机数据取证、计算机电子数据的建立、网络知识产权的保护,共五大类。 (2008-11-28 17:31:23.0)

[厦门美亚]: 这里主要为大家介绍一下互联网舆情分析,在我们这里分为互联网信息监控的这块,我这边主要讲技术,跟产品没有太大关系。互联网舆情就不用说了,是自由、开放的媒体,是对传统媒体的补充。目前的主要问题是面对海量信息中的热点、焦点、垃圾信息、不良信息、虚假信息。在互联网已经成主流媒体的情况下如何把握这把双刃剑?舆情分析系统就是针对这个问题所产生的,是搜索引擎与中文智能处理技术相结合的产品。分析内容包括热点、敏感、不良、突发信息、倾向性分析、趋势分析、虚拟身份、预警模型。 (2008-11-28 17:31:40.0)

[厦门美亚]: 名词解释。信息来源,现在很多信息不但在网站里传播,也可能在QQ群里传播,这个量是非常大的。采集这块就不用再介绍了。 对舆情分析系统分为三层结构,这个功能有一些预处理,包括排除、摘要,之后这些数据可以进行智能处理,这都是大家一些比较熟悉的技术,当然还有像检索、数字分析这块的技术,跟业务分析是密切相关的。 (2008-11-28 17:31:48.0)

[厦门美亚]: 对舆情分析系统分为三层结构,这个功能有一些预处理,包括排除、摘要,之后这些数据可以进行智能处理,这都是大家一些比较熟悉的技术,当然还有像检索、数字分析这块的技术,跟业务分析是密切相关的。 (2008-11-28 17:40:46.0)

[厦门美亚]: 技术要点分为搜索引擎、热点信息、不良信息、突发事件、趋势分析、舆情预警模型,用一个功能带一个技术讲一下。这是主流搜索技术原理,这个原理是相当复杂的,舆情分析这里主要是做采集工作。热点信息,有一些量化指标,像指标、回帖和点击率,还有类似的相关转载,比如说一条信息在其他网站上也出现,但不一定完全一样,只是类似的,是一种相关性,这些东西都作为量化的指标,这些东西他可以进行处理,我们可以作为热点新闻评判的标准。这一块也是补充,比如左边这块是搜索的关键词排行榜,这本身代表了互联网网民的情况。还包括词频和篇频。不良信息,不良信息在关键词很有效果,关键词是很古老的技术,但现在一直都在用。另外还有样本技术,首先我们搜索一些样本,这些样本你自己可以定义,然后进行分类训练,分类训练之后有一些数,再进行分类的话就用定义数来做,把定义的类别很清晰的表示出来。刚才的分类很清楚、很明白的是要有样本。倾向性分析,对于每个话题有人反对、有人支持,这是一种特殊的分类。突发事件,奥运会不算突发事件,我们都知道它会召开,比如说恐怖事件是我们不一定知道的,这种事情是这样的技术,分类是需要样本的,聚类是不需要样本的。这是一个信息岛,就是根据聚类划分出来的,它可以告诉你我们当前获取的信息中主要类别是哪些,你可以看一下哪些是有问题的,这个岛的规则是什么?比较大的这块信息量比较大,这些类别之间有一定的相关性,这就是信息岛的概念,针对突发事件的效果比较明显。趋势分析,趋势分析的功能主要是分析某个主题在不同时间段内关注的变化情况,早上何院士说过预测这块,实际上趋势分析也可以说是时间序列分析,但它是两个技术相结合的。这个图怎么看呢?这个图的信息量比较大,随着时间变化我们可以看出信息情况,不同的发展方向会有不同的分叉,趋势分析就用于某个主题不同时间段关注的变化,包括演变的情况。最后给大家介绍预警模型,实际上刚才的每一个参数都可以当成预警参数,我们把各项指标先量化,量化之后进行一定的加权,因为大型网站和小型网站不一样,另外时间也是很重要的参数,用这个模型进行预警会更完善。 我的汇报就到此结束,谢谢各位。 (2008-11-28 17:40:58.0)

 

没有评论: