邦富软件总经理晋彤:互联网舆情管理系统建设


[邦富软件]: 谢谢大家能够坚持到现在,做一天的技术讨论挺不容易的,我尽量不重复已经讲过的内容,因为舆情管理至少有三四个公司讨论过需求的部分了,我想尽量讲一下没有被涉及过的见解,希望对大家的交流能够有所裨益。 (2008-11-28 17:47:32.0)

    [邦富软件]: 这是我们的一部分客户案例。我们的体系架构,跟业内其他厂商相比我们有什么不同点呢?从架构上说我们是全分布的体系架构,可以做集群之间的通讯,可以做大规模的通讯,我们现在也有自己的服务器群。我们可以做到分集,就是上下集集群之间的构建。系统、数据源、加工整合之间是用平台的框架结构进行。互联网往前发展,大家都知道肯定不是我们现在所能够完全想象的,但在我们做软件架构的时候尽量做到架构基本不动,以增加服务的方式来增加软件适应形式的改进。我们讲到互联网文化建设,这是我们针对互联网文化建设的模型,你们可以看到左下角实际上是我们最核心的,也是最多被大家谈到的互联网舆情采集分析的平台,左上角是互联网舆论引导的平台,右上角是部门与部门之间协调的平台,右下角实际上是上下级结合的平台界面,这些在我们的体系中都实现了架构。我们作为一个供应商,跟政府合作最重要的一点是以辅助的形式去做,而不是我们能够主导大家的需求,这是我们的观点。这是我们的业务模型,基本上是换一个视图理解刚才的架构模型,这个模型主要从业务角度出发,在我们的平台上构建什么样的服务、可以服务于什么样的部门。 (2008-11-28 17:51:21.0)

[邦富软件]: 目前舆情管理系统的业务模型,刚才已经讲的很多了,我现在主要讲讲我们在实践中所了解到的一些问题和处理方法,大家都知道基本上是采集、处理、分析和应用的过程,采集主要是需求上的挑战,你的采集器怎么从规模、效率、速度上做到非常强,也就是说在你对数据源完全没有控制的情况下,无论发生什么情况你的采集器都是能够正常工作的,而不是能够崩溃或出现其他的意外,而你的采集器智能化到什么程度。对于处理这方面来说,比如说排重、分词、索引、翻译等处理,然后分析就是刚才海量老总讲到的在我们已经采集到的数据上的数据挖掘、数据分析,他讲的挺好的,我们大家是在做类似的工作,结果不在于说还是在于做。 (2008-11-28 17:58:18.0)

[邦富软件]: 刚才提到的应用,主要还是可用性的问题,虽然我们公司在市场上以项目管理和服务见长,但我认为针对互联网舆情管理系统来说,现在主要集中在数据处理上,一种是正负面舆情判断,这是行业内经常提到的一个词,也是正常要求,我们怎么判断一个词是正面还是负面的呢?比如说汶川地震,这么一个帖子在论坛上发表了有关地震的消息,是正面还是负面的呢?这个答案是因时因地根据上下文而定的,因此我们判断舆情的正负面不能完全根据中文处理的理论做分析和判断,我们必须要有舆情工作的上下文,而且即使在同一个舆情系统里可能根据不同时间、不同要求、不同的用户正负面也是不一样的,这些怎么去处理是我们遇到的一个挑战。比如我看到一篇文章,这篇文章是怎么定类的呢?这些分类是不是顾客可以自己定义的,这是说起来容易做起来不太容易的事,因为很可能产生不同的结果。举例,处理方法不得当会遇到两种情况,垃圾进垃圾出是什么意思呢,你对数据量完全没有控制,数据量很大但都是垃圾数据。我们把阈值尽量调高或让大量的数据不能过来,怎么办呢?可能有用的数据被处理掉了,怎么做我们还是要有处理方法,最后还是效果说话。 (2008-11-28 17:58:37.0)

[邦富软件]: 互联网的舆情实际上是一个复杂的系统,今天上午何院士说的非常之好,他用一个物理模型模拟了互联网舆情的发展,实际上互联网的确是一个复杂系统,有很多约束,而这些约束是变化中的约束,不是固定的,甚至在我看来没有一个适用的模型是随着时间不变化的,所以针对互联网舆情,真正能够贴切的找到解决方案,我们必须要因时因地根据需求做具体的调整,但是我们必须要建立一个政策模型。 (2008-11-28 17:59:01.0)

[邦富软件]: 简单介绍一下我们在做的前瞻性研究。音频、视频,这两个搜索基础都是在于识别,音频搜索是以内容为基础的识别,音频主要是语音识别,目前面临的问题比如说汉语因为有不同的方言,我们要做的工作是非常大的。至于视频,现在所谓的视频能够按内容来搜索基本是不可能的,所以我们这边做的实际上是一个新的思路,我自己觉得这个思路很有趣,我觉得是我们做人怎么识别图像,一个正确解决图像识别的方法是根据语言来做,最后要转为文字搜索,但这个文字不是标签,而是对这些图像的描述。我们也在做移动互联网舆情的研究,彭局长说了我们如果不跟上移动互联网的形势就是笨蛋,我们坚决不做笨蛋。 这是我们现在系统的一些简单截图,以此来结束今天的交流。希望大家有一个愉快的晚餐。谢谢。 (2008-11-28 17:59:41.0)

没有评论: