数据采集整理分发系统的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息采集整理分发系统的研究

一概述

系统主要功能是实现一个针对不同类型农业资源数据库等资源实现数据采集整理和分发的平台,此平台能够实现数据采集处理分发的自动化和智能化。

二系统结构

数据采集整理分发系统主要包括三部分:内容抓取模块(Crawler Module)、信息处理中心(Information Process Center)和分发中心(Distribution Center),各个模块部分均支持多线程。

内容抓取模块:负责分析其它数据库信息内容,提取正文内容,并初步判断是否符合用户配置规则。

信息处理中心:负责信息的统一处理,进行数据格式统一,实现信息处理的智能化和自动化。

分发中心:负责将处理后的数据信息分发至索引模块数据库系统。

三系统功能结构

1、信息的收集:主要进行信息自动下载、内容智能分析与初步过滤,剔除无用、过期与重复的信息,并进行自动分类,实现与其他农业数据库资源信息的采集、分析过滤的自动化。

2、信息管理:数据采集分发系统对本地的海量信息进行统一管理。

3、信息利用:

人工智能分析

通过人工辅助的方式,运用各种信息分析方法,围绕采集目标相关的信息进行检验、整理和重组,使其有序化、系统化、层次化,以获得更多、更有价值的信息。

信息分类与检索

对采集的信息内容进行计算机自动分类与人工辅助分类,然后通过专题检索和相关内容自动关联检索手段,从大量文本信息中提取出有价值的知识,方便信息加工人员对知识的发现和利用。

信息推送与发布

通过信息主动推送的方式,推送到相关的数据库。

辅助简报生成

对于经过人工分析与挖掘的信息内容,可以通过人工辅助生成简报和报告的方式提交给用户;对于经过分类的信息提供给相应的信息研究与信息利用部门,进行信息的深加工。

四采用技术

1基于多代理的数据采集系统

数据采集分发系统的计划和协调是一个具有独立性、自主性、分布性的多个实体之间的交互协作的并行过程。在动态变化的环境中,外部数据库资源发生变化时,要求计划和协调系统具有高度的柔性和自治性。由于多代理系统(Multi-agent System, MAS)具有适应环境的动态自组织能力,因此,采用MAS支持农业数据采集系统是一种有效的方法。

多代理系统(MAS)是近几年来分布式人工智能(DAI)领域中的研究热点,着重于研究包括多个实体的系统构建原则,以及实体之间的协调机制。传统的DAI主要研究分布式问题的求解(Distributed Problem Solving, DPS),是将问题分解成子任务,然后在不同的处理机上求解每一个子任务,再将每个子任务的结果集成,这是一个自上向下设计的系统。在某种程度上,分布式问题求解是为了解决计算效率的问题,但是很难处理不同实体间发生的冲突问题。针对这种情况,人们提出了多代理系统的概念。

MAS系统可看成是一种自底向上设计的系统,首先定义出分布自主的代理,然后研究如何完成多个代理的任务求解。研究出发点是系统的行为立足于每一个代理的局部信息与目标,在有限的知识与资源的基础上通过多代理的交互与协调达到系统的总体目标。所以,MAS 系统比DPS系统更能体现人类社会的智能,更适合于开放动态的环境。

多代理系统中的每个代理(Agent)都是一个具有自治性、反应性、主动性、可通信性和自学习功能的实体。Agent的自治性和系统的协调机制使得MAS在描述复杂系统方面有如下的特点:

1)分布性:MAS不仅在结构上是分布的,在逻辑上也是分布的,其中的Agent具有不完全

的知识和分布决策能力,计算也是异步进行的,因此MAS非常适合并行操作。

2)适应性:对于环境的变化和不确定性因素, Agent可以在协调机制下通过交互和自学

习,适应新的环境条件。

3)开放性:Agent无论从概念上还是从实现手段上都是一种封装模型,其内部结构和算法

可以由不同人在不同时间和地点采取不同方法加以实现,通过标准的消息接口而加入到MAS中。

4)鲁棒性:对于外部干扰,MAS可通过Agent的交互协调进行参数调整来保存系统的性能水平。

数据采集中的实体一般是基于自己的目标和资源约束进行自主或半自主的运作,我们可以直接将这些自主或半自主的实体抽象为Agent模型。这样我们可以将数据采集抽象为由加工代理、采集代理、传输代理等组成的MAS系统。代理的相对自治性及其之间的协同能力,使MAS具有高度的柔性、自适应性、并行性和良好的可伸缩性,并能对环境变化做出快速响应,这些特点,使得MAS系统能够支持数据采集实时性、安全可靠性的全面提高。

2异构信息资源集成应用采用CORBA 技术实现

公用对象请求代理体系结构CORBA (Common Object Request Broker Architecture) 是对象管理组织OMG(Object Management Group) 为适应当今快速增长的软硬件协同工作能力的要求而提出的方案。 CORBA允许应用程序之间相互通讯, 而不论他们在什么地方或者由谁来设计。该标准的主要特点是基于软件总线结构, 将应用模块按总线规范做成软插件, 插入总线即可实现集成运行。CORBA 规范的核心是ORB (对象请求代理器)。ORB不仅支持标

准的OMG对象模型, 还具有分布进程管理和通信管理功能, 取代了传统客户/ 服务器结构中的相应接口部分。在CORBA 结构中ORB是一个中间件,它在对象间建立客户/服务器的关系。通过ORB,客户可以简单地使用服务器对象的方法,而不论服务器是在同一机器上还是通过一个网络访问。ORB获取对象请求并负责找到一个对象实现这个请求, ORB 将客户对象的请求信息传递给服务对象, 并接收服务对象的响应结果。客户对象无需知道服务对象在哪里、用什么语言实现或运行环境等与服务内容无关的问题。

为使各网站所采集的信息能在多个不同应用系统中共享,且各应用系统可直接使用数据, 而无须去配置数据库引擎或了解数据在数据库中的存贮结构。本系统采用CORBA技术, 提供异构信息资源服务。

在各信息应用系统中,嵌入一个CORBA对象, 主要完成该应用系统希望获得的信息的申请, 并接收服务结果。应用系统可透明地访问多种不同资源服务系统的信息。

在各信息资源提供方,可通过资源服务提供程序, 提供对该信息资源的透明访问功能。该服务程序创建两个CORBA对象:服务受理对象与服务提供对象。服务受理对象接收各应用对资源服务的请求, 将请求信息转换为内部格式, 传给服务提供对象。服务提供对象依据得到的指令,从数据库中获取相关信息并传给客户对象。这样基于CORBA提供信息服务的整体模型如图所示。这个模型有其具体的实现算法。

基于CORBA提供信息服务的整体模型

3 非统一信息分发

非统一信息分发把网格组织成一个从一个站点连接另一个站点的拓扑覆盖图,每个站点包含一个资源仓库,当信息通过覆盖拓扑传递时,一个仓库收到信息就将其记录下来,并且依据特定的协议标准决定是否继续推进这条信息。

非统一信息分发协议可以有效地把信息分发给已分配好的仓库,不需要通过突发或者集中手段,大家都知道网格资源具有对邻近用户来说更为重要的特点,利用这个特点,非统一信息分发协议采用一系列的解决方案。按距离资源的远近成比例地把资源信息反方向地分发出来,结果表明,在不丧失信息过多的精确度的前提下,与统一分发相比,这样做在费用方面有一个重大的缩减,特别是精确性被当作资源信息重要性的一项指标进行检测的时候就显得特别正确了,因此,非统一信息分发保证了改进网格资源发现的可测量性的承诺,而既是概率的又是智能的非统一信息分发协议导致了这个全面的折中。因此。进一步的研究需要集中于那些能够按照信息的价值智能地和动态地平衡传递费用的协议上。如图所示信息源计算

相关文档
最新文档