基于元数据的复杂信息共享技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于元数据的复杂信息共享技术

李小涛,胡晓惠,郭晓利,卢卫娜

(1. 北京航空航天大学自动化科学与电气工程学院,北京 100191;

2. 中国船舶重工集团舰船研究院,北京 100085)

摘要:目前元数据共享的研究主要集中在一些专业领域,使用的元数据格式不具有普遍适用性。而且随着用户对于信息共享的需求不断提高,异构复杂数据的按需共享和同步成为亟待解决的问题。首先,对信息共享技术进行了研究,提出了一种两层结构的元数据格式,第一层元数据为单独一类数据提供了统一的描述格式,第二层元数据统一管理第一层元数据以屏蔽不同类别元数据格式的差异。其次,在信息共享系统中实现了多类数据在不同用户之间的数据同步,并对元数据的检索方法进行了改进,提高了效率。最后,通过实验证明了方法的有效性并给出了结论。

关键词:元数据;信息共享;异构数据;同步

Complicated information sharing technology based on metadata

Li Xiao-tao,Hu Xiao-hui,Guo Xiao-li,Lu Wei-na

(1. School of Automation, Beijing University of Aeronautics and Astronautics, Beijing 100191, China;

2. Ships institute of China Shipbuilding Industry Corporation, Beijing 100085, China)

Abstract: Nowadays researches on metadata for information sharing mainly focus on someprocessional fields. The existent metadata standards cannot be used under all conditions. As the userrequirement for information sharing enhances unceasingly, the on-demand sharing and synchronization ofHeterogeneous and complicated data become an issue to be solved. First, the information sharingtechnology is researched, and then a two-layer metadata standard is proposed. The first layer of metadataprovides a uniform description format for one type of data, and the second layer of metadata manage thefirst layer of metadata to shield the difference among multi-class metadata formats. Second, an informationsharing system is built to realize the multiple class data synchronization between different users. At thesame time, the searching algorithm of metadata is optimized. Finally, the experiment results illustrate theeffectiveness of the approach and the conclusion is given.

Keywords: Metadata; Information sharing; Heterogeneous data; Synchronization

引言

随着网络的发展,以前所谓的单一数据中心的概念不复存在。数据可能分布在网络的任何节点,如何通过元数据技术使用户在信息海洋中发现和使用需要的数据变得十分迫切[1-2]。

目前,国内外学者对元数据的研究面向众多领域,形成了大量的元数据格式。文献[3-6]基于元数据建立了统一的教育资源共享平台,满足不同的教育群体对教育资源的需求。文献[7-10]对科学实验数据进行元数据描述并建立了目录系统,实现了科学实验数据的共享,方便了科学数据的重复使用。文献[11-12] 在建立农田信息数据元数据的基础上,实现了对农田信息的存储、管理和共享。在多媒体领域,声音[13]、视频[14-16]和图像[17-20]等媒体的检索和管理同样依靠元数据。但这些元数据都有各自的适用领域,不能满足不同类别的数据的集成和共享,更不能同时共享多个类别的数据。

随着科技的进步,各领域之间的信息交流愈发频繁,相互之间的影响不断放大。对于一个领域数据的分析利用往往不能局限于该领域,还要大量利用其它领域的数据信息。例如一种药品销量的增加可能受多种因素的影响,如药品价格的下调、竞争对手竞争力的下降、传染病的爆发、天气的变化和自然灾害等种种因素。如果只关注药品领域的信息,就不能准确判断造成销量影响的原因。但由于不同领域的信息往往都存储在各自的数据中心,对于这些信息的获取需要逐个进入到其数据中心进行查询,而且这些数据的收集同样耗费用户大量的精力。因此,如果信息共享系统如果能够满足多类数据的统一共享,无疑会有大大助于用户对数据的获取和分析。为了实现这个需求,本文提出了一种两层元数据结构,既能适应不同种种类数据的差异性,同时又能以一种通用的格式整合这些数据,实现统一的发布、检索和获取。在下文中,将第一层元数据称为分类元数据(Individual Metadata, IM),第二层元数据称为全局元数据(Global Metadata, GM)。基于两层元数据结构,建立了信息共享系统(Information Sharing System, ISS),作为用户参数数据共享的平台。

本文除了关注于多类数据统一共享,还对不同用户间的数据同步开展了研究工作,并结合两层元数据结构在ISS 中实现了数据的同步功能。以往的数据共享,仅限于让用户能够查看到数据。但是当服务器发生故障,导致用户不能登陆系统时,数据的获取工作会被迫中断,甚至会影响接下来的一系列工作。另外,一些重要的数据常常有生命周期,只在特定的时间范围对外发布,超过期限即被删除,这时通过共享系统就不能再获取到该数据。更好地保护数据的方法就是将重要的数据同步到本地保存,因此数据的同步功能具有重要的实际意义。

本文基于两层元数据的信息共享方案相比其它元数据共享方法具有如下优势:

(1) 能够同时在系统中对来自多个来源的不同种类的异构数据进行共享;

(2) 通过公共的元数据检索接口,实现多个种类数据的统一检索;

(3) 降低了元数据的检索时间,优化算法在正文2.3 章节介绍;

(4) 能够将数据从发布方同步到本地的数据库中,利于数据的更好保存。

本文的组织结构如下:首先,对信息共享技术展开了研究,分析了信息共享系统的层次结构;其次,详细介绍了信息共享系统同步功能的实现,讨论了数据同步的实时性优化问题;最后使用ISS 进行了多类数据的共享实验,验证了本文方法的有效性。

相关文档
最新文档