元数据的互操作性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

元数据的互操作性

一、元数据互操作提出的背景

元数据的应用虽然起源于图书情报领域,但随着网络技术的发展,它已经被广泛用于描述传统或电子信息资源的特征。目前较常用的元数据格式有:美国可视资料协会核心类目(Visual Resource Association Core Categories ,VRA) 、美国机读目录格式( US Machine Readable Cataloging format , US2 MARC) 、都柏林核心数据(Dublin Core , DC)、可扩展标记语言( Extensible Makeup Language , XML)等。随着元数据日益的标准化、规范化,DC元数据等少数元数据格式将占主导地位,然而永远不可能统一到仅有少数几种格式,许多专业或专门领域仍然会有大量的元数据方案,而且还会不断出现更多新的元数据格式,它们都将得到不同程度的应用。

这种多元化状态是开放环境的发展的必然结果,这是因为:不同领域或不同类型的信息资源需要不同的元数据格式;不同层次和不同角度的应用需要不同的元数据格式(例如对文献,支持发现和确认的系统只要求简单描述元数据,而图书馆这类长期保存和服务机构则可能要求详细的著录描述元数据);同一领域内的多个不同机构,针对不同资源类型或为不同层次或角度的应用,也可能开发或应用不同的元数据格式及相应的元数据处理系统,而且已经积累了大量的元数据记录。由此可见,完全使用一种“标准”的元数据去统一描述复杂的数据资源,既不利于充分利用各个领域众多机构的已有资源和发挥其开发建设的积极性,也不利于为不同领域不同层次的复杂应用需要提供有效服务。于是,当人们需要在不同元数据模式描述的资源体系之间进行统一检索、资源描述和资源利用时,元数据互操作的问题就出现了。

二、元数据互操作问题的基本涵义

所谓元数据的互操作性,是指在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,要向用户提供一个统一的数据检索界面,确保系统对用户的一致性服务。也就是说,元数据互操作问题就是与不同元数据格式间的信息共享、转换和跨系统检索等相关的问题。

三、解决元数据互操作问题的途径

元数据的互操作性分析及解决方案由于不同的领域存在着多种元数据格式,当用不同元

数据格式进行资源描述、检索和利用时,就需要解决多种元数据格式间的释读、转换问题,以确保系统对用户的一致性服务,即实现元数据的互操作。以下分别从语义互操作、结构与语法互操作、协议互操作3个方面进行分析。

1.语义互操作

语义是指元数据元素本身的意义,元数据语义互操作性问题主要是想克服资源描述过程中语义方面的障碍,如语义差别、款目与集合差别、多版本问题等。解决的方法主要有元数据衍化、应用方案、元数据映射、通过中心元数据格式进行转换、元数据框架、元数据注册系统等。

1) 元数据模式衍化。元数据模式衍化是指根据特定领域的应用需求,在原有的某种元数据系统基础之上,通过对元数据元素的增加、减少、改写、修正或扩展等方法,从而形成新的元数据系统。通过元数据模式衍化,可以保证在基本的结构及共同的元数据元素基础上,对部分元素进行深化、细致的描述。衍化可以通过改变编码形式、语言翻译等方式,在保持元数据基本内容不变的情况下,进行元数据模式的创新,从而既兼容原有的元数据模式,又使新元数据模式有所变化、拓展。

2) 应用方案。应用方案(Application Profile)是针对于不同的应用领域及用户需求,采用和参照现有的国际、国内的元数据规范,通过引进和利用各种成熟、规范的编码体系中的元素,将这些基本构件有机地组合起来,形成适应具体应用需求与资源特点的元数据应用模式。应用方案体现了元数据的模块性和可扩展性, 它从一个或多个元数据标准中选择元素,采用裁减、扩展、修改、创建元数据元素等方法,创建一些新的元数据元素,所有这些元素共同组一个新的元数据标准,其目标是通过吸收或整合现有的元数据标准来满足特定应用的需求,同时,特定的元数据用户能够在一个更宽广的元数据体系中实现面向特定应用的元数据标

准化。

3) 元数据映射。元数据映射则是对存在于不同应用领域的元数据格式进行转换,即为一元数据格式的元素和修饰词在另一种元数据格式里找到有相同功能或含义的元素和修饰词,通过一对一、一对多、多对一及多对多等多种映射方式,解决语义互换及统一检索问题。

4) 通过中心元数据格式进行转换。当参与互操作的元数据格式很多、映射过程较为复杂时,可选择一种广泛而普遍使用的元数据格式作为中心转换格式, 其他各种格式都向这一中心格式转换,从而实现以中心元数据格式为中介的元数据格式转换。当前,多以DC作为中心元数据格式作为转换的标准,此种方式转

换脉络清晰,方便元数据的扩展及管理。

5) 元数据标准框架。元数据标准框架是规范设计定制某类特定资源所用的元数据标准时需要遵照的规则和方法,它是抽象化的元数据。它从更高层次上规定了元数据的功能、数据结构、格式、设计方法、语义、语法规则等多方面的内容。

元数据标准框架可以采取两种方法制定:一是根据特定的应用需求,定义新

的元数据标准;二是以某种元数据标准为基础,综合、扩展或细化一些元数据以适应特殊需求,同时建立跨部门主题词表(包含结构化的术语表和关键词表),确保元数据记录的语义一致性,从而能够准确定义信息,实现信息的互操作功能。

6) 元数据登记系统。元数据登记系统是对元数据的定义信息及其编码、转换、应用等规范进行发布、登记、管理和检索的系统,支持开放环境中元数据规范的发现、识别调用及在此基础上的元数据转换、挖掘和复用。

2.语法、结构互操作

语法规定了元素如何以机器可读的方式给予编码,结构规定了元数据内容、句法及语义结构。解决语法、结构互操作的关键在于建立一个标准的资源描述框架,并利用它来描述所有元数据格式,各个应用系统只要能正确地解析标准描述框架,就能解读相应的元数据格式,从而解决元数据的互操作问题。实际上,XML,RDF,XSLT从不同角度起着类似的作用。

1) XML。XML作为一种界定文本数据的简便而标准的方法,使用标记来说明用户所描述的概念,使用属性来控制数据的结构,用户可以自由地定义各自的语法、结构。XML通过其标准的DTD/Schema定义方式,允许所有能够解读XML 语句的系统辨识用XML_DTD/Schema定义的元数据格式,能够有效地解决对不同元数据格式的释读问题。

2) RDF。资源描述框架(RDF)通过对结构化的元数据进行编码、交换及再利用,提供了各种不同的元数据体系之间的语义、语法和结构的支持。RDF由3个部分组成: RDF DataModel,RDF Schema和RDF Syntax。RDF DataModel提供了一个简单但功能强大的模型,通过资源、属性及其相应值来描述特定资源;RDF Schema则对RDF的语义进一步扩展,提供描述相关资源以及这些资源之间关系的机制, 并提供RDF核心类(Core Class)、核心属性(Core Attribute)和核心限制(Core Constraint)等机制来定义资源的类;RDF Syntax则构造了一个完整的语法体系以利于计算机的自动处理,它以XML为其宿主语言,通过XML语法实现对各种元数据的集成。

3) XML与RDF的融合。分析RDF和XML两种模式语言的各自特点,可以看出RDF虽然提供丰富的语义描述支持,但对本地使用约束模式只提供有限的支持;XML虽然提供明显结构、基数和数据类型约束的支持,但是只提供很少的语义知识支持,而这种语义知识对于实现元数据域的可扩展动态变换是十分必要的。因此,最合理的方法是利用RDF模式和XML模式的互补性,结合使用。为避免RDF和XML的功能重叠,可采用RDF模式只包含语义定义,而用有关XML 模式文档来表示RDF模式中类(域)和属性值(范围)约束;同样地,XML模式有关语义责任委托给RDF模式,XML模式只包含本地使用约束,而没有诸如注释中

相关文档
最新文档