元数据应用:语义、结构与句法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

元数据应用:语义、结构与句法i

赵亮楼向英张春景刘炜

(上海图书馆 200031)

文摘本文在简单介绍元数据应用中元数据规范的设计流程之后,从元数据体系架构的语义、结构与句法三个层面讨论元数据具体应用时的相关问题,对如何构筑一个完整的元数据应用进行了较全面的阐述。

关键词元数据元数据应用核心元数据元数据结构元数据编码

Metadata application:semantics,structure and syntax

ZHAO Liang, LOU Xiangying, ZHANG Cunjing & LIU Wei

(Shanghai Library 200031)

文摘By reviewing semantics, structure and syntax, that are three dimensions of a metadata system. The paper discusses many application related issues such as content, structure and encoding of a metadata application and reveals the reasonable workflow and key points of how to conduct a local metadata framework and discusses some considerations.

元数据的应用以及有关元数据规范的研究与探讨是当前图情行业的热点。但是元数据应用从概念到具体实现仍然存在着一层没有捅破的窗户纸,对于如何实施,应用得正确与否,是否能做到标准、规范、兼容大家都存在着许多疑问。本文设法从一个完整元数据体系的语义、结构与句法层面来探讨元数据应用中可以采用并遵循的一些原则与方法,籍以此砖来引发同行们对元数据实际应用的更多的思考与实践。

一个完整的元数据体系,可以做横向的切分与纵向的分析。从横向的切分来看,一个完整的元数据体系一般可分为描述型元数据、管理型元数据以及结构型元数据等。从纵向切分来看,单一完整的元数据体系,应该包含以下三个方面的内容:那就是语义、结构及句法[1]。语义指的是元数据的元素的定义,比如说定义DC元数据中的题名或日期元素是什么含义;结构描述了各个元数据的元素之间的相互关系,比如上位类与下位类的关系,比如象DC元数据中元素与修饰词的关系等等。句法或语法则规定了这一元数据体系是如何被表达与描述的,一般而言,比如是否采用XML或更进一步的RDF进行描述,是否直接采用其他的方式等等。

一、 元数据规范设计的流程

为了在讨论之初将我们考虑的语义、结构、句法三个层面的内容之间相互关系及整个元数据规范的整体考虑,在此我们引用“名人手稿馆元数据方案设计流程”来对此进行说明,因为本文的讨论重点不同,笔者对这一流程图进行了简化和修订[2]:

图1:元数据方案设计流程图示

我们对这一流程做一简单的说明,以说明后文的各个部分之间的相互关系。

元数据应用都是对应于对不同的资源对象的管理、描述,而不同的资源对象具有其各自不同的特点、属性与管理要求,甚至还有文化与语言差异所带来的不同需求。在元数据应用之初,对资源进行分析是最重要的起步,“资源分析”主要用于明确资源的特点、范围,资源选择的标准,明确元数据所对应描述的数字对象或物理对象集及其特点,明确相关的链接需求等。具体的资源分析通常需要确定的内容是:资源类型的定义和范围、资源对象之间的关系、对象粒度(著录级别和著录单元)、属性语义(具体内容)以及对于具体属性的检索需求[3]。资源分析可以说是对元数据结构与语义描述的需求分析。

在数字化的应用环境下,由于资源对象从物理到数字的形式上不同、对象本身的结构不同、对象实体的复合和多元化的变化、元数据应用的功能需求不同等使得元数据应用项目的整个规范模型与系统模型的建立十分重要。我们上述流程的第二步“建立模型”可以视为整个元数据规范体系的结构设计,建立的模型本身不仅是整个元数据应用框架的需求基础,也是整个系统功能的具体承载与系统设计的基础。

在资源分析与系统模型建立的基础上,我们已经析分出资源实体及相应的元数据记录的要求。“属性提取”分析每一个资源实体的属性以及资源实体管理、描述、应用的功能需求,我们可以得出每个资源实体的元数据描述的属性需求,这一步是为元数据记录中概念实体或元素(下文统称为元素)的分析服务的,其中最为重要的就是元素语义的明确定义。从互操作的角度看,元数据元素应尽量采用公用规范中已有的元素以获得最大的语义兼容性,保证互操作。因此“规范调研”对现有元数据规范进行广泛调研,选择现实可行的元数据方案或现有元数据规范中可以直接引用的元素实体,要比定义新的语义元素的情形更多些。这就是元数据“语义选择与定义”的过程。

在元数据语义的初步定义之后,根据自身资源的特点与实际需求出发,对简

单语义实体进行进一步的扩展,增加子属性的描述,规定属性值的结构、约束或结构化的描述方案,以及对其他相关著录规则的进一步约束,可视为元数据规范中每一实体元素的结构规范。元数据规范中元素间的关系与元素本身值的描述结构可以视作为元数据应用中结构的两个层面。

作为元数据应用的句法层面来说,采用各种描述方段只要其满足了一定条件下的实际应用需求都是合乎逻辑的。但在现今的网络环境下,在基于开放、共享以及长期保存的理论基础上,大多数的元数据规范推荐采用基于XML家族的置标语言来进行描述。因此我们可以将元数据应用中最后一步句法的选择,视同为采用XML/RDF之类的置标语言的置标方案的设计。

二、 语义:分析、选择与定义

不管是描述性元数据、管理性元数据、结构性元数据或者技术元数据等等,其本质是描述对象的各种属性及相关关系等内容。元数据不论属于哪种类型,最基本的单元是由一个个元素而形成。每一个元素的语义定义明确了其含义,其内涵与外延。比如在DC元数据中的十五个元素,就是DC元数据的元素,我们对其元素如题名或日期等的明确定义就是其语义定义。语义定义是一个元数据规范的基本要素,也是元数据应用与元数据互操作的最重要的基础。

在我们的流程之初,我们讨论了先要做资源分析,找寻出我们所需要描述及需要管理的资源相关的诸多属性。这些属性在元数据规范选择与设计中,就对应于元数据的元素或概念实体,因此元数据元素的语义定义可以是在资源分析的基础上产生,或加以规范,或引用现有的概念等等。资源分析是元数据应用的最重要的基础,也有许多的方法与理念可以为大家所应用。其中较有名的方法就是由国际图联在1998年提出的FRBR(Functional Requirement for Bibliographic Records,书目记录功能需求)[6]模型。FRBR模型是采用ER(实体关系)模型来建立一个有关书目记录的概念模型。这个模型通过四个层次的实体分析(WORK、EXPRESSION、MANIFESTATION、ITEM)对应于知识作品生命周期的各个阶段。用FRBR模型的思想方法,我们可以分析出所要描述的资源对象是属于哪一个层级的实体内容,对象之间的关系,以及对象的知识产权意义上的内容及其所应该具有的各种属性和属性关系等等。应该说FRBR是一个很好的资源对象分析方法,不仅是整个元数据应用的基础分析方法,也可以作为元数据结构与语义的分析基础。

在元数据应用中,并不需要我们重新创造所有的元素。所谓的”重新发明轮子”的做法既不科学,在应用中容易造成偏差、失误,也会成为今后互操作的严重障碍。我们可以采用寻找所谓现有”轮子”的方法来找到我们所需要的元数据规范。我们为所需要描述和管理的元素在其他的一种或几种通用元数据规范中找到了相应的对应实体,利用这些来自于其他标准元数据方案中的各个标准”砖块”,我们搭建起自己的元数据规范”房屋”。这就是元数据应用纲要(Application Profile)的模型思想[7]。

元数据应用纲要规定了以下原则:一是元数据元素可以取自于一个或多个命名域;二是不要定义新的元数据元素;三是可以自定义相关的编码体系与编码规则;四是可以重新定义所引用概念元素的定义[8]。从其第一个原则来看,基于URI的命名域[9]管理方法是应用纲要应用的一个管理与技术基础,正是通过公开的可以访问的资源标识符,我们才能够保证大家所引用的元数据元素是规范的可辨识的,也即保证了元数据的互操作能力。从这个原则出发,应用纲要的第二个

相关文档
最新文档