专门数字对象描述元数据规范

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

专门数字对象描述元数据规范

研制工作手册

(试行)

《专门数字对象描述元数据规范》子项目组

2003年3月

为了保证子项目组研制的各种元数据规范在功能、数据结构、格式、语义语法等方面的一致性和整体性,同时也为了今后在更大范围内实现与其他系统或数字图书馆的互操作和数据共享,项目组特制定本手册。

手册主要内容包括:

1,描述元数据的定义及功能

2,元数据规范的设计原则

3,描述元数据的基本结构、元素组成与扩展规则

4,描述体系与定义方法

5,元数据规范应用的相关规则

6,设计流程与工作规范

7,文档规范

本手册为试行稿,其中很多内容尚需在实际工作过程进行修订,涉及到核心元素集、元素定义方法、扩展规则、描述体系等方面的内容,将与“基本描述元数据规范”子项目组进一步探讨后确定。各工作小组可暂时按此执行,在执行过程中如有问题,可向子项目组提出,并在子项目组会议上讨论修改并通过。

一、描述元数据的定义及功能

描述元数据:即用于描述或标识数字对象内容的元数据。

设计描述元数据规范时,要充分考虑和实现元数据的下列功能:

描述:对信息对象的内容、属性等的描述,是元数据最基本的功能,为信息对象的检索与利用奠定了基础。

定位:即有关信息资源的位置方面的信息,如DOI、URL、URN等的记录,由此可知信息对象之所在,有利于信息的发现和检索。

管理:对信息对象的权限管理(版权、所有权、使用权)的揭示和描述。

检索:在描述过程中,将信息对象中的重要信息抽出标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,从而有利于用户发现其真正需要的信息。

评估和选择:由于元数据的描述,使用户在不必浏览信息对象本身的情况下,对信息对象有了基本了解和认识,可以对其价值进行评估,从而决定信息的取舍。

交互:包括与编目人员和用户之间的交互。元数据在结构上呈现出一定的开放性,允许

使用者自行设定、调整元素,建立不同元素间的关系,设定检索点,构造规范档;同时不断吸取用户的反馈意见,调整自己的元数据标准。

二、描述元数据规范的设计原则

1、调查分析

制定元数据规范要从三个方面的调查分析入手,即:

1)著录者,指专业和非专业编目人员,还包括管理者;

2)使用者,指数字图书馆的用户;

3)著录对象,即被描述的资源。

其中,首先要明确的是著录对象及其著录对象之间的关系。

一个将被元数据描述的对象往往是一个较为复杂的复合对象。以拓片为例,在数字图书馆中,一张拓片还会有拓片原器物和若干拓片图像。那么该拓片对应的复合对象就是复合了拓片本身、拓片原刻、拓片数字图像。

是对复合对象进行著录还是对某个具体的对象著录关系到元数据的结构和具体元素的设计。

在元数据规范的制定过程中,要充分考虑著录者、使用者的需求和著录对象的特性,并在其间做一最佳平衡和组配。

2、在此基础上要遵循的几组最基本的原则是:

简单性与准确性原则:简单性主要指设计的元数据标准在著录实践时应较为简单,易于掌握,尤其要考虑到著录人员除编目员外,更多的是相关专业人士,如古籍专家、地理学家甚至研究生等。但一味追求简单性易导致标引不够精确,会降低检索结果的准确度和精度,因此,同时要考虑到简单化可能导致的不准确,需在二者中作一权衡。

专指度与通用性原则:由于元数据应用的各类资源的各自特性不尽相同,著录深度(如书目、内容和插图等)和广度(指相关联的一组文献作总体著录)不尽相同,因此,无法只使用一种元数据标准,需要根据具体的资源实体来确定相应的元数据标准。另一方面,必须考虑元数据标准在一定范围内的通用性。

互操作性与易转换性原则:元数据的互操作性体现在对异构系统间互操作能力的支持,即在我们设计的各种元数据标准下建立的元数据,不仅能方便地为自己建立的各相关应用系统所操作,还应尽可能地为其它组织或机构所建立的应用系统所操作。在具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其它系统常用的元数据。这要求在设计元数据标准时要非常慎重地考虑元数据标准定义的元素的语义定义和元数据结构两个重要的方面,其中与目前较为通行的、被广泛支持的元数据标准——如Dublin Core等——的语义定义一致更为重要。

可扩展性原则:由于数字图书馆将要处理的数字资源非常广泛,而各类应用背景更为复杂,元数据标准只能提供最广泛意义上的描述,一些特殊应用背景的性质内容并不纳入。但一些具体应用可能会要求更为细致精确的描述,应允许使用者在不破坏已规定的标准内容(如元素的语义定义)的条件下,扩充一些元素或属性值。元数据标准中应为这种应用提供指导性原则。

用户需求原则:制定元数据标准的目的是想向用户更好和更充分地揭示信息资源,因此用户需求应作为最终的权衡标准。特别是在结构与格式的设计、元素的增加与取舍、语义规

则的制定等方面,要尽可能地从用户的角度出发,增加系统与用户间的交互渠道(如开放式的词表系统的使用、增加提供用户反馈的元素等),为用户提供多层次的检索体系(如GIS 技术的采用)。

三、描述元数据的基本结构、元素组成与扩展规则

1、基本结构

由核心元素、资源类型核心元素、个别元素三部分组成。

核心元素:在各类资源对象中通用,拟在该层上与其它系统进行交换,支持通用的检索工具。

资源类型核心元素:根据资源对象特点、参照其它元数据标准制定,在同一类型数字资源中通用,例如古文献资源类型可包括古籍、拓片、舆图、地方志、家谱等,这些对象互相可有通用的核心元素,如版本元素。不同的资源类型可有不同的元素设置及其语义定义,应用时要求遵守本资源类型的相关规则和定义。

个别元素:以某种类型的资源对象为基础制定,仅适用这类对象,不用于交换。应用时仅要求该对象遵守其定义。

每个元素向下扩展时采用子元素的扩展方式,不推荐使用修饰词。

注:建议不采用修饰词的理由:

1)修饰词采用了“向上兼容”的定义原则,即修饰词的语义包含于未修饰的元素中,在范围上,对未来修饰词的语义进行限定,在深度上对未修饰的元素的语义进行延伸。这样,在使用修饰词可以象使用未修饰元素一样使用。如果具体到XML的记录格式时,修饰词的地位相当于未修饰元素的一个属性。2)修饰词不能解决元素之间的联系问题。例如,描述古籍的抄刻情况时,抄刻时间,地点,责任者都是应该描述的,而且在最后展示给读者的时候也应该是能表示它们之间的关系。如果使用子元素这个问题就很好解决。子元素描述的是元素语义的一部分。

2、元素组成

1)核心元素集

复用Dublin Core的15个元素做为核心元素集,但仅采用“简单DC”(simple DC),不推荐使用“限制性DC”(qualified DC)。

复用DC的核心元素时,应严格遵守其元素语义定义。核心元素集中元素的语义不允许有交叉。

核心元素并非必备元素,允许只复用一部分。

不同类型和不同资源的元数据标准可以根据对象特点,制定各自所需的子元素或限定词,但必须与本框架中核心元数据集的语义定义保持严格一致。

如果复用“限制性DC”中的限定词(qualifier),必须说明并严格遵守其语义定义,否则视为自定义。

2)资源类型核心元素集

3)个别元素

举例如下:

相关文档
最新文档