国外常用元数据标准比较研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

任何人,包括学者、专家、学生
和图书馆编目人员
地理空间信息
政府,公立或私立研究机构或公

政府的公用信息资源
政府部门
档案和手稿资源,包括文 本和电子文档、可视材料 和声音记录 对电子形式全文的编码 和描述
目的 对艺术品的分类编目 方便描述艺术类可视化资源
资源发现 为 NSDI 制作、共享地理信息 方便公众查找定位公用的信息资 源 针对电子文本全文的编码标准
电子形式交换的文本编码标准
元数据标准实现的功能都包括对资源的描述、管理和定位,以及对资源的评估。但是由于它 们分别适用于不同类型的信息资源,其使用者和所针对的用户范围也有所不同,因此在元素 的设置上,个性化的特点非常突出。比如,CDWA、FGDC、GILS、DC、VRA 等可以说均 实 现 了 上 述 功 能 , 但 其 所 包 含 元 素 如 “ orientation/management ”、“ inscription/marks ” (CDWA)、“cloud cover”(FGDC)、“coverage”(DC)等则各具特性,表现了不同类型资 料的特色。同时,对于特点相近的资料,相应的元数据标准也有很多相似之处。
物理形态方面有:Measurement(度量)、Materials and Techniques(材质/技术)、Physical description(物理描述)。
此外,在对艺术品的保存、管理方面的内容也有一些很有特色的元素来描述,如: Conditions/Examination History(条件/检查历史)、Conservation/Treatment History(保存/处理 历史)、Ownership/Collection History(拥有/收藏历史)、Exhibitions/Loan History(展览/借出 历史)。
描述艺术类可视资料的元数据标准:CDWA 和 VRA Core
CDWA(Categories for the Description of Works of Art)元数据标准是针对描述艺术品的 需求而设计的,艺术品具有物理形态的,也可能同时具有数字化了的图象,此外时空、人物、 历史文化等方面的上下文关系在描述一件艺术品时也时非常重要的,CDWA 中有很多元素 都反映了艺术品特有的这些特点。有代表性的有:Orientation/arrangement(方位/布置)、 Inscriptions/Marks(题铭/标志)、Style/Periods/Groups/Movements(风格/时期/流派/乐章)、 Critical opinions(评论)。
FGDC 地理空间元数据内容标准的目的是确定一个描述数字地理空间数据的术语及其 定义集合,包括需要的数据元素、复合元素(一组数据元素)以及它们的定义和域值,以及 描述数字地理空间数据集的元数据信息内容。
VRA(Core Categories for Visual Resources)由美国视觉资料协会制定,是为在网络环 境下描述艺术、建筑、史前古器物、民间文化等艺术类可视化资源而建立的元数据标准。目
前已推出到第三版本,制定了 17 项元素。VRA 著录单元集合比较简单,比较适用于艺术作 品、建筑、民间文化等三维实体。
∗ 本文系北京大学数字图书馆研究所“中文元数据标准研究”项目系列成果之一。主要研究人员:冯项云, 肖珑,廖三三,庄纪林,执笔人:冯项云,肖珑。
二、国外常用元数据标准设计特点的比较与分析
本项目对国际上比较有影响的七种元数据进行了分析和比较,它们分别是 CDWA、DC、
EAD、FGDC、GILS、TEI、VRA,这些元数据标准适用的著录对象基本涵盖了目前可能处理到
国外常用元数据标准比较研究
北京大学数字图书馆研究所中文元数据标准研究项目组 冯项云∗ 肖珑∗ 廖三三 庄纪林
摘要:本文通过对目前国际上较流行的七种元数据标准 CDWA、DC、EAD、FGDC、GILS、 TEI、VRA 的介绍、比较和分析,总结出元数据标准在设计和实现过程中的几个关键问题。
关键词:元数据、CDWA、DC、EAD、FGDC、GILS、TEI、VRA
表 2:CDWA 和 VRA 元素列表分析
具有特色的元 素
与其它元数据 标准相似的元 素
CDWA Orientation/arrangement Inscriptions/Marks Style/Periods/Groups/Movements Context Critical Opinions Measurement Materials and Techniques Physical description Conditions/Examination History Conservation/Treatment History Ownership/Collection History Exhibitions/Loan History Object/Work-Type Title or Names Creation
由于 VRA 描述的视觉资料反映的主体是艺术品类,所以在对著录对象的属性分析和元 素/子元素定义上与 CDWA 有很多相似之处。例如在描述艺术品特有属性的 STYLE/ PERIOD、Culture 元素定义如出一辙。但是 VRA 专于描述视觉资料,因此元素比 CDWA 就少了描述非视觉资料的部分(例如没有 CDWA 中的 EXHIBITION/LOAN HISTORY),同 时元素也更为简单。CDWA 和 VRA 都没有在标准中指定记录格式。
Creator – Identity Creator- Role Creation-Date Subject matter Current Location Repository Number Copyrights/ Restrictions
VRA Record type Measurements Material Technique Location Style/ Period
的资料类型。表 1 列出了这七种元数据标准适用的资料类型,以及使用目的。
表 1:
CDWA VRA
Dublin Core FGDC GILS EAD
TEI
适用的资料类型
使用者
艺术品
从来自百度文库艺术历史研究、艺术品管理
的人员,以及信息技术专家
艺术、建筑、史前古器物、 艺术品收藏单位
民间文化等艺术类可视
化资源
网络资源
元数据标准的设计与实现是数字图书馆建设过程中首要的、基础性的工作。目前国外已 经产生并得到实际应用或试验的元数据标准有二十余种。本项目对其中七种进行了比较分析 研究,并由此总结出元数据标准在设计与实现过程中的几个关键问题。
一、元数据概述
首先,需要对本文中所讨论的相关术语作出说明: 元数据:描述某种类型资源(或对象,object)的属性、并对这种资源进行定位和管理、 同时有助于数据检索的数据。 元数据标准:如何描述某些特定类型资料的规则集合,一般会包括语义层次上的著录规 则,和语法层次上的规定。语法层次上的规定有:描述所使用的元语言,文档类型定义使用 什么语法,具有内容的元数据的格式(也可以包括内容数据,即 Content)及其描述方法。 编码(Encoding)规则:编码规则用于数据交换。为了适合传输和存储,编码规则要可 以将数据信息按独立于系统的数据结构进行编码。编码规则说明编码数据的类型、有序排列、 结构和编码模式,用于执行编码服务。 在以下对国外元数据标准的比较研究中,使用了实体分析方法来探讨各个元数据标准是 如何对著录对象进行描述的,从实体、属性、联系的角度分析各个标准中元素/字段的设置 和定义,以及产生这些特点的实际背景。其次,还从元数据标准的功能层次上来比较了各个 标准的功能。 从数据交换和信息共享的需要出发,元数据的作用是传递可以理解的描述信息。对于计 算机系统来说,理解一条元数据记录的工作有以下几个步骤: 首先是理解元数据的各个元素或字段序列化的方式,也即是按照如何的顺序和结构来组 织各个元素及其内容的方法。根据使用描述元语言的不同,可能会包括编码规则,以及记录 格式。例如 MARC 的 2709,就是一种被广泛使用的记录组织方式;当编码规则使用置标语 言的时候,通常会有两个层次上的格式,首先是置标语言本身的语法规则,其次是对记录中 使用到的元素及其属性的说明(通常会以 DTD 或某种 SCHEMA 的形式存在)。其次需要理 解某个给定元数据标准是如何描述要著录的对象方面的,也即是对元素内容的定义。 从上述的过程中可以看到,元数据标准的功能层次可以依次划分为:对象/实体描述方 面的规定、编码/交换记录规则或传输元语言、与置标语言文档一起使用的 DTD、传输/交换 协议、检索属性方面的规定,以及是否可以包括全文等规定。
美国于 1990 年成立联邦地理数据委员会 (Federal Geographic Data Committee 简称 FGDC),由来自 16 个单位的 17 位专家组成。联邦地理数据委员会负责协调 National Spatial Data Infrastructure (NSDI,国家空间数据基础设施)的发展,其任务是制订政策、标准来促进 在政府、科研机构、私人团体之间的合作,以制作、共享地理数据。该委员会下设的标准化 工作组经过两年的努力,起草了地理空间数据元数据内容标准(CSDGM)草案,并于 1994 年 8 月通过并发布了第一版 CSDGM。
最初 DC 应用目的是为了网络资源的著录与挖掘,由于 DC 元素简单易用,加之 OCLC 的大力推广和网络资源著录的巨大需求,DC 发展成为可用于任何媒体。简单的元素定义和 设置可以很方便的著录,是 DC 获得广泛应用的重要原因,然而它也带来另外一个问题,对 著录对象的描述深度不够,不能进行专指度较高的检索。
CDWA 的元素编排是根据实体属性方式,例如 CREATION(责任项),在这个元素描述 与艺术品的制作、设计、执行等过程中,与这些行为有责任关系的人物,时间,地点的信息, 包括了三个子元素,Creation-Creator - Identity (core,作者),Creation- Creator- Role (core, 作者责任方式项),Creation-Date (core,创作日期)。
Type Title Creator Date ID NUMBER Culture Subject Relation Description Source Rights
以简取胜的 Dublin Core
DUBLIN CORE 元数据格式描述的对象是网络资源。最初由美国 OCLC 公司发起,国 际性合作项目 Dublin Core Metadata Initiative 设计。目前最新版本为 version 1.1,1999 年 7 月 2 日发布执行。
表 3:DC 元素列表分析
具有特色的元素 与其它元数据标准类似的元素
Relation
Title
Source
Creator
Coverage
Subject and Keywords
Format
Description
Publisher
Contributor
FGDC 地理空间元数据内容标准
Date Resource Identifier Language Rights Resource type
在元素的分组编排上 VRA 有些类似于 DC,例如 DATE 元素,是将 6 个子元素 ( Date.Creation ( 创 作 日 期 )、 Date.Design ( 设 计 日 期 )、 Date.Beginning 开 始 日 期 )、 Date.Completion(完成日期)、Date.Alteration(修改日期)、Date.Restoration(修复日期)) 都归入到一个 DATE 元素中来。这样做会带来一个令人费解的问题,就是在 Creator 中可以 著录多种责任方式(使用 Creator.Role 子元素),但是 DATE 只定义了 6 个类型的时间,这 样需要在记录格式中保留 Creator 与相应责任时间的联系。
相关文档
最新文档