都柏林核心元数据抽象模型
元数据

元数据的多角度透视郭志红(上海交通大学情报研究所,上海200030)[摘要]本文对元数据的概念、相关格式、携带工具(RDF),以及数字化图书馆中元数据体系的内、外部系统和设计原则进行了探讨。
并列举了两个元数据方案实例,以供借鉴。
[关键词] 元数据数字化图书馆 RDF DC MARC 元数据体系Multi-views of MetadataGuo Zhihong(Information Research Institute, Shanghai Jiaotong university, Shanghai200030)Abstract This article discussed the concept of metadata, main sets and container for metadata, internal and external subsystems of metadata architecture and it’s design principle in digital library. Two instances for metadata scheme were introduced for reference..Key words Metadata Digital library RDF DC MARC Metadata architecture一、元数据的概念元数据最本质,最抽象的定义为:data about data (关于数据的数据)。
它是一种广泛存在的现象,在许多顶域有其具体的定义和应用。
在数据仓库顶域中,元数据被定义为:描述数据及其环境的数据。
一般来说,它有两方面的用途。
首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。
其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。
具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
典型的元数据方案

典型的元数据方案3.1都柏林核心(Dublin core)简介Dublin core是都柏林元数据核心元素集(Dublin metadata core element set)的简称,在1995年3月,由超级图书馆中心和美国超级计算机应用中心主持,在美国俄亥俄州都柏林召开的第一届元数据研讨会上提出的。
其目的就是希望建立一套适合描述网络资源的方法,用来信息识别,查询,组织,检索。
DC元数据简练,易于理解,扩展性强,与其他元数据形式兼容性强。
网络资源能够被有效的整合利用,是它成为了一个良好的网络资源描述元数据集合。
DC研讨会已经召开了十届,从理解DC研讨会中我们可以总结出每一节研讨会都推出了一些具体的研究成果,并且在深度,广泛度上都有发展。
DC元数据理论不断在实践中完善。
都柏林十次研讨会时间地点及成果如表13.2 DC语法的实现DC在HTML的语法主要是通过“<META>标记”和“<LINK>标记”来实现的。
以下是一个基于XML和RDF的DC元数据详例:<?xml version=”1.0”encoding=””GB2312”?><rdf:RDF xmlns:rdf=”http//:/1999/02/22-rdf-syntax-ns#”xmlns:dc=.dc/elements/1.0/><rdf:Description rdf:about=/><dc: title>新华网首页</dc:title><dc:creator>新华通讯社网络中心</dc:creator><dc:subject>新闻</dc:subject><dc:publisher>新华社通讯</dc:publisher></rdf:Description></rdf:RDF>上面就是多媒体对象的DC描述,用DC描述网络信息资源十分方便,为了节省篇幅,直接用RDF/XML元数据框架来叙述。
都柏林核心元数据及其应用

囊|爵 描 髑R 投 类 部 档 谜 I窨 述粪 产 描进 外 属 簟 粪
ri e t i C e zr . eo t Da e t
< BODY>
SH = u at
D ̄ cit n rp i o So r u ̄
Ln a e a g
Pb ̄e u¨hr
C liuo  ̄nrbt ̄ Rg t ihs
Tp ye
Fr t oma le tfe d n iir
< BODY> /
Cotrg  ̄ ae e
4 都柏林 核心 与 R F× D / ML
一
个能对结构化 的元 数据进行编码 ,交 换及再利用
3 都柏林核心与 H ML T
郁柏 林核 心在 FT I ML中的应用根据 H ML的版本 T
版权
持有或拥有该资源权力的 版权珂包括资辣版权管理的说明。 版权信息通常包含智力知识内窖所有权 信息 (R I ) 著作权瓤各 P 种拥有权。如果缺少甑权珂 . 就意昧着币考意育关盗
舔 的上述 版权 和 其他 权 力 。
上 I 项 元数据 简洁 、规 范卫较 面地概括 了电 j
1 de t “ i r xhm >
(M ETA NAM E=” DC n u g ” CONTE T=“ La g a e N
内容的描述;2对知识产权的描述; 3对 外部 属性 的描述 。
( CHE E S 6 9 z ” S M =I O 3 ) h >
<, EA D> H
相羌资源 对相关资源的参熙
推荐用依据正规标识系统确定的宇荷或号码标引资谭参瓷巍内窖的娟域或癌■
戚权雕范围
。
帖地 濞 搴 蛾 。 嘲
<M ETA NAM E= DC de ti i r CONTE T=” l ft fe “ N
历届Dublin Core元数据年会取得的主要进展

历届Dublin Core元数据年会取得的主要进展DC-11995年3月1-3日,第一届元数据研讨会在美国俄亥俄州的Dublin召开。
大会的目的旨在确定所研究的问题的范围,即是否只要一个简单的元数据元素集就能对网上的各种主题资源进行描述,会议为进一步发展描述电子资源的元数据元素的定义打下基础。
这届研讨会最主要的成果是设定了一个包含十三个元素的都柏林核心元素集:Dublin Core(或简称为都柏林核心DC)。
都柏林核心是在网络环境如因特网中,帮助发现文件类对象(DLO)所需要的最小元数据元素集。
而它的结构句法问题则作为一个执行细节没有进行详细说明。
DC-1所定义的13个元素:Subject: 主题、Title: 题名、Author: 作者、Publisher: 出版者、OtherAgent: 相关责任者、Date: 出版日期、ObjectType: 对象类型、Form: 格式、Identifier: 标识、Relation:关联、Source: 来源、Language: 语种、Coverage: 覆盖范围。
会议还指出了指导元数据发展的原则,这些原则在很大程度上影响了DC元数据的未来形态,为DC的未来发展定下了基调。
●“简单性原则”要求定义一个能得到最广泛应用、被全球所理解和接受的最小元素集,并能作为特殊用户详细描述需求的一个核心集。
●“易用性原则”要求能方便作者和信息提供者描述自己的文档,而不给他们增加太多的负担,并能方便地实现资源发现工具之间的互操作性。
●“内在性(intrinsicality)原则”指DC元数据以揭示描述对象自身的内容属性为主,外部属性为辅。
●“可扩展性原则”希望DC成为一个“核心”元素集合而可以通过各种方式扩展为适应各领域资源描述需要的元数据方案。
●“句法独立(syntax independence)原则”指DC元数据的元素可以以多种方式编码,应用于各类技术平台中。
DC只规定元素的基本语义。
都柏林核心元数据集

标签:定义:注释:标签:定义:注释:标签:定义:注释:标签:定义:注释:标签:定义:注释:标签:定义:注释:标签:定义:注释:题名(Title)赋予资源的名称。
资源名普通指资源对象正式公开的名称。
创建者(Creator)创建资源内容的主要责任者。
创建者的实例包括个人,组织或者某项服务。
普通而言,用创建者的名称来标识这一条目。
主题及关键词(Subject and Keywords)资源内容的主题描述。
如果要描述特定资源的某一主题,普通采用关键词、关键字短语或者分类号,最好主题和关键词从受控词表或者规范的分类体系中取值。
描述(Description)资源内容的说明。
描述可以包括但不限于以下内容:文摘、目录、对以图形来揭示内容的资源而言的文字说明、或者一个有关资源内容的自由文本描述。
出版者(Publisher)使资源成为可以获得并可用的责任者。
出版者的实例包括个体,组织,或者服务。
普通而言,应该用出版者的名称来标识这一条目。
其他责任者(Contributor)对资源的内容作出贡献的其他实体。
其他责任者的实例可包括个人、组织或者某项服务。
普通而言,用其他责任者的名字来标识这一条目。
日期(Date)与资源生命周期中的一个事件相关的时间。
普通而言,日期应与资源的创建或者出版日期相关。
建议采用的日期格式应符合 ISO 8601 [W3CDTF]规范,并使用 YYYY-MM-DD 的格式。
标签:定义:注释:标签:定义:注释:标签:注释:标签:定义:注释:标签:定义:注释:标签:定义:资源类型(Resource Type)资源内容的特征或者类型。
资源类型包括描述资源内容的普通范畴,功能,种属,或者聚类层次的术语。
建议采用来自于受控词表中的值 (例如 DCMI 类型词汇表[DCMITYPE]) 。
要描述资源的物理或者数字化表现形式,请使用“格式(FORMAT)”元素。
格式(Format)资源的物理或者数字表现形式。
都柏林核心(Dublin Core)元数据发展简史

都柏林核心(Dublin Core)元数据发展简史上海图书馆数字化工作部随着WWW的不断发展,网络上信息资源正呈不断增多的趋势。
但随之而来的问题是,人们发现在海量的信息环境中,信息的查找和检索变得越来越困难。
网络上充斥着各种各样的信息,但人们却不知道究竟该怎样才能找到自己所需要的信息。
为了有效地解决查找网络资源这一问题,元数据这一概念被提了出来。
元数据也被称为是关于数据的数据,它是专门用来描述数据的特征和属性的。
由于电子文件所具备的多种多样的格式和控制方法,它们可能不能被每个人直接使用:因为也许人们不熟悉或不了解它的格式;也许它的内容被加密了;或者它只有在交费后才能被接受;也或者这个资源太大,存取起来既困难又费时。
在这些情况下,元数据能支持用户决策过程。
它包含的数据元素集就是用来描述一个信息对象的内容和位置,以便能在网络中方便的查找和检索。
从元数据提供者的角度来看,元数据能改进文件的检索能力(特别是搜索的精确性)、以及对藏品的控制和管理问题。
而各种网络上的搜索引擎,如Lycos、Alta Vista、Open Text等,虽然对许多资源有自动索引功能,但其查准率却极低。
而一些由专业人员提供的不仅复杂并被结构化的特殊体系方案,如MARC、GILS、TEI header、IAFA模块(用来描述匿名的FTP档案和基于主题的信息网关)和FGDC,这些标准虽然能达到一定的查准率,但在数据加工标引工作上既费时又费人工,并且需要的是专业的从业人员,因此对于充斥于网上的海量信息可以说是无能为力。
这些复杂的体系方案通常都需要大量的时间,金钱和合格的职员,因此创造一个更简单的元数据模型和体系方案显得非常吸引人。
而且,随着因特网上的搜索服务的改进,从各种复杂或简单的元数据格式到各个不同的用户团体之间,也特别需要一种标准化的语言或交换格式。
所以,创立一个简单的、并且在网络中为各个用户团体所接受的标准化元数据元素集,成为了网络发展的迫切需要。
都柏林核心元素集

都柏林核心元素集一、简介:都柏林核心元素集(Dublin Core Element Set,以下简称DC)是一个致力于规范Web资源体系结构的国际性元数据解决方案,它定义了一个所有Web资源都应遵循的通用的核心标准,其内容较少,也比较通用,因此得到了其他相关标准的广泛支持。
面向其他类型资源的元数据标准,基本上都兼容DC标准,并对它作了扩展。
它已经成为Internet的正式标准RFC2413和美国国家信息标准。
标识中文翻译解释Title 标题资源的名称。
Creator 创建者资源的创建者Subject 主题资源的主题内容。
Description 描述资源内容的描述信息。
Publisher 出版者正式发布资源的实体。
Contributor 贡献人资源生存期中做出贡献的实体,除制作者/创作者之外的其他撰稿人和贡献者,如插图绘制者、编辑等。
Date 日期资源生存周期中的一些重大日期。
Type 类型资源所属的类别,包括种类、体裁、作品级别等描述性术语。
Format 格式资源的物理或数字表现,可包括媒体类型或资源容量,可用于限定资源显示或操作所需要的软件、硬件或其他设备,容量表示数据所占的空间大小等。
Identifier 标识符资源的唯一标识,如URI(统一资源标识符)、URL(统一资源定位符)、DoI(数字对象标识符)、ISBN(国际标准书号)、ISSN(国际标准刊号)等。
Language 语言资源的语言类型。
Source 来源信息资源的来源。
Relation 关联与其他资源的索引关系,用标识系统来标引参考的相关资源。
Coverage 覆盖范围资源应用的范围,包括空间位置(地名或地理坐标)、时代(年代、Et期或日期范围)或权限范围。
Rights 权限使用资源的权限信息,它包括知识产权、著作权和各种拥有权。
如果没有此项,则表明放弃上述权力。
二、特点:●简易性DC只有15个元素,通俗易懂,如题名项不分正题名、副题名还是并列题名等统称为题名即Title;著者项也没有细分第一责任者、其他责任者等而统一用著者即Creator加以标识,使用起来非常简单。
元数据格式汇总

元数据格式汇总iii1. DC(都柏林核心元数据)2. CDWA(艺术作品描述目录)3. V AR Core(可视资源委员会核心元数据)4. CDF(频道定义格式)5. ROADS元数据(主题信息服务的资源组织和发现)6. IEEE LOM(IEEE学习对象元数据)7. BibTex(科技文献书目资源格式)8. GEM(教育资源网关)9. CIMI(博物馆信息计算机交换标准框架)10. REACH元数据格式11. EAD(编码文档描述)12. ONIX(在线信息交换)13. EELS(工程电子化图书馆)14. EEVL(爱丁堡工程虚拟图书馆)15. FGDC(联邦地理数据委员会)16. GILS(政府信息定位服务)17. MARC(机读目录格式)18. MOA2(美国的创建II)19. MCF(元内容框架)20. PICA+(荷兰图书馆自动化中心)21. PICS(网络内容选择平台)22. TEI Header(文本编码先导计划)23. SOIF(概略对象交换格式)24. IAFA/WHIOS++Templates(因特网匿名FTP文件库版式)25. ICPSR SGML Codebook(政治和社会研究方面的校际联盟)26. LDAP DIF(轻便型目录获取协议)27. RFC 1807(书目记录格式)28. URCs(统一资源特征)29. SGML(通用标准标记语言)30. Warwick Framework(Warwick框架)31. Web Collections(网站集合)32. XML(可扩展标记语言)33. RDF(资源描述框架)1.DC(都柏林核心元数据)名称:Dublin Core Metadata,DC简介:都柏林核心元数据是一个由计算机专家、网络专家和图书馆专家等人员所组成的非正式小组开发的,目的是要建立一个广泛的元数据元素集,可以描述任何网络信息资源,并足够的简单以至任何作者无需专门的培训就可以创建自己文件的元数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
都柏林核心元数据抽象模型资源名:都柏林核心元数据抽象模型创建者:Andy PowellUKOLN, University of Bath, UKMikael NilssonKMR Group, CID, NADA, KTH (Royal Institute of Technology), SwedenAmbjörn NaeveKMR Group, CID, NADA, KTH (Royal Institute of Technology), SwedenPete JohnstonUKOLN, University of Bath, UK翻译者: 张春景(上海图书馆数字图书馆研究所),夏翠娟(华东师范大学信息学系研究生)发布日期:2004-12-08标识符:/metadata/dcmi/abstract-model/替代:/metadata/dcmi/abstract-model/2004-11-24/被替代:无最新版本:/documents/abstract-model/文档状态:DCMI 工作草案1。
文档描述:此文档描述了都柏林核心元数据记录的抽象模型。
目录1. 引言2. DCMI抽象模型3. 描述、描述集及记录4. 值5. 向上兼容原则6. 置标指南7. 术语参考文献致谢附录A-关于结构值的提示附录B-抽象模型与RDF附录C-抽象模型与XML附录D-抽象模型与XHTML1 /documents/#workingdrafts1. 引言本文档详细说明了DCMI元数据描述的抽象模型[DCMI],主要目的是提供一个参考模型以便对各类专门DC编码规则进行比较。
一个好的参考模型应该独立于任何特定的编码语法,并能对需编码的对象的属性描述有更深入的理解,从而有助于不同编码语法之间更好地映射和翻译。
2. DCMI抽象模型被DCMI元数据所描述的资源如下:•每个资源(resource)具有零个或多个属性/值对(property/value pairs) ;•每个属性/值对(property/value pairs)由一个属性(property)和一个值(value)组成;•每个值本身是一个资源(即:用来描述资源(resource),与属性相关的物理或概念实体。
);•每个资源(resource)可以是一个或多个类(classes)中的成员;(注:作为属性(property)值(value)的资源所在的类(class)常被称为编码体系词表(vocabulary encoding scheme));•每个属性(property)和类(class)均具有其被声明的语义;•每个类(class)通过限定(子类)关系与一个或多个其它类(class)相关(当两个类共享部分语义(semantics)时,所有属于子类(sub-class)的资源(resource)同时也是另一个相关类(class)的成员;•每个属性(property)只能与一个其它属性(property)通过限定关系(子属性)相关(当两种属性共享部分语义(semantics)时,子属性(sub-property)的有效值(value)也是相关属性(property)的有效值(value))。
DCMI元数据描述的抽象模型如下:•一条描述(description)是由一个或多个陈述(statements)(该陈述仅与一个且唯一一个资源(resource)有关),以及零个或一个资源的URI(resource URI)组成(URI用来标识所描述的资源(resource));•每个陈述(statements)由一个属性URI(property URI)(这里的URI用于标识一个属性(property)),零个或一个值URI(value URI)(这里的URI用于标识属性(property)的值(value)),零个或一个编码体系URI(encoding scheme URI)(这里的URI标识值(value)的类(class)),零个或多个值的表述(value representations)组成;•每个属性(property)都是被描述资源(resource)的一项特性;•每个属性URI(property URI)可以在多个陈述(statements)中重复;•值的表述(value representation)可以是字串值(value string)、复合值(rich value)或相关描述(related description)等形式;•每个字串值(value string)都是一个简单的、人类可读的字符串,用以表示属性的值(value of the property);•每个字串值(value string)可以有相应的编码体系URI( encoding scheme URI),用来标识一个语法编码体系(syntax encoding scheme);•每个字串值(value string)可以有相应的字串值语种(value string language),它是一个ISO语种标记(例如,en-GB);•每个复合值(rich value)是一些标记文本、图像、视频、音频等,或者它们的组合,表示作为属性(property)值(value)的资源(resource);•每条相关描述(related description)都是一个用来描述属性(property)值(value)的资源(resource)。
上文中用斜体显示的术语,会在下面的“术语”一节中定义。
关于模型的许多方面需要注意:•一条“相关描述”描述一个相关的资源,因此并非是“描述”的一部分,例如,当一个人是所描述资源的创建者时,一条相关描述可以提供关于这个“人”的元数据。
•在某些语境中,语法编码体系也可以认为是某种“数据类型”•在DCMI元数据描述中,所描述资源的类通常由DC类型属性的值来描述。
上述DCMI资源和描述的抽象模型可以由UML(统一建模语言)表示如下:图1 DCMI资源模型图2 DCMI描述模型不熟悉UML类图的读者应该注意:尾部带箭头的直线意思是“是”(例如,“词表编码体系是一个类”),以钻石形状开始的线段的意思是“包含”或“有”(例如,“一个陈述包含一个属性URI”)。
其他关系也有适当的标记。
在抽象模型的文本描述中,白色方框中的类没有明确地被提到,但在附录A中有相应讨论。
注意这里采用UML进行建模,并不意味着可以依靠它来进行DCMI元数据应用软件的开发。
3. 记录和描述上文所述的抽象模型表明:一条描述中的每个属性必须是所描述资源的一个特性。
这就是通常所说的“1:1原则”,这个原则就是:一条元数据描述仅描述一个资源。
然而,现实世界中的元数据应用倾向基于松散聚合的描述集,其中所描述的资源总是以某种方式相互关联,这样的描述集往往指的是元数据记录。
例如:一条元数据记录可以由关于一幅画的描述和关于其画家的描述共同组成。
此外,一条记录也将包含关于该记录自身的描述(有时被称为“管理性元数据”或者“元元数据”),此类情况是非常多见的。
本文档将一条DCMI元数据记录作如下定义:•一条DCMI元数据记录是一条或多条描述的集合,这些描述是关于一个或多个相关资源的,这些资源根据某个DCMI置标指南实例化(这些置标指南有:XHTML meta tags, XML, RDF/XML, 等等) [DCMI-ENCODINGS]。
4. 值一个DCMI元数据值是物理的或者概念的实体,当描述一个资源时,这个实体就成为该资源的属性。
例如:DC. Creator属性的值是一个“人”、组织、或服务——一个物理实体。
DC. Date属性的值是一个时间点——一个概念实体。
DC. Coverage属性的值可以是一个地区或国家的地理区域——一个物理实体。
DC. Subject属性的值可以是一个概念——一个概念实体,或者一个物理对象或人——一个物理实体。
每个这样的实体都是一个资源。
值可以用URI值来标识;可以用一个或者多个字串值和/或复合值来表示;可以有一些“相关描述”——但值是一个资源。
5. 向上兼容原则将一条修饰DC记录解析为一条简单DC记录的过程通常指的就是“向上兼容”。
向上兼容的处理可以分成两类:属性向上兼容和值向上兼容。
而且,每种方式都可以用“预设(informed)”和“非预设(uninformed)”两种方法之一来实现。
“预设”方式指软件在运行向上兼容的算法时,有关特定应用的DCMI元素属性关系和值的规则已经嵌入此软件,“非预设”方式指系统没有预先建立有关属性关系和值的规则。
如上所述,向上兼容的具体做法可以大致由下表所示:元素(属性)向上兼容值向上兼容Uninformed忽略任何不属于DC元数据元素集的属性。
使用URI值(如果存在)或字串值作为新字串值。
Informed递归地解决子属性关系,直到DC元数据元素集15个属性中的一个。
否则就忽略。
用相关描述或字串值的知识来构造新的字串值。
并且在所有情况下,向上兼容算法都应该:•忽略任何相关描述和复合值•忽略任何编码体系URI.注意软件应该使用以RDF schema [DC-RDFS]和DC XML命名空间[DC-NAMESPACES]表示的DCMI术语声明,以便自动解析子属性。
6. 置标指南具体的置标指南(HTML meta tags, XML, RDF/XML等)无需包括上述抽象模型的所有内容。
然而,DCMI的置标指南应该包括DCMI抽象模型并且说明该模型的哪些部分置标哪些部分不置标。
置标指南尤其应该做出规定:一条有复合值和相关描述的陈述是嵌入记录中,还是在另一条记录中单独进行置标并用URI链接。
文末的附录B、C、D比较了抽象模型采用RDF/XML, XML和XHTML置标的不同之处(译文略)。
7. 术语本文档用到以下术语:资源(resource)资源是任何可以标识的东西。
常见的例子有电子文档,图像,服务(例如,“洛杉矶今天的天气预报”),还有其他资源的集合。
并非所有的资源都是网上可检索的;例如,人,机构,还有图书馆里装订成册的书都可以被认为是资源。
资源URI(resource URI)一个资源URI是用于标识单个资源的URI属性(property)属性是用来描述资源某个特定的方面、特征、特性或者关系。
属性URI(property URI)一个属性URI是用于标识单个属性的URI。
元素(element)在DCMI中,元素通常被用作“属性”的同义字。
然而,应该注意的是元素这个词也往往用于指XML文档中的一个结构化的标记组件。
元素限定(element refinement)元素限定是指资源的一个属性,与一个特定DCMI“属性”有同样的意思,但是相对来说具有更窄的语义。