关于元数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于元数据
[1]葛岩,元数据DC与MARC的关系及在数字图书馆中的应用
元数据,英文名称为Metadata,元数据是一种有效的信息资源组织和管理的工具,是一种编码体系,它可以帮助人们检索和确认所需要的资源,可以对数据单元进行详细的、全面的著录描述,可以支持资源的存储和使用管理,支持对资源进行长期保存
DC即都柏林核心元数据 Dublin Core。DC 元素集是由以下15 个核心元素构成:题名(Title)、主题 (Subject)、描述 (Description)、来源(Source)、语言(Language)、关联(Relation)、覆盖范围(Coverage)、创作者(Creator)、出版者(Publisher)、其他参与者 (Contributor)、权限管理 (Right)、日期(Date)、类型 (Type)、格式 (Fomat)、标识符(Identifier)。
MARC即机读目录,国内一般采用 CNMARC(中国机读目录) 和 USMARC (国际通
用机读目录)两种标准分别针对中文与西文馆藏。MARC 以其详细和严谨的风格可以准确
的描述图书和期刊,提供管理和检索。
DC与MARC各自的优势。MARC 是一种专属的详细描述的元数据格式,对其著录的内容有着严格规定。从一定程度上看,MARC 是目前发展最成熟的元数据格式,它是其他更新的元数据格式的重要参考依据。但 MARC 描述的书目信息方式适用于图书馆,用于描述完整的、静止的书目信息,是针对印刷型信息资源而设计的编目格式(MARC 格式),对于动态的海量的网络信息资源,其编目方法并不能完全适应;在研究 DC 时,研究人员既在一定程度上参考了 MARC 格式,又在DC 的单元内容上借鉴了 MARC 数据单元的内容,故 DC 被称为 MARC 的
网络压缩版。
DC与MARC的联系。DC15 个元素的任一数据元素都是独立描述的,不依赖于
具体的编码方法,与任何具体的传输结构都没有必然联系。它可以将其所包含的传统字段通过映
射转换为 MARC 格式,与图书馆原有的目录联成一体,使大量已存在的 MARC 可转换为 DC 的元素集,从而实现网络存取;而且也为 MARC 的发展,提供理论和实践的广阔空间。
DC与MARC的区别。1.数据单元形式不同:MARC 采用字段与子字段作为数据单元,对必备字段和可选字段是否可以重复都有严格的规定,DC 采用元素和限定词作为数据单元,所有元素都可选择、可重复、可扩展,限定词和元素间的关系是不确定的,限定词的使用非常灵活,结构较为简单。2. 数据形式不同MARC 格式主要由 3 部分组成:头标区、目次区、数据区。3. 标识不同:机读目录 MARC 的字段采用了 3 位阿拉伯数字作为标识,子字段采用一位英文字母或阿拉伯数字作为标识,其标识不具备语义,不能直观表达;而 DC 采用单词或词组的形式作为标识,语义明确直观,具有自我解释的功能。4.
编码标准不同:机读目录(MARC)的编码标准较为特殊,采用ES022709 作
为编码标识,其 MARC 在与其他元数据格式进行转换时,要克服编码不同的问题;而MARC 以 HTML (超文本置标语言)作为编码标准,著录时可使用 HTML 语言为输出结果的网络产品形式,也保留了自己的著录标识系统。5.使用环境和范围不同:MARC 只限于 ES022709 编码标准的信息系统之间传递和交换书目数据,使用范围主要限于图书、情报机构和网上的公共查
询目录;即 MARC 格式比较适用于传统的出版物、图像、缩微制品、视听资料、数据库等; DC 作为一种简单的资源描述格式,使用范围非常广DC是为网络资源或者说是数字资源的著录而制定的,总体上讲,其对象基本是电子资源。
6.记录对象不同:DC 元数据著录的基本特点是简单明了,其设计意图是使创建者和信息提供者可以无需经过专业培训就能进行资源描述。而 MARC 则是一种详细描述的元数据格式,对资源内容著录的规定严格。一般须经过专业培训的研究人员或图书情报专业人员依据一定的著录标准进行著录,专业性要求高,非专业性人员无法参与编目工作。
元数据在图书馆中的应用。(1)运用 DC 著录馆藏信息,在更高层面上实现图书馆 OPAC 系统的联合和书目信息的共享。(2)建立搜索引擎,组织网上其它重要信息。(3)图书馆编目员将不符合编目规划的元数据进行严格审查,(4)实现 DC 与 MARC 的映射。 MARC 格式完整、著录详尽,已成为一种成熟的信息著录格式。DC 是一种简单、易于掌握的数据模型,不包括详细
描述内部结构的信息。图书馆可以利用 DC 作为中介,实现对重要网络资源的MARC 格式编目,满足特定领域读者的需要。
[2]伯琼,. 元数据DC和CNMARC映射及匹配研究
元数据映射,指两个元数据格式间元素的直接转换。元数据描述资源的优势显而易见,它适应了网络化时代信息量激增、技术发展的需要,比传统资源描述的方式与手段更加简洁有效。
建立DC和MARC之间映射的意义。第一,对于同时以网络形式和传统形式出版的资源,它们的DC和MARC编目数据应该有相同的部分,通过建立两者元素之间的映射,可以互相借用,这样节省了分别编目所需的人力、物力,同时也可以保证某些方面的统一、规范。第二,在一些网页中已经加入了DC数据,图书馆在收集、整理此类网络信息资源时,完全可以通过映射关系,将网页上现有的DC转换为MARC 数据,这样可以大大减少工作量和转录错误,同时又提高了数据的利用率。第三,在DC与MARC之间创建映射机制,DC的数据就可以最少成本转换成书目数据库的组成部分,对于已经存在的MARC数据,也可以按照需要通过映射转换成DC格式,这样,在DC与MARC之间就可以实现数据互查。
DC和CNMARC映射及匹配表。例:表格第一列列出了DC的15个元素;第二列的15个元素均分为未修饰词(Unqualified)和修饰词(Qualified)两部分,有词表
的给出词表,并译成中文;第三列列出在资源描述特征上与DC元素对应的CNMARC 字段,并指出该字段是否必备或可否重复,R表示可重复,NR表示不可重复。有些元素和字段无法找到完全对应的内容,只列出元素或者字段名称。
具体实施办法略。
[3]元数据的种类
对于元数据的种类有不同的分类方法。一般分为描述性元数据、管理型元数据、结构性元数据、保存性元数据等等。
a) 描述性元数据(Intellectual Metadata),用来描述、发现和鉴别数字化信息对象,如MARC、DC,它主要描述信息资源的主题和内容特征。
b) 结构性元数据(Structural Metadata),描述数字还信息资源的内部结构,如书目的目录、章节、段落的特征。
c) 存取控制性元数据(Access Control Metadata),用来描述数字化信息资源能够被利用的基本条件和期限,以及这些资源的知识产权特征和使用权限。
d) 评价性元数据(Critical Metadata),描述和管理数据在信息评价体系