元数据应用规范与著录规则
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元数据方案设计流程示例
规范控制 属性提取
内容专家从资源 利用的角度提出 属性要求 考察需要进行规 范控制的属性, 制定办法
资源分析
分析应用领域资 源特点和文献利 用方式
建立模型
详细列出相关实 体,标明其相互 之间的关系。
元素精炼
分析应用领域资 源特点和文献利 用方式
限定规则
规定属性限定原 则(子字段,修 饰词和编码)
元数据应用规范与著录规则
项目来源:科技部科技基础条件平台工作重点项目 项目名称:数字图书馆标准与规范建设 项目编号:2003DEA4T035 项目网站:http://cdls.nstl.gov.cn 子项目名称: 基本数字对象描述元数据
发布说明
这些报告是科技部科技基础条件平台工作重大项目《数字图书馆标准与规 范建设》的研究成果,项目编号为2003DEA4T035。按照有关规定,国家和 《我国数字图书馆标准规范建设》项目组拥有这些报告的版权,依照《中华人 民共和国著作权法》享有著作权。为全面宣传、介绍和推广项目已经取得的成 果,推动有关标准规范的应用,项目组将这些报告在项目网站上公开发布,广 泛征求意见,欢迎各界专家予以指导。
元数据描述的抽象模型
一条“相关描述”描述一个相关的资源,因此并非 是“描述”的一部分,例如,当一个人是所描述资 源的创建者时,一条相关描述可以提供关于这个 “人”的元数据。 语法编码体系也可以认为是“数据类型”
“记录”与“值”
• 一条元数据记录是一条或多条描述的集 合,这些描述是关于一个或多个相关资源 的,这些资源根据某个置标指南实例化 ( 这 些 置 标 指 南 有 : XHTML meta tags, XML, RDF/XML, 等等) • 一个元数据值是物理的或者概念的实体, 当描述一个资源时,这个实体就成为该资 源的属性
元数据方案设计流程图示
参考模型
OAIS信息包模型 FRBR生命周期模型
ห้องสมุดไป่ตู้
OAIS信息包模型
FRBR: Functional Requirement for Bibliographic Records
From: IFLA “Functional Requirement for Bibliographic
为什么要用AP
面对多样性世界的妥协 标准化 互操作 经验共享 方案重用 便于注册 简便易行
AP的内容
欧洲标准见:CEN CWA14855 定义所要描述的资源属性,并采用ER分析方法明确所要描述 的资源对象; 声明元素语义及可能存在相互关系、相关规则等,这些元素可 以来自多个不同的元数据标准规范(不同命名域); 声明元素限定或修饰。元素的语义可以根据所引用的元数据标 准规范进行某种程度的限定,但是不能扩大或交叉;
置标方案
通常选择 XML/RDF或单纯 XML置标
文献调研
元数据专家从现 有标准和相关项 目中获得参考
著录规则
制定详细的著录 规则,指导数据 加工
检索要求
提出元素对应属 性字段的具体检 索要求
系统需求
元数据需求作为 应用系统需求的 一个部分
验收要求
元数据部分在系 统中所要达到的 功能
未来扩展
预留未来发展的 可能性,即可扩 展性
为了学习、研究和应用推广等目的,可以复制、转载、或在电子信息系统 上镜像这些报告。但在复制、转载或镜像时,必须在明显地方标明“科技部科 技基础条件平台工作重大项目《数字图书馆标准与规范建设》项目资助”的字 样,必须保证报告的完整性,必须注明总项目组、子项目组和作者的真实名 称。任何人不得以商业赢利的目的复制、转载、镜像、或以其他形式传递和发 布这些报告。
向上兼容(Dump Down)原则
元素(属性)向上兼容 非预设(Uninformed) 值向上兼容 忽略任何不属于基本元数 使用URI值(如果存在) 据元素集的属性。 或字串值作为新字串 值。 递归地解决子属性关系, 用相关描述或字串值的知 直到基本元数据元素 识来构造新的字串 集15个属性中的一 值。 个。否则就忽略。
元数据描述的抽象模型
一个条描述是由一个或多个陈述(该陈述仅与一个且唯一一个资源有 关),以及零个或一个资源的URI组成(URI用来标识所描述的资 源); 每个陈述由一个属性URI(这里的URI用于标识一个属性),零个或 一个值URI(这里的URI用于标识属性的值),零个或一个编码体系 URI(这里的URI标识值的类),零个或多个值的表述组成; 每个属性都是被描述资源的一项特性; 每个属性URI可以在多个陈述中重复; 值的表述可以是字串值复合值或相关描述等形式; 每个字串值都是一个简单的、人类可读的字符串,用以表示属性的 值; 每个字串值可以有相应的编码体系URI,用来标识一个语法编码体 系; 每个字串值可以有相应的字串语种,它是一个ISO语种标记(例如, en-GB); 每个复合值是一些标记文本、图像、视频、音频等,或者它们的组 合,表示作为属性值的资源; 每条相关资源描述都是一个用来描述属性值的资源。
报告版权人不承担用户在使用这些报告内容时可能造成的任何实际或预计 的损失。
基本元数据方案应用规范
基本元数据方案的应用说明 元数据应用原则 流程设计 参考模型 扩展与限定(应用纲要) 形式化约束 保证基本方案在应用中的一致性(概念模 型) 著录规则总则
元数据方案设计原则
通用原则 简单性与适用性原则 专指度与通用性原则 互操作性与易转换性原 则 灵活性与可扩展性原则 用户需求原则 遵循现有标准原则 具体原则 资源分析原则 扩展原则(包括元素扩 展原则和修饰限定原 则) 元素定义原则 置标原则 系统实现和其他应用原 则
关键点:命名域
推荐采用具有命名域的元数据规范有如下考虑, 命名域提供了一种机制,能够:
标识元数据元素的管理机构,具有一定的权威性; 支持元素的原有语义定义; 保证元素概念的“唯一性” 以及与相关概念的关系。
AP的问题
不同元数据元素的一致性问题; 元数据标准更新的同步问题; 编码体系等修饰词的维护、更新问题; 应用纲要的标准化问题 完全的形式化是否有可能? 部分解决方案:元数据注册体系
可以规定元素的编码规则; 可以规定元素的值的约束; 可以规定其他约束:是否必选、可重复、取值范围、数据类型等 等
如果需要增加“新”的元素,必须自己建立命名域并维护这些新 的元素组成的元数据方案; 编码规则(制定置标方案)(机读); 编写有关应用文档(人读)
参见:http://www.ariadne.ac.uk/issue25/app-profiles/
抽象模型与应用纲要的关系
应用于元数据方案的制定 抽象模型提供了应用纲要的基础
建立资源模型 确立资源对象 选取元素 确定置标方案 确定记录组织形式和相互关系
谢谢!
元数据抽象模型
回答下列问题: 基本元数据方案的描述对象是什么? 基本元数据方案如何描述资源? 资源和资源属性是怎样的关系? 元数据描述的基本单位是什么? 元数据描述之间如何关联? 什么是一条元数据记录? 如何进行向上兼容? ……
元数据的描述对象:“数字对象”的抽象模型
每个数字对象具有零个或多个属性; 每个属性具有一个或多个值; 每个值本身是一个资源(即:用来描述资源,与属性相关的 物理或概念实体。); 每个资源可以是一个或多个类中的成员;(注:作为属性 值的资源所在的类常被称为编码体系词表); 每个属性和类均具有其被声明的语义; 每个类通过限定(子类)关系与一个或多个其它类相关(当 两个类共享部分语义时,所有属于子类的资源同时也是另 一个相关类的成员; 每个属性只能与一个其它属性通过限定关系(子属性)相 关(当两种属性共享部分语义时,子属性的的有效值也就 是相关属性的有效值)。
预设(Informed)
并且在任何情况下,向上兼容算法都应该:
忽略任何相关描述和复合值 忽略任何编码体系URI
为什么要用抽象模型
明确概念,例如元数据的描述对象、描述单元、限定方式 等等; 提供一个抽象的数据模型,以便在不同的元数据方案获得 共同的理解; 独立于特定的编码语法,约束和补充置标方案的不足; 深入理解编码对象的属性,实现元素的映射、翻译和转 换,从而实现元数据方案的共享和重用; 在语义层实现元数据应用系统(数字图书馆)的互操作