资源集合描述元数据规范-数图研究笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科技基础性工作项目(任务)可行性报告
项目名称:资源集合描述元数据规范
项目承担单位:上海图书馆
项目负责人:刘炜
2002年6月
一、立项背景
(1) 重要性和紧迫性
背景
元数据是关于数据的数据。在数字图书馆中它提供完整的数据描述形式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分的互操作性和可扩展性的基础,是提供数字图书馆中资源描述、服务发现、资源处理、资源评价与排序以及资源的人机交互和理解的基本要素,它还承担向数字图书馆中高层协议中间件提供标准数据访问接口的功能。
上述这些功能并非仅仅由一套数字对象描述的元数据方案就可以获得,必须有一套整体架构的设计,包括数字对象元数据方案、资源集合元数据方案、管理型和保存性元数据的考虑、元数据置标方案、元数据映射方案、元数据著录规则以及决定元数据交换、发布、封装和实现语义交互功能的大量的元数据协议何在此协议基础上实现的独立的元数据服务。
由此可见元数据方案是有层次的,在许多数字图书馆应用中元数据方案都与数字图书馆的逻辑结构对应,具有一定的层次结构。本项目即研究除资源对象元数据方案之外的、资源集合元数据方案及其实现。
元数据方案的两方面来源具有各自鲜明的特点:内容专家(包括图书馆信息专家和各学科领域的专家)从数字资源属性分析的角度出发,为满足不同的领域知识、资源类型在内容揭示、交换和传播等方面的需要,提出众多的方案,形成一系列有关元数据标准规范的推荐草案等;计算机专家则从信息系统地分析和设计角度考察更一般性的问题,注重系统的开放性、扩展性和灵活性,提出了许多方法、框架和平台,形成了大量的应用指南、参考模型、(profiles )、最佳示例(best practice )等等。这两个方面的内容形成了目前数字图书馆标准规范体系的主要部分,而资源集合元数据方案是这两方面的的一个融合交汇之处,离不开任何一个方面的贡献。
元数据体系
数字对象是数字图书馆的基本逻辑单位,按照经典的数字图书馆理论,数字对象是由数据和句柄(handle )组成,句柄包含该数字对象的唯一识别码——调度码以及描述该元数据基本属性的元数据。数字对象存放于仓储(repository )中,由仓储存取协议(RAP )存取,所有数字对象的句柄均在句柄服务器中注册。(如图1)
图1:数字图书馆中数字对象的微观结构
资源创建者
数字对象 数据 句柄/调
仓储
RAP(仓储
存取协议) 句柄服务器
创建
包含
由句柄(调度)系统创建
包含在 被存取 句柄注册于
事实上,数字对象可以看成是任何对象包(package或basket),包内部可以有复杂的
结构,包与包、包与其他数字对象之间可以有嵌套、链接、递归等关系,包可以聚集成馆藏(collection),提供一定的服务如索引服务,馆藏也可以由不同资源库或资源集合中的部分
资源虚拟地组成,结合web服务构成具体的分布式信息系统,或通过开放部分标准的信息
接口以供智能代理或其它服务站点进行资源整合乃至服务整合。下面的示意图构成了数字图
书馆的这种宏观结构(见图2)。
馆藏服务
索引服务
数字资源对象
图2:数字图书馆宏观结构(资料来源:Sandra Payette “Computing Methods for Digital Libraries”, April 20, 2000”)
数字图书馆中的数字资源对象应该可以灵活地进行聚类、分层或集成,元数据不仅仅
附属于它所相关的数字资源对象,还可以与任意类目、层次、集合关联,数字图书馆构成的
层次结构映射为元数据的层次结构,不同层次的属性具有继承关系,同时它本身也可是一类
数字对象,可以有它自己的元数据,整个元数据体系可以通过一定的注册机制提供广域网环
境下的资源发现和服务接口,并有可能进行动态更新。由此可见,一个完整的数字图书馆中
元数据的体系结构相当复杂,从各个层次上来看,元数据可以描述数字对象的内部结构和组
成元素,可以描述数字资源对象,可以描述实体的或虚拟的资源集合,还可以描述系统和服务。我们粗略地将数字图书馆的元数据体系表述为上述四个层次:元素级、对象级、馆藏级
和系统级。
资源集合元数据
上述四个层次的元数据,本项目重点研究第三、第四个层次,即馆藏级和系统级的元
数据规范。本项目之所以将系统级的元数据也归入资源集合元数据来讨论,是因为独立的系
统相对于数字图书馆来说与“馆藏”是处于相同层次的信息体。
信息资源集合(Collections)是数字图书馆中数字对象的集合,泛指按照一定体系组成
的信息资源体系或信息对象集合,例如图书馆、档案馆、博物馆、网站、搜索引擎或目录、
数据库、数字文献库,以及由文本、图像、声音、统计数据集、软件、物品、事件、人物等
组成的物理或虚拟的组织体系。
下列“信息体”常被作为资源集合进行描述:
●因特网目录(例如Yahoo);
●主题网关(例如SOSIG, OMNI, ADAM, EEVL等);
●图书馆、博物馆、档案馆目录;
●搜索引擎(例如google;
●文本、图像、声音、数据集、软件等资料以及这些资料的任意组合(包括数
据库、CD-ROM光盘以及Web资源的集合);
●事件的集合(例如系列讲座等等);
●图书馆、博物馆的馆藏;
●档案库(物理的);
●其他物理馆藏
●数字档案
资源集合元数据标准的作用
对资源集合的描述随着互联网中资源的爆炸性增长而显得越发重要,描述是利用的基础,标准地进行描述和注册对于资源集合的评估、整合和利用能够起到极大的促进作用。
资源集合的元数据与资源对象的元数据有很大不同。资源对象的元数据标准常常是静态的方案,根据最终用户的需求考虑对资源对象进行足够的揭示,而一般不考虑系统的功能和具体实现,具体应用时常常需要组合不同的元数据方案,或对标准的元数据方案进行扩展,或加入系统所需的管理型、功能性属性。资源集合元数据方案一般首先从信息系统的作用和功能出发,考虑对于不同的信息资源集合,对于开放环境来说甚至是无限的信息资源集合,如何确定“核心”元数据,哪些属性应该得到揭示,对于何种应用何种方式是足够的,是否以及怎样实现不同元数据体系之间的映射或转换等等,这样便能为用户或智能代理提供搜寻、选择、封装、利用和集成信息资源集合的接口。资源集合元数据在功能实现、管理上有许多复杂的需求,在分布式环境的资源发现中起着核心作用。
资源集合元数据的类型和内容。
描述资源集合的元数据方案可以分为两类,一类是描述数字对象元数据方案的扩展,在资源描述的框架中再加入描述资源集合的属性内容,这种内容可以是非结构化的陈述。这类方案多用于较为传统的数字图书馆中作为提供人机交互的finding aids,并非用于计算机自动进行资源库的导航匹配,或提供智能代理一定的查询语义接口。第二类是提供一个标准的结构化的规范框架或封装方法,规定各类元素的语法、句法和语义表达方法,提供系统自定义能力,但具体的语义只有获得实例后才能得到。这种方法具有更加灵活的结构,便于扩展,也便于计算机进行交互或自动处理。
参考DCMI(都柏林核心元数据计划)对数据体类型(TYPE)的划分(参见/documents/dcmi-type-vocabulary/),资源集合的类型可以分为以下三种:馆藏(collection)、数据集(dataset)和服务(service)。馆藏是条目(item)的集合,数据集指按照一定结构(例如表单、数据库等)组织的信息,服务指附加一定功能的信息系统,例如馆际互借、身份认证等。美国国会图书馆的元数据方案也对所描述的对象进行了层次划分,除了资源对象有三种类型之外(primary object、intermediate object和terminal object),资源集合有两类:集合(set)和群组(aggregate)。
资源集合元数据的具体内容目前并无一致,还处在研究、发展和演变之中。
资源集合元数据在实践应用中的紧迫性。