我国元数据标准的研究和利用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我国元数据标准的研究和利用
元数据标准(Metadata Standards)描述某类资源的具体对象时所有规则的集合。不同类型的资源可能有不同的元数据标准,一般包括完整描述一个具体对象所需的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定。
1.元数据的基本意义
Metadata(元数据)是“关于数据的数据”;
元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;
元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。
离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。
2.元数据应用环境
Metadata的应用目的
(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。
(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。
(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。
(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。
Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现
例如:网络资源:Dublin Core、IAFA Template、CDF、Web Collections;文献资料:MARC (with 856 Field),Dublic Core;人文科学:TEI Header;社会科学数据集:ICPSR SGML Codebook;博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core;政府信息:GILS;地理空间信息:FGDC/CSDGM;数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images;档案库与资源集合:EAD;技术报告:RFC 1807;连续图像:MPEG-7;Metadata格式的应用程度
不同领域的Metadata处于不同的标准化阶段:
在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;
在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;
但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。
Metadata格式“标准化”程度问题
Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata 格式。
同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。
但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。
3.元数据互操作性问题
由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):
多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。
4.元数据格式映射
利用特定转换程序对不同元数据元格式进行转换,称为元数据映射(Metadata Mapping/Crosswalking)。
目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如:
Dublin Core与USMARC;Dublin Core与EAD
Dublin Core与GILS;GILS与MARC TEI
Header与MARC FGDC与MARC
也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse 项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。
5.标准描述框架
。解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式.实际上,XML和RDF从不同角度起着类似的作用。
XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD 定义的Metadata格式,从而解决对不同格式的释读问题。
RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。
RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。
进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace 方法调用已有定义规范的机制,
6.数字对象方式
建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。
Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。
内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文