国内外数字档案馆元数据标准体系比较研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:本文简述了档案馆元数据的含义、功能及类型;对于国际上几种常见的档案元数据体系,如EAD、]SAD (G)、ISSAAR (cPF)、EAC、TEI、中国档案著录规则等,就其背景、结构、应用和特点进行了分析与比较,并特别分析了我国档案著录规则与EAD的区别与联系;最后提出了建立我国数字档案馆元数据标准体系的几点建议。
关键词:数字档案馆;元数据;EAD;中国档案著录规则
中图分类号:G250 文献标识码:A 文章编号:1007—7634(2007)03—0382—08
A Comparative Study on Metadata Systems of Digital Archives at Home and AbroadWANG Xiao—li,WAN G Fang(Business&hool ofNankai ,Tianjin 300071,China)Abstract: e concept,functions and types of awhival metadata arc introduced,then the background,cotlatructure,application and characteristics of some kinds of col-fllllon archival metadata systerm throughout the world,such as
B ,ISAD(G),ISsAAR(CPF),EAC,’IEI and Chinese Archives Description Rules,are sunlmarizedand c~nparised,and then the diferences and relatiom between Chinese Archives Description Rules an d EAD areanaly~ed,at last,a few suggestions on establishing Chinese digital archives metedata system a put forward.
Key words:digital archives;metadata;EAD;chinese archives description rules
数字档案馆是随着计算机网络技术的发展而产生的,近年来世界许多国家的数字档案馆建设进展迅速,我国数字档案馆的发展也取得了令人瞩目的成绩。
在网络化时代,数字档案馆的建设要求网络化、标准化与国际化,元数据体系是数字档案馆资源管理、开发与利用的基础。
元数据标准的通用性、开放性与标准化对于数字档案馆的长远发展十分重要,任何孤立、封闭的数字档案馆系统,其可持续发展都将受到制约。
本文将对目前世界上一些主要的档案元数据标准及我国的档案著录规则进行比较分析,希望能对我国数字档案馆元数据体系的建立提供参考。
l 档案馆元数据的定义、功能及类型元数据最先指作为计算机科学领域的专用术语出现在美国国家航空与航天局的“格式交换手册”(Directory Interchange Format,DIF)中l¨o后来被引入到各个领域。
如图书馆、档案馆、博物馆等。
元数据的最基本定义为:关于数据的数据(data aboutd日l上e)。
目前关于数字档案馆的元数据定义较多,但基本内涵是一致的。
笔者认为,数字档案馆的元数据是用来描述数字档案的内容、结构及背景特征的数据,它是一个结构化的标准体系,其目的是对数字档案信息资源进行组织、管理、发现、识别、选择、定位、开发、利用和评价,追踪档案在管理和使用过程中的变化,有助于实现数字档案信息资源的凭证价值、集成整合与长期保存。
数字档案馆元数据的主要功能有:①著录功能,这是最基本的功能,描述档案数据的内容、结构及背景特征;②检索功能,为用户提供方便快捷、多层次、多途径的检索体系;③选择功能,支持用户在不浏览档案信息的情况下,对信息对象有基本了解,从而决定对信息的取舍;④定位功能,提供档案信息资源本身所在位置的信息;⑤管理功能,保存对档案日常使用、管理方面的相关信息,便于数字档案的管理。
对数字档案馆元数据的编写可采用一定的格式。
由于数字档案资源的形态各异,不同形式和内容的数字资源对元数据格式的要求也不一样。
按照元数据描述的对象来分,目前常见的档案元数据格式主要有:对档案内容描述的元数据,如:国际档案著录标准(总则)ISAD(G)(General Intemation.al Standard Archival Description)、档案编码著录EAD(En Archival Desefipfion);描述档案背景信息的元数据,如:法人、个人及家庭背景信息国际档案规范文本ISAAR(cPr)(International standard AtchivalAuthority Record for Corporate Bodies,Persons,and Families)、编码档案背景规范EAC(EncodedArchival~ntext);其他,如档案、个人论文和手稿APPM (Archives,Personal papers,and Manuscripts)、文本编码项目,IEI(Text r~coding Initiative)等。
2 国外主要档案元数据标准
2.1 EAD
2.1.1 背景
EAD格式主要用于著录档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录。
最早是美国伯克利加利福尼亚大学图书馆发起的伯克利检索工具项目(Berkeley Find project,BFAP)中提出的,1998
年完成了第一版EAD标准,主要有四部分组成,其中EAD DTD是该标准的主体部分。
EAD DTD是基于《通用档案著录国际标准》[SAD(G)之上的一部档案著录交流标准。
它是以通用标准语言(SGML)和扩展标记语言(X舰)文件类型定义(【yID)的形式存在的。
现在已有了EAD2002版,此版本在第一版的基础上新增了<实体技术><phystech>这个元素,由EAD DTD1.0版的145个元素变为146个元素。
现在由美国档案馆员协会的编码档案描述工作组(the Encoded ArchivalDescription Working Group ofthe Society ofAmerican Ar
—chivists)与美国国会图书馆网络开发和MARC标准办公室(the Network Development and/VL~RC StandardsOtiice ofthe Library ofCongress)共同维护拉】o
2.1.2 结构
EAD格式的记录由<eadheader>、<frontmatter>及<arches>三个部分组成。
<eadheader>是必备的项,由<eadid>、<filedesc>、<pmfiledese>、<revisiondesc>四个元素组成,提供内容部分文本的书目信息。
<frontmatter>是一个可选项,主要内容是按照本地需要的顺序,重复在<eadheader>元素中已经出现的内容。
<arches>部分包含了档案材料的主体信息,EAD元素的具体构成如表1所示【3J。
由于篇幅的限制上表中只列出一些常见的元素,丽并不是全部。
有些元素是反复出现的,在这里也没有列出来。
如<note>在<did>描述标识符、<add>附属描述数据、<~ llninfo>管理信息中都有,丽笔者只在<did>中列出。
有些元素虽然为必备项,但是它的子元素和孙元素并不一定全部都是必备的。
2.1.3 特点
EAD是目前全球档案界最有影响的档案著录结构标准之一,主要具有以下特点。
(1)著录详尽,适用范围广泛。
EAD可以提供详细的全文描述和存取,为档案馆的目录提供了一种结构化的描述,能适应任何长度的目录和记录,并能够描述在各种媒体上的所有类型的档案,包括文本文档、电子文档、可视材料和声音记录等等。
(2)易用性和兼容性。
由于EAD基于XML和SG地,XML和SGML具有易用、直观、透明度高、使用灵活,不依赖任何软、硬件平台等特点,因此具有易用性,并且可以简易地同现在许多基于XML的元数据(如:DC、MARC、ISAD (G))互换,真正实现文件信息的共享。
(3)可扩展性。
EAD只有3个层次,各档案机构可以根据档案馆的特点,在给定的规则之下自行绵写标签,并且在<frontraatter>部分还可以按需要改变编码元素的顺序。
(4)便于检索:EAD的元素是结构化、层次化的,除了支持对字段和全文一般的检索如布尔逻辑检索、截词检索、近似检索之外,还可以在目录中查找单个项目和离散的数据项,便于满足用户具体需要,快速获得所需信息。
2.1.4 应用
自从EAD问世以后,有越来越多的国家和地区的档案机构应用D ,目前几个影响较大的项目主要有以下几个Hl。
(1)美国加州遗产项目(California HeritageProject),加州遗产收藏是一个公共的数字档案馆,收藏有关加州历史的照片、画片、手稿等。
他们将大量的这种资料通过扫描的方式数字化,然后直接用EAD著录,到1998年3月,他们已在网上提供了154个B 编码的检索工具。
(2)加州联机档案馆项目( e olllJn6 archive ofC_adifornia project),这是一个用FAD对检索工具编码的试验项目,它的目标是建立一个包括3000页的档案检索工具数据的原型数据库。
(3)核心执行项目(COle executive pilotproject),由英国皇家委员会发起,目的是对英国中央政府1916年至今的部分文件的检索工具提供网上利用。
在国内的应用主要有台湾中央研究院历史语言研究所采用EAD1.0对所收藏的内阁大库明清档案进行著录”【5】。
2.2 (G)
2.2.1 历史背景
国际档案著录标准(总则)I (G)是国际档案理事会ICA(International Council On Archives)制定的第一个档案著录标准,1990年开始,UNESCO的PCI(General Infonmti~P,~ram e)与ICA合作建立ISAD(G)。
指定了世界各地档案共同著录的二十六个项目,尽可能地以档案资料的确定称谓来建立档案信息智能控制与存取,旨在协助以传统和电子方式进行档案资料的著录和这些著录间的转换。
1994年ISAD (G)第一版正式形成,2000年初正式出版了第二版,现在ISAD (G)已经被翻译为多种语言,包括葡萄牙语、荷兰语、法语、英语、德语、威尔斯语,遗憾的是还没有汉语版本】。
2.2.2 结构
ISAD (G)由以下七个部分组成,每个部分又有自己的子项II[71。
(1)身份声明(Identity Statement),提供定义著录单元的必要信息,包括相关代码(Referencecode(s))、题名( I de)、13期(Dates)、著录层级(Level of description)、著录单元的范围与媒体(E】【-tent and medium of the uIlit)o
(2)背景(Context),提供有关著录单元的原始次序和管理状况的信息,包括档案形成者名称(Nanle of creator)、立档单位的行政/历史考证(Ad.ministrative/Biographical history)、档案历史(Arehi~history)、接收或征集的档案文件的直接来源(h.mediate 8oui~e of acquisition or transfer)。
(3)内容和结构(Content and Structure),提供有关著录单元的主题资料和编排的信息,包括范围与内容(Scope
and content)、鉴定/销毁及保管期限划分的信息(Appraisal/destruction and scheduling in.formation)、增加(Accruals)、编排体系(System ofarrangement)。
(4)检索和利用的条件(Conditions of Accessand use),提供便于检索利用方面的信息,包括检索控制条件(Conditions governing access)、利用控制条件(Conditions governing reproduction)、语言/手稿资料(Language /scripts ofmateria1)、实体特征与技术要求(Physcial characteristics and technical require.n~nts)、检索工具(Fmdins aids)。
(5)相关资料(Allied Materials),提供与有关著录单元有重要关系的资料,包括原件存放位置(Existence and location of originals)、其它版本的存放位置(Existence and location of copies)、相关著录单元(Related units of description)、出版附注Publica—tion note)o
(6)附注(Notes),提供特殊信息及不能放在其他范围的信息。
(7)著录控制(Description Contro1),提供著录的有关时间、方式和人等信息:档案工作者附注(Archivists note)、规划或协议(Rules or conven—tio~)、著录13期(Date(s)of descriptions)。
这个一般原则所包含的26个元素中,有6个元素是必须被使用的,有相关代码、题名、13期、著录层级与著录单元的范围。
2.2.3 EAD与ISAD(G)的关系
EAD是在ISAD (G)的基础上发展起来的,它们在对档案的著录、定位和检索方面各具优势,ISAD(G)是通用性原则,具有更强的简易性和互通性,两者相辅相成。
ISAD(G)与EAD具有很强的映射关系,如表2所示。
2.3 ISAAR (CPF)
2.3.1 背景
法人、个人及家庭背景信息国际档案规范文本IsAAR第一版是由ICA Ad Hoc Commission on DescaptiveStandards(ICA/DDS).在1993年到1995年期间发起的,1996年正式出版,2004年又制定了第二版。
第二版简称Is (CPF)20o4,是第一版的扩展和重构,在内容上由第一版的三个部分变为第二版的四个部分,另外还对此标准如何与档案材料和其他资源如(rSAD(G))相链接进行了描述【8】。
2.3.2 结构
ISAAR的元素共分为四大类,每个大类下面又分为很多子元素】。
(1)身份(Identity Area)。
包括团体类型、名称正规形式(Authorized form (s)of name)、平行名称形式(Parallel forms of name)、其他规定中的标准名称形式、其他名称形式、团体机构标识符(Identifiers for corporate l~lies)。
(2)录(Description Area):存在时间、历史、地点、法律地位、作用、职业和活动、授权/正规出处、内部结构/家谱与一般背景。
(3)关系(Relationships Area):相关团体、个人和家庭的名称/标识、关系类型(Category of rela.tionship)、关系描述、关系13期。
(4)控制(Control Area):正规文件识别、机构识别、规则和/或协议、地位、细节层次、创立/修改或删除的时间、语言和手稿、来源、保管附注。
其中团体类型、正规名称形式、存在13期与正规文件标识四个元素是必选的。
2.3.3 作用
IsAAR(CPF)为著录形成档案的法人、个人以及家庭提供了一个标准工具。
在著录系统中创建既相互分离又互有联系的档案形成者的描述,为获取以及管理、发现、利用和理解档案的背景信息提供了一个有效而灵活的手段。
Is从R(CPF)将与EAD兼容,以便于建立一个传记和历史数据库,这个数据库对团体机构、个人和家族文献进行处理,并有利于分散的和复杂的全宗著录。
另外按照此标准建立起来的文件可以达到跨国、跨语言链接背景信息的目的,如链接关于移民和贸易等具有跨国特征的文件。
2.4 EAC
2.4.1 背景
由于FAD不能提供独立的关于文件作者及背景的信息。
为了满足这一需要,多伦多大学的W~ndy Duf和耶鲁大学的Richard Szary,在1998年最先提出建立一个对创作者和背景信息的编码标准。
在美国联邦数字图书馆的支持下,他们于1999年在耶鲁大学举行会议。
在2001年三月和六月分别在多伦多大学和福吉利亚大学举行了两次会议,开始制定关于档案编码背景规范(EAC)【9J。
EAC是一项基于可扩展性语言(XML)的元数据标准,是FAD的延伸和扩展。
除了适用于档案领域之外,还可利用在图书馆、博物馆,个人传记
和组织历史及大的家谱数据库中。
2.4.2 结构
每个EAC文件(EAC document)包括两个部分:头标<~ header>和环境描述<condesc>,<eacheader>提供背景描述,<condesc>包含创作者描述。
<eacheader>和<condesc>都包括具体的子元素,有些是必须的,而有些是可选择的。
<~header>除了以上的分元素外,还包括许多属性,如创作者类型(Type):个人、团体或家庭,版本的地位(sta衄s):草稿本、正式本(edit.ed)或删除本等。
在<condesc>环境描述部分中,<identity>最为复杂,除了可能需要使用多个名称外,还必须适应两个或多个平行的名字不同语言或者版本的需要,在一些不是一种官方语言的国家,如:加拿大,一个团体的名字经常用多种语言描述。
2.4.3 与ISAAR (CPF)的关系
EAC是ISAAR(CPF)的补充,为了保持EAC与ISAAR(CPF)修订版的一致性,决定参与多伦多会议的许多成员同时也参加ISAAR(CPF)第二版的制定,而且制定EAC的原则与方法将提交到国际档案著录标准委员会来指示ISAAR (CPF)的修订,因此EAC模式将与修订版ISAAR(CPF)完全相一致mJ oISAAR (CPF)这一标准只陈述了支持档案正规信息交换的一部分条件,成功的网络档案正规信息自动交换取决于交换存储器对一套交流格式的应用,EAC就是一种支持ISAAR (CPF)与档案正规数据在网上交换的一个交流格式【llJ。
2.5 TEI
2.5.1 背景
文本编码项目TEI主要用于文字信息的转换,但对于其他格式的信息如图像声音等也有涉及。
它不但可以用于新建立的电子文件的著录,也可以转换已存在的纸质档案资料。
TEI现在已被称为文字资料的电子格式。
第一版的TEI使用标准通用标志语言(SG地),最近的版本(TEI P4,2002),已可使用可扩充标志语言() )。
因此TEI格式具有很大限度的灵活性、综合性、可扩展性n2J。
2.5.2 结构
所有符合TEI标准的文件都包括一个TEI标头部分(以元素<TEI标头> (<teiHeader>)标志)与文件正文部分(以元素<文件> (<text>)标志)。
TEI标头部分提供的信息与印刷本提供的书名页类似,包括四个部分:①文件描述<fileDesc>,包括题名作者陈述、版本陈述、范围<extent>、出版陈述、连续出版物陈述
<sefiesStmt>等;②编码描述,包括项目描述与样本、编辑、标志、参考、分类等内容的声明;③背景描
述<profileDese>,包括建置信息<creation>、使用语言、文本分类<textClass>等;④修改描述
<revisionDesc>,包括El期、责任陈述、条目<item>等【川。
2.6 五种档案元数据标准体系之间的比较从使用状况来看,大部分欧洲国家如英国、法国、瑞典、德国、西班牙、意大利等采用国际档案理事会编制的档案著录通用规则(Is.AJ)(G))和档案规范记录国际标准(ISAAR (CPF)),对档案进行多级著录和多媒体信息管理。
而在北美较多使用EAC和EAD进行档案的著录¨J。
具体的关系可以用下表来说明以上五种元数据格式的联系与区别。
3 我国档案著录规则与EAD的比较从国内外情况看,我国制定档案著录规则起步较早,“1985年制定了我国档案界的第一个国家标准,即{GB /3792.5—8.5档案著录规则>”【捌。
目前我国使用的(DA/TI8—1999档案著录规则>,由中华人民共和国国家档案局于1999年5月31 El批准,是中华人民共和国的档案行业标准。
此标准所引用的标准有GB/T3792.1—1983文献著录总则、GB,I7156—1987文献保密等级代码、GB/T9704—1988国家机关公文格式、GB/T154l8—1994档案分类标引规则、GB/T3860—1995文献叙词标引规则、DA/T1一l992档案工作基本术语与 19—1999档案主题标引规则。
《档案著录规则》与EAD相比既有相同之处,又有较大区别。
两者的相同之处如下:首先,二者的著录对象都主要是针对档案资源;其次,在著录项目的设置上存在一些相同之处,如:“正题名、并列题名”与“<tifleproper>”、“副题名”与“<subtitle>”、“作者”与“<author>”、“其他责任者”与“<sponsor> ”、“文件形成时间”与“<date>”、“附件”与“ <note> ”、“数量”与“<nurn>”,等等o《档案著录规则》与EAD的区别可以归纳如下:(1)著录元素的数量和格式不同。
在元素数量方面,我国《著录规则》的元素共分为七个大项,2o小项,要比EAD 元素少得多,且针对电子档案的著录元素极其缺乏,如:文件的版本、编程语言、文本类型、应用软件等。
另外,FAD是利用XML语言进行层次化和等级式的著录,所有的元素都包含在<ead><lead>结构中,而我国的著录格式目前一般采取段落符号式条目格式。
(2)著录的层次等级不同。
从以上的格式可以看出我国的档案著录规则只是进行案卷级和文件级的著录,而并没有对全宗进行著录,如机构的行政管理历史、档案的历史沿革、传记概况等,这样的著录结果违背了档案全宗的基本原则。
而EAD则是多层次分级著录档案对象,通过对文件整体的著录及更多分级著录,如:系列(series)、子系列(sub—series)、案卷(folder)、条目(item)等来提供一种结构性的检索工具(rmamg aids)【1 。
其著录的结果可以反映档案实体管理的各个级别。
(3)主要著录对象不同。
我国《档案著录规则》主要为相对稳定的物理载体,并且主要是用于档案的后控著录,所以不适宜电子档案的著录;而EAD是为数字资源而制定的。
其设计原则具有可扩展性、可选择性、可重复性等特点,有利于揭示各类电子文献的各种特征,进而达到网络资源的组织、分类、索引等目的。
(4)著录规范化手段不同。
EAD是以XML语言格式著录的,XML的标准语法结构“<,>著录内容</>”能够保证著录文档的规范和有序化。
而我国的档案著录主要*一些置标标识符来保证目录数据的规范
化和有序化,主要的标识符有“引:“.一”表示其后的数据项是一个大项、“,”表示其后的数据项是一个责任者项、“:”表示其后的数据项是文种或规格、“;”表示其后的数据项是保管期限等。
(5)简易程度和扩展性不同。
我国档案著录规则的著录虽然元素比EAD少,但是著录规则要繁琐得多,并且扩展性差,对每个项目的先后秩序及格式都具有严格的规定,而在EAD的<frontmatter>层次中可以根据实际需要任意安排元素的顺序。
而且EAD是基于X肌语言格式的元数据,可以与很多元数据甚至是其他学科领域的元数据交换。
从目前的情况来看,我国《档案著录规则》远不能适应网络化和数字化环境的需要,应该尽快制定适应数字网络环境的档案元数据标准。
4 关于建立我国数字档案馆元数据标准的建议数字档案的文件类型非常复杂。
为了实现对各类型档案信息资源的充分描述和揭示,在我国数字档案馆的建设过程中,需要充分吸收国外档案元数据的优点,结合我国的实际情况,制定出适用的档案元数据标准体系。
数字档案馆项目在制定或选择元数据时,应遵循以下几个原则。
(1)国际化与本土化相结合。
为了便于档案信息跨地域、跨国界的交流与共享,我国档案元数据标准一方面应尽量与国际主流元数据标准体系兼容,另一方面要充分考虑到中国档案的实际特点,与以往的著录记录相兼容。
(2)可扩展性。
档案信息的生命历程比较复杂,并且对真实性有着极高的要求,反映在元数据标准上就是著录元素较多,结构复杂。
为了适应不同档案信息资源的需要,需要特别注重元数据标准体系的可扩展性。
(3)简单性。
简单、易操作是元数据标准的基本要求。
简单性表现在两个方面,一是核心元素集简单易用,二是句法结构遵从标准化。
目前EAD的句法主要遵从RDF框架,RDF已成为比较通用的资源描述框架,我国数字档案元数据标准也需要遵守RDF,以达到句法结构的标准化。
(4)互操作性。
目前,XML已经成为网络时代的通用编码规则,开放文档项目OAI提供了网络环境中资源的共享交互协议,如同DC和EAD一样。
我国的元数据标准体系也应考虑网络环境中的交互与共享。
(5)以功能需求为导向。
数字档案馆的元数据取决于人机两方面的因素,人又包括使用者和管理者。
元数据既要满足使用者对文献内部特征揭示的需要,同时也要满足管理者对数字档案日常管理的需要。
“机”主要指编码语言、语义、元数据间的交互等方面,因此为了满足这些功能需求笔者建议不但要选择或建立内容元数据,如EAD、ISAD(G),也要选择或建立相应背景元数据,ISAAR(CPF)和EAC。
(6)适应多层级著录的需要。
结合各种元数据标准的功能、特点及我国的实际需要,一方面我们可以在我国现有的档案著录规则注重案卷著录的基础上,增加对全宗及文件级别的著录项,建立起多级著录的规则,建立的规则应与ISAD (G)及ISAAR (CPF)相兼容。
在建立的过程中我们应该适当借鉴美国档案著录规则APPM、英国的档案著录规则MAD、加拿大的档案著录规则RAD等国际上成功的著录规则,另一方面我国也可以以EAD和EAC分别作为内容描述和背景描述的核心元数据,而其他元数据作为补充形式。
因为EAD和EAC都以XML作为编制语言,都有自己的DTD 形式,具有很强的灵活性与交互性,而且这也与现在一些流行的互操作协议对格式语言的要求相吻合。
总
之,元数据是数字档案信息资源共享的重要条件。
我国档案管理方法与欧美国家有一定的差异,我们需要深入研究我国数字档案馆的特点,又要兼顾国际化的要求,制定出切合我国实际的数字档案馆元数据标准,以指导我国档案馆建设实践。