中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文数字化期刊的DC 元数据标准设计实例
刘廷元
(西南石油学院图书馆,成都610500)
摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论
述。
研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的
DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据
标准实例。
关键词 元数据 标准 数字化期刊 中文期刊 设计
中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204
An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls
L iu T ingyuan
(L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500)
Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces
among vari ou s differen t digital j ou rnalw arehou ses
.O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the
m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and
H TM L 4.0syn tax .
Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign
收稿日期:2002-09-09
数字化信息的结构化存储、有序化组织和高效、准确的
检索,是数字化图书馆与商业数据库共同面临的一个问题。
由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。
目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。
然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。
因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。
但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。
1 数字化期刊采用DC 元数据标
准的必要性
大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。
强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。
正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。
具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。
(1)元数据描述能够为数字化期刊建立一种计算机普遍
可以理解的框架体系,使数字化期刊资源得以透明、公开。
因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。
(2)元数据的描述、标识和语法能够融入因特网通用的
语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。
一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。
另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语
第21卷第6期
2003年6月
情 报 科 学
V o l 121,N o 16June,
2003
义影射、翻译等方法又可以迅速地将它们转换后封装在一起,整合成一个统一的资源数据库。
(3)元数据标准能够打破数字化期刊仓储的异构和封闭,建立起因特网信息空间的逻辑层,使数字化期刊资源实现组织性和规模化。
如果把分布在因特网上的每一个数字化期刊异构仓储看成是信息空间的一个物理层(ISO7498的O S I模型有7层),那么元数据标准就是这个信息空间得以连通的一个逻辑层。
也就是本文一开始就提出的,元数据标准能够整合因特网上的每一个数字化期刊资源,使它们成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊资源的跨仓储无缝查找。
(4)数字化期刊的元数据标准应用,能够结合元数据标准在多媒体信息仓储中的成功应用,实现文字信息资源与图像、声音和视频信息资源之间的连接、交换、共享与共用。
由于数字化期刊资源和多媒体资源都采用统一的元数据标准,它们就能同时打开文字信息资源和非线性、非结构性信息资源的大门,从而为数字图书馆、虚拟图书馆乃至数字化社会的建立奠定坚实的基础。
2 数字化期刊的检索入口和DC 元数据定义与限定
(1)数字化期刊的检索入口比较。
考察国内外元数据标准的应用、研究项目或工程后我们发现,其应用、研究基本上都是以图书、网页、会议论文及多媒体资源为著录对象的。
也许是因为数字化期刊太习惯于自我封闭这个社会原因,使他们不愿意采用元数据标准。
事实上,数字化期刊与图书、网页和其它“类文件对象”并无太大差异,有些方面甚至比图书、网页更单纯。
从理论上讲,这些数字化期刊有许多可以通用的检索入口(字段),它们的信息存储、组织、检索方式是完全可以采用DC元数据标准的。
为了更完整地将数字化期刊的检索入口纳入DC元数据标准,我们必须首先比较一下国内外的几个典型的数字化期刊数据库:
①P roQ uest D ircet的检索入口有以下字段:T itle(题名)、ISSN、Sub jects T erm s(主题词)、Personal N am es(作者名)、Sou rce(来源,包括刊名、年卷期)、C lassificati on Codes(分类号)、Geograph ic N am es(地名)、D ata Pub lished (出版日期)、Fu ll T ex t(全文)、Jou rnal Search(期刊检索)、A b stract(文摘)。
②EBSCO ho st的检索入口有以下字段:T itle(题名)、Sub jects T erm s(主题词)、Sou rce(来源,包括刊名、年卷期)、A u tho rs(作者)、A b stract(文摘)、AN(登录号)、ISSN、Fu ll T ex t(全文)、M agazine(期刊)、D ata Pub lished(出版日期)。
③CN K I中国学术期刊网的检索入口有以下字段:篇名、全文、作者、关键词、机构、中文摘要、中文刊名、基金、引文、年代。
(2)DC元数据的语义定义与数字化期刊的DC限定。
为了避免在DC元数据标准应用、研究中的各种失误,我们必须对DC元数据的定义进行深入的了解。
因为DC元数据应用的关键是准确理解每一个元素的语义定义,根据定义进行规范化的具体限定。
通过上述三个数字化期刊数据库的检察入口比较,根据ISO标准、DC-1.1版本及其NM P用户创建指南,同时借鉴国内外元数据应用项目的实施方案,数字化期刊的DC元数据应用应该在以下12个元素的定义与限定上进行。
①题名(T itle)。
定义:由资源创建者或出版者给定的资源名称。
限定:在数字化期刊的著录例子中题名就是期刊论文标题。
②创建者(C reato r)。
定义:对资源内容负主要责任的人或机构。
限定:简单地说创建者就是期刊论文的作者
(A u tho r)。
③主题(Sub ject)。
定义:资源的论题,通常是用那些描述资源内容的关键词或短语来表示。
限定:在我们的例子中,主题包括使用规范化词表和分类法的正规标引词和期刊论文的简单主题词、关键词或描述论题的短语词。
④描述(D escri p ti on)。
定义:描述元素是试图提供资源内容的文本描述,包括类文件对象(Docum en t-L ike O b jects)情形下的文摘或视频资源情形下的内容描述。
限定:缺省值是期刊论文的文摘(A b stract),在论文无“文摘”时可用“引言”(In troducti on)或“正文”的其它部分文字代替。
⑤出版者(Pub lisher)。
定义:印刷型数字期刊是出版印刷型文章的机构。
单一网络型数字期刊是使当前形态的资源成为可以利用的实体责任者。
限定:在我们的例子中,数字化期刊的出版者就是期刊本身,诸如出版社、学术机构(团体),商业数据库,或法人团体。
⑥日期(D ate)。
定义:指与创建或使资源成为可利用形态相关的日期。
限定:推荐采用ISO8601的YYYY(年)-MM(月)-DD(日)8位数字形式。
⑦类型(T ype)。
定义:资源的类别。
限定:资源类型可以从下列类型中选择:诸如主页、小说、诗歌、工作文件、技术报告、学位论文、会议论文、学术论文等。
⑧格式(Fo rm at)。
定义:资源的数据格式,它提供允许人或机器做出编码数据可用性决策的必要信息(例如,显示或执行它时可能要求什么样的硬件和软件)。
原则上说,格式元素不但包括因特网介质类型(M I M E),而且也能包括诸如杂志、报纸和其它非电子介质。
限定:在数字化期刊情形下,M I M E格式类型按目前的R FC2046标准仅有文本(T ex t)和H TM L两种选择。
但根据当前的发展趋势,期刊的电子格式至少有下列选择:h tm,h tm l;m s w o rd;pdf; po stscri p t;pow erpo in t;rtf;w o rdperfect;latex;gif;j peg; p lain tex t;sgm l等。
⑨识别符(Iden tifier)。
定义:用于唯一标识资源的字符
016情 报 科 学 21卷
串或数字。
限定:网络型期刊资源中包括U RL和U RN,其它如ISSN也可以作为标识值。
βκ来源(Sou rce)。
定义:如果可应用的话,这种资源一般是从印刷型或电子型作品中来。
限定:在我们的例于中,来源包括Jou rnal(期刊)、Year(年)、V o lum e(卷)、N um ber 或Issue(期)、Page或Start and End-Page(页或起始页)。
βλ语言(L anguage)。
定义:资源知识内容的语言。
限定:其两个或三个字符语言码来自ISO639-1和ISO639-2标准。
βµ权限(R igh ts)。
定义:这个元素的内容旨在链接到版权事项、权限管理陈述或许是以动态方式提供这种信息内容的服务链接。
限定:元素的缺省值是免费文本,你也可以选择版权声明或U RL和U RN作为一个方案限定词。
DC元数据中的“贡献者”(Con tribu to rs)元素和“关联”(R elati on)元素基本上都是针对图书载体,期刊中的个别情况可入上述相关元素;“覆盖范围”(Coverage)元素则完全是针对空间地理资源。
不仅如此,DC标准中的“关联”元素和“覆盖范围”元素本身也是实验性的,其正式规范还有待发展和观察。
因此,数字化期刊的DC元数据只需采用上述12个元素就可以了。
3 中文数字化期刊的DC元数据标准设计实例
准确理解DC元数据的语义定义和进行规范化的具体限定,还只是DC元数据应用关键的第一步。
因为如果不能采用规范、正确的语法描述,不同系统之间的元数据交换仍然会出现困难,全球数字化期刊信息的资源共享与跨仓储无缝查找也就难以实现。
目前,DC-1.l版本的15个元素都采用了WWW上最常用的H TM L语言标准。
因此,开始创建DC元数据时,必须首先在H TM L4.0句法或H TM L2.0 3.2句法之间进行选择,在此基础上设计出一个比较通用的语法描述实例。
下述设计采用DC-1.1元数据的H TM L4.0语法,试以万方中国数字化期刊中的《中国图书馆学报》的一篇论文作为具体实例。
<H TM L>
<H EAD>
…[文件题名]…
<M ETA NAM E=“DC.D ata.M etadata L ast M odified”
SCH E M E=“ISO8601”
CON T EN T=“2001-08-22”>
<M ETA NAM E=“DC.T itle”
CON ETN T=“数字化图书馆的元数据体系”>
<M ETA NAM E=“DC.C reato r.A u tho r”
CON T EN T=“林海青”>
<M ETA NAM E=“DC.Sub ject”
CON T EN T=“数字化图书馆”><M ETA NAM E=“DC.Sub ject”
CON T EN T=“元数据体系”>
<M ETA NAM E=“DC.Sub ject”
CON T EN T=“设计原则”>
<M ETA NAM E=“DC.D escri p ti on.A b stract”> CON T EN T=“数字化图书馆的元数据体系是数字化图书馆的基础结构。
它由外部系统和内部系统组成。
两个组成部分是同构关系,使外界的数字化信息元数据内容能映射到数字化图书馆系统,数字化图书馆的馆藏信息也能转换成网络世界通用的信息格式。
”>
<M ETA NAM E=“DC.Pub lisher”
CON T EN T=“中国图书馆学会”>
<M ETA NAM E=“DC.Pub lisher”
CON T EN T=“中国国家图书馆”>
<M ETA NAM E=“DC.T ype”
CON T EN T=“A cadem ic A rticle”>
<M ETA NAM E=“DC.Fo rm at”
SCH E M E=“M I M E”
CON T EN T=“pdf tex t h tm l”>
<M ETA NAM E=“DC.Iden tifier”
CON T EN T=“h ttp:∥www.peri gyjs. asp?I D=165908”>
<M ETA NAM E=“DC.Sou rce.Jou rnal”
CON T EN T=“中国图书馆学报”>
<M ETA NAM E=“DC.Sou rce.Year”
CON T EN T=“2000”>
<M ETA NAM E=“DC.Sou rce.V o lum e”
CON T EN T=“26”>
<M ETA NAM E=“DC.Sou rce.N um ber”
CON T EN T=“04”>
<M ETA NAM E=“DC.Sou rce.Page”
CON T EN T=“59-64,69”>
<M ETA NAM E=“DC.L anguage”
SCH E M E=“ISO639-1”
CON T EN T=“ch i”>
<M ETA NAM E=“DC.R igh ts”
CON T EN T=“Pub lic dom ain”>
< H EAD>
<BOD Y>
…[文件正文开始]…
< H TM L>
顺便指出,国内已正式发表的几篇提供中文图书DC元数据设计的文章,在语义定义和语法描述方面都存在较大的差异与问题。
因此,数字化期刊的元数据设计,必须建立在深入研究的基础上才能保证其正确、规范。
4 结束语
随着因特网资源的迅速增加,WWW己经发展成为一
116
6期 中文数字化期刊的DC元数据标准设计实例
个巨大的分布式信息空间。
但由于因特网本身的开放性、动态性与异构性,使得用户很难准确、快捷地从WWW上获取有价值的数字化信息资源。
研究和创建数字化期刊的元数据标准、规范和格式,有助于促进以因特网为基础的数字化期刊资源仓储的透明、公开、可扩展、互操作性、组织性和规模化建设,使分布式数字化期刊仓储组成一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找。
DC在数字化文献资源建设中发挥出的这种巨大作用,无疑会给全球信息化建设带来一场革命。
作者希望我国图书情报界和计算机网络界的有关组织与专家,共同加紧推动这项重要工作。
参考文献
1 h ttp:∥ifla.in ist.fr II m etadata.h tm#dc.
2 马 珉1元数据——组织网上信息资源的基本格1情报科学,2002,20(4):377~378
3 Su san Feldm an.Jess w ica M ilstead.M etadata P ro jects& Standards.O n line,V o l.34,Isuue1,1999
4 Ch ristine M eGeever.M u ltivendo r Group A pp roves M etadata X M L pu terw o rld,V o l.34,Issue 26,2000.
5 张健挺1地理信息网络资源共享的研究和进展1地理科学进展,1998,17(4):73~776 庄育飞,郑 卫1D ub lin Co re:网络资源组织与整理的新思路1情报学报,2000,19(2):164~169
7 Jane H un ter.M etaN et:A M etadata T erm T hesau ru s to Enab le Sem an tic In teroperab ility Betw een M etadata Dom ain s.Jou rnal of D igital Info rm ati on.V o1.1,Issue 8,2001
8 L iu T ingyuan.M etadata Standard of D igitized Jou rnals.
T he P roceedings of D igital L ib rary-IT Oppo rtun ities and Challenges in the N ew M illenn ium.Edito r-in-Ch ief:Sun J iazheng.Beijing L ib rary P ress.Ju ly,2002 9 王 哗,等1基于元数据的W eb信息检索1情报学报, 2001,20(3):309~316
10 P reben H an sen.U ser Gu idelines fo r DC M etadata
C reati on.h ttp:∥www.sics.se ~p reben DC DC
gu ide.h tm l.
11 赵 亮1元数据在上海数字图书馆的应用1中文元数据应用国际研讨会文集1上海,2001
12 胡海帆,等1北京大学古籍数字图书馆拓片元数据标准的设计及结构1中文元数据应用国际研讨会文集1上海,2001
13 莫少强1DC元数据的中文化研究及其在超星数字图书馆中的应用1中文元数据应用国际研讨会文集1上海,2001年
(责任编辑:徐 波)
(上接第567页)和app licati on-to-app licati on的应用集成。
W indow s98 N T 2000 M E XP、So laris、L inux都宣称支持GoXM L R egistry。
总之,我国数字图书馆领域的元数据规范建设正在起步,在为数不多的元数据规范研究与应用活动中,定义信息往往没有公开发布、也不能够被公开获取。
支持元数据格式的语义定义、编码体系、应用协议和实施指南等往往没有明确建立,更谈不上公开公布,使得元数据规范难以通过公开、可靠和标准的方法来识别、确认、验证,造成已有元数据规范没有得到广泛的利用。
随着我国数字图书馆建设的全面推进,各个系统所引进、建立、修改或扩展的元数据规范必将迅速增加,发现和识别其他系统元数据规范的需要也必将迅速增加。
迫切需要建立一个开放、公共和可靠的元数据规范登记系统,提高元数据规范共享的程度。
参考文献
1 张晓林.元数据研究与应用.北京图书馆出版社,20022 B lanch i,C.and Petrone,J.D istribu ted In teroperab le M etadata R egistry.D-L ib M agazine,V.7(12),D ec., 2001h ttp: www.dlib.o rg dlib decem ber01 b lanch i 12b lanch i.h tm l
3 梁 娜,张晓林.基于人工登记与检索的元数据登记系统.大学图书馆学报,2003(待发)
4 UDD I Specificati on s.h ttp: www.uddi.o rg specific2 ati on.h tm l
5 ebX M L R egistry Services Specificati on v210,A ccessed Ju ly22,2002. h ttp: www.oasis-open.o rg comm2 ittees regrep docum en ts 210 specs eb rs.pdf
6 ebX M L Bu siness P rocess Specificati on Schem a(BPS).
h ttp: www.ebxm l.o rg specs ebBPSS.pdf
7 ebX M L Co llabo rati on P ro toco l P rofile and A greem en t.
h ttp: www.ebxm l.o rg specs ebCCP.pdf
8 ebX M L Catalog of Common Bu siness P rocesses.h ttp: www.ebxm l.o rg specs bpPROC.pdf
9 ebX M L R egistry Service Specificati on.V2.h ttp: www.ebxm l.o rg specs eb rs2.pdf
10 GoX M L R egistry.A ccessed Ju ly22,2002.h ttp: www.xm p rod registry
(责任编辑:赵立军)
216情 报 科 学 21卷。