数字对象的唯一标识符技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数字对象的唯一标识符技术

张晓林

(四川大学信息管理系 成都 610064)

【摘要】 在数字信息环境中,唯一标识符承担着唯一地和永久地确认数字对象、并将它们与其它数字对象或服务系统连接起来的功能。本文简要介绍唯一标识符的功能、要求和基本框架,以及主要的唯一标识符系统。

【关键词】 唯一标识符 数字对象 统一资源名 【分类号】 TP391

Unique Identifiers for Digital Objects

Zhang Xiaolin

(Dep artment of I nf ormation Management,S ichuan University,Chengdu)【Abstract】 W ithin the dig ita l info r matio n architectur e,t he unique identifier s uniquely and per sistently i-dent ify dig ita l o bjects and pro viding the linkages betw een dig ita l o bjects and o ther o bjects/ser vices.T his paper ex plains t he functio ns,requirements,framew o rk,and majo r ex amples o f such identifiers.

【Keywords】 U nique identifier Digital object U R N HA N DL E DO I PI I SICI BICI PU R L

1 唯一标识符在数字信息环境的作用

网络环境中的信息资源可以看成是一系列的数字对象。这些数字对象可以是简单数字文件,也可以是包含相应的数字信息内容、元数据和方法的结构化集合。它们独立于应用协议和应用系统,往往存放于不同数字资源库,通过唯一标识符(U nique ident ifier)予以唯一标记。

由于一个数字对象可能存放在多个数字资源库中,从而可能有多个复本或物理位置;可能被修改或重新组合若干次,从而可能有多个版本;可能被移动甚至删除,从而会出现“死链接”。因此,仅仅用U RL来代表数字对象和进行链接已不能适应分布式动态环境的要求,我们需要一种满足以下功能的标识符:

(1)代表和确认数字对象,且与它的物理位置、复本数量、应用协议、存储和处理要求无关;

(2)确认数字对象的版本变化及版本之间的联系;

(3)提供逻辑的数字对象与数字对象的具体物理位置的连接;

(4)提供数字对象与其元数据的连接。

这种标识符将是一种唯一的、永久性的逻辑标识符。

2 唯一标识符的系统框架和性能要求

我们可以将IET F(Inter net Engineer ing T ask F or ce)的因特网信息结构(Inter net Infor mation A r chitecture)中的统一资源标识系统(U RI)作为资源标识的系统框架[1]。U RI由三部份组成:

(1)URN(统一资源名,Universal Resource Name),作为数字对象的逻辑名称;

(2)URC(统一资源属性,Un ivers al Resource Characteristics),作为描述数字对象的元数据;

(3)URL(统一资源定位符,U nivers al Resource Locator),作为物理上对数字对象定位和获取的机制。

目前U RN仍在建立之中,U RC已逐步让位于专门的元数据(例如Dublin Co re等),而U RL已成为基于HT T P/DN S 的物理获取机制。更为一般地,一个标识系统有以下组成部份:

(1)命名域(Namespace),代表一定的标识系统,在该系统内遵循统一的命名规则和程序。

(2)唯一标识符,在特定命名域内按一定规则给予数字对象的唯一和永久名字,即U RI中的统一资源名。

(3)命名机构(Namin g Authority),按照一定规则和权限管理命名过程的机构。

(4)命名登记机构(Registry),存储命名登记数据的系统。具体存储内容可以是标识符/元数据、或标识符/地址、或标识符/地址/元数据,可能辅助进行数字对象检索或地址解析。

(5)地址解析系统(Resolu tion S ystem),负责将数字对象的唯一标识符转换成相应的物理存放地址。

这个系统的各个部份可以是固化在一个物理系统内,成为封闭的集中式标识系统,例如许多商业化文摘索引系统中的对象标识系统;但标识系统也可以是开放和分布式的,多个命名机构按照统一规则分工合作进行命名,多个登记与解析系统合作负责检索和地址解析,而命名登记和解析又可以是捆绑在一起或分开设立,例如Ha ndle系统[2]。

对于开放式分布式标识系统中的唯一标识符,人们提出

收稿日期:2000-10-30

了如下性能要求[35]:

(1)唯一性,即标识符在指定名字域内必须是唯一和明确的,定义且只定义一个数字对象,但一个数字对象可拥有多个标识符;

(2)国际性,即标识符必须在国际范围内或整个因特网上有效;

(3)应用独立性,即标识符必须作为一种公共标识符,独立于任何具体的应用和应用系统;

(4)永久性,即标识符的生存周期必须是无限的,尽管它所定义的数字对象的生命周期可能是有限的;

(5)可计算性,即标识符可由计算机处理,最好是数字表示或可转换成数字表示,最好内含校验码;

(6)标识能力,即标识符的设计应保证标识系统可唯一地和永久地标识所有需要标识的数字对象;有时人们用可扩展性来表达对标识能力的要求;

(7)支持现有系统,即标识符的设计应在满足上述其它要求的基础上支持现有的命名系统;

(8)可读性,即标识符应能被人直接释读;

另外,现在人们更倾向于要求标识系统建立在一种有组织的分布式系统上,要求对特定数字对象的标识符能满足在该数字对象整个生命周期中所涉及的各个方面的需求。

3 唯一标识符范例

3.1 URN[1,6]

U RN是作为网络资源的唯一标识符而提出来,IET F/ U RN工作组已定义U RN的基本结构和组成。这个结构试图在全球范围内永久性地定义网络上的各类资源或信息单元,同时有机地支持现有的各种标识系统。

U RN结构由以下语法表示:U RN::=ur n:: N SS其中,“ur n”代表U RN标识系统;“N ID”(N amespace I-dentifier)表示命名域标识符,为字母数字字符串,代表具体命名域或命名机构,并决定“NSS”的具体语法和解读规则;“N SS”(N amespace Specific Str ing)表示命名域专门字符串,实际上就是该命名域所给予的数字对象名称或标识符。

根据U R N结构,N ID与N SS共同构成唯一标识符,即是说,不同标识系统(即不同N ID)内的具体名称(即N SS)可能相同,但由于N ID不同,所以由N ID和N SS共同构成的标识符在U R N范围内将是唯一的。当然,在U RN内将有一定机制对N ID进行登记。

目前,U R N尚未投入实际应用,更多是作为各种标识系统的总体框架,所有其它标识系统将作为U R N的一部份。例如,以下是由各种现有标识系统的标识符所构成的符合U RN 结构的唯一标识符

urn:is bn:123485829(ISBN系统)

urn:h dl:cnr i.dlib/augus t95(Handle系统)

urn:doi:10.1045/septem ber2000miller(DOI系统)

urn:lifn:some.d om ain:anything%20goes%20here(任何现有系统)

3.2 Handle和DOI

(1)Handle[2,7]

Han dle是一个基于因特网的分布式数字对象命名与标识系统,最初作为计算机科学技术报告系统项目的一部份,由全国研究计划合作组织(Corporation For National Res earch Initiatives,CNRI)负责研制,并成为网络化计算机科学技术资讯图书馆系统(Netw orked Com-p uter Science Tech nical Referen ce Lib rary,NCST RL)的资源标识子系统。

Handle标识符的结构可表示为

Handle∷=Naming Authority/Local Name

或者

Handle∷=Naming Authority.Naseg ment/Local Name,

其中,Nasegment是子命名机构(Naming Authority Segmen t)。

Handle标识系统由若干命名机构(Namin g Authorities)组成,每个命名机构又可能下辖若干子命名机构(Namin g Authority Seg-m ents),整体构成一个树状结构。整个Handle系统有一个全局命名登记(Global Registry),负责登记各个命名或子命名机构的都有自己的标识名称;而每个命名机构或子命名机构则按照一定规则对自己负责范围内的实际数字对象进行具体命名,称为局部名称。命名机构或子命名机构的标识名加上数字对象的局部名称构成数字对象在Han-d le命名域的唯一标识符,称为数字对象的Handle。某个命名机构给予特定数字对象的局部名称可能与另一个命名机构给予另一个数字对象的局部名称相同,但这些数字对象的整个Hanfle(即它们的唯一标识符)却不相同。

在Hand le系统内,命名机构可以是按组织结构、地理界限、管理安排、技术需要等因素来划分,而且每个命名机构所负责命名的资源范围可以是分布于网络或集中于可以是分布的。

Handle相同可以将其它唯一标识符作为自己某个命名机构的局部名称,从而支持现有命名系统,并提供标识系统的可扩展性(实际上那个唯一标识符的命名域被作为Handle内的命名机构),例如hdl:cnr i.dlib/is bn011234523x

目前,Hand le系统已被美国国会图书馆、美国国防技术信息中心和国际数字对象标识基金会等采用。

Handle系统可作为U RN结构中的一个命名域而融入U RN,从而保证它的开放性、兼容性和长期性。在URN框架内,一个Han dle标识符将被表示为:

urn:hdl:/

(2)DOI[810](Digital Object Identifier)

DOI标识系统由C NRI为美国出版商协会开发,用以对各类知识单元进行唯一的和长期的标识,现由国际数字对象标识符基金会(In-ternation al DOI Foundation,IDF)管理。DOI标识符实际上是基于Hand le标识系统的,其组成是:

./其中,DIR为目录代码(Dir ectory Code),作为Han dle系统的命名机构,由Handle系统赋予固定值10。

REG为登记机构代码(Registrant Code),即DOI系统的子命名机构,由IDF赋予特定值,通常为数字值。

DSS为DOI后缀(DOI S uffix String),是子命名机构赋予数字对象的局部名称,用“/”与前面隔开。

整个DOI标识符或其各个部份没有长度限制。DOI的子命名机构也可以是其它命名域,从而允许DOI将这些命名域的唯一标识符作为自己的局部名称,支持这些命名域的标识系统,例如下面是一个用S ICI标识符作局部名称的DOI标识符:10.1002/(SICI)1097 0142(19981001)83:7<1425::AID CNCR21>3.3.CO;2Y

3.3 SICI、BICI和PII

相关文档
最新文档