网络资源分析报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科技部科技基础性工作专项资金重大项目
研究成果
项目名称:我国数字图书馆标准规范建设
子项目名称:专门数字对象描述元数据规范
项目编号:2002DEA20018
研究成果类型:研究报告
成果名称:网络资源资源分析报告
成果编号:CDLS-S05-011
成果版本:总项目组推荐稿
成果提交日期:2003年7月
撰写人:赵亮、刘炜、楼向英、李大玲、张春景、夏翠娟(上海图书馆)
项目版权声明
本报告研究工作属于科技部科技基础条件平台专项资金项目《我国数字图书馆标准规范建设》的一部分,得到科技部科技基础条件平台专项资金资助,项目编号为2003DEA4T035。
按照有关规定,国家和《我国数字图书馆标准规范建设》课题组拥有本报告的版权,依照《中华人民共和国著作权法》享有著作权。
本报告可以复制、转载、或在电子信息系统上做镜像,但在复制、转载或镜像时须注明真实作者和完整出处,并在明显地方标明“科技部科技基础条件平台专项资金项目《我国数字图书馆标准规范建设》资助,项目编号2003DEA4T035”的字样。
报告版权人不承担用户在使用本作品内容时可能造成的任何实际或预计的损失。
作者声明
本报告作者谨保证本作品中出现的文字、图片、声音、剪辑和文后参考文献等内容的真实性和可靠性,愿按照《中华人民共和国著作权法》,承担本作品发布过程中的责任和义务。
科技部有关管理机构对于本作品内容所引发的版权、署名权的异议、纠纷不承担任何责任。
《我国数字图书馆标准规范建设》课题组网站()作为本报告的第一发表单位,并可向其他媒体推荐此作品。
在不发生重复授权的前提下,报告撰写人保留将经过修改的项目成果向正式学术媒体直接投稿的权利。
资源分析报告——网络资源
目 录
1 网络资源的定义及特点 (1)
2. 网络资源著录单位 (1)
2.1对网络资源著录单位的限定 (1)
2.2选择网络资源的推荐准则 (2)
3. 网络资源著录对象的关系 (2)
4. 网络资源著录内容 (3)
5. 网络资源组织可参考的元数据规范 (4)
6. 使用和检索需求分析 (4)
参考文献 (4)
附录:关于网络资源分析报告的补充说明 (5)
1.关于网络资源的定义 (5)
2.著录对象的关系 (6)
首先声明,这里的网络特指国际互联网,也称因特网。
网络资源在广义上指通过国际互联网可以获得的一切软硬件资源,我们在这里把硬件资源如打印机、大型磁盘阵列等予以排除,专指信息资源。
在Internet上,网络资源包括传统知识交流中的各式文献载体,包括图书、期刊、会议录、标准、专利、报告等的数字化形式,还包括带有浓厚信息技术烙印的网站、网页、程序、BBS、邮件列表、视音频文件等等。
OCLC因特网资源计划小组曾将对网络资源进行分析,分析结果显示网络资源在内容上可谓是五花八门、包罗万象。
1即使我们取网络资源中的一个小类,比如网络中的电子期刊来分析,情况也有不同。
电子期刊有可能是印刷型期刊数字化后的产品,也可能是原生的电子期刊,也可能是印刷版与电子版同时发行。
即使原生的电子期刊,它可以通过WWW方式提供给用户,用户也可通过FTP获得,通过电子邮件获得。
所以说,网络资源无论从内容上、形式上、技术上看,都十分复杂。
网络资源作为一个专门的数字对象,其“专门”之处与家谱、拓片等专门数字对象所“专门”的类型肯定是不一样的。
1 网络资源的定义及特点
在上述分析的基础上,我们对项目中所指的网络资源做出界定。
在此,网络资源系指网络上可以公开访问的、具有网络标识(例如URL、URI、DOI、PURL 等)的资源对象。
蒋颖曾撰文指出,网络学术信息资源的主要特色,在于其以超级链接的方式将文字、图象、语音和视频信息链接为超文本和超媒体系统。
此外,网络学术资源的特色还包括:
z信息发布自由,信息来源广泛;
z信息量极大,传播范围极广;
z信息内容庞杂,质量不一;
z网络信息的使用与提供信息的站点的软硬件和服务有关;
2
z网站是信息活动的单位,页面是信息发布的基本单位。
上述论述同样也揭示了网络资源的共同特征。
2. 网络资源著录单位
2.1 对网络资源著录单位的限定
原则上,一切网络上可以公开访问的、具有网络标识(例如URL、URI、DOI、PURL等)的资源对象均可以作为著录单位。
我们参考了OCLC Connexion
1 Edmund F. Santa Vicca.The Internet as a Reference and Research Tool: a Model for Educators.Reference Librarian, nos. 41/4
2 (1994): 231.
2蒋颖.因特网学术资源评价:标准和方法.图书情报工作,1998(11):27~31
与ROADS,并结合实际的应用------网络学科资源导航,对著录单位限定为:z只处理有URL且能用HTML显示的网页资源,需要浏览器特定插件或者其他程序支持方可显示的资源也包括在内,如PDF文档、word文档、PPT文档等。
z在万维网(World Wide Web )上可公开访问的资源;
2.2 选择网络资源的推荐准则
对于具体操作的著录单位,各参与单位自行界定,可参考OCLC 网络第一资源发展政策中提出的一些准则:
z权威性
指所选择的网络资源是否具有权威性,网络资源的创建者是否为图书馆、档案馆、政府机构、教育机构或学会等团体,即资源创建者应该具有一定的稳定性与研究能力,在这一学科有一定的影响。
z时效性
网络资源是否代表了最新的学术信息,或者网络资源的编辑人员是否经常更新资源。
z持久性
网络资源的创建机构是否已经有一定的历史,日后可持续性的发展如何。
z受欢迎的程度
比如是否有用户推荐过此网络资源,如果该网络资源有邮件列表订阅等功能,那么订阅者是不是很多。
再比如此网络资源是不是在这一学科领域有着广泛的用户支持。
z网络资源的粒度的处理
指网络资源是网页(Web page),还是网站(Web site)等
z高访问率等其他指标
3. 网络资源著录对象的关系
网络资源著录对象之间的关系在形式上是网状的,层层相扣,互相可以链接与跳转。
超文本与超媒体链接的特点在于这种引用和链接是直接可以跳转进而直接获得资源。
我们在对网络资源进行处理时,每个著录对象都当成是独立的对象处理,对象与对象之间可以链接(单向或多向链接均可),无数个对象与对象之间互相链接体现了整体的网状关系。
上述的链接和跳转的关系并不等于著录对象之间内容上的关联,即网页之间形式上的超链接并不代表页面内容的关联,而我们著录的侧重在于是意义上、内容上的联系。
如何体现这一内容上的互联,可以在著录规则中给予明确。
链接虽然不能完全体现内容上的互联,但也可以体现一部分,如果到了语义网络,则链接能更好地形式与内容上页面的关联。
鉴于网络资源的特点,我们不要求著录时进行十分严格的查重,查重的标准以资源标识符、外加资源名为准。
也就是说,当资源标识符与资源名均相同时,我们才把两个资源认为是同一资源。
4. 网络资源著录内容
因为Dublin Core(DC)本身就是因组织网络资源而提出,经过OCLC的不懈努力已经被广泛接受,并经实践不断检验而趋于完善,对网络资源的著录内容,我们推荐使用中文扩展DC。
我们遵循DC标准,将网络资源著录内容定义如下3:
元素中文名称英文名称释义
资源名Title 资源名一般指资源对象正式公开的名称创建者Creator 创建资源内容的主要责任者
主题和关键词Subject and
Keywords
资源内容的主题描述
说明Description 资源内容的解释
出版者Publisher 使资源成为可以获得并可用的责任者其他责任者Contributor 对资源的内容作出贡献的其他实体日期Date 与资源生命周期中的一个事件相关的时间资源类型Resource Type 资源内容的特征或类型格式Format 资源的物理或数字表现形式
资源标识符Resource
Identifier
在特定的范围内给予资源的一个明确的标识
来源Source 现有资源来源的参照,当前资源可能部分或全部源自该元素所标识的资源
语种Language 描述资源知识内容的语种关联Relation 相关资源的参考
覆盖范围Coverage 资源内容所涉及的外延与覆盖范围
权限
Rights
Management
有关资源本身所有的或被赋予的权限信息
3都柏林核心元数据元素集,1.1版本/DC/1-1.htm (检索日期:2003-4-3)
5. 网络资源组织可参考的元数据规范4
◎ Dublin Core(Dublin Metadata Core Element Set)
◎ IAFA/WHOIS++ Templates(Internet Anonymous FTP Archive)
◎ LDIF(LDAP Data Interchange format)
◎ SOIF(Summary Object Interchange Format)
◎ URCs(Uniform Resource Characteristics/Citations)
6. 使用和检索需求分析
网络资源的检索可分为全文检索与主题检索。
主题检索的检索途径有:资源名、创建者、主题和关键词、说明、出版者、其他责任者等;并可用以下方面进行限定:日期、资源类型、格式、语种、覆盖范围等。
还应提供按某些特征浏览网络资源的功能,如按分类、资源类型等的浏览。
检索结果显示的项目:基本上是该网络资源的全部的元数据信息。
检索结果必须有直接显示命中资源的链接。
参考文献
[1] Edmund F. Santa Vicca.The Internet as a Reference and Research Tool: a Model for Educators.Reference Librarian, nos. 41/42,1994: 231
[2]蒋颖.因特网学术资源评价:标准和方法/图书情报工作,1998(11):27~31
[3]都柏林核心元数据元素集,1.1版本/DC/1-1.htm(检索日期:2003-4-3)
[4] Metadata初探..tw/~cdp/project/04/6_1.htm(检索日期:2003-4-2)[5] /connexion/documentation/create_bib_records.shtm
[6] Create Bibliographic
Records./connexion/documentation/create_bib_records.shtm(检索日期:2003-4-3)
[7]The ROADS Metadata Registry./metadata/roads/templates/.(检索日期:2003-5-27).
[8]ROADS./roads/ (检索日期:2003-5-21)
[9] ROADS Guides./roads/guides/(检索日期:2003-5-21)
4 Metadata初探..tw/~cdp/project/04/6_1.htm(检索日期:2003-4-2)
附录:关于网络资源分析报告的补充说明
1. 关于网络资源的定义
我们详细参考了OCLC Connexion与ROADS两个项目中对网络资源的界定,但分析报告中对网络资源著录单位的定义仍然过于宽泛。
因此,把两个项目的相关内容择摘如下供参考:
1.1 OCLC Connexion
CORC于2001年6月30日成为OCLC Connexion的一个组成部分,CORC 的名字不再使用。
Connexion是OCLC整合CORC与WorldCat以提供统一入口的一种新界面,是世界最大的联机联合编目和书目数据库。
Connexion对网络资源的著录是通过从网络资源中提取数据来创建记录的,原因有:5
1.可以节省时间和精力,否则需要对网络资源中得来的书目信息进行转录。
2.可以以自己偏爱的元数据格式创建基本的记录
3.可以使用自动化工具提供DDC分类号(所在图书馆订制了杜威网络服务的条件下)。
在connexion提供的文档中,对网络资源都没有做出明确定义,但说明了用户著录网络资源时使用URL ,URL所指向的站点可以是主页或者是特定的网页。
就URL而言,connexion可以处理的资源有6:
1.只处理HTML资源
2.在万维网上可以公开访问的资源
3.最好的情况:资源中的HTML带有标准的元标签(metatags),元标签内置有DC元数据或者其他标准甚至未经标准化但十分常用的元数据
另外,Connexion著录时对网络资源查重也是通过URL,它对网络资源进行著录时可以采用四种格式,分别是:MARC , MARC Text Area ,Dublin Core 或者 DC Text Area。
1.2 ROADS 对网络资源的界定
ROADS对网络资源也没有明确的定义,它宽泛地指出对所有的因特网信息资源,包括WWW sites, Telnet-based services, FTP sites 和mailing lists 等进行处理。
它的元数据标准企图涵盖所有的因特网资源,包括document, sound, image ,video, project, service, software, mailarchive等。
ROADS 通过16种templates处理如下16类的网络资源7:
5 /connexion/documentation/create_bib_records.shtm
6 Create Bibliographic Records./connexion/documentation/create_bib_records.shtm(检索日期:2003-4-3)
7 The ROADS Metadata Registry./metadata/roads/templates/.(检索日期:2003-5-27) .
•COLLECTION - experimental
•DATASET
•DOCUMENT
•DUBLINCORE
•EVENT - experimental
•FAQ - no longer in use, use DOCUMENT
•IMAGE
•MAILARCHIVE
•PROJECT
•RESOURCE - DC-compliant template for RDN
•SERVICE
•SOFTWARE
•SOUND
•TRAINMAT
•USENET
•VIDEO
注:ROADS不是一个元数据元素集,而是一个软件包8,主要用于创建一些基于主题的应用和服务网关,对因特网信息资源进行组织以便于人们利用。
ROADS中真正的元数据格式(metadata format)是ROADS templates 9。
ROADS templates实质是一个专门数字对象的元数据标准集,一个template就是一个元数据元素集,ROADS对每一个类型的资源都定义了一个元数据元素集,目前共有16个template,也就是说共有16个元数据元素集,即上述所说的16类网络资源。
DC被包括在其中并有了一定的扩展。
每一个template都是可以修改的,也可增加新的template。
ROADS提供一个注册机制来管理template的修改和增加。
2. 著录对象的关系
网络资源著录对象之间的关系是是网状的,层层相扣,互相可以连接与跳转。
链接与跳转主要有以下几种情况:资源不同版本的之间,互相参照的网络资源之
间,完整的内容分成几个章节的页面来显示,文本介绍与对应的视音频之间,同
一作者的不同作品之间,等等。
我们采用扩展的中文DC,这些关系可通过元数据语义得到揭示。
8/roads/ :ROADS is a set of software tools to enable the set up and maintenance of
Web based subject gateways.
9/roads/guides/:ROADS is typically used for the production of services which identify, evaluate, describe and give access to Internet resources for particular subject domains or geographical areas. The
resource description (or metadata) format used are ROADS templates, a development of Internet Anonymous FTP
Archive (IAFA) templates. ROADS templates are defined for different resource-types, e.g. for DOCUMENT,
SERVICE or PROJECT.。