山东大学本科毕业设计论文
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正是因为数字图书馆有着传统图书馆无法比拟的优点,DL 正成为全球范围内信息基础 设施建设的热点领域,是 21 世纪全球文化与科技竞争的焦点之一。1994 年美国副总统戈尔 提出的“全球信息基础设施”(GII)计划中将数字图书馆列为 11 个研究项目之一。美国政 府“国家计算、信息、通信指导办公室”(NCO for CIC)发表的官方报告“蓝皮书”中对数 字图书馆的战略意义越来越重视。1995 年的蓝皮书“用于国家信息基础设施的技术”将数 字图书馆列为九项国家信息基础设施(NII)应用的国家级挑战的第一位;1998 年的蓝皮书“用 于 21 世纪的技术”则在计算、信息、通信(CIC)的六个研究发展重点项目中又将数字图书馆 列于第一位。由美国科学基金会(NSF)出资支持的 “数字图书馆启动”(DLI)第一期项 目(94-98),在涉及数字图书馆一系列技术问题上取得了进展,如纸质文献的数字化、多媒 体的数字化、新型的用户界面、大容量数据存取、数据挖掘等等。随后又紧接着启动了更大 规模的 DLI 二期项目,资助方(仍以 NSF 为主)和参与者达几十个大学和研究机构,展开
对于那些不能正式加盟的 DL 组织,仍有可能通过搜集(Gathering)可公开访问信息的途 径获得一定程度的互操作。基于搜集的方法通常提供统一的用户界面,用户输入查询请求, 系统执行分布式搜索,并将合并后的查询结果返回给用户。Web 搜索引擎就属于此类应用。
在 THADL 中实现的 OAI 协议就是应用了 Harvesting 的思想。
山东大学本科毕业设计论文——
THOR:基于清华建筑数字图书馆的 OAI 互操作协议的实现
计算机科学与技术学院 周晓丹
摘要:
本文总结了笔者在清华大学计算机系参加毕业实习所做的工作。 文章首先介绍了数字图书馆的相关知识,主要包括数字图书馆的定义和研究现状、清华 建筑数字图书馆简介、互操作协议的概念以及 OAI 协议的说明等内容。 实习的主要工作就是用 Java 技术实现了一个符 合 OAI 互操作协 议的系统—— THOR( TsingHua Oai Repository ),该系统基于清华建筑数字图书馆,客户可以通过这个系 统,在异构的、网络化的环境中,用 OAI 协议采集建筑数字图书馆的数据记录。 在实现 THOR 的过程中,采用了一定的技术和实现技巧,比如对 resumptionToken 的实 现、从 RDB 中抽取数据动态生成 OAI 要求的 XML 数据、对中文的支持等等,本文也做了 重点说明,希望能对其他准备实现 OAI 协议的工作者有所帮助。 文章最后附带了 THOR 系统实现的全部 Java 源代码。
用户 搜索
数字图书馆(DL)
查询 结果 查询 结果 查询 结果
DL1
DL2
… DLn
用户 搜索
中心 DL
查询 结果
本地元数据
元数据 元数据 元数据
DL1
DL2
… DLn
图 1 基于联邦的方法
图 2 Harvesting 方法
wenku.baidu.comØ OAI 协议概述
OAI( Open Archives Initiative ),它的目标是,发展和促进在互操作能力方面的系列标准, 以方便内容数据的高效分发。OAI 的起因是为了加强以学术交流为目的的对电子印刷文档的 访问,以及要保证科学数据在将来也可以访问的需求。因为 OAI 的出现,我们访问使用学 术信息的方式将有一个根本性的改变[11]。
由于工作牵扯到很多关于数字图书馆方面的知识,我想有必要在论文开始介绍一下,这 一部分内容主要来自各方面参考资料的汇总以及我本人的总结;后面的关于 THOR 的具体 内容才是我自己独立完成的工作。
II. 工作背景
Ø 数字图书馆
数字图书馆(Digital Library,简称 DL)是一种有组织的数字化信息对象的数据库,这 些信息对象是用各种格式和媒体来维持的,以便向用户群体提供不需要中介的便利的查找途 径。数字图书馆是信息高速公路的重要信息资源,是未来社会的公共信息中心和枢纽,并将 成为 21 世纪知识经济时代一种新的信息资源管理模式。
清华建筑数字图书馆的相关研究工作就是在这个大背景下展开的。
Ø 清华大学建筑数字图书馆
清华大学建筑数字图书馆(TsingHua Architecture Digital Library,简称 THADL)是由清 华大学图书馆、清华大学计算机科学与技术系、清华大学建筑学院三方合作共同研制开发的, 旨在通过对 DL 的研究,建立以中国古代建筑为主的建筑数字图书馆,促进中国古代建筑的 研究,传播中国古代建筑的成就,弘扬中国优秀传统文化[4]。
THADL 中除了文本信息以外,还包含大量的图片以及多媒体数据,怎样才能使用户找 到和使用这些数据呢?通常的方法是手工为这些多媒体数据加上描述性信息,即所谓“元数 据”(metadata)。
元数据就是描述数据的数据,在图书馆界,元数据内容主要包括“作者”,“题目”,“类 别”,“描述”等等内容,这样,用户就可以通过检索“元数据”来找到相应的数据了。为了 统一元数据的格式,国际上建立了 USMARC,CNMARC,Dublin Core 等标准。THADL 的 元数据格式也兼容这些协议标准。
THADL 于 2000 年 3 月立项,并投入正式运作。目前,已建有以中国营造学社和梁思 成先生生平为主线的中国建筑史项目,能够提供中国营造学社史信息导航、学社资料成果信 息导航以及新营造学社资料等方面的服务。其最主要的特色就是可以使用户方便的查看各种 珍贵的历史建筑图片,以及观赏各种建筑过程的动画影片。
在 THOR 的实现过程中,遇到了一些具体问题,应用了一些技巧,本文的主体就是在 THOR 编码开发的基础上,把遇到的这些问题和采用的方法总结出来。由于 OAI 协议新版 v2.0 于 2002 年 6 月 14 日才正式推出,THOR 的实现可能会有一定的示范意义,希望这一部 分能对其他准备实现 OAI v2.0 的研究人员有所帮助。
Keywords:
Digital Library, Information Retrieval, Interoperability Protocol, OAI Protocol
1
PDF created with pdfFactory trial version www.pdffactory.com
I. 引言
2
PDF created with pdfFactory trial version www.pdffactory.com
更广泛、更深入的研究和实践。欧、日、澳、俄等都有类似的 DL 发展计划[1]。 我国计算机研究领域和图书馆界从 95 年左右开始这一领域的跟踪研究,98 年全面升温,
到现在无论是在对数字图书馆的认识,还是其理论研究、关键技术准备方面,都取得了很大 的进展[3]。1998 年国家图书馆牵头酝酿 “国家数字图书馆工程”的筹备,并于今年 3 月, 在李岚清副总理支持下,正式宣布“中国数字图书馆工程”启动,“工程”上报规划预算 8 亿元(6 年时间)[1]。
关键字:
数字图书馆,信息检索,互操作协议,OAI 协议
THOR: Implementation of OAI Protocol for Metadata Harvesting Based on Tsinghua Architecture Digital Library
( ZHOU, Xiaodan )
DL 具有以下特征:它是复杂的数据/信息/知识系统,帮助我们:满足用户的信息需求 (societies),提供信息服务(scenarios),以有用的方式组织信息(structure),提供管理信息的场 地(space),以及与用户及他们的代理人交流信息(streams)。DL 将从根本上改变由于信息分 布广泛、媒体类型众多、数据量庞大而造成的信息分散、无组织、不便使用的现状,为用户 提供在水平和效益上远远超过传统图书馆的高质量、多样化、统一的全球化信息服务。DL 的兴起和发展标志着 Internet 逐步走出技术发展的范畴,迈向了科学交流,艺术创造,文化 传播,经济发展,知识管理等多学科、创造性的人类活动领域。
在大学生活即将结束之际,我有幸来到清华大学计算机系软件所的数据库组参加毕业实 习,实习的课题是“清华大学建筑数字图书馆的关键理论、技术及示范系统研究”,该项目 获得国家 973 计划(G1999032704)和清华大学基础研究基金(JZ2000014)的赞助。
我所进行的工作主要是基于清华建筑数字图书馆,用 Java 技术实现一个符合 OAI 互操 作协议标准的系统——THOR( TsingHua Oai Repository ),通过这个系统,可以将数字图书 馆中的数据以 OAI 协议格式发布出去。
实现 DLs 互操作的方法可概括为以下三种类型:基于联邦(Federation)的方法、 Harvesting 方法和基于搜集(Gathering)的方法[5]。
联邦(Federation)是指正式或非正式合作的操纵 DLs 的一些组织,它们同意支持一组 共同的服务和标准,以便在联盟成员之间共享 DLs 的资源即实现互操作。利用联邦方法实 现 DLs 互操作的基本思想是:借助于分布式搜索技术将用户的查询送往参与联邦的所有 DLs 上分别执行,收集返回的结果,综合整理后返回给用户(图 1)。
During the development of THOR, some striking features were implemented, such as the use of ‘resumptionToken’, Chinese-support mechanism, dynamic data generation from relational data, and so on. The methods used are written down in details with plenty of explanations. I hope it would be help for researchers who would like to implement OAI protocol soon.
Abstract:
The thesis mainly focuses on THOR( TsingHua Oai Repository ) – a system implements OAI protocol based on THADL using Java technologies. Clients could harvest records stored in THADL via THOR in heterogeneous, networking environment.
随着数字图书馆的日益增多,人们发现必须访问许多 DLs 才能找到所需要的资料。由 于大多数 DLs 是基于数据库驱动的,现有的搜索引擎不能对其建立索引。因此,对于那些 需要跨越多个 DLs 查找资料的用户来说,搜索引擎不能满足这种需求。如何将广泛分布的、 异构的 DLs 联合起来向用户提供统一的服务,即实现 DLs 的互操作,成为数字图书馆的一 个中心问题[5]。
3
PDF created with pdfFactory trial version www.pdffactory.com
一台计算机能够自动地从其它计算机中收集元数据的方法通常称作 Harvesting。利用 Harvesting 方法实现 DLs 互操作的基本思想是:从每个 DL 收集元数据,经过处理、合并后 集中保存在一个中心 DL 中,然后对保存在中心 DL 本地的元数据执行搜索(图 2)。显然, 这种方法需要在中心 DL 维护一个 DLs 馆藏元数据索引信息的副本,以便提供基于内容的 查询路由服务。
有了元数据之后,剩下的问题就是,如何让用户在网络环境下,使用不同的手段来获取 这些元数据。这看似一个简单的问题,但在目前分布式的、网络化的、异构的环境之下,这 其实是一个需要认真考虑和分析的问题,因此也产生了下面将要描述的所谓“互操作协议” 的有关问题。
III. 互操作协议及 OAI
Ø 互操作协议概述
对于那些不能正式加盟的 DL 组织,仍有可能通过搜集(Gathering)可公开访问信息的途 径获得一定程度的互操作。基于搜集的方法通常提供统一的用户界面,用户输入查询请求, 系统执行分布式搜索,并将合并后的查询结果返回给用户。Web 搜索引擎就属于此类应用。
在 THADL 中实现的 OAI 协议就是应用了 Harvesting 的思想。
山东大学本科毕业设计论文——
THOR:基于清华建筑数字图书馆的 OAI 互操作协议的实现
计算机科学与技术学院 周晓丹
摘要:
本文总结了笔者在清华大学计算机系参加毕业实习所做的工作。 文章首先介绍了数字图书馆的相关知识,主要包括数字图书馆的定义和研究现状、清华 建筑数字图书馆简介、互操作协议的概念以及 OAI 协议的说明等内容。 实习的主要工作就是用 Java 技术实现了一个符 合 OAI 互操作协 议的系统—— THOR( TsingHua Oai Repository ),该系统基于清华建筑数字图书馆,客户可以通过这个系 统,在异构的、网络化的环境中,用 OAI 协议采集建筑数字图书馆的数据记录。 在实现 THOR 的过程中,采用了一定的技术和实现技巧,比如对 resumptionToken 的实 现、从 RDB 中抽取数据动态生成 OAI 要求的 XML 数据、对中文的支持等等,本文也做了 重点说明,希望能对其他准备实现 OAI 协议的工作者有所帮助。 文章最后附带了 THOR 系统实现的全部 Java 源代码。
用户 搜索
数字图书馆(DL)
查询 结果 查询 结果 查询 结果
DL1
DL2
… DLn
用户 搜索
中心 DL
查询 结果
本地元数据
元数据 元数据 元数据
DL1
DL2
… DLn
图 1 基于联邦的方法
图 2 Harvesting 方法
wenku.baidu.comØ OAI 协议概述
OAI( Open Archives Initiative ),它的目标是,发展和促进在互操作能力方面的系列标准, 以方便内容数据的高效分发。OAI 的起因是为了加强以学术交流为目的的对电子印刷文档的 访问,以及要保证科学数据在将来也可以访问的需求。因为 OAI 的出现,我们访问使用学 术信息的方式将有一个根本性的改变[11]。
由于工作牵扯到很多关于数字图书馆方面的知识,我想有必要在论文开始介绍一下,这 一部分内容主要来自各方面参考资料的汇总以及我本人的总结;后面的关于 THOR 的具体 内容才是我自己独立完成的工作。
II. 工作背景
Ø 数字图书馆
数字图书馆(Digital Library,简称 DL)是一种有组织的数字化信息对象的数据库,这 些信息对象是用各种格式和媒体来维持的,以便向用户群体提供不需要中介的便利的查找途 径。数字图书馆是信息高速公路的重要信息资源,是未来社会的公共信息中心和枢纽,并将 成为 21 世纪知识经济时代一种新的信息资源管理模式。
清华建筑数字图书馆的相关研究工作就是在这个大背景下展开的。
Ø 清华大学建筑数字图书馆
清华大学建筑数字图书馆(TsingHua Architecture Digital Library,简称 THADL)是由清 华大学图书馆、清华大学计算机科学与技术系、清华大学建筑学院三方合作共同研制开发的, 旨在通过对 DL 的研究,建立以中国古代建筑为主的建筑数字图书馆,促进中国古代建筑的 研究,传播中国古代建筑的成就,弘扬中国优秀传统文化[4]。
THADL 中除了文本信息以外,还包含大量的图片以及多媒体数据,怎样才能使用户找 到和使用这些数据呢?通常的方法是手工为这些多媒体数据加上描述性信息,即所谓“元数 据”(metadata)。
元数据就是描述数据的数据,在图书馆界,元数据内容主要包括“作者”,“题目”,“类 别”,“描述”等等内容,这样,用户就可以通过检索“元数据”来找到相应的数据了。为了 统一元数据的格式,国际上建立了 USMARC,CNMARC,Dublin Core 等标准。THADL 的 元数据格式也兼容这些协议标准。
THADL 于 2000 年 3 月立项,并投入正式运作。目前,已建有以中国营造学社和梁思 成先生生平为主线的中国建筑史项目,能够提供中国营造学社史信息导航、学社资料成果信 息导航以及新营造学社资料等方面的服务。其最主要的特色就是可以使用户方便的查看各种 珍贵的历史建筑图片,以及观赏各种建筑过程的动画影片。
在 THOR 的实现过程中,遇到了一些具体问题,应用了一些技巧,本文的主体就是在 THOR 编码开发的基础上,把遇到的这些问题和采用的方法总结出来。由于 OAI 协议新版 v2.0 于 2002 年 6 月 14 日才正式推出,THOR 的实现可能会有一定的示范意义,希望这一部 分能对其他准备实现 OAI v2.0 的研究人员有所帮助。
Keywords:
Digital Library, Information Retrieval, Interoperability Protocol, OAI Protocol
1
PDF created with pdfFactory trial version www.pdffactory.com
I. 引言
2
PDF created with pdfFactory trial version www.pdffactory.com
更广泛、更深入的研究和实践。欧、日、澳、俄等都有类似的 DL 发展计划[1]。 我国计算机研究领域和图书馆界从 95 年左右开始这一领域的跟踪研究,98 年全面升温,
到现在无论是在对数字图书馆的认识,还是其理论研究、关键技术准备方面,都取得了很大 的进展[3]。1998 年国家图书馆牵头酝酿 “国家数字图书馆工程”的筹备,并于今年 3 月, 在李岚清副总理支持下,正式宣布“中国数字图书馆工程”启动,“工程”上报规划预算 8 亿元(6 年时间)[1]。
关键字:
数字图书馆,信息检索,互操作协议,OAI 协议
THOR: Implementation of OAI Protocol for Metadata Harvesting Based on Tsinghua Architecture Digital Library
( ZHOU, Xiaodan )
DL 具有以下特征:它是复杂的数据/信息/知识系统,帮助我们:满足用户的信息需求 (societies),提供信息服务(scenarios),以有用的方式组织信息(structure),提供管理信息的场 地(space),以及与用户及他们的代理人交流信息(streams)。DL 将从根本上改变由于信息分 布广泛、媒体类型众多、数据量庞大而造成的信息分散、无组织、不便使用的现状,为用户 提供在水平和效益上远远超过传统图书馆的高质量、多样化、统一的全球化信息服务。DL 的兴起和发展标志着 Internet 逐步走出技术发展的范畴,迈向了科学交流,艺术创造,文化 传播,经济发展,知识管理等多学科、创造性的人类活动领域。
在大学生活即将结束之际,我有幸来到清华大学计算机系软件所的数据库组参加毕业实 习,实习的课题是“清华大学建筑数字图书馆的关键理论、技术及示范系统研究”,该项目 获得国家 973 计划(G1999032704)和清华大学基础研究基金(JZ2000014)的赞助。
我所进行的工作主要是基于清华建筑数字图书馆,用 Java 技术实现一个符合 OAI 互操 作协议标准的系统——THOR( TsingHua Oai Repository ),通过这个系统,可以将数字图书 馆中的数据以 OAI 协议格式发布出去。
实现 DLs 互操作的方法可概括为以下三种类型:基于联邦(Federation)的方法、 Harvesting 方法和基于搜集(Gathering)的方法[5]。
联邦(Federation)是指正式或非正式合作的操纵 DLs 的一些组织,它们同意支持一组 共同的服务和标准,以便在联盟成员之间共享 DLs 的资源即实现互操作。利用联邦方法实 现 DLs 互操作的基本思想是:借助于分布式搜索技术将用户的查询送往参与联邦的所有 DLs 上分别执行,收集返回的结果,综合整理后返回给用户(图 1)。
During the development of THOR, some striking features were implemented, such as the use of ‘resumptionToken’, Chinese-support mechanism, dynamic data generation from relational data, and so on. The methods used are written down in details with plenty of explanations. I hope it would be help for researchers who would like to implement OAI protocol soon.
Abstract:
The thesis mainly focuses on THOR( TsingHua Oai Repository ) – a system implements OAI protocol based on THADL using Java technologies. Clients could harvest records stored in THADL via THOR in heterogeneous, networking environment.
随着数字图书馆的日益增多,人们发现必须访问许多 DLs 才能找到所需要的资料。由 于大多数 DLs 是基于数据库驱动的,现有的搜索引擎不能对其建立索引。因此,对于那些 需要跨越多个 DLs 查找资料的用户来说,搜索引擎不能满足这种需求。如何将广泛分布的、 异构的 DLs 联合起来向用户提供统一的服务,即实现 DLs 的互操作,成为数字图书馆的一 个中心问题[5]。
3
PDF created with pdfFactory trial version www.pdffactory.com
一台计算机能够自动地从其它计算机中收集元数据的方法通常称作 Harvesting。利用 Harvesting 方法实现 DLs 互操作的基本思想是:从每个 DL 收集元数据,经过处理、合并后 集中保存在一个中心 DL 中,然后对保存在中心 DL 本地的元数据执行搜索(图 2)。显然, 这种方法需要在中心 DL 维护一个 DLs 馆藏元数据索引信息的副本,以便提供基于内容的 查询路由服务。
有了元数据之后,剩下的问题就是,如何让用户在网络环境下,使用不同的手段来获取 这些元数据。这看似一个简单的问题,但在目前分布式的、网络化的、异构的环境之下,这 其实是一个需要认真考虑和分析的问题,因此也产生了下面将要描述的所谓“互操作协议” 的有关问题。
III. 互操作协议及 OAI
Ø 互操作协议概述