文献资源整合中的统一检索系统应用研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文献资源整合中的统一检索系统应用研究
作者：蒋继平姚倩
来源：《大学图书馆学报》2011年第01期
摘要根据作者所在单位开展的资源整合平台建设经验，研究分析了针对异构数据库的三种整合系统，以CALIS开发的统一检索系统为例，对其整合效果与统一检索效率进行了分析，探讨了该系统的特有功能与不足，并对未来图书馆异构数据库统一检索系统的发展方向做了前景探讨。

关键词统一检索资源整合CALIS应用研究数字图书馆
图书馆文献资源共享平台建设中，常常面临着多样化的数字资源。

就其资源类型看，有电子书、工具书、期刊论文、学位论文、报纸资料、视频讲座、专利、标准等；就其揭示深度看，有目录式、文摘式、全文式、视频式，仅全文数据库，还有文本式、影像式、或文本与影像结合式资源库；就其功能看，有的数据库知识节点丰富，形成了查询与筛选文献的强大功能。

然而，丰富多样的数字资源，一方面满足了读者的不同需求，另一方面又造成读者多次检索的不便。

特别是大量的数据商提供的数据库、资源库，往往在资源分布上、数据结构上、访问方法上、检索界面上有着独特的个性化模式与风格，读者面对图书馆购买回来的风格、界面各异的数据库，常常有“望洋兴叹”之感。

因此，图书馆文献资源共享平台建设中，面临的难点是开发图书馆统一检索系统，或者是根据已有的商业化统一检索系统进行选择、购买、配置与后期维护，才能实现图书馆多样化文献资源的整合，实现各个数据库最高效率的使用，实现对读者最优化的服务。

作者所在单位广西师范大学图书馆网站通过购买“读秀网”对本馆进行了部分资源的整合，主要是实现了超星电子书与清华同方全文数据库的一站式检索。

同时，作者作为广西区政府资助项目——“人文社科资源共享平台”建设的具体实施者，参与了CALIS统一检索系统的选择、购买、安装调试及后期维护工作，对统一检索系统的功能与应用有了进一步的认识与感受，因此，作者根据所在单位开展的资源整合平台建设经验，研究分析了针对异构数据库的三种整合系统，以CALIS开发的统一检索系统为例，对其整合效果与统一检索效率进行了分析，探讨了该系统的特有功能与不足，并对未来图书馆异构数据库统一检索系统的发展方向做了前景探讨。

1异构数据库统一检索系统的解决方案
所谓统一检索系统，主要是针对文献资源共享平台上异构数字资源的一站式检索功能的实现，避免读者在不同的数据库之间反复地入库出库，以及重复选择检索式、键入检索词，从而
方便读者，提高资源的利用率和用户的检索效率。

统一检索系统，亦是从用户角度出发，通过多种方式整合尽可能多的电子资源数据库，提供统一的简单检索界面，为用户隐藏复杂的检索细节，让用户不必熟悉各种文献库不同的检索界面和检索语言，把用户一次提交的检索请求同时发往选定的多个资源库，一次输入，多个数据库检索结果同时输出。

统一检索系统的解决方案理论上有三种整合方式。

一是通过抽取元数据的高度整合，也叫统一检索；二是技术层面简单，效率有限的外挂式资源整合，也叫跨库检索；三是对图书馆异构数据库全面深度整合的人工智能搜索引擎。

目前国内图书馆实际应用的，基本是基于元数据和外挂式的资源整合系统。

1.1基于元数据抽取的统一检索系统
基于元数据的统一检索系统，也就是基于目录级别的整合系统。

元数据是数据的数据，例如，某篇文献或者某本书籍的题名、作者、出版者、摘要等目录信息都是关于该文献或者该书籍的元数据。

统一检索系统就是将不同数据库的元数据化零为整，统一归并到一个元数据的数据库中，重新生成全文索引，生成新的“数据库”，然后用前台对新的数据库进行索引检索，从而实现异构数据库统一检索。

同时，在物理表上，统一检索系统并没有合并原有数据库表、字段，各个异构数据库依然各自保持独立性。

基于元数据的统一检索系统会充分发现各个源数据库的共性，同时要兼顾不同数据库的差异性，让用户使用统一检索的同时，也可以选择使用特定数据库的独特检索功能。

统一检索系统作为目录信息的整合，它会按照异构数据的共性，重组新的学科体系，做到分类体系统一，实现对所有异构资源的学科聚合，实现学科导航检索功能。

统一检索系统强调专门的统一检索中心服务器以存放图书馆元数据，强调元数据的提交与处理，检索软件的设计相对简单。

一旦设计完成后管理简便。

当异构数据库发生变化时，只需要统一检索系统在中心服务器端相应更新，然后下发到图书馆统一检索分系统中同步更新即可。

统一检索系统技术的优势非常明显，但由于需要配置中心服务器、图书馆需要提供元数据等，存在着较大的管理难题。

目前这种技术应用较好的有CALLS联机目录检索系统与“读秀网”。

CALLS联机检索系统属于教育部文献资源保障系统建设项目之一，有着自上而下的行政管理与经费保障优势。

“读秀网”则依托强大商业运营模式，在这种模式下，中心服务器的管理、服务、维护都可以全部交由专业团队处理，不需图书馆工作人员专门掌握配库技术，不需要图书馆花费太多的人力与时间，但是，图书馆必然年年支付昂贵的使用费。

对于建设地方性、特别是跨行业、跨系统的多馆馆藏资源共享平台而言，若购买这种商业化服务，后续经费一旦停止，则共享平台就难以维系。

如果自建中心服务器，则前期经费投入庞大，同时，服务器的购置、存放、维护、管理以及成员馆的元数据提交与利用，还受到组织、协调、网络等诸多因素的制约。

因此，虽国内曾有一些共享项目实施了这种技术，然而项目验收之后，项目经费一旦终止，加之网络障碍等因素，元数据提交难以持续，统一检索的效应难以体现。

1.2外挂式整合资源的跨库检索系统
外挂式整合，首先分析异构数据库的字段，然后进行字段映射，接着按照数据库商提供的数据接口(也可以通过web技术获得)进行调用，最后将检索到的数据一次性挂到检索平台结果页面上，进而实现异构数据库的统一检索。

从这个意思上说，外挂式整合系统并不是严格意义上的统一检索系统，它应该是跨库检索系统。

外挂式的跨库检索系统，相当于代替用户去多个异构数据库检索并把结果返回给读者。

因为是字段直接转换，换页直接输出，中间没有二次筛选、匹配分析、索引检索，在检索内容量比较小，检索并发数少的情况下，速度快效率高。

它相当于是多个人帮助一个用户，同时登录多个异构数据库，输入检索词，得到结果。

跨库检索系统作为外挂式的整合系统，有很明显的应用优势，不需要图书馆作大量的前期投入，不需要图书馆提供元数据，很是方便。

在检索数据量较少的情况下，效果好。

但是，外挂式的跨库检索系统，面对异构数据库，只是简单的数据库字段形式上的映射，而不是基于内容意义的抽取，因此，二次检索时不会内容聚合，形成全文索引，因此，降低了数据库检索效率，也不会全面提升跨库检索系统的整合力度。

同时，与N个数据库人工逐一检索相比，只表现出了省略登录、键入关键词的时间，用户等待跨库系统的N个数据库自动检索结果输出的时间恐怕也是较长的，所以，当跨库检索系统并发量或检索量大时，效果明显下降。

当跨库检索系统中涵盖的数据库检索接口、数据字段、数据结构发生变化时，跨库检索系统必须同时更新，需要重新配库。

由此对图书馆技术人员的要求较高，无形加大了图书馆管理的技术难度。

当跨库检索系统的厂商完成首期目标验收后，图书馆必须自己掌握配库技术，否则必须购买厂商的后期维护与配置服务。

1.3基于语义识别的智能统一检索系统
2006年11月12日，美国记者John Markoff在《纽约时报》在发表的文章中提出了一个新概念——Web3.0，在学术界及商业界引起了巨大反响。

Web3.0将实现计算机人工智能，既不是Web1.0的静态固定显示，也不是web2.0的博客论坛维基交互共享，而是网站上的内容将变成立体的，能按照人的思维进行思考。

比如我预算3000元去桂林旅游，web2.0技术下，我只能以零星的关键字搜索，却产生出大量无关的内容。

而web3.0下，我可以在强大的人工智能搜索引擎人口输入完整的语句，web3.0系统就会动用互联网上所有的数据库，按照你的实际需要给你制定出一个完美的桂林旅游计划。

所谓web3.0搜索引擎，是以微单元(即微应用模块或单元组织)构成，用户完全自主创建自己需要的信息单元模块，搜索引擎将根据用户需求，智能化处理互联网海量信息，最终聚合为用户的个性化需求。

该引擎包含的信息将完全由用户自己控制及整合，而不需要其他软件的辅助、或抽取字段进行转换。

因此，web3.0搜索引擎将是更精准、更智能、更个性、更强大的，同时不需要图书馆等用户单位进行复杂的技术管理与维护的跨库式海量资源的检索工具。

Web1.0带来了图书馆门户网站的建立，web2.0使图书馆与读者的交流搬到了网上，建立了在线咨询等交互型咨询与服务，当web3.0搜索引擎来临的时候，强大的图书馆3.0搜索引擎也必将出现。

图书馆3.0搜索引擎，也可以称作图书馆3.0智能统一检索系统。

其最重要的特征就是应用web3.0的技术，把图书馆信息资源变成一个基于语义的人工智能搜索联合体。

图书馆的用户不需要掌握专业的检索语言，只要会打字，键入自己的想法(在现有条件下是关键词)，图书馆3.0搜索引擎就会按照用户的意思，通过分析异构数据库资源进行“临时整合”，然后用P2P等突破网速限制的技术迅速将合理合情的输出结果返回给读者。

尽管图书馆3.0智能统一检索系统目前只是一个概念，还没有广泛运用于实际，但是，现有的统一检索系统的应用实践证明，基于语义识别的智能统一检索系统是实现图书馆文献资源整合、方便读者、降低管理成本的最佳解决方案。

2CALLS统一检索系统的应用实践
2008年，广西师范大学图书馆在广西区政府“人文强桂”项目支持下，建立了“广西人文社科资源共享平台”。

“广西人文社科资源共享平台”是一个整合了广西区图书馆、桂林图书馆，广西大学、广西师范大学、广西民族大学、桂林工学院图书馆等单位的馆藏文献资源共享平台。

“广西人文社科资源共享平台”的特点是区域内跨系统的基于互联网上的人文社科文献资源的重新整合，该平台的建设预期目标是建立一个综合性门户网站，实现综合门户网站内成员馆网上人文社科文献资源的集中揭示与统一检索，重点对各馆的馆藏书目数据、各馆自建的地方特色资源库以及常用商业数据库进行资源整合，实现一站式检索，以保证区内有关专家学者足不出户，实现多馆藏的无障碍快速检索与获取资源。

经过反复论证，“广西人文社科资源共享平台”最终选择了CALIS门户系统与CALLS统一检索系统，该平台配置三台(资源、门户、检索平台)中心服务器，通过购买、安装、部署，该平台基本实现了各成员图书馆的各种数据资源的整合处理，将异构数据库并归到一个统一检索平台上，读者使用时，只要根据检索界面上提供的数据资源作出选择，就可以实现一次性输入，多库检索结果同时输出。

平台建设过程中，CALIS专业技术人员与图书馆技术部进行全方位的沟通与合作，图书馆派出专业技术人员进行了专门的配库工具学习，因此，在合同期满后的后期维护，图书馆技术部在CALIS技术人员指导下基本可以独立承担。

因此，笔者认为，选择CALLS门户系统与CALLS统一检索系统，是目前区域内小范围的文献资源整合与共享平台建设方案中投入少，效率高、管理难度较小、后续成本低的可行性方案。

3CALIS统一检索系统的功能分析
CALIS统一检索系统是基于ODL和Z39.50协议的，拥有先进web2，o技术的资源整合系统，比较完善地遵照图书馆标准，采用网页元数据抽取技术，具有超强配库工具，避免了抽取、提交、存放元数据成本过高与外挂式检索效率偏低的弊端，是比较成熟的一站式跨库检索系统。

3.1CALLS统一检索系统的特点
CALIS统一检索系统能在高效整合异构资源到一个平台系统的同时，最大限度体现保留异构资源的个性。

既能统一，实现1+1大于2的检索意义；也能分离，保留异构数据库的原貌特征。

CALLS统一检索系统不是简单罗列异构数据库实现跨库检索，在检索前提供人性化的资源列表供读者选择；在返回结果方面能先将返回速度快的先显示，减少了用户等待时间。

CALLS统一检索系统支持二次检索、在结果中检索、检索结果合并、利用Web缓存技术提供检索历史等这些人性化的设置给读者带来操作上的便利性。

CALLS统一检索系统可以通过注册用户方式，来设置一些检索和返回参数，满足特定用户的检索习惯，快速满足检索需求。

CALLS统一检索系统设置了资源分类导航供用户选择资源，分类方式可以按学科、首字母、关键字等查找，方便用户快速检索出想要的资源。

3.2CALLS统一检索系统的技术优势
CALLS统一检索系统是基于网页元数据抽取技术的资源配置和整合检索技术，能够获取异构资源检索结果页面中的每条元数据信息，而不是整个结果区域，能够实现全文、文摘等内容的直接定位和下载。

在显示结果页面，能够灵活设定元数据的显示方式，能够与资源调度、馆际互借等系统进行无缝集成，用户可自行配置各类web资源。

CALLS统一检索系统还是基于ODL和Z39.50协议的资源配置和整合检索技术，能直接高效地检索CALLS中心的各类资源；能直接检索CALLS各个子项目元数据资源仓库；能够高效集成那些支持Z接口和ODL接口的各类资源。

4CALLS统一检索系统存在的问题
CALLS统一检索系统虽然能满足“广西人文社科资源共享平台”建设要求，但从文献资源整合与共享的终极目标看，从满足读者全面快速方便检索需求角度看，CALLS统一检索系统仍然是一种改良的，仅限于网页元数据抽取技术，而不是内容元数据抽取技术的跨库检索系统，在实际应用中，CALLS统一检索仍然表现出明显的缺陷。

4.1整合对象与数量上有限
CALLS统一检索系统并不能全面整合图书馆异构数据库资源。

在“广西人文社科资源共享平台”中，CALLS统一检索系统整合的对象，通常是普遍使用的如CNKI数据库、或者提供接口的数据库，如本馆OPAC，以及少部分订购的数据库。

至于“化学文摘”等一些特殊类型数据库就不能整合，尤其是外文数据库整合方面也存在不少局限性。

4.2整合技术不完美
CALLS统一检索系统是基于网页元数据的跨库检索系统，不是基于元数据级别的整合系统，不能自动抽取各个异构数据库的元数据，需要不断进行配库、字段映射等工作。

笔者在实施“广西人文社科资源共享平台”技术部署过程中，作为后期维护人员曾专门参加了CALLS统一检索系统的技术培训，发现CALLS统一检索系统虽具有强大的配库工具，但是相当繁琐，影响到平台建设完成后的长期维护与使用。

一是配库技术并不是一般图书馆工作人员能够熟练掌握的，时间一长或者技术人员更新、调动，配库技术就成为了制约平台功能发挥的瓶颈。

每当图书馆购买新库或者异构数据库结构发生更新，又需要重新对数据库进行配置，不能做到系统自动追加更新，也形成平台上资源检索的梗阻、堵塞与失效，无形中增加了文献平台建设的后续费用。

因此，当经费有限、技术变化、人员变动频繁时，难免出现后续服务跟不上的尴尬局面。

4.3学科聚合和全文索引不细致
统一检索系统应该将各个数据库的分类体系与统一检索的分类体系建立起映射关系，对学科重组，做到异构数据库的各个学科资源的真正融合。

而CALLS统一检索系统只是在检索前按照学科导航，即对数据库进行学科分类后实现统一检索。

强大的统一检索系统不仅可以实现检索前的学科选择，更应该对检索后的结果进行学科重新组合，实现对所有资源(数据库结构和检索数据)的学科聚合。

统一检索系统的全文索引，应该是经过学科聚类的异构数据库的元数据检索。

元数据包括题名、作者、关键词、学科分类、全文链接等多个部分，统一检索系统正是利用全文检索技术对这些结构化的元数据进行索引，生成索引数据，读者正是依靠这些索引数据，取得详细信息，全面了解文献线索，进而索取全文。

而CALLS统一检索系统只停留在全文链接的层面上，没有形成全文索引，这样导致了检索结果输出不够细致，二次检索不够明确到位，影响了异构数据库的检索准确率。

5结语
统一检索系统越来越成为图书馆中重要的应用平台。

基于元数据抽取技术，按学科聚合，形成全文索引的统一检索系统，应成为图书馆文献资源共享平台建设以及开展异构数据库资源整合的较佳解决方案。

随着计算机网络技术特别是web3.0技术的发展，多馆藏资源的共享平台建设，呼唤着超强人工智能搜索引擎的出现。

我们相信，未来的统一检索系统必定有更强大的资源整合功能、更全面完善的数据集成能力、更方便高效的后续服务模式，以满足各级各类图书馆服务平台的建设需求，最大限度地提高图书馆文献资源的整合服务能力，为读者提供高效、优质的文献服务。

参考文献
1王智琦，李秋实网格环境下数字图书馆异构资源整合及案例分析，2009(4)：48－52 2是汉华，王子舟，从“Web3.0”到“图书馆3.0”，图书馆建设，2008(4)：66-70
3张熏，张英，Web3，O与个性化信息服务，新世纪图书馆，2009(2)：33－35
4陈凌，王文清，数字文献服务环境与CALIS统一检索平台，上海交通大学学报，2003(9)：31-35。