信息整流与知识增值服务
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息整流与知识增值服务
【内容提要】本文提出数字图书馆的主要功能目标是信息整流与知识增值服务;信息与知识转换是数字图书馆的关键理论和技术问题。图书馆受到Internet的巨大冲击、不再是文献信息服务的唯一提供者,数字图书馆如何才能挽回失去的老用户,吸引新用户?知识管理工程将使数字图书馆成为21世纪学习的大平台、文化知识的大平台和知识资源中心。
【摘要题】信息服务
1 数字图书馆的信息整流
数字图书馆把传统图书馆的功能由信息的查询和图书资料的借阅扩展到知识服务的新阶段。实现这一宏伟目标需要解决许多技术和社会问题,其中有两个最关键的技术是信息的整流和知识的创新。前者涉及数字图书馆的知识链建立问题,后者涉及数字图书馆的信息变换成知识的知识增值服务问题。
1.1 数字图书馆的知识链
数字图书馆是一个庞大的数字资料库,包括所有资料的数字化存储,在线网上资料、多媒体资料、电子出版物等。数字图书馆根据用户对信息的不同需求,将文本、图片等原件制作成不同数字形式。一般有纯图像形式,目录文本形式,正文图像形式,全文本形式和全文索引形式。但关键还是知识链的建立。
为实现知识链信息,数字图书馆将资源分成为元数据和对象数据。对象数据指数字化的文本、图像、声言、影像等,元数据则指那些描述和管理对象的数据。对象数据分布式地存放在各地的资源站点内,元数据则集中存放在数字图书馆中心的超大规模服务器上。用户查询时,中心调度系统通过元数据来调度各对象数据库以提供服务。
知识的控制单位长期停留在文献这一级上,而人对知识的需求一般不是以文献为单位的。早在20世纪70年代后期就有专家指出,知识的控制单位将从文献
深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”。一旦实现知识的控制单位由文献深化到“知识元”,大量文献中所包含的“知识元”及相关信息间的链接将产生极大的知识增值,从而大大推进人类对知识的利用,促进新知识的创造,从而也将推动知识资源业的重大发展[1]。
一篇文献反映作者的科学研究成果,包含着作者的知识创新的过程。于是文本结构本身就隐含着对某学科问题的知识链。
假如我们把每篇文献的知识看成是人类知识结构中的一个知识单元,知识单元与知识结构就组成了个性知识与共性知识的知识系统。个性知识体现在知识的创新上,共性知识结构则表现在知识的完整性上。于是我们就建立了个性知识与共性知识的知识链。事实上,专利文献就明显地表现了个性知识单元与人类知识结构的知识创新链关系[2]。
数字图书馆对文本的知识标引,既体现了标引者应用学科知识结构的背景知识的能力,同时又体现了标引者识别和提炼作者的知识创新点的判断和知识组织能力。因此,是一个知识链建立的知识增值过程。
1.2 数字图书馆的知识发现
知识链的建立过程是知识发现和知识再组织的过程。知识发现的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识,并用简明的方式显示出来。知识发现一般包含如下几个步骤:(1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。
(1)文本知识结构分析技术
尽管与多媒体信息相比,文本信息显得比较普通,但文本仍然是记载和传播信息的最主要媒体,因此对文本信息知识发现技术的研究具有十分重要的意义和广泛的应用前景。
文本结构分析的目的在于发现文本表达主题概念的物理组织结构,由物理结构自动重组主题概念的逻辑结构,实现对文本知识的抽象化和具体化推理检索。
文献[3]把文本结构分成物理结构和逻辑结构。物理结构={标题,段落,句
子,词汇},它表示了文本的组成情况。可采用向量空间模型表示文本及文本各个部分,进行文本结构分析,其中主要是文本的层次分析,从而得到文本的逻辑结构。逻辑结构={主题,层次,段落,句子,主题词},它更着重于表示文本所包含的思想内容和表达的逻辑方式。
(2)知识链结构
文本的物理结构是文本的外表形式,逻辑结构体现了作者表达目的的逻辑顺序,而文本的知识链结构则是作者的目的和灵魂,知识链结构={问题,已有解的优缺点,新解的方案,性能评价,今后方向}。研究文本的目的是为了获得文本的知识链,以创建新的知识链。链,表现了引用文献与被引用文献之间的多种关系。但它并不完全直接表现知识链关系。文献链是一种庞大的文献引用系统。知识链则是一种巨大的知识引用系统。若能完成这一巨大的系统,人类将可能进行更有效的知识学习。
1.3 信息整流的实现
知识链是文本知识结构的普遍特性,是人类学习、创新的纽带。信息整流与信息滤波不同。信息滤波的目的主要有两点,即过滤掉不相关的文档以及将相关文档列表分为新的文档和已经查阅过的文档,并按相似度大小排序,对已检索的相关文档,通知信息Agent不必返回全文文档,以减少通信费用。信息整流的目的在于建立数字图书馆的知识链库,提供知识链服务。
信息整流是建立知识链的过程。从全文提取出知识单元,形成独立的知识基础,构成知识单元库,把各种知识单元库进行链接,构成数字图书馆广泛的知识网络库。
知识网络库形成了学科横向交叉和学科纵向延伸的科学知识体系。描述了人类知识学习和知识创新的知识网络结点。把人类知识学习和创新活动之间的距离大大的缩短。在知识网络库中,用户可以跨知识单元库学习所感兴趣的知识,更可以通过知识单元库直接学习到解决问题的知识和办法。
知识单元库的实现是知识网络库建立的基础和关键。已有的信息置标语言HTML(Hyper Text Markup Language)的超级链接功能使Web技术从
计算机世界走向社会、走向千家万户,实现Web与数据库的超级链接。HTML表现出Web显示数据的通用方法,而XML提供了一个直接处理Web数据的通用方法。HTML着重描述Web页面的显示格式,而XML着重描述Web页面的内容。XML是文档的各种数字表示方式,用XML表示的数字文档可以由计算机处理,也可以供人阅读。XML文档是一种纯文本文档,可以包含图片、视频或其他多媒体信息,可以是百科全书,也可以是一封电子邮件,或一则天气预报、一张电子商务交易单等。如对〈商品〉的描述中,若在应用中的名称、质量、价格还不足以描述一个商品的特征时,还可通过其他模式增加新特征,只要加入的元素在它们各自名域的前后关系中是有效的。这就为知识单元的描述提供了工具,通过XML标记将文本标记成知识单元,继而将知识单元链接成知识结构,实现知识链。
与引文索引不同,在用XML实现知识单元的描述中,可以将被引文献中的知识单元采用指针的方式加以直接标记,于是实现了知识链接的作用。
链接(Linking)是Web实现关键。HTML的链接是单向的有两个端点——源端和目标端,源端通常是Web页的一个片段,如一个词语、一段文本或一幅图像,目标端是一个“资源”。由统一资源标记(URI)地址指定。XML是描述结构化数据的底层文法,用这种简单文法可以支持种类繁多的应用。预计XML将成为数字图书馆信息整流的基础性语言。
2 数字图书馆的知识增值服务
数字图书馆不仅是传统图书馆的数字化,而且是来源极其丰富的网上资源库。通过对信息资源的深加工和合理、有效的组织,使之成为永久、有序的知识源泉。数字图书馆不仅要进行信息整流,而且还要进行知识增值服务。数字图书馆将构筑起信息与知识转换的社会大平台,为实现全民终身学习、自主学习、随时随地学习创造条件。
2.1 图书馆受到Internet巨大冲击
Internet正在成为世界上最大的“图书馆”。网络信息资源的迅猛扩大,越来越加深了人们对网络的依赖程度,影响和改变着人们选择信息、使用信息的行为和方式。目前,Internet上已拥有各种日报、杂志及时事快报、新书报道,