知识检索与信息检索的检索效率比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

知识检索与信息检索的检索效率比较
张自然1,金 燕2
(1.武汉大学信息资源研究中心,湖北武汉430072; 2.武汉大学信息管理学院,湖北武汉430072)
摘 要:本文在对知识检索与信息检索的检索机制分析的基础上,对知识检索与信息检索的检全
率、检准率进行了比较,认为知识检索的检索效率优于传统信息检索,同时对影响知识检索效率的因素进行了讨论,指出信息检索要向知识检索过渡和发展,并针对目前网络检索的现状,提出了一些改进措施。

关键词:知识检索;检索效率;检全率;检准率中图分类号:G 354 文献标识码:A 文章编号:100727634(2005)0420590204
Comparison of R etrieval E fficiency betw een K now ledge
R etrieval and I nformation R etrieval
ZH ANG Zi -ran 1,JIN Yan 2
(1.
Research Center o f Information Resources ,Wuhan Univer sity ,Wuhan 430072,China ;
rmation Management College ,Wuhan Univer sity ,Wuhan 430072,China )
Abstract :Based on the analysis on the retrieval mechanism of knowledge retrieval and in formation retrieval ,this article com pared the precision ratio and recall ratio of knowledge retrieval with those of in formation re 2trieval.The author considered that the retrieval efficiency of knowledge retrieval was better than in formation retrieval.The article als o discussed the factors in fluenced the knowledge retrieval efficiency ,pointed out that in formation retrieval should transit to knowledge retrieval ,proposed the im proving method..K ey w ords :knowledge retrieval ;retrieval efficiency ;precision ratio ;recall ratio
收稿日期:2004-04-27
作者简介:张自然(1977-),女,河南开封人,华中师范大学信息管理系讲师,武汉大学信息管理学院2002级情报
专业博士生,主要从事信息组织、信息检索研究.
知识检索是为了解决目前信息检索中存在诸多问题而提出的一种新的信息检索理念[1]。

我们知道,传统的信息检索多是建立在语词匹配的基础之上的,需要用户选择与索引库中完全一致的检索词或在此基础上构造检索式,一旦用户的查询请求用词与索引库中的索引词字符形式不一致,查询匹配就会失败。

这种检索机制已经难以适应目前的信息环境和用户日益增长的检索需求。

如果仍然按照这种机制设计网络信息检索工具,必然会导致要么查询结果中无关信息很多,要么查询返回结果太少。

知识检索与之不同,在对蕴含在信息中的知识和知识关联进行分析的基础上,在知识处理技术和知识组织技术的支持下,实现基于语义理解的智能化查询。

它综合应用信息科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,是一种能充分表达和优化用户需求,高效存取所有媒体类型的知识源(文本、图像、视频、声音等)并能准确精选用户需要结果的高级信息检索方法[2]。

就检索效率而言,知识检索是优于
第23卷第4期2005年4月
情 报 科 学
Vol.23,No.4
April ,2005
信息检索的。

1 衡量检索效率的主要标准
信息检索效率是指全、准、快、便、省(检全率、检准率、检索方便性、检索成本与效益),最主要的是全和准[3]。

通常,我们用检全率、检准率来衡量信息检索系统的检索效率。

检全率(recall ratio )指系统在实施某检索作业时,检出相关文献的能力。

检准率(precision ration )指系统在实施某一检索作业时,拒绝不相关文献的能力,是衡量信息检索系统精确度的尺度。

评价信息检索效果主要指标是检全率和检准率,最优的检索系统能够检出系统中的全部相关文献,且检出的文献全部是相关文献。

事实上,由于检索策略、检索系统本身等多种因素的影响,在实际检索中,任何一个检索系统,其检全率和检准率都很难达到100%
[4],但依据检全率、检准率的高低,可以判断检索结果的全面程度和精确程度,能够综合体现检索策略与检索质量。

因而,能否尽可能全面、准确地检出与用户真实需求相关的信息,依然是综合衡量一个检索系统检索效率的主要标准。

鉴于知识检索机制的应用尚未普及,因而我们不对其检全率、检准率作定量评价,而是与传统信息检索相对照,作定性分析。

无论是检全率还是检准率,我们采用的都是用户相关标准,用与用户真实需求相关而非单纯系统相关来评判相关性[5]。

需要提醒大家注意的是,知识检索机制应用于网络信息检索,在衡量其检索效率时,检准率的重要性要大于检全率。

这是因为,网络信息资源太多,
即使把与某一主题相关的所有文献都聚集起来,用户也难以浏览
,通常用户关心的是其中最精确的前条结果。

2 知识检索系统的工作原理
如前所述,传统信息检索是基于语词的机械匹配进行的,其检索机制如图1所示。

这种检索机制下,用户输入的检索词或检索式是什么,检索系统就与什么进行字符机械匹配,而不考虑检索词的语义及与其相关或相近的词,导致许多以非惯常用词撰写的文献难以检出,相反却检出一堆仅仅字符匹配的非真实相关文献。

而知识检索与一般信息检索机制不同,强调语义相关。

在多数检索系统仍然停留在关键词机械匹
配阶段时,知识检索的语义匹配机制无疑成为其制胜法宝。

那么,知识检索是如何实现语义匹配的,我们来看一下知识检索系统的工作机理。

图1 传统信息检索机制
知识检索的实质是把借助语义知识库理解、分
析、和规范后的检索请求与经过语义知识库分析的信息源索引库进行语义匹配,并提交给界面主体的过程。

检索机理如图2所示。

在语言学、领域专家等的帮助下,建立语义知识库;采集信息源,并借助语义知识库中的语言学知识、概念网络以及各种词典和规则对信息源进行语义分析,把抽取的概念语义及索引信息按规定格式存储在索引库中;获取用户查询请求,查询转换器借助语义知识库以及与用户的多维交互分析查询请求,确定用户的真实查询请求。

并对其进行语义分析,在概念网络和各种词典的帮助下确定查询所涉及的术语及其关联,扩展和精准用户查询请求,并把查询请求转换成规定的格式;把抽取的信息源语义与检索请求语义相匹配,并把匹配的结果经过定制处理返回用户。

图2 知识检索机理
图3 语义知识库的构成
语义知识库的构成如图3所示,其中词典包括
1
954期 知识检索与信息检索的检索效率比较
各种入口词表、后控词表、同义词典和排歧词典等,辅助实现扩展查询和排歧查询;概念网络是一种语义网络,揭示了概念间的各种关系,同时新抽取的概念能够自动或通过人工方式追加到各自的类目下;语言学知识包括语汇、语法、语义等知识,辅助进行自然语言理解,分析查询请求和信息源语义等。

3 知识检索与信息检索的检索效率比较
(1)检全率。

传统的检索系统多提供布尔逻辑检索、组配检索、词组、位置、截词等检索方式,要求用户熟悉检索句法,并且要求用户必须输入规范、准确的索引词。

而用户对不太了解或想要了解的事物、领域,很难准确描述,更不用说一次构造准确的检索表达式。

而绝大多数知识检索系统支持自然语言检索,允许用户自由地使用检索词汇表达查询请求,用户可以最大限度地尝试入口词汇,增强了选词的灵活性,减轻了用户的认知负担;同时,利用后控制技术和内嵌在知识库中的概念网络、语言学知识等,对自然语言中的等同关系、等级关系、相关关系等进行揭示和控制,支持语词、语义内容的处理,可以实现同义词、近义词的查询扩展和关联检索,改善了纯机械方式匹配关键词的不足。

因而,当查询词与标引词不一至时,传统信息检索系统可能检不出的文档也能够被知识检索系统检出。

如利用G oogle搜索有关电脑的信息时,系统反馈的只是含有“电脑”这一字符的结果,而包含与其同义的“计算机”的页面却没有被显示。

如果利用蕴涵知识检索机制的检索系统进行同样的检索,也就是说,如果在检索系统的语义知识库中对表示事物的概念及概念关系进行揭示,使“电脑”与“计算机”建立一定的关联,并且在更大的网络中与“网络”“软件”等也建立其关联,则可以检出包含有“计算机”的信息,而且与“电脑”相关的“网络”“软件”等主题也会被罗列出来,供用户选择。

因此,理论上讲,相对于传统的信息检索系统,知识检索具有较好的检全率。

(2)检准率。

传统检索系统基于字、词机械匹配进行检索,忽略了上下文语义和具体的情景,检准率较低。

如利用G oogle查询有关“服务”的信息时,系统反馈的前20条查询结果中,只有4条与“服务”有关,其他都是“XX和服务”之类的无关
信息,误检率很高。

而知识检索是基于概念、知识的匹配,充分考虑了查询和信息源的语义性、知识性,保证知识的完整性,提高了检索精度。

一方面,通过各种词表、概念网络和自然语言处理技术的应用,在语法、语义、语用等层次上对概念和概念关联进行揭示,一定程度上实现了语义的排歧等,如通过加限定、通过排歧词典,通过领域本体论等;另一方面,通过与用户的交互,采用相关反馈技术,即可能实现检索“语义相关”“用户相关”“系统相关”三者的同一和平衡。

这是因为,采用自然语言检索减少了因构造受控语言检索表达式引起的词汇转换失真问题,且易于探寻用户的隐性需求;多层次、多维度的人机交互,有利于精准用户查询请求,使查询尽可能与用户真实信息需求相关,避免“系统相关而用户不相关”的情况产生;自然语言理解技术的应用,能够对信息源和用户查询请求作更精准的提炼和分析,有助于检索结果的语义相关;而概念匹配技术,则实现了系统相关。

4 结 语
传统信息检索和知识检索机制提高检全率和检准率的方式不同。

传统的信息检索机制多是采用提高检索式的专指度、来提高检准率;采用降低检索词的专指度,进行族性检索、载词检索等提高检全率[6]。

而知识检索机制依然保留了传统信息检索机制提高检索性能的一些有效方法,同时也增加了更强的技术机制和知识机制,如关键词机械字符匹配为概念匹配、语义匹配,增强了语义理解和分析能力,利用智能技术提高与用户交互和知识采集、挖掘的能力等。

通过从理论上对信息检索和知识检索机制、检索效率的比较分析,我们认为,传统的信息检索应当逐步向知识检索过渡。

目前来讲,要改善检索系统的性能,至少需要从如下几个方面进行改进。

(1)在搜索引擎中增加知识检索机制,改善检索效率。

对现有的网络搜索引擎进行改进,增加知识检索机制。

如增加智能检索技术的应用,通过人机交互,向用户提供高层次的智能辅助,对用户的真实检索请求进行推理和识别,自动修正和精炼检索式,变机械语词匹配为概念匹配、语义匹配等[7]。

(2)加大自然语言自动分词的研究,提高语义分析的准确性。

加强对中文自动分词、自然语言理
295情 报 科 学 23卷
解技术的研究,应用语言学、语义学知识,加快语义知识库的研究和建设,从而构建有效的词典、概念网络、本体论等,形成一个可靠的术语体系,提高自动分词、语义分析与理解的准确性。

只有对信息源和检索用语的语义分析实现了,检全率、检准率都比较高的语义匹配才能实现。

(3)自然语言歧义的消解与控制。

自然语言中存在大量的一词多义现象[8],如果不对其进行歧义消解和控制,势必会引起大量的误检现象存在。

这要求我们在设计检索工具时,必须考虑要建立一定的机制,对一词多义现象进行控制,根据上下文来消解语词的歧义,从而降低误检率,提高检准率[9]。

这些机制包括建立上下文语词参照系统、排歧词典、利用人机交互使检索用户参与词义的识别和选择等。

(4)自然语言同义词及此间关系的揭示。

一意多词现象也在自然语言中大量存在,如果不对其进行揭示,必然会造成漏检。

此外,自然语言的自由性也使得语词间的关系非常复杂,词间关系不清。

自然语言的这些天然缺陷迫使检索系统必须采取一定的控制措施,才能有助于实现较高的检全率和检准率。

解决方法包括建立入口词典,后控词典,语义网,概念网络,本体论等,用以揭示和控制词间关系,依靠排歧检索、查询扩展、聚类检索、关联检索等多种方法的应用来提高检索系统的检全率和检准率。

参考文献
[1]金 燕,赵蓉英.国内外网络全文数据库比较研究
[J].情报科学,2004,(2):228-231.
[2]张玉峰,晏创业.基于机器学习的知识检索模型研究
[J].图书情报知识,2002,(4):6-9.
[3]张琪玉.情报语言学基础[M].武汉:武汉大学出版
社,1997.
[4]刘志勇.网络环境下信息检索效率的评价[J].大连
大学学报,2002,(1):110-112.
[5]毛雅君,许培扬.信息检索系统的检索效率影响因素
研究进展[J].医学情报工作,2001,(3):41-43. [6]郭家义.网络信息检索效率研究[J].图书与情报,
2003,(2):60-62.
[7]金 燕,张玉峰.基于自然语言理解的知识检索模型
[J].中国图书馆学报,2004,(2):60-62.
[8]张琪玉.自然语言检索中各种因素对检索效率的影响
[J].情报理论与实践,1997,(5):257-259.
[9]龚蛟腾.浅谈网络环境下的信息检索效率[J].四川
图书馆学,2003,(4):8-10.
(责任编辑:刘凤勤)
395
4期 知识检索与信息检索的检索效率比较。

相关文档
最新文档