文本信息检索模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文本信息检索模型
齐向华
(山西大学信息管理系　太原　030006)
【摘要】　介绍了目前流行的三种文本信息检索模型(布尔检索模型、概率推理模型、空间向量模型)的基本原理和各自较重要的实用系统,最后对三种模型的优缺点进行了比较。

【关键词】　文本信息　检索模型
文本信息检索是一个文本与用户提问比较的过程。

在各种媒体的信息检索中,文本信息检索是信息用户最主要的需求,也是各类信息检索的基础。

目前,主要有三种模型来描述这一过程,即布尔检索模型、概率推理模型、空间向量模型。

在具体论述这三种检索模型之前,我们先说明在文本信息检索中所主要处理的问题,既下文所说的检索模型三要素。

1　文本信息检索模型三要素
1.1　文本集
所谓文本集是指作为检索对象的检索单元的集合。

早期文本信息检索基本局限于对二次文献的检索。

众所周知,二次文献的建立是由标引人员手工对文献信息进行加工处理,给出检索标识的,其中最具代表性的是现今应用广泛的M A RC磁带。

在这种处理过程中,标引的工作量很大,标引质量也因人而异,带有很大的局限性。

随着大量且不断变化的各类信息的出现以及相关技术和硬件设备的发展,人们对全文检索系统的需求越来越大,对检索的要求也越来越高。

全文检索系统是将全文信息作为检索对象,建立文本集,利用计算机抽取标识符,建立索引,再用全文检索技术实现检索。

1.2　用户提问
用户提交问题给检索系统,系统将其作为处理目标,搜寻文本集,得出相匹配的检索结果。

用户的问题包括用户感兴感的关键词、自然语言、逻辑关系式等。

1.3　文本与用户提问相匹配
文本信息检索过程可以分为三步:首先,根据文本集,生成每一对象内容的表示;其次,根据用户提问,生成用户意见提问表示;最后,比较这两种表示,从文本集中选择最大匹配用户提问的对象。

2　布尔检索模型
2.1　基本原理
布尔检索模型是最早也是最简单的一种检索模型,其理论已基本成熟,过去以及现在的许多检索系统,特别是在我国,很多都是采用这种检索模型为工作原理的。

在布尔检索模型中,将用户提问表示成布尔表达式,使用逻辑运算符将提问词连接起来,其中每个提问词表达了用户的一个兴趣。

其文档组织形式分为两种:顺排文档和倒排文档。

顺排文档是检索系统的主文档,它是将规范化的文献记录顺序存储在存储介质(一般是磁带)上,数据量非常大,对它进行检索处理的算法以菊池敏典算法为代表;倒排文档是将文献记录中所有的检索点抽出,经过排序、整理后形成类似索引的文件,对它进行检索处理的算法以逆波兰算法为代表。

检索时,检索系统将提问式与文档进行逻辑匹配操作,得出命中文献集合为检索结果。

检索结果一般不进行相关性排序。

在检索策略的使用方面,以布尔逻辑为基础的文本检索系统可能提供位置检索、截断检索以及自然语言检索等检索手段。

除了传统的书目型检索系统外,目前有很多成功的全文检索系统也是采用布尔逻辑模型为其基本的检索技术的。

2.2　WA IS系统
1989年,由A pple Co mputer等美国四家公司联合开发了广域信息服务器WA IS,它是因特网上广泛使用的最强有力的全文检索系统。

国际上一些著名的研究机构都采用W A IS建立了各自的全文数据库及检索系统。

目前,采用WA IS系统在因特网上建立的全文数据库及检索系统有500多个,涉及到生物、天文、地理等各类信息。

WA IS系统软件在程序结构上由建立索引、实现检索和服务器三部分组成。

建立索引时,首先对原始信息进行分析、抽提、整理、归纳,并建成字典库。

根据字典库中的所有字、词,建立一个大的倒排档。

然后,再根据不同的格式对原始信息集合抽提一个文档以及相应的标题、文字等信息,建立标题文件、资源描述文件、目录文件等多级索引结构。

检索时,根据资源描述文件向服务器提交连接请求。

2.3　中文文本信息检索系统
中文信息检索的出现大约只有10年的历史,就信息检索技术而论还处于初期发展阶段,市场上已
出现或已见报道的中文文本检索系统还有T RS、T R IP、WX T、F T R、CDS/IST IC以及“北成”、“北大”“海文”、“方正”、“龙马”、清华光盘版全文检索管理系统等,它们大都以布尔检索原理、倒排文件结构、提问的布尔逻辑操作、文字字符操作为主要特征。

3　概率推理模型
3.1　基本原理
在概率模型中,检索是根据概率排序规则进行的。

基本的文本检索推理网络包括文本网络和用户提问网络。

文本网络使用不同的文本表示框架来表示文本集,对每一个文本集,文本网络只建立一次,且在检索过程中不改变其结构。

用户提问网络则只有一个表示用户提问信息的节点及一个或多个查询表达式。

文本网络与用户提问网络之间的连接则由文本概念表示节点与提问概念表示节点之间的链来表示。

不论是文本网络还是用户提问网络,每一节点有一个概率值。

节点与节点之间的因果关系表示为:给定文本节点的先验概率及中间节点的条件概率,就能得到每一节点的后验概率。

原始文本集与用户提问集经过概率计算,得到文本与用户提问的匹配程度。

该推理机制与人脑思维模式相似,因此,概率推理网络一经提出就受到了广泛重视。

3.2　I NQ RER Y系统
IN Q RERY系统是1991年由美国M as-sa chusetts大学依据推理网络研制出来的。

它把信息检索看成是事实的推理与证明过程。

这个推理网络是一个有向图,节点表示有效事实,边表示事实间的依赖关系。

在网络中,每个节点都有一个链矩阵,用来计算给定节点的父节点的概率。

系统沿着有向图的边,依次分析各节点的概率,最终得到相对于用户提问的最后概率。

输出时则按概率大小把文件显示给用户。

IN Q RERY系统的提出,为文本信息检索技术提供了新的解决问题的思路,起到了极其重要的作用。

4　向量空间模型
4.1　基本原理
向量空间模型用检索项的高维向量空间来表示用户的提问和文本集信息,其中每一维为一个特征。

一个用户提问向量或文本向量的第i个元素表示用户提问或文本的第i个特征的重要度,或称权值。

用户提问向量的权值由用户指定;文本向量的权值则根据特征在文本或文本集中的出现频率决定。

提问向量与文本向量间的余弦角通常用来测定该文本与该用户提问词之间的匹配程度。

向量空间模型不仅可以方便地产生有效的检索结果,而且能提供相关文档的文摘,并进行检索结果分类,为用户提供准确定位所需的信息。

4.2　SM A RT系统
SM A RT系统由美国Co rnell大学开发研制。

它利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息检索的准确性。

实际上,SM A RT的实现涉及到许多理论、模型及技术。

目前,SM A RT系统已应用于医疗、航空、图书管理等许多行业。

5　三种模型的比较
基于布尔逻辑的情报检索是一种基于逻辑判断的检索模型,它使用布尔逻辑提问方式表达用户需求,该方式有很多优点,如结构简单、层次结构清晰、灵活性好、与人们的思维方式相近等,许多人希望采用此种模式进行检索查询。

它的不足是很难全面地表达用户需求,对于模糊的情报需求处理功能不好;对于检索词的重要度不加区分,影响检准率;而且用户对检中文献的数量无法控制,对检中文献对用户的满意度也不加区分。

后两种检索模型都是把检索问题最后归结为一种数值的比较,二者的用户查询是以一组词及其权值结合而成,最后的检索结果都代表检索文献对用户满意度的一系列数据,用户可设阈值来控制。

这两种检索模型有利于用户用非结构化的形式表达其情报需求,利于对模糊需求的表达;用户可按照自己的需求对检索词加权并设定阈值,具有对检中文献数量和质量的控制权;与布尔检索模型相比,它们可为用户提供更多样的检索手段和更友好的用户界面,可以把检索结果以图象形式展示给用户,使用户形象生动地感觉到检中文献的个数及其按相似度大小反映的检中文献分布状态。

它们的缺点是用户的需求表达不是很准确,也没有清晰的逻辑层次;而且这两种检索模型的计算量都非常大,算法复杂,对计算机的存储量、运算速度及软件水平都有较高要求。

综上所述,以上三种检索模型可说是各具特色,虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,既按照用户要求,提供用户所需的信息。

实际上,大多数检索系统往往将上述各种模型混合在一起,以达到最佳的检索效果。

参考文献
1　曾民族.文本信息检索技术进展和性能评价框架.现代图书情报技术.1997.3
2　潘谦红等.文本信息检索模型.计算机世界. 1998.1.19.
3　王娟琴.三种检索模型的比较分析研究.情报科学.1998.5
〔作者简介〕
齐向华,女,硕士,1965年出生。

1986年毕业于北京师范大学图书馆学系,现任山西大学信息管理系讲师。

(收稿日期:1998—06—02)。