信息检索:理论与方法 叶鹰 (1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索原理—信息检索模型
在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di = ( T1, T2, T3, …, Tm ),为文献i,式中T1, T2, T3, …, Tm表示文献i中的所有标引词集合。 每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。 系统在对提问进行处理时,输出一个包含有该提问式的组配元(标引词)且符合 组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、 能处理结构化提问等优点,在信息检索系统中得到了广泛的实际应用。
其主要优点是: ① 采用了理论上更为严密的方式来进行决策; ② 容易与加权方法结合起来使用,为人们提供了一种理论基础; ③ 不涉及布尔逻辑运算符,回避了构造布尔提问式的困难; ④ 文献可按用户的期望值输出排序; ⑤ 吸收了相关反馈原理,可开发出理论上更为合理的方法。 但是,它也有明显的不足,如增加了存储和计算资源的开销;参数估计 问题也增加了该模型使用时的难度。
信息检索原理—信息检索模型
与采用布尔模型的普通检索系统相比,该系统有以下几个特色: ① 采用自动标引技术为文献提供标引词; ② 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度 可在[0,1]闭区间中取值; ③ 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与 否,从而使检索更趋于合理; ④ 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术 修正提问,控制检索量; ⑤ 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。 向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法, 不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库 中的每一篇文献,计算量大、算法复杂性较高;由于标引加权和检索加权是分 离的,随意性较大,难以保证质量。
传统的向量空间模型将Tk取值为“0”或“1”,现在大多在[0,1] 区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提 问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计 算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相 似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使 检索更为合理。
传统布尔检索模型的具体缺陷主要表现在以下五方面: ① 布尔检索式的非友善性,即构造一个好的检索式是不容易的。 ② 易造成零输出或输出过量。 ③ 无差别的组配元,不能区分各组配元的重要程度。 ④ 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判, 都一视同仁。 ⑤ 检索结果不能按照重要性排序输出。
第一章 信息检索理论基础
主要知识点
(一)信息检索原理 (二)信息检索技术 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索原理—信息检索及其发展
(1)信息检索(Information Retrieval)是“一种时间性的通讯形 式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可 能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是 一种延时性的通讯形式。
(2)信息检索的基本原理,是对信息集合与需求集合的匹配 和选择。信息集合是有关某一领域的文献或数据的集合体,它是一 种公共知识结构,可以弥补该用户的知识结构缺陷。而匹配与选择 则是一种机制,它负责把需求集合和信息集合进行比较,然后根据 一定的标准选出符合需求的信息。
(3)在社会科学化的进程中,信息检索经历了从手工检索到 机械检索再到计算机化检索的发展过程。
信息检索原理—信息检索模型
(5)扩展布尔逻辑检索模型:扩展布尔模型是以对布尔算符的一种 近似解释系统为基础,在此模型中,能以一种比传统布尔模型限制更小 的形式来处理布尔提问式。特别当某一给定文献中出现较多提问词时, 它的值就大于含提问词较少的文献。
这种扩展布尔检索模型具有以下优点: ① 它适应常规布尔检索中的标准提问式结构,且通过计算提问-文 献的相似度,可以避免潜在的无意义解释; ② 许可在文献表示和提问式中加入词权值; ③ 可以按相似度的大小来排列输出文献,因而在响应某一给定提问 时,可以控制要检索的文献数量; ④ 便于区分强制性短语和严格的同义解释与试探性短语和较不严格 的同义关系。
信息检索原理—信息检索模型
(3)向量空间检索模型:向量检索是以向量的方式确定检索内容 的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如: 文献集合中的第i篇文献用Di = ( T1, T2, T3, …, Tm )表示,其中T1, T2, T3, …, Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj = ( T1, T2, T3, …, Tm )表示;Tk表示文献向量或提问向量中的第k个分量, 即文献表示或提问式中所含的第k个标引词或检索词。
信息检索原理—信息检索模型
(1)信息检索的模型的含义:信息检索的模型就是运用数学的语 言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表 述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导 信息检索实践。
(2)布尔逻辑模型:它是由Y. Bar-Hillel在1957年首先提出的,他 提出了将布尔逻辑应用于计算机检索的可能性,10年后,正式被大型文 献检索系统所采用,并逐渐成为各种大型联机检索系统甚至是网络搜索 引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方 法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算 来检索文献。
Байду номын сангаас
信息检索原理—信息检索模型
(4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问 的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排 序结果。事实上,对于某个特定的检索提问,文献集合中的某一文献是否符 合用户的信息需求(即是否是相关文献)可以看成是一个随机事件,每篇文献 是相关文献的概率各不相同,综合信息需求的概率和文献与标引的相关概率, 才能更为合理地划分检索结果。概率检索模型正是基于这一思想建立起来的。
相关文档
最新文档