第四章检索方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• nW:表示输入的两个检索词之间可以插入 n个单词。 • 比如library(2W)school • Library science school • Library and information school
• • • • • •
N算符 比W算符要求松,表示前后次序可以颠倒。 比如money (2n)supply Money supply Supply of money ....
4.4 位置检索
4.4.1 位置检索的含义及其使用方法 (1)含义 也称原文检索,是以原始记录中的检索词与检索词间特定位置关系为对象 进行运算,寻找符合要求的地结果。 通常原文检索运算级别包括以下几种: 1)词位置检索,要求检索词之间的相互位置满足某些条件。 2)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句 中。 3)字段级检索,要求检索词出现在同一字段中。 4)记录级检索,要求检索词出现在同一记录中。
4.5 聚类检索
• 4.5.1 基本概念 • 聚类检索概念的提出,起源于向量空间模 型理论,是在对文献进行自动标引的基础 上,构造文献的形式化表示——文献向量 ,然后通过一定的聚类方法,计算出文献 与文献之间的相似度,并把相似度较高的 文献集中在一起,形成一个个的文献类的 检索技术。
4.5 聚类检索
(2)最低登录量面优先策略 所谓登录量,是指一个索引词在标引 中的使用次数。它一般记录在数据库 词表中,也可以显示在检索终端设备 上。 (3)积木型策略 积木型策略,是指检索时首先逐个查 找各个概念组面,然后再把各个组面 组配起来,得到最终的检索结果。
(4)引文珠形增长策略 引文珠形增长策略,是首先以一个较为核 心的概念组面进行试捡并仔细浏览初步的 检索结果,尤其是特别符合用户需要的文 献记录,从中选择更多、更合适的检索词 补充到检索式中,然后,再浏览命中的文 献记录,再从中选择检索词补充到检索式 中。如此反复操作,直到得到理想的最终 检索结果。 (5)逐次分馏策略 逐次分馏策略,是指检索时首先建立较大 的原始文献集,然后利用各种检索的限制 或限定措施,逐步缩小检索范围,直至符 合用户需要为止。
第四章 文本信息检索技术与方法
4.1 布尔检索
– 布尔检索主要以倒排档(inverted file)为基础,通过布尔逻辑算符 对检索词(或检索代码)进行组配 形成检索式,进而以此检索式作 为匹配依据完成对倒排档的匹配 处理并获取查询结果。
4.1.1 布尔逻辑算符及其运算含 义
• (1)逻辑或(OR) • ―逻辑或”一般用符号“OR‖来表示,也称 为析取联结词,形式上还可以写作“+‖。检 索词A和检索词B若用“OR‖组配,则检索 式可以表示为: • A OR B 或者 A+B
• 同句、同字段检索 • 同句检索是指要求参加检索运算的两个词之间必须在 同一个自然句中出现,其先后顺序不受限制。所用算 符为(S),是sentence 的缩写。 • 同字段检索是指参加检索运算的若干词必须在同一个 字段中,所用算符有“F‖和“L‖两种。
F算符是Field 的缩写,表示在此算符两侧的检索词必须同 时出现在数据库记录的同一个字段中,词序可变。字段类 型可用后缀符限定。 L算符是Link的缩写,它要求检索词同在叙词字段中出现, 并且具有词表规定的等级关系。因此可算符只适用于有正 式词表,且词表中的词具有从属关系的数据库(或文档)。
1)后截断:后截断是最常用的截词检索技术。将截
词符号放置在一个字符串右方示其右的有限或无限 个字符不影响该字符串的检索。
2)前截断:前截断是将截词符号放置在一个字符串左方,以表示其 左方有有限或无限个字符。从检索性质上讲,前截断是后方一致检索。在 检索复合词较多的文献时,使用前截断较多见。
3)中截断:中截断又称为”通用字符法”或”屏蔽”。这种截断是 把截断符号放置在一个检索词的中间。一般地,中截断仅允许有限截断。 中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。在 可能变化的字母处加一截词符”?‖,即可简化输入,提高查全率。
• (2)逻辑与(AND) • ―逻辑与”一般用符号“AND‖表 示,也称为合取联结词,形式上还 可写作为“*”。检索词A和检索 词B若用“AND‖组配,则检索式 可以表示为: • A AND B或者A*B
• (3)逻辑非(NOT) • ―逻辑非”也称否定联结词,一般用符号 “NOT‖或“AND NOT‖表示,形式上还可 写作“一”。检索词A和检索词B若用 “NOT‖组配,则检索式可写为: • A NOT B 或者 A—B
• 后续遍历该二叉树,结点的输出序列即为检 索式的准波兰式。 • 准波兰变换法可以把内存工作区从7个减少 到5个。
4.1.4布尔检索的技术实现
4.2 截词检索 • 4.2.1 截词的含义及其使用方法 • (1)含义 • 所谓截词,是指检索者将检索词在他认为合适的 地方截断; • 而截词检索,是用裁断的词的一个局部进行的检 索,并认为凡满足这个词局部中的所有字符的文 献,都为命中的文献。
• 。
(3)准波兰变换法
• 准波兰变换法是我国学者针对逆波兰变换对系统 内存空间要求过高而提出的一种改进方法。它通 过对逆波兰表达式的改写,得到一个检索时所需 内存工作区个数最少的后缀表达式,这样的后缀 表达式被称为“准波兰式”。 • 创建检索表达式的二叉树表示; • 比较二叉树中每一层次上的左、右子树是否对称 。若不对称,把大的一枝保留或调到左边,小枝 保留或调到右边,直到全部结点的左、右子树都 这样处理完为止;
4.6 检索策略
4.6.1 含义 检索策略:在分析情报提问的基础上,确 定检索途径与检索用词,并明确各词之间 的逻辑关系与查找步骤地科学安排。(陈 光祚) 检索策略是为实现检索目标而制定的全盘 计划和方案,是对整个检索过程的谋划和 指导。(赖茂生)
4.6.2 常用计算机检索策略简介
(1)最专指面优先策赂。 所谓最专指面优先策略,是指检索时,首 先查找所有概念组面中最专指的一个概念 组面。然后,再依据用户需求以及初步检 索结果,决定是否需要加人其他的概念组 面,以及怎样加入其他的概念组面。
4)根据系统中预定义的相似度阈值, 选择与提问向量相似度值大于阈值的 类向量作为下一步进行检索的文档范 围,或者,只选择与提问向量相似的 类向量中的文档作为继续检索匹配的 对象。 5)在选中的类向量所包含的文档集 合中,逐一计算提问向量与各文档向 量的相似度,并将相似度大于指定阈 值的文档座位命中结果排序输出。
4.4.2 位置检索的技术实现
• (1)与布尔检索的关系 • 以上分别介绍了不同类型的位置检索方法 及检索含义。从中不难看出,位置检索实 际上只是一种增强的“逻辑与”(AND)检索 ,因此,位置检索仍然是建立在布尔检索 基础上的一种定性检索技术。
4.4.2 位置检索的技术实现
• (2)特殊情况和要求 • 位置检索要求系统的倒排文档记录必须能全面、 详细地提供每个检索词在数据库中每一次出现时 的位置及其他信息,具体包括:大小写标识、记 录号、字段代码、段落编号、句编号、词位置编 号等。
4.3.2 限制检索的技术实现
字段检索的技术实现比较简单,只需要在布尔检索的基础上 稍作改进即可。具体的改进措施是: 对于采用混合型倒排文档的检索系统,在标引处理过程中, 不仅要记录下所提取的检索词出现的文献编号,还应该记录 该检索词出现的字段位置编号(或代码),以支持检索时的字段 位置匹配。 在有些检索系统中,采用的是对不同字段信息分别建立各自 倒排文档的处理方法,检索时只需要根据用户的查询要求, 到相应字段的倒排索引中匹配就可以了,并不需要在标引时 作特别处理。
4.1.2 布尔逻辑算符的使用说明
(1)同级运算自左向右进行; (2)布尔运算AND和NOT先执 行,OR其次执行; (3)当检索式含有截词符、位 置算符、限制符时,布尔运 算最后执行; (4)先括号内,后括号外,具 有多层括号时,按层次从内 到外逐层进行。
4.1.3 布尔逻辑检索式的变换处理
在以布尔模型为基础的信息检索系统中, 检索软件需要对用户输入的布尔逻辑 检索式进行各种必要的加工和编辑, 以满足后续的检索处理要求。
词位置检索
常用的位置算符有(W)、(nW)、(N)、 (nN W算符是“Word‖或“With‖的缩写,它表示在此 算符两侧的检索词必须按输入时的前后顺序排列, 而且所连接的词之间除可以有一个空格,或一个 标点符号或一个 连接号外不等夹有任何其他单词 或字母,且词序不能颠倒。 该算符的作用与词组等价。 如 物理(W)化学,检索出来的只会是物理化学, 化学物理就不会检索出来。 请同学们举其他的例子
(1)逆波兰变换法
• 逆波兰变换法又称福岛方法。这种方法投 入使用最早,影响最大。其主要的处理思 想是:先将检索式(一般为中缀表达式形式) 转换成等价的逆波兰式(即后缀表达式形式) ,然后将逆波兰式翻译形成一组检索指令 。
1)逆波兰表示法与逆波兰表达式
• “中缀表示法”:运算符放在两个运算项 的中间, (A+B)*C‖。 • 逆波兰表示:运算符放在运算项后面。 • AB+C*
• 4.5.2 聚类检索技术实现的算法思想 • (1)聚类检索技术的实现可以用如下的算法思想进行描 述: • 1)建立检索系统数据库中文档的向量表示,并进行聚类 处理,形成聚类文档。根据系统规模的不同,聚类文档中 通常包含不同的、一定数量的文档类目,每个文档类目可 由一个类向量来代表,而类向量的形成可以采用多种不同 计算得到。 • 2)接收用户的检索请求,并将检索请求表示或转换为提 问向量。 • 3)确定相似度计算函数,并计算提问向量与聚类文档中 各文档类向量之间的相似度。
(2)选择检索系统 要考虑所选择计算机检索系统是否包 含与信息需求结合紧密,学科专业对 口,报道及时,揭示信息内容淮确的 数据库以及检索系统的费用是否昂贵, 检索功能是否完善.辅助服务是否周 到等问题。
(3)确定检索词 检索词可以分为四类:表示主题的检 索词,表示作者的检索词,表示分类 的检索词,表示特殊意义的检索词。 选词的选择: 根据检索课题所涉及的学科专业和技 术内容选词。 对检索词进行处理,使用主题词表进 行比较,选择规范化的词汇,尽量使 用国际上通用的词汇,避免使用一词 多义的词汇。
4.6.3 计算机检索策略的制订和实施
(1)明确信息需求 信息需求按范围和程度的不同, 可以分为三种类型: 对某一课题进行全面详尽的了解, 普查型,查全率 了解关于某一主题特定方面的文 献资料,用于解决研究中的具体 问题,攻关型,需要较高的查准 率。 了解最新的研究方向和研究成果, 探索型。新颖性
(2)检索式的逆波兰变化处理
• 将一个普通的中序表达式转换为逆波兰表达式的一般算 法是: • 首先构造一个运算符栈,此运算符在栈内遵循越往栈顶 优先级越高的原则。 • 读入一个用中缀表示的简单算术表达式,为方便起见, 设该简单算术表达式的右端多加上了优先级最低的特殊 符号“#‖。 • 从左至右扫描该算术表达式,从第一个字符开始判断, 如果该字符是数字,则分析到该数字串的结束并将该数 字串直接输出。 • 如果不是数字Fra Baidu bibliotek该字符则是运算符,此时需比较优先关 系。做法如下:将该字符与运算符栈顶的运算符的优先 关系相比较。如果,该字符优先关系高于此运算符栈顶 的运算符,则将该运算符入栈。倘若不是的话,则将栈 顶的运算符从栈中弹出,直到栈顶运算符的优先级低于 当前运算符,将该字符入栈。
(2)截词的方式 按截断的位置来分,截词可分为后截断、前截断、中截断3种 类型;按裁断的字符数量来分,可分为有限截断和无限截断 两种类型。有限截断是指说明具体截去字符的数量,而无限 截断是指不说明具体截去多少个字符。 截词符号在各情报检索系统中表示不一,但功能相同。通常 用”x‖表示无限额断.用”?‖表示有限截断。
• (4)逻辑异或 • 除以上三种布尔算符外,还有一种逻辑运 算操作称作“逻辑异或”,其运算符号为 “XOR‖(eXclusive OR的缩写)。严格讲来 ,XOR不属于基本布尔运算,但在少数信 息检索系统中也有应用。检索词A和B若用 “XOR‖组配,则检索式可写为: • A XOR B 或者 A①B
相关文档
最新文档