第二讲 信息检索概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.布尔逻辑符检索(Boolean Operators):
所谓布尔逻辑符检索是用布尔逻辑算符将检索词 (关键词、主题词)、短语或代码进行逻辑组配, 凡符合逻辑组配所规定条件的为命中文献,否则 为非命中文献。它是信息检索中最常用的一种检 索方法。逻辑算符主要有: 逻辑“与”(AND 或 *) ; 逻辑“或”(OR或 + ); 逻辑“非”(NOT或-)
4
信息检索步骤示意图
分析检索课题 1.主题内容 2.时间范围 3.信息类型 4.检索语种 题 概 念 主 1.索 2. 检索 检索 1.分类 2.主题 3.题 4. 5.
获 息 一 次 信 取
检索 1. 2. 信息检索
1. 雦 2. 3.信息类型
信息 息 线 索
信
检索 1. 2. 3. 4. 5.
3.截词符检索(Truncation、Wildcard Symbols): 利用检索词(关键词、主题词)的词干或不完整词 形进行查找的过程为截词检索。它可以起到扩大检 索范围,提高查全率,减少检索词(关键词、主题 词)(关键词、主题词)的输入量,节省检索时间。 尤其在英文检索系统中检索时,若遇到名词的单复 数形式,词的不同拼写法,词的后缀变化时,均可 采用此方法。截词的方式有多种,可以分为有限截 词、无限截词和中间截词。
核心概念的选取 有些检索词中已经含有的某些概念,在概念分析中应予以 排除。例如:课题"公司劳动奖励、职工培训和养老保险制度 管理的理论和实践",如果把"劳动奖励","职工培训","养老 保险","公司","制度","管理"六个概念全部组配起来,则 会造成大量文献漏检。实际上,劳动力资源管理已经包含了 劳动奖励、职工培训和养老保险三个方面,而且,劳动力管 理必然是针对该三个方面而言的。因此,本课题只须采用"劳 动力资源"和"管理"这两个本质概念即可。 为了提高文献的检准率,应该从相应的规范词表中选择 所需的检索词。并且在确定检索词时,除了要考虑反映主题 概念的同义词、近义词等相关的检索词外,还要注意选择被 选用检索词的缩写词和不同拼法的词,以避免漏检有关的文 献。
5
信息检索步骤
① ② ③ ④ ⑤
分析检索课题,明确信息需求 选择检索工具,了解检索系统 确定检索途经,选定检索方法 实施检索策略,浏览初步结果 调整检索策略,获取所需信息
说明 说明
说明 说明
6
2.3 信息检索的基本技术
信息检索过程中,为了保证检索结果的快、 全、准,仅靠一个检索词(关键词、主题 词)难以满足检索的需要,有时需要用各 种算符将若干个检索词(关键词、主题词) 组成检索式进行检索。它们主要有布尔逻 辑符检索、位置算符检索、截词符检索和 限制符检索。
第二讲 信息检索概述
1. 2. 3.
信息检索原理 信息检索的一般方法 信息检索技术
检索与查找的区别
检索 英文 过程和方 法 技能 用途 结果 效率 Retrival 或 Retrieval 查找、搜索、 查找、搜索、 搜寻 Search
有一定的策略,是系统的查找资料。 随机或更随意一些。 需要一定的专门知识和技能 课题或专题 检索前通常不知道会有什么结果 迅速、准确 简单,任意词 日常生活 通常知道结果 一般
2.位置算符检索(Proximity Searching、Adjacent Operators): 位置算符是在检索式中表示算符两边的检索词(关 键词、主题词)之间位置关系的符号。这种方法能 够提高检索的准确性,当检索的检索词(关键词、 主题词)要用词组表达,或者要求两个词在记录中 位置相邻/相连时,可使用位置算符。 (nW)算符 (nN)算符 (F)算符 (S)算符:
返回
返回
பைடு நூலகம்
检索策略的调整 检索策略输入检索系统后,系统响应的检索结果有时不 一定能满足课题检索的要求,例如:或者检出的篇数过多, 而且不相关文献所占比例很大,或者检出的文献数量太少, 有时甚至为零,这时就需要调整检索策略。 调整检索策略之前,首先要分析造成检索结果不理想的 原因。例如:对于输出篇数过多的情况,可能选用了多义 性的检索词; 如果需要扩大检索范围,提高文献查全率,可以采用增 加同义词或同族相关词,使用逻辑或(OR)将它们连接起来 的方法。 如果是属于缩小检索范围,提高文献查准率的,可以 采用减少同义词或同族相关词的方法;
小结
检索与查找的区别 信息检索的原理 信息检索工具、方法、步骤 能通过“信息检索原理图”理解信息检索 原理 能够借助“信息检索步骤示意图”理解并 记忆信息检索五步骤
12
课题概念的分析方法 分析课题就是分析出课题所涉及的主要概 念,并找出能代表这些概念的若干个词或 词组,进而分析概念之间的上、下、左、 右关系。对于新学科、交叉学科和边缘学 科的课题,则要搞清楚这些概念之间的关 系。概念分析的结果应以概念组为单元的 词或词组的形式列出,以便下一步制订检 索策略时使用。
返回
检索策略构成 在实际检索过程中,仅需一个检索词就能满足检 索要求的情况并不很多。通常我们需要使用多个 检索词构成检索策略,以满足由多概念组配而成 的较为复杂课题的要求。 检索策略,又称提问逻辑,就是对多个检索 词之间的相互关系和检索顺序作出的某种安排。 构成检索策略就是运用计算机情报检索系统可以 接受的方法,包括布尔逻辑算符、位置逻辑算符 等方法,表达课题检索要求的过程。
3
2.2 信息检索的一般方法
顺查法:时间上,远 远 到查法:时间上,近 近 近 查全率高 远 查准率高
抽查法:研究的高级阶段 检索效率高 追溯法(引文法) : A.一次文献 参考文献 一次信息 参考文献 …… 近 远 B.一次文献 引用该一次信息的文献 新的一次 文献 …… 实际是由“远 近 ”越查文献越新 远 交替法(综合法)
返回
数据库的选择
不同数据库的学科范围不同,检索指令不同,收费的标 准也不同。所以,在检索之前应该阅读有关数据库的使用介 绍,以便选择数据库时做到心中有数。 选择数据库,我们一般应该遵循以下几条原则: 1.按照课题的检索要求和目的,选择收录文献种类多、 专业覆盖面宽、年代跨度对口的数据库; 2.当需要查找最新文献信息时,选择数据更新周期短的 数据库; 3.当还需要获取原文时,选取原文获取较容易的数据库; 4.在同时有多个数据库可供选择的情况下,应首先选择 比较熟悉的数据库。 5.当几个数据库的内容交叉重复率比较高时,应选择检 索费用比较低的数据库。
隐含概念的分析方法 有些课题的实质性内容往往很难从课题 的名称上反映出来,课题所隐含的概念和 相关的内容需要从课题所属的专业角度作 深入分析,才能提炼出能够确切反映课题 内容的检索概念。例如:"社会保障"包含 "养老保险"、"失业保险"、"医疗保险"和" 社会救济"等概念,如果要检索社会保障 方面的文献,应该析出上述概念,才能保 证文献的查全率。
如果不刻意区分:你完全可以认为它们没有区别! 如果不刻意区分
2
2.1 信息检索原理
从技术上来说,信息检索是以信息的存储与检索 之间的相符性为基础的,如下图“信息检索原理 图”:
存储 一次 信息 信息 特征 检 索 语 言 检索 检索 检索 标引 检索 标 系 统 ) 检索 标引 信息特征 标 信 息 检 索 工 具 果 ( 结 索 检
4.限制符检索(Range) 限制符检索是通过限制检索范围,达到优化检索结 果的方法。不能完全确定检索词(关键词、主题词) 在数据库记录中出现的字段位置,特别在使用自由 词进行全文检索时,需要用字段限制检索的范围。 常用的字段代码有标题(TI)、文摘(AB)、叙词 (DE)、识别词或自由词(ID)、作者(AU)、语 种(LA)、刊名(JN)、文献类型(DT)、年代 (PY)等。这些限制符在不同的数据库系统有不同 的表达形式和使用规则。