信息检索与利用第2讲章计算机检索技术共97页
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项:
• 布尔逻辑运算符运算顺序为: not→and→or • 运算符遵循数学运算法则;
(a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 逻辑“非”算符,是具有概念包含关系的一种组 配,可以从原检索范围中排除某一内容。
• 表达形式:A not B、A-B • 具有缩小命中范围,提高查准率,增强检索的
专指性,减少输出量的作用。
• 例:Energy not nuclear
A
B
17
布尔逻辑检索技术
• 逻辑或(OR): 扩大检索范围,有利于提高查全率。 • 逻辑与(AND):缩小检索范围,有利于提高查准率。 • 逻辑非(NOT):缩小检索范围,有利于提高查准率。
• 单元词:指从信息内容中抽出的最基本的词汇。 • 关键词语言:关键词是从文题、文摘或正文中
抽出,具有实质意义,能够代表文献内容主题 的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词:指从信息的内容中抽出的、能概括表达 信息内容基本概念的名词或术语,它是经规范化处 理的自然语言词汇。
• 叙词受叙词表控制,有组配功能。 运输飞机设计
• 截词符具有“OR ”运算符的功能,能够扩大检 索范围,而且减少了输入检索词的时间,节约 了机时。
22
截词的分类
• 按位置分类: 前截词 中间截词 后截词
• 按取代数量分: 有限截词 无限截词
23
15
逻辑或
• 逻辑“或”算符,用来表示概念的并列、平行、 等同关系
• 代表符号:“or”、“+”
AB
• 表达形式:A OR B 或 A + B
• 具有扩大检索范围,减少漏检的功能。
• 例:AIRPLANE OR AIRCRAFT (Google) 或 AIRPLANE+AIRCRAFT
16
逻辑非
信息检索与利用
信息检索技术基础
1
主要内容
2.1 信息检索语言 2.2 信息检索技术 2.3 检索效果评价 2.4 检索词的确定 2.5 信息检索策略及策略式 2.6 信息检索步骤 2.7 科技查新
2
2.1 信息检索语言
• 检索语言:在信息的存储和检索过程中, 为使信息在用户和系统间有效传递,各 种检索工具使用专门的语言体系来描述 信息的内部特征和外部特征,同时要求 用户依此构造检索提问式来进行信息检 索,这种专门的语言体系成为检索语言。
运输 飞机 设计
• 通常使用的叙词表有:
运输飞机
飞机设计
国内《汉语主题词表》,
英国《科学文摘》使用的《INSPEC Thesaurus》,
美国《工程索引》使用的《Ei Thesaurus》等。
7
EI(Thesaurus)
8
2.1 信息检索语言
作用 • 检索词用来组织信息(信息工作者)
• 对文献信息内容进行标引; • 对内容相同或相关的信息加以集中或揭示其相关性; • 对信息进行系统化、有序化;
• 检索词用于检索(检索用户)
• 进行主题检索 • 进行分类检索 • 进行外表特征检索
• 检索词是信息资源组织与检索者检索提问的桥 梁,在数据库中,对应为检索点、检索入口
9
特征1 特征2 特征3 特征4 特征5
对文献信息内容进行标引
特征n
数据库中文献的记录方式
字段名
11
2.2 信息检索技术
2.2.1 布尔逻辑 2.2.2 截词检索 2.2.3 限制检索 2.2.4 位置逻辑 2.2.5 检索策略式
5
2.1 信息检索语言
• 标题词语言:是表征文献内容特征的、经过规 范化处理的名词术语(包括词和短语)。
例如:飞机:plane、airplane、aeroplane aircraft 用aircraft来表示所有“飞机”概念,以此作为规范词.使 用aircraft一词的检索结果将包括全部有飞机概念的文 献.
14
逻辑“与”
• 在计算机信息检索时,“与”用于表示概念的交 叉、限定关系
• 逻辑符号:and、﹡、还可用空格表示 A
B
• 表达形式:A and B、 A * B 、或 A B
• 具有缩小检索范围和提高专指性的功能。
• 例: computer and control (SCI) computer*control (Dialog) computer control (Google)
3
2.1 信息检索语言
检索 语言
描述文献 内容特征
分类语言
主题语言
关键词语言 单元词语言 标题词语言 叙词语言
描述文献 外表特征
题名(书名、刊名、篇名) 著者 出版事项
代码/序号
4
2.1 信息检索语言
• 主题语言(内容特征) • 按照主题性质的不同可分为:
• 标题词 • 单元词 • 叙词 • 关键词
20
写出下图的布尔逻辑检索式
2.2.2 截词检索
• 截词(truncation):是指检索者将检索词在认为比 较合适的地方截断,也称模糊检索,又称词干 检索法
• 截词检索,用截断的词的一个局部进行的检索 即利用检索词的词干加上截词符号去数据库中 进行检索。(模糊检索)
• 截词符号:一般为“?”或 “*” 。各种检索系统 有不同规定,没有统一标准。
以交换; (c) 检索式中有not时前后检索词不能交换。
Байду номын сангаас
备注: ( )必须在半角和英文状态下输入
19
布尔逻辑检索表达式的特点
• 布尔检索表达式式目前信息检索系统中 使用最多的一种方法。
• 优点:表现直观清晰,方便扩检和缩检。 易于计算机实现。
• 缺点:没有反映文献内容(或信息需求) 所涉及的多个概念的相对重要性。没有 反应概念之间的内在语义关系。
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有 相交关系、同义关系或相关关系,这时 采用布尔逻辑进行检索项之间的逻辑组 配。
用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系, 这时采用布尔逻辑进行检索项之间的逻辑组配。 • 布尔逻辑算符有三种: 逻辑与、逻辑或、逻辑非 用“与”(AND)、“或”(OR)、“非” (NOT)来表达。