2017.3信息检索基本策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客运→旅客运输
采用上位词
(概念扩大)
(概念缩小)
汽车发动机→发动机
采用下位词
信息检索→计算机检索
17
2017年3月6日星期一
概括主题时的注意事项
如:中国市场的品牌效应--中国 与 市场 与 品牌
注意主题概念中含有而课题字面上没有直接表示 出来的概念,这些概念可能是用同义词、近义词 或具有从属关系的词表示的。
78篇
321篇
19
2017年3月6日星期一
思考题:
分类法与主题法的特点和异同?
2017年3月6日星期一
20
信息检索基本策略
分类检索的基本方法
主题检索的基本方法
数据库检索基本方法
检索效果的评价标准和方法
检索策略的表达及调整方法
2017年3月6日星期一
21
数据库检索技术
布尔检索 截词检索 限制检索 位置检索
含义:在题名字段中查找含有 “optical” 和 “fiber”两 词的所有记录
2017年3月6日星期一
38
基本字段限制
例:“FIB?/TI,DE”
含义:指定在题目和叙词字段中查找以“fib”
为词干的所有记录。
2017年3月6日星期一
39
辅助字段限制
辅助字段:除基本字段以外的所有字段
辅助字段运算符的用法:
哲学理论 世界哲学 中国哲学
B20
唯物主义与唯心主义 B21 古代哲学 B22 先秦哲学(并列类之和等于其直接上位类) B232 秦代哲学 B234 汉代哲学
2017年3月6日星期一 5
类目含义的理解
类目之间的从属关系:第19页
从属关系:
下位概念具有其上位概念的属性 下位类目的含义要通过其上位类来理解 上位概念包含其所属的各级下位概念 从属关系为通过移位进行缩检索和扩检提供了便利
2017年3月6日星期一
22
布尔检索
也称布尔算符,用来表示两个检索单元之
间(检索项)之间的逻辑关系。 AND(逻辑与,可用﹡表示)
OR (逻辑或,可用+表示)
NOT(逻辑非,可用-表示)
2017年3月6日星期一
23
AND 逻辑与
用于组配不同的检索概念,表示概念交叉和限定。
用以缩检,减小范围。 运用逻辑与组配检索可以提高查准率,降低误检 率。 A AND B ; A * B
2017年3月6日星期一 33
截词检索—中截断
一般用于检索
拼写方式有英式、美式之分的单词 元音位置上单复数不同的单词
organization defense organisation defence organi?ation defen?e
2017年3月6日星期一
man men
m? n
2017年3月6日星期一
NOT 逻辑非
用来排除不希望出现的检索词,表示概念的删除关系; 可以缩检,得到更切题的检索效果,也可以提高查准率; 但是使用时要慎重,以免把一些相关信息漏掉。
A-B ; A NOT B
例如:查找“上海地区的 大学,但不包括医学院”
A
B
上海*(高等院校+大学+学院)-医学院
2017年3月6日星期一 35
数据库检索技术
布尔检索
截词检索 限制检索 位置检索
2017年3月6日星期一
36
限制检索
限制检索是通过限制检索范围,缩小检索结果, 达到精确检索的方法。 检索方式主要有:限定范围检索和限定字段检索
限定范围检索:
例如: PY>=1995 即限定出版年份为95及以后的文献
2017年3月6日星期一
9
G252
读者工作 G252.1 图书宣传 G252.12 图书展览 G252.13 报告会 G252.15 读者座谈会 G252.17 阅读辅导 G252.2 馆内阅览 G252.3 外借 G252.4 馆际借书 G252.5 流通站、流通书车 G252.6 参考咨询 G252.61 咨询解答工作 G252.62 定题服务 [G252.63] 书目工作 G252.65 图书馆利用法 G252.7 文献检索
注意同一概念可能用不同语词表示的情况。
如:中国市场的品牌效应
我国、国内 名牌、商标
2017年3月6日星期一
18
检索结果比较
TI =中国 * 品牌 * 市场 TI =(中国 + 我国 + 国内) * (名牌 + 商标 + 品牌) * 市场 TI =(名牌 + 商标 + 品牌) * 市场
55篇
在需要指定字段的检索词之前加上段码和前缀 运算符“=”
例:AU=“Robert,S.”
含义:在作者字段中查找含人名为“ Robert, S.”的所有记录。
2017年3月6日星期一
40
常用的辅助字段
指定著者单位字段
CS=JIAO TONG
指定刊物名称字段
UNIVERSITY
PHYSICS LA=ENGLISH PY=1999
2017年3月6日星期一 26
逻辑算符注意事项 OR逻辑
针对存在整体和部分关系的检索。
如果检索词涉及到表达整体的概念,就要 处理原则:
针对具体情况分别列出每一个表达部分概 “检索关于欧洲能源问题的文献” 念的检索词,否则将出现漏检。 (欧洲 OR 英国 OR 法国 OR 意大利 OR …) 欧洲 AND 能源 AND (但欧洲无法代表英国、法国、意大利等 能源 OR 煤 OR 石油 OR … ) 能源也无法代表煤、石油等
2017年3月6日星期一
30
截词的类型
按照截词的位置,分为后截词
(前方一致), 前截词(后方一致),中截词。 同,常用的有“*”、“?”
如在EI
截词符:不同的检索系统所使用的截词符不
Compendex中所采用的截词符是“* ”, 而在PQDT中所采用的截词符是“?”。
2017年3月6日星期一
注意:(不能用)
概念等同的词
从属概念的词 不相邻的词
2017年3月6日星期一 24
A
B
OR 逻辑或
用于组配具有从属关系和等同关系的词;
表示概念的并列关系; 扩大检索范围,提高查全率,降低漏检率。
注意:
异形同义词
缩写和全称 商品名、俗名、学名
A OR B
; A + B
A
B
25
英文同根词
限定字段检索
字段(field) 检索字段 题名、叙词、文摘、作者 …
2017年3月6日星期一
37
Dialog系统
基本字段: 题名(TI,title) 叙词(DE, descriptor) 自由词(ID,Identifier) 文摘(AB,abstract)字段 在需要指定字段的检索词后加上后缀运算符 “/”和 段码 例:“OPTICAL/TI AND FIBER/TI”
三、信息检索基本策略
美国文献家赫伯特说过:
明日的文盲,不是不Байду номын сангаас阅读的人,而是
缺乏检索能力的人。
宁授鱼杆,勿与鲜鱼。
2017年3月6日星期一
2
信息检索基本策略
分类检索的基本方法
主题检索的基本方法
数据库检索基本方法
检索效果的评价标准和方法
检索策略的表达及调整方法
2017年3月6日星期一
3
分类检索的基本方法
中国图书馆分类法
简称中图法,1971年由北京图书馆、中
国科学技术情报所等单位共同编制完成,
于1974年出版,并经过多次修订与再版,
2010年已修订至第五版。
2017年3月6日星期一
4
中图分类号的结构、从属和并列关系
B
哲学
(上位类包括下位类,下位类从属于上位类)
B0 B1 B2
27
2017年3月6日星期一
逻辑算符注意事项 NOT逻辑
当两个关系紧密的检索词同在一检索逻辑
中时,如果对其中一个使用NOT逻辑会导 致含另一个词的文献也被排除。
例如: (计算机 AND 软件) NOT 硬件
这样,就将同时包含软件、硬件的相关文献 排除了,造成漏检。
2017年3月6日星期一 28
的语词标识(主题词)并按其字顺排检
的检索语言。
一般由主题词表及其编制和使用规则
组成。
2017年3月6日星期一
14
课题:信息检索与分析利用
直接从课题名称中确定检索概念
主要概念:信息检索、分析利用
主题:信息检索 and 分析利用
分类:G252.7 文献检索
2017年3月6日星期一
15
概括主题词的一般方法
并列关系:
并列概念之和等于其直接上位概念 并列类未能枚举出所有同级类目,则最后一个并列类目应该是其他类
相关关系
似是而非的类可通过其上位类判断,也可以通过附注了解 其区别。
6
2017年3月6日星期一
相关关系实例:
F7 贸易经济 F76 商品学 F760 一般性问题 F760.2 商品分类 F760.3 商品包装和运输 J5 工艺美术 J52 中国工艺美术 J524 工商工艺美术 J524.1 产品、商品装璜 J524.2 包装 TB 一般工业技术 TB48 包装工程 TB482 包装设计 TB482.2 结构设计(袋、盒、 罐等容器设计入此) TB484 包装材料(总论包 装材料及其包装技 术入此) TS 轻工业、手工业 TS0 一般性问题 TS09 包装装璜技术
10
2017年3月6日星期一
分类思路
找出核心词,判断其学科属性。 最核心的词,给出一个分类号;两个最核心的词, 则可能有两个分类号。 分类号所表示的概念要能概括课题的主要内容。 要从整体上理解分类号所代表的概念,不要拘泥于 具体的词,尤其不要用课题名称中的词查分类表。 使用分类表宜采用排除法。
数据库检索技术
布尔检索
截词检索 限制检索 位置检索
2017年3月6日星期一
29
截词检索
又称部分一致检索,是在检索词的适当位
置进行截断,然后使用截词符代替,利用 截断的词的一部分进行检索。 截词检索用来预防漏检,提高查全率。 常用于处理词语的单复数,不同拼写方式, 相同词根的相近意义词,以及动词的不同 形式等。
2017年3月6日星期一
7
中图类目结构举例
如:《信息检索与分析利用》——G252.7
G 2 5 2.7
五级类目 四级类目 三级类目 二级 类目 大类(一级类目)
2017年3月6日星期一
8
G 文化、科学、教育、体育 G0 文化理论 G1 世界各国文化与文化事业 G2 信息与知识传播 G20 信息与传播理论 G21 新闻学、新闻事业 G22 广播、电视事业 G23 出版事业 G24 群众文化事业 G25 图书馆学、图书馆事业 G250 图书馆学 G251 图书馆管理 G252 读者工作
31
截词检索—后截断
主要用在如下4个方面: 词的单复数 年代
如198?(80年代),19??(20世纪) 如用bill *可检出所有姓bill的作者。
作者
同根词
如用biolog*可检索出biological、 biologist、biology等同根词。
32
2017年3月6日星期一
概念转换的方法
最小概念原则
弥雾喷粉喷烟机→弥雾机+喷粉机+喷烟机
划分成具有交叉关系的并列概念
食品的低温贮藏→食品贮藏+低温贮藏
划分成主体概念和限定概念
日本电子工业→?
2017年3月6日星期一
16
概括主题词的一般方法
主题词替换方法
采用同义词、近义词
(替代)
计算机→电脑
JN=APPLIED
指定语言字段 指定年份字段
woman women wom?n
34
限制检索—字段限制
字段限制是调整检索策略的一种重要手段。
多数检索系统对不指定字段的检索词,在
所有基本字段中进行搜索。
可检索的字段
文献内容特征的主题字段
(基本字段)
如题名、叙词、标识词和文摘等
文献外部特征的非主题字段(辅助字段)
如作者、文献类型、语种、出版年份
截词检索—前截断
一般用于检索:
一个学科的不同应用领域。 复合词较多的文献
*
magnetic
Magnetic a.有磁性的 前截断同后截断可以结合使用
*chemi* Electro-magnetic a.电磁的
chemical chemistry Thermo-magnetic a.热磁的 chemist electro chemical physicochemical thermo chemistry
2017年3月6日星期一
11
思考题
C913.7
? D632.1 ? F323.89?
2017年3月6日星期一
12
信息检索基本策略
分类检索的基本方法
主题检索的基本方法
数据库检索基本方法
检索效果的评价标准和方法
检索策略的表达及调整方法
2017年3月6日星期一
13
主题检索
主题检索语言是指采用描述文献主题