第二章 信息检索原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关 键 词 途 径
题 名 途 径
著 者 途 径
机 构 途 径
代 码 序 号 途 径
信 息 源 类 型 途 径
其 它 途 径
30
/
一、根据信息内容的检索途径 (重点)
• 分类途径:以学科性质和内容的相应类目、类号为特征标识 的检索方法。 明确检索课题的学科属性、分类等级,获得相应的分类号, 然后逐类查找。分类途径是一种族性检索,当用户所需信息 范围较宽或较复杂时,主要应采用分类检索途径。 • 主题途径:根据学科内容的主题性质而进行的检索,检索入 口为能反映所需课题的主题词。它组配灵活,适应用户复杂 的检索需要。 • 注意问题:利用词表;要善于利用概念之间属种关系和相关 关系增加检索线索。 • 关键词途径:把表达信息主题内容起关键作用的词组或单词 抽取出来,编制成“关键词”索引,利用它查找所需信息。 关键词是一种很灵活的词组或单词,它不需规范化词表,使 用较方便,在计算机检索系统中应用较广。
8
二、信息检索类型
2、数据检索:以数据为检索对象,从已收藏数据资料 中查找出特定数据的过程。其结果是数据信息。 例如:某一新型载货汽车的百公里耗油是多少? 3、事实检索:是以具体事项为检索内容的信息检索, 要求从检索系统存储的各种原始信息资源中查出专门 的事实材料。 其结果是基本事实。 例如:29届夏季奥运会的主办城市是那座? 凡以数据或事实为检索对象的, 是一种确定性检索, 该类检索能直接回答用户提出的技术问题,提供用户 所需要的确切数据或事实。
2013-11-4 31
2013-11-4
32
2013-11-4
33
2013-11-4
34
二、根据文献外部特征的检索途径P31
• 著者途径 个人或团体作者 • 题名途径 篇名、书名、期刊名、标准名、文档名、数
据库名
• 机构途径 作者 单位、出版社、数据库的创建者、域名
等等
• 代码途径 专利号、报告号、合同号、馆藏号、IP地址等 • 信息源类型 途径 图书、期刊、科技报告、技术标准等 • 其它途径 化学分子式、生物属种、声音强度等,专业技
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
• 包括单元词语言、标题词语言和叙词语言
2013-11-4
24
单元词语言 是一种最基本的、不能再分的单位词语,亦称元词, 它从文献内容中抽出,现经过规范,能表达一个独立的 概念。如“天气雷达”不是单元词,只有“天气”和 “雷达”才是单元词。 标题词语言 是从文献的题目和内容中抽出来,经过规范化处理的 主题语言。
叙词语言
是以表达文献主题内容的概念单元为基础,经过规 范化处理,可以进行逻辑组配的一种主语语言。常用的 叙词表有《汉语主题词表》、《工程索引叙词表》
2013-11-4
25
二、检索语言的种类
2)非规范主题语言 • 相对规范主题语言而言,以自然语言的语 词作检索标识,其所用词汇未经过规范化 处理。 • 包括关键词语言和纯自然语言。
2013-11-4
11
四、检索手段
1、手工检索(传统信息检索)
手工检索简称“手检”,用人工来处理和查找所需信 息的检索方式,就是手工信息检索,是利用各种印刷型 检索工具来查找文献的一种方法。
检索工具:书本型、卡片式的信息系统。如目录、索引、
文摘和各类工具书。
2013-11-4
12
四、检索手段
2、计算机检索(现代信息检索)
2013-11-4
13
第二节 检索语言
一、检索语言的概念
二、检索语言的种类(难点)
2013-11-4
14
一、检索语言的概念
1、定义:
检索语言是根据检索需要而创造的一种 人工语言。是用于描述信息系统中信息 的内容特征及外部特征和表达用户信息 提问的一种专门语言。
2013-11-4
15
2、作用
1、保证不同标引人员表征文献信息的一致性。 2、使内容相同及相关的文献集中化。 3、保证检索提问与文献信息标引的一致性。
术人员利用较多
•
2013-11-4 35
2013-11-4
36
以上讲:信息检索方法、途径与步骤
2013-11-4
37
四类检索运算符 1、布尔逻辑算符 2、位臵算符(略) 3、截词符(略) 4、字段符
2013-11-4
38
1、逻辑“与”AND 使用“ ”或“&”表示(缩小检索范围)
*
2、逻辑“或”OR 使用“+”或“|”表示 3、逻辑“非”NOT使用“–”表示
2013-11-4
17
2、按内容性质和结构原理划分
1、分类语言
分类语言是用分类号和相应分类款目来表达各种概念,将 各种概念按学科性质进行分类和系统排列。
中国图书馆图书分类法
美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
2013-11-4
18
中国图书馆图书分类法大类表(节录)
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4
信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2
一、信息检索的定义:
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并 根据用户的需要找出相关信 息的过程。
存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。 检索:是指面向信息需求 而进行高度选择性的查找 过程。
3
存储
信息检索 检索
2013-11-4
信息检索的一般过程(基本原理)
第一节 信息检索的概念及类型 第二节 信息检索语言 第三节 信息检索方法、途径与步骤 第四节 网络信息检索
本章要点:信息检索的基本概念和原理
2013-11-4
1
第一节 信息检索的基本概念(重点) 一、信息检索的概念 二、信息检索类型 三、信息检索方法、途径与步骤 四、网络信息检索
2013-11-4
2013-11-4 9
二、信息检索类型
4、图像检索 即以图形、图像或图文信息为检索内容的信息检索。
5、多媒体检索 是以文字、 图像、声音等多媒体信息为检索内容的 信息检索。
2013-11-4
10
二、信息检索类型
补充:按是否使用检索工具划分信息检索可分为直接检 索和间接检索。
1、直接检索 就是指利用一次文献进行检索,这是以前 比较常用的一种查找方法。所花时间多和精 力大,检出文献少。 2、间接检索 就是指利用各种检索工具获得文献线索, 再根据线索去查找原始文献线索的方法。
2013-11-4 7
二、信息检索类型
书目检索:是以文献线索为检索对象的文献检索。检索系统存 贮的是二次文献。用户通过检索获得的是与检索课题有关的一 系列文献线索。
全文检索:是以文献所含的全部信息作为检索内容的,即检索 系统存储的是整篇文章或整本图书。全文检索是当前计算机信 息检索的发展方向。
2013-11-4
由远及近地搜寻 由近及远地追溯
引文法
交替法:就是把引文法和常规法结合起来
2013-11-4
29
2、信息检索途径
检索途径又称检索入口,指信息用户在检索时,把所 需信息的某种特征标识转换为检索标识,以此为入口 进行检索。
检索途径
信息内容特征
信息外部特征
举例
分 类 途 径
2013-11-4
主 题 途 径
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
2013-11-4
5
二、信息检索类型
根据检索内容的不同,可以将信息检索分为五类
信息检索
文献检索
数据检索
事实检索 多媒体检索 图片检索
书目检索
全文检索
6
二、信息检索类型(5类)
1、文献检索
定义: 文献检索是以文献(包括文摘、题录或全文)为检索对 象, 从已存贮的文献数据库中查出特定文献的过程。 文献检索是信息检索的核心部分。例如:“设计人行 天桥的参考文献有哪些?” 分类: 文献检索根据检索内容不同又可分为:书目检索和全 文检索,如我校图书馆购买的超星数字图书馆和维普照 中文科技期刊数据库都能进行书目和全文检索. 这是是一种相关检索,不直接解答用户所提出的技术问题 本身,只提供与之相关的文献供用户参考。
2013-11-4
39
1、逻辑“与”AND
A B
用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。
用符号“and”或“* ”表示,其检索(逻辑)表达式为:
A
其意义为检索记录中必须同时含有检索词A和B词才算命中文 献(共2965条最少)。
2013-11-4 40
*
B
或
A and B (VIP不认)
4、保证检索者按不同需求检索文献信息时, 都能获
得最高的查全率和查准率。
2013-11-4
Hale Waihona Puke Baidu
16
3、分类:
的类型 1、按检索词语规范化程度划分: 人工语言:是人为地对标引词或检索词加以 控制和规范使 每一个词只能表达一个概念 自然语言:直接从原始信息中抽取出自由词 作为检索点的检索语言
信息检索语言依其不同的划分标准,可分为不同
21
2013-11-4
中国图书馆图书分类法大类表(节录)
TU建筑科学
TU—0建筑理论 TU1建筑基础科学 TU19建筑勘测 TU2建筑设计 TU3建筑结构 TU4土力学、地基基础工程 TU5建筑材料 TU6建筑施工机械和设备 TU7建筑施工 TU8房屋建筑设备 TU9地下建筑 TU97高层建筑 TU98区域规划、城乡规划 TU99市政工程
2013-11-4
20
中国图书馆图书分类法大类表(节录)
T工业技术
TG 金属学和金属工艺 …… TG5 金属切削加工及机床 …… TG61 齿轮加工及齿轮机床 TG7 刀具、磨料、磨具、夹 具 TG76 模具
TB一般工业技术 TD矿业 TE石油、天然气工业 TF冶金工业 TG金属学与金属工艺 TH机械、仪表工业 TJ武器工业 TK能源与动力工程 TL原子能技术 TM电工技术 TN无线电电子学、电信技术 TP自动化技术、计算机技术 TQ化学工业 TS轻工业、手工业 TU建筑科学 TV水利工程
(扩大检索范围)
(从原来的检索范围中排除不需要的概念) 执行顺序:逻辑非、逻辑与、逻辑或 (也有按逻辑算符的先后次序执行,但可以用小括号改变执行的先后顺序。) 举例:用能源作检索词,在VIP中检索到的记录结果有61149条 能源*太阳能检索到的记录结果有2965条(最少) 能源or太阳能检索到的记录结果有6639条(最多) 能源-太阳能检索到的记录结果有58184条
基本部类
马克思列宁主义毛泽东思想
哲学
基本大类
A马克思列宁主义毛泽东思想邓小平
理论
社会科学
B哲学、宗教 C社会科学总论 D政治法律 E军事 F经济 G文化、科学、教育、体育 H语言、文字 I文学 J艺术 K历史地理
2013-11-4
19
中国图书馆图书分类法大类表(节录)
自然科学
综合性图书
N自然科学总论 O数理科学和化学 P天文学、地球科学 Q生物科学 R医药、卫生 S农业科学 T工业技术 U交通运输 V航空、航天 X环境科学、安全科学 Z综合性图书
2013-11-4
26
关键词语言 直接从文献信息的标题、摘要或内容本身抽 取出来的用于揭示信息主题内容的自由词。 纯自然语言 指完全使用自然语言,即对一条完整的信 息中任何词汇都可以进行检索。它采用全文匹 配法检索,主要运用于计算机全文数据库和网 络信息检索中。使用纯自然语言检索最大的问 题是误检率极高