信息检索教程第1章 信息检索基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
第1章 信息检索基础
1.4 信息检索方法
信息检索的效率与具体的信息检索 方法有很大的关系,运用有效的信息检 索方法能够使用户以最少的时间获得最 满意的检索结果。信息检索方法的运用 离不开各种信息检索系统,总的来说, 检索方法有直接浏览法、常用法、追溯 法和综合法。
16
第1章 信息检索基础
1.4.1 直接浏览法
19
第1章 信息检索基础
1.4.4 综合法
也有人称之为分段查找法、循环法或交替法。先利用 检索工具查出一定时期内的一批有用的文献,然后依据这 些文献后所附的参考文献,利用追溯法查出前一时期的文 献,如此分期分段地交替使用上述两种查找方法,直到满 足要求为止。这种方法兼有上述两种方法的优点,可以查 得全面而准确的信息,适合于查阅那些过去年代内文献量 较少的专业,并可弥补因检索工具不全而造成的漏检,检 索效果较好。
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
17
第1章 信息检索基础
1.4.2 常用法
指利用检索系统来查找信息的方法,这是目前查找信 息的最常用的方法,故而称常用法。常用法包括顺查法、 倒查法和抽查法。
18
第1章 信息检索基础
1.4.3 追溯法
指从已有的文献信息后所列的参考文献入手,逐一追 查原文,从这些新查到的原文后面所附的参考文献再逐一 追查,不断扩大检索范围的检索方法。其优点是:在没有 检索工具或检索工具不齐全的情况下,借助此种方法,也 可以查到一批有关的文献。其缺点是:原文作者引用的参 考文献是有限的,不可能列出全部有关文献,而且有的引 用文献又与原文关系较小或较远,参考价值不大。单独使 用这种方法,还是存在一定的局限性。
1.1.3 网络环境下的信息变化
1.1.3.1 因特网对信息的影响 1. 特网引发了信息新的出版形式——网络出版,形成了 新型的网络信息资源 2. 因特网使人类传统的信息交流方式发生了根本性的变 化 3. 特网推动了信息处理技术发展
1.1.3.2 网络环境下信息的新特点 1. 信息类型多样化 2. 信息的数量和内容都得到了极大的丰富 3. 信息在分布上呈现出明显的分散性 4. 信息共享程度提高
普通高等教育”十一五”国家级规划教材
信息检索教程
王立清 主编
第1章 信息检索基础
以知识经济为显著特 征的信息社会已经成为社 会发展的趋势。人类社会 的发展,科技技术的进步 都离不开信息资源的开发 利用。
我们怎样快速的查找 信息和有序的整理信息? 信息检索是最快的途径。
本章要点
● 解释信息的含义与特征 ● 论述信息的分类 ● 介绍信息检索的概念 ● 阐述信息检索的原理 ● 讨论信息检索系统 ● 梳理信息检索方法
1
第1章 信息检索基础
1.1 信息概述
1.1.1 信息的含义与特征
1.1.1.1 信息的含义 信息的含义有广义和狭义之分: 广义的信息指自然界和一切人类
活动所传达出来的信号和消息,是 事物表现的一种普遍形式。
狭义的信息指经过搜集、记录、处 理和存储的可供检索的文献、数据 和事实。它是人类对客观事物的认 识,是实践经验的总结,是认识的 结果,是我们检索的对象。
6
第1章 信息检索基础
基于狭义信息概念的信息分类
按媒体类型分
印刷型信息 缩微型信息 视听型信息 机读型信息
按信息内容分
经济信息、科技信息 政务信息、文化信息 教育信息、军事信息
等
按信息的加工程度分
零次信息 一次信息 二次信息 三次信息
按信息出版发行特点分
正式出版信息
非正式出版信息
7
第1章 信息检索基础
4
第1章 信息检索基础
1.1.2.2 信息的类型
对信息的分类可以从广义信息和狭义信息两个方面来 进行理解。
A
B
基于广义信息概念 的信息分类
基于狭义信息概念 的信息分类
5
第1章 信息检索基础
基于广义信息概念 的信Байду номын сангаас分类
依据信息的产生,可以分为社会信息 和自然信息
依据信息的运动状态,可以分为自在 信息、自为信息和再生信息
24
第1章 信息检索基础
1.5.2 影响信息检索效果的因素
标引的质量 检索语言的性能 检索途径的数量 检索策略的优劣 检索人员的素质
25
第1章 信息检索基础
1.简述信息的特征和功能。 2.如何理解信息的分类? 3.信息检索的含义。 4.信息检索的原理。 5.信息检索的意义。 6.信息检索系统及其分类。 7.信息检索的方法有哪些?各有什么特点? 8.信息检索效果评价的意义。 9.信息检索效果评价的指标有哪些? 10.影响信息检索效果的因素有哪些?
20
第1章 信息检索基础
1.5 信息检索 效果
1.5.1 信息检索效果评价
信息检索效果是指信息检索系统 检索的有效程度,它衡量了检索结果 对用户需求的满足程度,是检索系统 性能的直接反映。
据美国学者克莱弗登的研究,评 价信息检索效果的指标主要有六个: 收录范围、查全率、查准率、响应时 间、用户负担和输出形式。
8
第1章 信息检索基础
1.2 信息检索 的原理和概念
1.2.1 信息检索的概念
信息检索从广义的角度讲,包含 信息存储和信息获取两个过程。
信息存储指通过对大量无序信息 的选择和收集著录和标引等方法,建 成各种各样的信息检索工具或信息检 索系统,使之成为有序化信息集合的 过程。
信息获取是存储的逆过程,其实 质是根据特定的需求,运用已组织好 的检索系统,将特定的信息查找出来。
21
第1章 信息检索基础
1.5.1.1 查全率(Recall Ratio)查准率(Precision Ratio) 查 全 率 和 查 准 率 是 由 美 国 佩 里 ( J.W.Pery ) 和 肯 特
(Allen Kent)于50年代中期提出来的,后经不断改进和完 善,至今已成为评价检索效果最常用的两项关键指标。确定 查全率和查准率最常用的方法是有名的2×2表。
26
Thank You!
27
22
第1章 信息检索基础
1.5.1.2 漏检率(Omission Factor)和误检率(Noise Factor) 漏检率指漏检相关文献信息量与检索系统中相关文献信 息总量的比率,它与查全率相对应。具体公式如下: 漏检率=[漏检相关文献信息量/检索系统中相关文献信息 总量]×100%=(c/a+c)×100% 误检率指误检(检出不相关)文献信息总量与检出文献 信息总量的比率,是衡量信息检索系统误检程度的尺度,与 查准率相对应。 误检率=[误检文献信息量/检出文献信息总量]×100%= (b/a+b)×100%
2
第1章 信息检索基础
1. 可存储性 2. 可传递性 3. 可转换性 4. 可处理性 5. 可共享性 6. 可识别性 7. 依附性 8. 普遍性
1.1.1.2 信息的特征
3
第1章 信息检索基础
1.1.2 信息的功能和类型
1.1.2.1 信息的功能 1. 传承人类文明,推动社会发展 2. 提供决策依据,提高决策效益 3. 保障有效控制,保证系统秩序 4. 发挥参考作用,推动知识创新
1.2.4.2 计算机检索 随着计算机技术和网络技术的发展,计算机检索经历了脱 机检索、联机检索、光盘检索和网络检索四个阶段。在当今 网络环境下,计算机检索将发挥更大的作用,更好地满足人 们日益增长的文献信息需求。
12
第1章 信息检索基础
1.3 信息 检索系统
1.3.1 信息检索 系统的概念
13
第1章 信息检索基础
1.3.2 信息检索系统的构成
1.信息选择子系统 2.信息索引子系统 3.词表管理子系统 4.检索子系统 5.用户同系统之间交互子系统 6.匹配子系统
14
第1章 信息检索基础
1.3.3 信息检索系统的分类
手工检索系统
计算机检索系统
书本式的手工检索系统 卡片式的手工检索系统
光盘检索系统 联机检索系统 网络检索系统
物力及时间
11
第1章 信息检索基础
1.2.4 信息检索的历程
信息检索的发展与人们信息需求的增长以及现代信息技 术的进程紧密相关。追溯时间发展的脉络,信息检索的发展 经历了手工检索阶段和计算机检索阶段:
1.2.4.1 手工检索 直接发源于图书馆的参考咨询工作和文摘索引工作。主要 检索工具是纸本工具书。
9
第1章 信息检索基础
1.2.2 信息检索的原理
信息检索的分类
文献检索 Document Retrieval
数据检索 Data Retrieval
事实检索 Fact Retrieval
10
第1章 信息检索基础
1.2.3 信息检索的意义
1. 信息检索是有效利用信息资源、实现其最大价值的 科学方法
2. 信息检索是再学习的工具,是获取知识的有效途径 3. 信息检索能有效地提高科研工作的效率,节省人力
23
第1章 信息检索基础
1.5.1.3 响应时间(Response Time)
响应时间指在一次检索过程中,用户从开始向信息检 索系统提问到系统输出检索结果的全部时间。响应时间的 长短也是评价检索系统效果的重要指标,直接反映着信息 检索的速度。
此外,还有一些与检索效果相关的指标,如检索系统 的收录范围、结果输出形式、易用性、用户负担,以及在 网络环境下发展起来的重复链接率、死链接率等。