第二章 信息检索理论基础
合集下载
信息检索的基本知识
⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识
信息检索课件第2章
学术评价与评估
信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。
信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。
信息检索基础 PPT课件
2.4.2 信息财富
物质、能量、信息是现代社会发展的三大支柱,缺一 不可,而信息资源起着主导作用.
人类财富观:
古代农业社会—农业财富观、货币财富观。 工业社会—股票成为这一时期的财富代言。 20世纪50年代以来—信息资源成为财富的象征。
2.5 信息查询与利用的重要性
数字化时代生存的基本技能:是终身学习的技能, 即具有较强的信息发现、吸收、创新能力。在信息时 代一个人生存的质量如何取决于其信息化程度与信息 素质能力的高低。在信息社会中,个人的信息获取能 力,会对个人的事业成功、经济收入、社会地位即个 人的生存能力产生直接的影响,信息获取能力的差异 有可能形成社会中信息富有和信息贫穷的对立的不平 等情形:一部分人因拥有知识及技巧而能在许多方面 处于有利地位,另一部分人则有可能陷入不利境地。
2.2.4信息、知识与文献的关系
★事物发生发出信息;
★信息经人脑加工变为知识
信息只有经过加工,上升为对自然和社会发展客观规律的 认识,才构成知识。
★知识被记录形成文献;
★文献经传递、应用于理论与实践产生新的信息。
2.4信息社会和信息财富 2.4.1信息社会的特点:信息总量剧增,多媒体
技术和信息高速公路网络被广泛应用,成为信息 社会的重要表征,同时,信息渗入到社会生活的 各个角落,影响和改变了人们的生活和生存方式 。 一个国家的信息化程度,代表着其社会生产力的发 展水平,也决定着这个国家在下一个世纪中存在 与发展的实力和地位,而国家的信息化需要大批 具有信息素质的创造性人才。
3.信息检索方式
(1)根据信息的存储载体和检索技术手段的不同分类 手工检索:传统检索方法,是指手工翻检的方式,利用工具书 等各种印刷版适用于纸质印刷的 书刊文献。 例如:《计算机应用文摘》、《电子科技文摘》等。 计算机检索:使用的是检索系统。系统包括计算机设备、终端 、通信设施、数据库和检索、应用软件等。检索是针对数据 库进行的。即利用计算机检索系统从数据库中检索所需文献 信息。 例如:Dialog、Ei、ISTP、万方数据资源系统等。
第二章 信息检索理论基础
按照报道内容的深度划分:
国外检索刊物文摘型的多于题录型的。文摘 型的检索刊物,具有报道内容详细、检索途径多、 使用方便等特点,如《化学文摘》、《科学文摘》 等。而题录型检索刊物以出版快、索引多采用关 键词索引、使用方便等特点,如《科学引文索引》 等。
按照报道内容的专业划分:
国外检索刊物专业性的多于综合性的。专业 性的检索刊物除常用的《化学文摘》、《医学文 摘》等以外,多数刊物因为报道范围的限制,文 献量少而较少被国内使用。综合性的检索刊物, 因为历史悠久、报道内容质量高、检索途径多、 使用更为普遍。
三、数据库的建设
我国数据库建设取得了很大成绩,尤其是 20世纪90年代中后期,我国各类文献数据库、 事实型和数值型数据库的比例不断增大,图像 数据库日益受到重视,全文数据库、多媒体数 据库有了很大的发展。数据库内容也由科技领 域为主向经济和社会领域转变。数据库的容量 明显扩大。数据库的分布由以国务院各部门为 主向全社会扩展。在实际应用方面呈现如下特 点: 一是我国数据库的应用领域不断扩大; 二是国产数据库逐渐进入国际市场。
原理
信息存储基本原理
书本式文献的传统存储方法是图书馆纸质文献 管理法和印刷型检索工具的编制,包括图书、期刊、 专利、科技报告、政府出版物、技术标准、会议论 文、学位论文、产品样本、档案十大信息源的分类 存储,由这套系统决定的手工检索体系使文献分类 等描述文献内容的特征处于核心地位,文献篇名、 作者名等描述文献外表特征则是天然的补充要素, 加上主题,构成手检时按分类、主题、号码、作者 名检索的四大途径。 机读信息则以数据库(Database)形式存储。信 息被分类、编码、标识且以数据形式存入数据库后, 计算机就能按电子数据方式进行处理并检索。
文献检索,信息检索(2)第二章 信息检索原理
数据库
检索提问
匹配过程
输出检索结果
二、信息检索的类型
按检索内容划分 1、文献检索
是以文献为检索对象的信息检索。
2、数据检索
是以数据为检索内容的信息检索,要求
从检索系统存储的大量原实检索
是以具体事项为检索内容的信息检索, 要求从检索系统存储的各种原始信息资源中查出专门的 事实材料。
三、检索工具的结构
(一)计算机检索工具结构 1、检索软件 (二)手工检索工具结构
1、使用说明(凡例)
2、目次表 3、正文 4、辅助索引 5、附录
2、数据库
(1)字段 (2)记录
(3)文档(顺排、倒排)
(4)帮助文件
工具书的类型
类型 概念 内容 举例 提供可资参考的知 根据特定的社会需要, 识 内 容 , 如 数 据 、 字典、词典、百科 广泛汇释一定范围内 史实、观点、结论、 全书、类书、政书、 比较成熟的知识,按 定 义 、 公 式 、 分 子 年鉴、手册、名录、 一定的规则编排组织 式 、 人 物 简 介 等 数 表谱、图录等 的工具书。 据和事实信息。 又称线索性工具书 提供查找文献线索 书目、索引、文摘
分类途径 信息内部特征 检索途径 信息外部特征 主题途径 关键词途径 题名途径 著者途径 其它途径
一、根据信息内容特征的检索途径 二、根据信息外部特征的检索途径
第四节
检索工具
检索工具:是在不同学科范围内对 一、检索工具的功能 某阶段出版的有关文献进行收集、整理 二、检索工具的类型 或对新文献加以及时报道的二次文献。
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
第二章 信息检索基础理论
手工检索系统 计算机检索系统
书本式的手工检索系统
光盘检索系统 联机检索系统
卡片式的手工检索系统
网络检索系统
1.手工信息检索 手工信息检索也包括信息存储和信息检 索两个互逆的过程,特点是这两个过程都 由人工来完成,分别由信息组织人员和检 索者实施。 信息存储的工作内容,主要由信息组织 人员通过对一定专业范围内的文献进行分 析,从中识别提炼和浓缩相应的信息,并 用特定方式记录和描述文献特征,最后予 以编辑和整序,编制成手工检索工具。
这里主要介绍按信息存储的载体与检索 使用的手段划分的信息检索系统及其特 点: 1.手工检索系统 是以印刷型检索工具为主体的系统。检 索者通过手工查询,自己做出相关性判断 就可以完成检索过程,获取所需信息。
特点?
缺点?
2.穿孔卡片检索系统利用针探及其辅助 设备,借助于手工或机器对代表检索标 识(分类号,主题词等)的穿孔卡片集 合进行选取的系统。 3.缩微品检索系统 以缩微胶片和缩微平片作存储载体,利 用相应的光学或电子技术设备处理和检索 信息的系统。
(2)文献检索工具的一般结构 ① 使用说明 ② 目次表 ③ 正文 ④ 辅助索引 ⑤ 附表
2.事实与数据检索工具 (1)事实与数据检索工具的类型 (2)事实与数据检索工具的一般结构 ① 编辑说明 ② 正文 ③ 辅助索引 ④ 附录 ⑤ 书目与注释
2.2.3 计算机检索系统的结构及工作原理 计算机检索系统经历了单机检索系统、 联机检索系统、光盘检索系统、网络检索 系统(工具)等几个阶段: 1.联机检索系统的结构及工作原理 (1)联机检索系统的结构 ① 主机系统 ② 通信网络 ③ 终端设备
联机检索系统的逻辑构成主要指它所包 括的功能模块或子系统及其相互关系。 一个完整的联机检索系统,通常由以下 6个功能模块组成: ① 信息源选择与采集子系统 ② 标引子系统 ③ 建库子系统 ④ 词表管理子系统 ⑤ 用户接口子系统 ⑥ 提问处理子系统
书本式的手工检索系统
光盘检索系统 联机检索系统
卡片式的手工检索系统
网络检索系统
1.手工信息检索 手工信息检索也包括信息存储和信息检 索两个互逆的过程,特点是这两个过程都 由人工来完成,分别由信息组织人员和检 索者实施。 信息存储的工作内容,主要由信息组织 人员通过对一定专业范围内的文献进行分 析,从中识别提炼和浓缩相应的信息,并 用特定方式记录和描述文献特征,最后予 以编辑和整序,编制成手工检索工具。
这里主要介绍按信息存储的载体与检索 使用的手段划分的信息检索系统及其特 点: 1.手工检索系统 是以印刷型检索工具为主体的系统。检 索者通过手工查询,自己做出相关性判断 就可以完成检索过程,获取所需信息。
特点?
缺点?
2.穿孔卡片检索系统利用针探及其辅助 设备,借助于手工或机器对代表检索标 识(分类号,主题词等)的穿孔卡片集 合进行选取的系统。 3.缩微品检索系统 以缩微胶片和缩微平片作存储载体,利 用相应的光学或电子技术设备处理和检索 信息的系统。
(2)文献检索工具的一般结构 ① 使用说明 ② 目次表 ③ 正文 ④ 辅助索引 ⑤ 附表
2.事实与数据检索工具 (1)事实与数据检索工具的类型 (2)事实与数据检索工具的一般结构 ① 编辑说明 ② 正文 ③ 辅助索引 ④ 附录 ⑤ 书目与注释
2.2.3 计算机检索系统的结构及工作原理 计算机检索系统经历了单机检索系统、 联机检索系统、光盘检索系统、网络检索 系统(工具)等几个阶段: 1.联机检索系统的结构及工作原理 (1)联机检索系统的结构 ① 主机系统 ② 通信网络 ③ 终端设备
联机检索系统的逻辑构成主要指它所包 括的功能模块或子系统及其相互关系。 一个完整的联机检索系统,通常由以下 6个功能模块组成: ① 信息源选择与采集子系统 ② 标引子系统 ③ 建库子系统 ④ 词表管理子系统 ⑤ 用户接口子系统 ⑥ 提问处理子系统
信息检索基础.ppt
查全率 80% 查准率 88.9%
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
信息检索基础PPT课件
信息检索基本原理的核心是用户信息需 求与文献信息集合的比较和选择,信息检索实 质上是两者匹配的过程。
4
2.1.2 信息检索类型
信
息 检
依检索内容划分
索
类
型
文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法
4
2.1.2 信息检索类型
信
息 检
依检索内容划分
索
类
型
文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法
信息检索原理
2.1.1 信息检索旳定义 “检索”(Retrieval)一词是一种外来词,起源于英语 “Information Retrieval”(信息检索)
“检索就是查找”,这仅仅是一种狭义旳解释。从广义旳角度讲, 检索涉及“存贮”和“查找”两个过程。没有存贮就没有查找, 存贮是为了查找,但查找必须有存贮,两者缺一不可。
是以文件为检索对象旳信息检索。也就是说文
件检索是以图书、期刊、资料、数据库中旳篇章或
全书刊为检索对象旳一种检索。
如:检索有关“花卉组织培养技术”旳文件。
文件检索是一种有关性检索,检索成果不直接
回答顾客提出旳技术问题,只是提供与之有关旳文
件信息供顾客参照。
7
(2) 事实检索(Fact Retrieval)
5
信息检索原理示意图:
原始信息
信息处理人员
存贮过程
检索成果 检索 工具
信息分析、著录
和标引
存入
检索语言
(主题词/分类号)
检索
课题分析
检出
6
检索课题 用户
检索过程
3.信息检索旳类型
以检索内容区别:
根据检索对象不同,信息检索可分为文 件检索、事实检索和数据检索三种类型。
(1) 文件检索(Document Retrieval)
┆
O3 力学
O31
理论力学
19
第2章 信息检索原理
分类法途径旳特点: 它体现了学科旳系统性,便于从学
科或专业旳角度出发进行族性检索,但 缺乏进行多概念灵活组配旳能力。
20
索书号又称为排架号
反应了某种图书在整个图书组织 中旳排列顺序和在书库中旳详细位置 (架位)
构成:分类号+书次号
“检索就是查找”,这仅仅是一种狭义旳解释。从广义旳角度讲, 检索涉及“存贮”和“查找”两个过程。没有存贮就没有查找, 存贮是为了查找,但查找必须有存贮,两者缺一不可。
是以文件为检索对象旳信息检索。也就是说文
件检索是以图书、期刊、资料、数据库中旳篇章或
全书刊为检索对象旳一种检索。
如:检索有关“花卉组织培养技术”旳文件。
文件检索是一种有关性检索,检索成果不直接
回答顾客提出旳技术问题,只是提供与之有关旳文
件信息供顾客参照。
7
(2) 事实检索(Fact Retrieval)
5
信息检索原理示意图:
原始信息
信息处理人员
存贮过程
检索成果 检索 工具
信息分析、著录
和标引
存入
检索语言
(主题词/分类号)
检索
课题分析
检出
6
检索课题 用户
检索过程
3.信息检索旳类型
以检索内容区别:
根据检索对象不同,信息检索可分为文 件检索、事实检索和数据检索三种类型。
(1) 文件检索(Document Retrieval)
┆
O3 力学
O31
理论力学
19
第2章 信息检索原理
分类法途径旳特点: 它体现了学科旳系统性,便于从学
科或专业旳角度出发进行族性检索,但 缺乏进行多概念灵活组配旳能力。
20
索书号又称为排架号
反应了某种图书在整个图书组织 中旳排列顺序和在书库中旳详细位置 (架位)
构成:分类号+书次号
第二章文献信息检索基本理论与方法
《中国人民大学图书馆图书分类法》 《中国科学院图书馆图书分类法》
4.
《中图法》将学科划分为5个基本部类,22个基 本大类,再进行层层划分,逐级分开。
16
《中图法》五大部类、二十二个基本大类
A、马克思主义、列宁主义 毛泽东思想、邓小平理论 B、哲学、宗教 C、社会科学总论 D、政治、法律 E、军事 F、经济 G、文化、科学、教育、体育 H、语言、文字 I、 文学 J、 艺术 K、历史、地理 N、自然科学总论 O、数理科学和化学 P、天文学、地球科学 Q、生物科学 R、医药、卫生 S、农业科学 T、工业技术 U、交通运输 V、航空、航天 X、环境科学、安全科学 Z、综合性图书
12
分类语言 描述文献内 关键词语言 标题词语言 单元词语言 叙词语言
容特征的语言
检索语言
主题语言
代码语言 书/刊/篇名 描述文献外 表特征的语言 著者姓名
引文 代码/序号
13
(1) 分类语言:是按文献的学科性质给予相应的分 类号,用分类号表达文献主题概念的检索语言, 根据分类表中的顺序编排成分类索引,提供分类 途经供检索文献使用。 它运用概念划分与概括的方法,按照知识门 类的逻辑次序从抽象到具体,从一般到特殊,从 简单到复杂,对知识进行科学划分,从而产生不 同级别且存在隶属关系和体现知识登记体系的类 目一个类目以不同的符号(分类号)作标识,从 而形成了以分类号为标记的体系分类语言。
29
索引分两种: 一种是作为工具书的主体,如文献题名(篇 目)索引。 另一种是作为工具书的一部分,一种检索 途径,内容索引如:主题索引、著者索引 等。 3. 题录是对单篇文献外表特征所作的著录。 著录项目包括文献题目、著者及其所在单 位、出处及文种等。
4.
《中图法》将学科划分为5个基本部类,22个基 本大类,再进行层层划分,逐级分开。
16
《中图法》五大部类、二十二个基本大类
A、马克思主义、列宁主义 毛泽东思想、邓小平理论 B、哲学、宗教 C、社会科学总论 D、政治、法律 E、军事 F、经济 G、文化、科学、教育、体育 H、语言、文字 I、 文学 J、 艺术 K、历史、地理 N、自然科学总论 O、数理科学和化学 P、天文学、地球科学 Q、生物科学 R、医药、卫生 S、农业科学 T、工业技术 U、交通运输 V、航空、航天 X、环境科学、安全科学 Z、综合性图书
12
分类语言 描述文献内 关键词语言 标题词语言 单元词语言 叙词语言
容特征的语言
检索语言
主题语言
代码语言 书/刊/篇名 描述文献外 表特征的语言 著者姓名
引文 代码/序号
13
(1) 分类语言:是按文献的学科性质给予相应的分 类号,用分类号表达文献主题概念的检索语言, 根据分类表中的顺序编排成分类索引,提供分类 途经供检索文献使用。 它运用概念划分与概括的方法,按照知识门 类的逻辑次序从抽象到具体,从一般到特殊,从 简单到复杂,对知识进行科学划分,从而产生不 同级别且存在隶属关系和体现知识登记体系的类 目一个类目以不同的符号(分类号)作标识,从 而形成了以分类号为标记的体系分类语言。
29
索引分两种: 一种是作为工具书的主体,如文献题名(篇 目)索引。 另一种是作为工具书的一部分,一种检索 途径,内容索引如:主题索引、著者索引 等。 3. 题录是对单篇文献外表特征所作的著录。 著录项目包括文献题目、著者及其所在单 位、出处及文种等。
第二章 信息检索的基本知识
O
数理化 ……………………… … 一级类目 O1 数学 ……………………… … 二级类目 …… O3 力学 ……………………… … 二级类目 O31 理论力学 ……………… … 三级类目 O311 运动学 ……………… … 四级类目 .1 质点运动……… … 五级类目 …… O4 物理学 ………………… … 二级类目
文 献 源
文献 的选 分析 择与 收集
检索工具
文献 特征
标识
数据库
匹配 输出
用 户
信 分析 息 需 求
检索 提问
标 识 语 言
标识
检索提 问式
检 索 结 果
反 馈
从这个图中,我们可以看出两条主线。一条主线是文献检索,通过分析自身 的文献需求,提出检索请求。另一条主线是数据库的建设,通过获取文献源, 对文献进行分类标引入库,建成可检索的数据库。当检索请求与数据库相匹配 后,就返回检索结果,得到需要的文献。
2.按检索方式分
按检索方式分为手工检索(手检)和计算机检索 (机检)两种方式。 (1)手工检索:即用人工来直接查找所需信息的方式,多 利用各种检索工具的印刷版来实现,如印刷型的目录、题 录、文摘、索引等。手检直观,不需要辅助没备,但速度 慢,漏检严重,查全率受信息资源储备数量的限制。 (2)计算机检索:就是将大量的文献资料或数据进行加 工整理,按一定格式存储在机读载体上,建成机读数据库, 利用计算机对数据库进行检索的信息检索方式。与手工检 索相比,计算机检索速度快、效率高、查全率高,不受时 空限制,检索结果输出方式多样等。但查准率与网络及数 据库质量的高低直接相关。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
第二章 信息检索基础知识
返回
第二章 信息检索基础知识
文摘:通过描述文献的外部特征和简明深入地 文摘 通过描述文献的外部特征和简明深入地 摘录文献内容要点来报道文献的一种检索 工具。
【题 名】变电站开关操作对屏蔽电缆电磁干扰的预测 【作 者】齐磊 崔翔 华北电力大学高电压与电磁兼容,北京市昌平区 北京市昌平区102206 【机 构】华北电力大学高电压与电磁兼容 北京市昌平区 中国电机工程学报.2007,27(9).-46-51 【刊 名】中国电机工程学报 【ISSN号】0258-8013 号 【C N 号】11-2107 研究变电站瞬态电磁场对屏蔽电缆的电磁耦合问题, 【文 摘】研究变电站瞬态电磁场对屏蔽电缆的电磁耦合问题,对于提高变电站 内二次设备的抗电磁干扰能力具有极为重要的意义。 内二次设备的抗电磁干扰能力具有极为重要的意义。文中将矩量法与传输 线理论相结合, 线理论相结合,应用场线耦合理论计算变电站开关操作产生的空间电磁场 对站内屏蔽电缆的电磁干扰。通过与国际上通用的电磁暂态计算程序EMTP 对站内屏蔽电缆的电磁干扰。通过与国际上通用的电磁暂态计算程序 的计算结果进行比较,验证了计算方法的正确性,同时克服了EMTP只能处 的计算结果进行比较,验证了计算方法的正确性,同时克服了 只能处 理屏蔽电缆与母线平行放置的不足。最后,将该计算方法应用于500kV变电 理屏蔽电缆与母线平行放置的不足。最后,将该计算方法应用于 变电 站开关操作时, 站开关操作时,在屏蔽层不同接地方式的屏蔽电缆上产生的电磁干扰的数 值预测,获得了一些有益的结论,可为工程应用提供一定的理论依据。 值预测,获得了一些有益的结论,可为工程应用提供一定的理论依据。 返回
第二章 信息检索基础知识
第二章 信息检索基础知识 2.1 信息检索的基本原理 2.2 信息检索语言 2.3 信息检索工具与数据库 2.4 计算机检索技术 2.5 信息检索的方法和途径 2.6 计算机信息检索的基本过程 2.7. 检索效果的评价 2.8 文献传递与原始文献的获取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20世纪50年代以后,社会信息传播与 存储载体呈现多元化,人们不再拘泥于载体 研究信息检索,于是开始使用情报检索一词。 由于汉语中“信息”一词较“情报”一词含 义更为宽泛,加之英语词汇“Information” 具有“情报”、“信息”的含义,因此,近 年来人们越来越倾向于将文献检索、情报检 索转变为信息检索这一更具兼容性的概念, 以便对信息检索实践起到更全面的指导作用。
检索系统的评价
检索系统的质量影响着检索系统的使用 效果,根据检索课题选择检索系统时需要考 虑检索系统的质量。一般地说,可以从下述 几个角度对检索系统进行评价。
1.检索效率
检索效率是指检索过程和检索结果具有便、快、 全、准、省等特点,即用检索方便性、检索速度、 查全率、查准率、检索成本与效益等指标来衡量。
目前的现状是,上述几个概 念同时使用,因为它们的目的是获 取信息。由信息检索改为信息存储 与检索是为了更好地明确信息存储 与信息检索的关系,从而更有效地 进行信息的获取。
信息存储与检索的含义
信息存储是指依一定的要求把信息整序编排成文 献集合体的过程,即编制检索工具和建设数据库、 建立检索系统的过程,也即广义的信息检索。广义 的信息检索包括信息存储与信息检索两个环节。 狭义的信息检索是指利用编制好的检索工具和检 索系统来查找所需信息的过程。 目前广义的信息检索和狭义的信息检索概念被同 时使用着。
三、数据库的建设
我国数据库建设取得了很大成绩,尤其是 20世纪90年代中后期,我国各类文献数据库、 事实型和数值型数据库的比例不断增大,图像 数据库日益受到重视,全文数据库、多媒体数 据库有了很大的发展。数据库内容也由科技领 域为主向经济和社会领域转变。数据库的容量 明显扩大。数据库的分布由以国务院各部门为 主向全社会扩展。在实际应用方面呈现如下特 点: 一是我国数据库的应用领域不断扩大; 二是国产数据库逐渐进入国际市场。
检索系统是指拥有特定的存储和检索技 术设备,存储有经过加工的信息资源,供用 户检索所需信息的工作系统。
检索工具
广义检索工具是指用以报道、存储、查询文献信息的 一切工具和设备。它以各类型原始文献为素材,在广泛 收集并进行严格筛选后,通过特定的信息工作方法,分 析和提示文献的外形特征和内容特征,用选定检索语言 进行描述和标引,形成文献信息单元款目,再将这些款 目按特定规则组织编排而成。它是一个综合的概念,可 以分为手工检索工具、计算机检索工具。从此可以看出, 广义检索工具和检索系统的含义是一致的。 狭义检索工具主要指手工检索工具,又称印刷型检 索工具或书本式检索工具,即印刷装订成册的纸质检索 工具及相应的设施。
17世纪许多学者都尝试着编制能反映各国出版 物的“万国书目”,这一努力一直持续到20世纪。 虽然最终没有出现真正意义上的“万国书目”,却 促进了各国国家书目的诞生,在收录范围、分类方 法、检索途径、所提供的书目信息以及编目技术等 方面都有较大的发展。 随着科学技术的发展,教育的普及以及图书贸 易的兴起,书目的功能从单纯记录图书发展到推广 和宣传新版图书,于是营业书目的数量大大增加, 其种类、载体形式趋于多样化,定期报道和评价新 书的书评刊物也出现了。
按照报道文献类型划分:
多数检索刊物对期刊论文、图书、会议文献、 学位论文、科技报告、技术标准等作全面报道, 如《工程索引》、《科学文摘》等;少数检索刊 物专门报道单种文献类型,使用方法比较特殊, 如《世界专利索引》、《科技会议录索引》等。
按照检索语言划分:
大多数检索刊物的正文部分按刊物自编的分 类体系编排,一般都附有主题索引、著者索引。 大型的综合性或专业性检索刊物的主题索引通常 采用叙词语言,如《工程索引》、《科学文摘》 等;题录型检索刊物的主题索引通常采用关键词 语言,如《科学引文索引》、《生物学文摘》等。 大多数检索刊物都提供多种检索途径,以满足读 者多方面的需求。
检索过程
文 献 信 息 特 征
文献信息
分析
标引著录
检索课题
分析
检 索 提 问 特 征
选用
检 索 语 言 和 名 称 规 范
形成
文献 信息标 识(标 引词)
形成
检索 提问标 识(检 索词)
检 索 系 统 ( 标 识 匹 配 )
输出
检 索 结 果
检索系统 三、相关概念 检索工具 检索系统的评价
检索系统
中世纪印刷术的传播和出版业的兴盛,书目编 制工作也随之得到迅速发展,不但书目类型增多, 在编制方法上也有一些创新。1545年格斯纳(Konrad Gesner, 1516-1565)编制了《万国书目:拉丁文、 希腊文和西伯莱文全部书籍的目录》(Bibliotheca universalis),几乎包括当时全部已故和在世的拉 丁语、希腊语、希伯来语作家的著作共15000种,占 当时欧洲出版物的20~25%,这个数字在当时欧洲交 通不发达、藏书分散、学术交流相对困难的时代, 是十分难能可贵的。格斯纳因此被称为“书目之 父”。
一、早期书目检索工具的编制 信息检索活动是以信息检索工具为依托的。
信息检索工具是信息资源生产者和用户之间的中 介。公元前26年,我国第一部综合性书目检索工 具《七略》问世,这也是世界上第一部印刷型的 书目检索工具。此后,我国先后编制了《七志》、 《七录》、《中经新簿》、《四库全书总目》等 著名的书目检索工具,为人们查询图书、了解图 书流传情况提供了极大方便。
二、检索刊物体系的形成
随着大众传播时代的来临,期刊的出现,出现 了以文摘和题录为主的检索刊物。 国外检索刊物出现于19世纪末,但形成较完整 体系并被大量使用则在二战以后。经过一百多年 的发展,目前我们经常使用的国外检索刊物有几 十种,其中除了俄罗斯、日本有全国统一编写的 大型检索刊物以外,其它大多数为专门的出版公 司、学术团体编辑出版。 根据报道内容的深度、专业范围、文献类型、 使用的检索语言,可以将我们常用的国外检索刊 物作如下的划分和情况总结:
信息存储基本原理
二、基本原理
信息检索基本原理
信息存储基本原理
书本式文献的传统存储方法是图书馆纸质文献 管理法和印刷型检索工具的编制,包括图书、期刊、 专利、科技报告、政府出版物、技术标准、会议论 文、学位论文、产品样本、档案十大信息源的分类 存储,由这套系统决定的手工检索体系使文献分类 等描述文献内容的特征处于核心地位,文献篇名、 作者名等描述文献外表特征则是天然的补充要素, 加上主题,构成手检时按分类、主题、号码、作者 名检索的四大途径。 机读信息则以数据库(Database)形式存储。信 息被分类、编码、标识且以数据形式存入数据库后, 计算机就能按电子数据方式进行处理并检索。
按照报道内容的深度划分:
国外检索刊物文摘型的多于题录型的。文摘 型的检索刊物,具有报道内容详细、检索途径多、 使用方便等特点,如《化学文摘》、《科学文摘》 等。而题录型检索刊物以出版快、索引多采用关 键词索引、使用方便等特点,如《科学引文索引》 等。
按照报道内容的专业划分:
国外检索刊物专业性的多于综合性的。专业 性的检索刊物除常用的《化学文摘》、《医学文 摘》等以外,多数刊物因为报道范围的限制,文 献量少而较少被国内使用。综合性的检索刊物, 因为历史悠久、报道内容质量高、检索途径多、 使用更为普遍。
1934年,中国化学学会会刊上开辟一个“中国化学摘要”的 栏目,开启了我国文摘型检索工具的先河。国内文献检索刊 物创办于1958年,经过几十年的发展,目前拥有100余种检 索刊物,已形成了具有自己特色较为完整的体系。具体说来, 具有如下特征: 专业覆盖面广,区分细,分册多。但是每一分册的报 道量较少,许多文献甚至没有被报道。 国内检索刊物除少数以题录和目录形式报道文献以外, 多数为题录、简介、文摘相结合的形式报道文献。著录 格式按照国家标准,格式规范,但出版时间较长。 检索刊物一般以分类编排,分类法以国家标准为基础, 但许多检索刊物不设主题索引、著者索引,减低了使用 价值。 大型、综合性的检索刊物《全国报刊索引》(哲社版、 科技版)、《复印报刊资料》系列内容丰富、出版形式 多样、具有权威性受到广泛欢迎,在国内外学术界具有 很大影响。
信息检索的发展
早期的信息检索,人们主要根据文献的 内、外表特征,用手工方式实现。以计算机 技术为核心的信息技术,使信息处理与信息 检索进入了一个新时期。从电脑处理数字信 息发展到处理字符信息,到处理静、动态图 像信息、声音信息等。这一过程不仅拓展了 检索的领域,丰富了检索的内容,提高了检 索的速度。
英语“书目”(bibliography)一词是由 希腊文 “biblion”(书)和"graphein"(抄写) 两个单词融合而成的,其含义是“图书的抄 写”(the writing of books)。后来其词义 演变成“关于图书的描述”( writing about books)。希腊学者加伦(Galen,129-199)在公 元2世纪就编纂了一些专科书目。8世纪盎格 鲁· 撤克逊学者比德(Bede,673-735)的著作 《宗教史》(Ecclesiastical history)也附 有书目。
我国数据库建设虽然取得了较大进步,但 还存在以下几个突出问题:小型、地方性、 专业性数据库所占比重较大,甚至大型、全 国性数据库存在功能相近的数据库重复建设 的问题。数据库的标准不统一,规范性差。 为了满足社会对信息资源的需求,国家 应对数据库建设进行统一规划、统一管理, 加强数据库的标准建设、加强对数据库知识 产权的保护等等,使我国数据库建设更好地 走规模化、产业化的发展道路。
2.收录全面性
检索系统的全面性是指它收录的文献信 息是否全面。一般用三个指标来衡量。
• 覆盖面:指检索系统收录范围所覆盖的学科面和 出版物类型及数量。 • 摘储率:是指检索系统收录的文献信息数量与其 覆盖面内全部文献信息数量的比率。 • 报导数:是指一定时间内报导文献信息的数量, 如文摘或题录的条数、全文篇数等。