第2讲 信息检索概述[精彩]
第2章--信息检索PPT课件
经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
信息检索课件第2章
信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。
第二讲 信息检索基础知识
1.1 信息检索的概念
广义信息检索
是将信息按一定的 方式进行加工、组 织并贮存起来,再 根据信息用户的需 要找出有关的信息 过程。它的全过程 又叫信息存储与检 索。
信息检索
狭义信息检索
指用户根据需要 ,借助于检索工 具,从信息集合 中找出所需要信 息的过程。本书 所介绍的信息检 索就是狭义信息 检索 。
1.2 信息检索的原理
存
储 一次 分析 信息
过 信息
特征
程
检 索 信息 过 需求 程
分析 检索 提问
标引 信息特征 输入 检
检 索
标识
(检索项)
索检
工 具 输出
索
语
和结
言 标引
检索提问 检索 系
标识
统
果
(检索词)
1.3 信息检索的类型
按信息检索的内容划分
▪ 数据信息检索(Data information Retrieval) ▪ 事实信息检索 (Fact information Retrieval) ▪ 文献信息检索 (Document information Retrieval)
青岛工学院图书馆http://10.10.58.103/
三、信息检索技术
检索技术,是指利用光盘数据库、联机 数据库、网络数据库、搜索引擎等进行信息 检索,采用的相关技术,主要包括布尔检索、 截词检索、字段检索、词位置检索、加权检 索等
检索方式
▪ 1、命令式检索:用逻辑运算符、位置算符及其他检索 符号,把不同的检索词连接起来进行检索的一个种方式。 适用于专业人员。
主题语言又分为标题词语言、单元词语言、叙词
语言和关键词语言,前两种语言目前使用较少。 1)叙词语言:叙词是为了适应计算机检索的需
第二章 文献信息检索概述讲义(教学用)
第二章文献信息检索概述导入:面对以下问题怎么办?知识更新的速度越来越快,当代大学生如何应对挑战?将来从事的工作与所学专业完全不相关,你如何应对?信息检索的重要性:有效、快速地获取所需信息☐为什么要进行文献信息检索(know why)?☐什么是文献信息检索(know what)?☐怎么去做文献信息检索(know how)?第一节文献信息检索的基本原理第二节文献信息检索途径与策略第三节文献信息检索的方法与步骤第一节文献信息检索的基本原理一、信息检索(Information Retrieval)1、检索:所谓检索是指查找、寻求、获取的意思。
2、信息检索:指将信息按一定的方式组织和存储起来,根据信息用户的需求,找出信息的过程。
广义的检索包括信息存储与检索两个过程。
狭义的信息检索指后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。
3、信息检索原理:原始文献——加工整理——数据库(存储)提问——检索——输出(检索)简而言之:文献信息检索是指从信息集合中找出所需要的信息的过程,仅指检索一个过程。
二、文献检索的分类按其检索对象分为:1、文献检索:凡是以文献为检索对象的称为文献检索。
它不直接解答用户所提出的技术问题本身,只是提供相关的文献供用户参考。
2、数据检索:凡是以数据作为检索对象的称为数据检索,它直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实3、事实检索:凡是以事实为检索对象的成为事实检索,直接查询事实性答案,提供用户所需要的确切事实,是一种确定性检索。
例:同类产品中,哪个品牌销售量最大?4、概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。
数据、事实、概念检索得到的是能够确切解答问题的信息,或者说是文献中的具体信息。
文献线索检索则是检索出包含所需要信息的文献,其结果是与某一课题有关的若干篇论文。
文献检索是最典型、最重要和最常用的文献信息检索。
02信息检索工具与方法
第二讲 信息检索工具与方法
1
主要内容
■ ■ ■ ■ ■ ■ ■ ■ ■
1 信息检索的定义 2 信息检索原理 3 检索点(access point) 4 信息检索的类型 5 信息检索方法 6 信息检索步骤 7 信息检索手段 8 信息检索语言 9 检索效率评价
2
1 信息检索的定义
信息的无限增长与人类有效利用信息之间 的矛盾促使信息检索的诞生和发展。信息 检索有广义与狭义之分,狭义的信息检索 指从众多信息集合中迅速准确地查寻出用 户所需信息的全过程(下图下半部分); 广义的信息检索指根据用户的需要找出有 关的信息资料的过程和技术,又称信息的 存储与检索,或信息的存取。
20
8.2 主题检索语言
情报检索语言按其标识的使用方法划分: 先组式组配方式:标引前预先在词表中固定组配好,多 用于手工检索。 后组式组配方式:文献标识在检索时才组配起来,多用 于计算机检索。 主题检索语言根据其结构原理分为: 标题词检索语言: 单元词检索语言 叙词检索语言 关键词检索语言
21
标题词
23
叙词
叙词是从信息内容中提取的经过规范化处理能表 达信息基本概念的词语。叙词检索是一种后组式的检 索方法。叙词检索语言是以规范化名词术语为基础, 以字顺和分类系统为词汇显示的基本手段,以语词的 概念组配为重要特征的一种标引和检索信息的方法。 优点:采用了组配分类法。代替单元词检索信息的单 词组配的基本原理;代替了字面组配;语词规范方法 采用了标题法;体系分类法采用的就是叙词分类索引 (范畴索引)和等级索引(词族索引)方法。 如“体育学校”表达这个学校的形式,或者体育活 动,但是在叙词表中必须把这个关系表达清楚。概念 组配,词间是有关系的,可能是属分关系(上位类和 下位类),同位类关系,用代关系。
文献检索,信息检索(2)第二章 信息检索原理
数据库
检索提问
匹配过程
输出检索结果
二、信息检索的类型
按检索内容划分 1、文献检索
是以文献为检索对象的信息检索。
2、数据检索
是以数据为检索内容的信息检索,要求
从检索系统存储的大量原实检索
是以具体事项为检索内容的信息检索, 要求从检索系统存储的各种原始信息资源中查出专门的 事实材料。
三、检索工具的结构
(一)计算机检索工具结构 1、检索软件 (二)手工检索工具结构
1、使用说明(凡例)
2、目次表 3、正文 4、辅助索引 5、附录
2、数据库
(1)字段 (2)记录
(3)文档(顺排、倒排)
(4)帮助文件
工具书的类型
类型 概念 内容 举例 提供可资参考的知 根据特定的社会需要, 识 内 容 , 如 数 据 、 字典、词典、百科 广泛汇释一定范围内 史实、观点、结论、 全书、类书、政书、 比较成熟的知识,按 定 义 、 公 式 、 分 子 年鉴、手册、名录、 一定的规则编排组织 式 、 人 物 简 介 等 数 表谱、图录等 的工具书。 据和事实信息。 又称线索性工具书 提供查找文献线索 书目、索引、文摘
分类途径 信息内部特征 检索途径 信息外部特征 主题途径 关键词途径 题名途径 著者途径 其它途径
一、根据信息内容特征的检索途径 二、根据信息外部特征的检索途径
第四节
检索工具
检索工具:是在不同学科范围内对 一、检索工具的功能 某阶段出版的有关文献进行收集、整理 二、检索工具的类型 或对新文献加以及时报道的二次文献。
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
信息检索概述
海大图书馆
面积
2.5万m2
馆藏册数
156万
现刊种类
3500种
北大图书馆
北京图书馆 美国国会图书馆
5.3万m2
17万m2 34万m2
600多万
980多万 8100多万
4000种
3万多种
分布离散
现代科学技术的发展及其相互渗透,许多新
兴学科、边缘学科、交叉学科不断涌现。 专利文献的重复率达65%,科技报告的重复 率甚者可达80%。会议上发表的论文,大约有40 %会在期刊上报导。
1
1.1 1.2 1.3 1.4 1.5 1.6
信息检索概述
信息及其在学术研究中作用 信息检索的概念及原理 数字信息资源检索技术 信息检索的步骤 检索效果的评价 科技查新概念及其检索方法
1.1
信息及其相关概念
1.1.1 信息的概念、基本属性和特征 1.1.2 文献的概念、社会功能和类型 1.1.3 信息(文献)在学术研究中的作用
要自如地去对付这样一种文献分布局面,就
需要我们在查询文献、信息时应用适当的方法、
技巧去有效地获得比较满意的结果。
更新加快
未来学家约翰·奈斯比特在其著作《大趋势》中用 数字来形容知识的快速增长:“人类知识的总和在17501900年间翻了一翻;1900-1950年间则在此基础上翻了 一翻;之后的翻番发生于1960-1965年,自此以后的估 计是人类知识至少每5年翻一番。到2020年,人类知识 将每73天翻一番!”可见,知识与信息频繁在更新换代。 终身学习,不断去跟踪、获取最新信息、知识、文 献,去创新,这对每个科技人员来说是至关重要的。
较权威的图书分类法有:中国图书馆分类法、美 国国会图书馆分类法、杜威十进分类法。
信息检索2章 PPT课件.ppt
• 目录型检索工具 • 一般以整本的图书、期刊等作为报道单元,仅著
录出版物的外表特征,不著录具体篇章。仅提供检 索线索,主要用于了解出版物的出版或收藏单位。
2.2.3.2检索工具的选择
4.考虑检索工具的检索功能 5.检索工具的检索费用 返回目次
2.3 检索方法及检索途径
2.3.1 检索方法 2.3.2 检索途径
2.3.1检索方法
1.常规法 利用常规检索工具查找有关文献。 分为顺查法、倒查法、时间抽样法
• 顺查法
• 以所检索课题研究的发生时间为检索起点,按 事件发生、发展的时序,由远及近,由旧到新的 顺序查找。
• 特点:所查得的文献较为系统全面,基本上可反 映某学科专业或某课题发展的全貌;缺点是费时 费力,工作量较大。一般在申请专利的查新调查 和新开课题时采用这种方法。
• 逆查法
• 与顺查法相反,由近及远,由新到旧的查找。
• 多用于查找新课题,在基本上获得所需信息时 即可终止检索。可保证文献信息的新颖性,也可 提高查准率。但由于这种方法不太关注历史渊源 和全面系统性,影响检索的全面性。
• 报道内容:文献篇名.著者.刊名.出版年,月 (卷,期),页码
• 实例:下
【实例】 在《中文科技期刊数据库》的期刊论文著录格式如下: 【题 名】 辽宁老工业基地振兴与发展中的生态产业研究 【作 者】 张军涛 【机 构】 东北财经大学公共管理学院,辽宁大连116025 【刊 名】 社会科学辑刊.2004(1).-74-78 【ISSN号】 1001-6198 【C N 号】 21-1012 【馆藏号】 80414X 【关键词】 生态产业 循环经济 环境—经济协调发展
第二章 信息检索的基本知识
O
数理化 ……………………… … 一级类目 O1 数学 ……………………… … 二级类目 …… O3 力学 ……………………… … 二级类目 O31 理论力学 ……………… … 三级类目 O311 运动学 ……………… … 四级类目 .1 质点运动……… … 五级类目 …… O4 物理学 ………………… … 二级类目
文 献 源
文献 的选 分析 择与 收集
检索工具
文献 特征
标识
数据库
匹配 输出
用 户
信 分析 息 需 求
检索 提问
标 识 语 言
标识
检索提 问式
检 索 结 果
反 馈
从这个图中,我们可以看出两条主线。一条主线是文献检索,通过分析自身 的文献需求,提出检索请求。另一条主线是数据库的建设,通过获取文献源, 对文献进行分类标引入库,建成可检索的数据库。当检索请求与数据库相匹配 后,就返回检索结果,得到需要的文献。
2.按检索方式分
按检索方式分为手工检索(手检)和计算机检索 (机检)两种方式。 (1)手工检索:即用人工来直接查找所需信息的方式,多 利用各种检索工具的印刷版来实现,如印刷型的目录、题 录、文摘、索引等。手检直观,不需要辅助没备,但速度 慢,漏检严重,查全率受信息资源储备数量的限制。 (2)计算机检索:就是将大量的文献资料或数据进行加 工整理,按一定格式存储在机读载体上,建成机读数据库, 利用计算机对数据库进行检索的信息检索方式。与手工检 索相比,计算机检索速度快、效率高、查全率高,不受时 空限制,检索结果输出方式多样等。但查准率与网络及数 据库质量的高低直接相关。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
文献检索(信息检索)的概念.ppt
4.多媒体检索:随着计算机和网络技术的发展 而产生的新的检索类型,是利用特定的搜索 引擎从存储有多媒体文件的检索系统中获取 多媒体信息的一种检索方式。其检索结果是 文字、图像、声频、视频等或静、或动的信 息形式。
事实检索和数据检索是以从文献中提取 出来的各种事实、数据为检索对象的一种确 定性检索。
2019-9-16
记录号
•题录著录格式 如下:
题名
著者姓名
030301007 网络时代的管理创新/高维钫(北京 邮 电 大 学 文 法 经 济 学 院 ) // 经 济 管 理 .—— 2002,13(6),53-55
2019-9-16
著者单位 感谢你的欣赏
原文出处
14
与目录区别
目录
著录对象不同 单位出版物
题录
单篇文献
狭义的信息检索是对信息用户而言,就是信
息集合中找出所需的信息。
2019-9-16
感谢你的欣赏
2
二、信息检索的类型
(一)按存储和检索的内容划分
1.文献检索:以文献全文为检索对象的一种检 索,从文献集合中检索出所需的、切题的文献 的过程、方法和策略。凡是查找某一主题、学 科时代、地区、著者等相关文献圴属此类。
2019-9-16
感谢你的欣赏
11
传统的卡片式目录
2019-9-16
感谢你的欣赏
12
电子目录
2019-9-16
感谢你的欣赏
13
2.题录,与目录基本相同,也是对文献外部特 征(如文献题名、著者、文献出处等)的揭示 和报道,只是内容上是以独立的单篇文献(如 一篇文章或书中某一部分以至整个出版物)为 著录单元。(广、快、新)
百科全书是以条目形式,对各种知识作概述性 的介绍,着重反映科学文化的最新成就;类书 是文资料的分类辑存,以继承传统文化为主 要目的。
【精】第2讲信息检索概述(论文资料)
11
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
定义和建立文本数据库 用户提问操作 匹配处理
12
2021/1/19
信息检索系统开发与设计 第一章
用户界面
文本操作
逻辑视图
提问操作
用户反馈
查询
检索得文献
排序
排序文献
文本 文本
标引 倒排文档
索引
数据库管理 者模块
现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/1/19
信息检索系统开发与设计 第一章
1. 2 信息检索系统
信息检索系统是由一定的设备和信息集合构成, 面向一定的用户,具有信息采集、组织、存贮、 选择和传播等功能的信息服务设施。
21
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
据格式转换、生成并定期更新各种文档。
20
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
第二讲信息检索概述
2.3 信息检索的基本技术
信息检索过程中,为了保证检索结果的快、 全、准,仅靠一个检索词(关键词、主题 词)难以满足检索的需要,有时需要用各 种算符将若干个检索词(关键词、主题词) 组成检索式进行检索。它们主要有布尔逻 辑符检索、位置算符检索、截词符检索和 限制符检索。
1.布尔逻辑符检索(Boolean Operators):
4.限制符检索(Range)
限制符检索是通过限制检索范围,达到优化检索结 果的方法。不能完全确定检索词(关键词、主题词) 在数据库记录中出现的字段位置,特别在使用自由 词进行全文检索时,需要用字段限制检索的范围。 常用的字段代码有标题(TI)、文摘(AB)、叙词 (DE)、识别词或自由词(ID)、作者(AU)、语 种(LA)、刊名(JN)、文献类型(DT)、年代 (PY)等。这些限制符在不同的数据库系统有不同 的表达形式和使用规则。
核心概念的选取
有些检索词中已经含有的某些概念,在概念分析中应予以 排除。例如:课题"公司劳动奖励、职工培训和养老保险制度 管理的理论和实践",如果把"劳动奖励","职工培训","养老 保险","公司","制度","管理"六个概念全部组配起来,则 会造成大量文献漏检。实际上,劳动力资源管理已经包含了 劳动奖励、职工培训和养老保险三个方面,而且,劳动力管 理必然是针对该三个方面而言的。因此,本课题只须采用"劳 动力资源"和"管理"这两个本质概念即可。
隐含概念的分析方法
有些课题的实质性内容往往很难从课题 的名称上反映出来,课题所隐含的概念和 相关的内容需要从课题所属的专业角度作 深入分析,才能提炼出能够确切反映课题 内容的检索概念。例如:"社会保障"包含 "养老保险"、"失业保险"、"医疗保险"和" 社会救济"等概念,如果要检索社会保障 方面的文献,应该析出上述概念,才能保 证文献的查全率。
第二讲 第二章 信息检索原理74.ppt.Convertor
第2章信息检索原理2.1 信息检索的基本概念2.1.1信息检索的定义和类型1.信息检索的定义检索的含义“检索就是查找”,这仅仅是一种狭义的解释。
从广义的角度讲,检索包括“存贮”和“查找”两个过程。
没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索)第2章信息检索原理信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。
广义的信息检索还包括信息存贮,两者又往往合并称为"信息存贮与检索"(Information storage and retrieval)。
第2章信息检索原理1.2.3文献的内部特征和外部特征文献的内容特征:就是可以从某种角度反映文献内容的特征。
文献的内部特征包括文献的题目、摘要、由著者或图书情报人员给出的主题词及其分类号。
文献的外部特征:是与内容特征关系不是十分密切的一些特征,包括文献的作者姓名、作者所在的工作单位名称,期刊刊名、会议录名称、专利说明书的专利号和科技报告的报告号等。
这些特征通常在文献的封面或扉页出现。
第2章信息检索原理2.2.1信息检索的一般原理无论是手工检索,还计算机检索,各种检索系统的检索原理基本相同。
简单地讲,就是检索提问标识与存贮在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。
存贮过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。
信息检索同样包括存储和检索两个过程。
第2章信息检索原理(1)信息检索根据检索对象不同,可分为:文献检索、数据检索、事实检索A.文献检索(Document Retrieval)。
文献检索是以文献为检索对象的信息检索。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 第一代:卡片目录自动化系统 OPAC online public access catalogue
– 第二代:增加按主题、关键词、复杂查询 – 第三代:图形界面、数字化、超文本、开放系统框
架、基于Web
27
2021/2/10
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l 自动标引、自动分类和自动摘录
– 这是探索如何教会计算机去“理解”信息内容,自动识别和提取出文献中的 有用信息和检索标识,自动生成主题标识和非系系统或文摘。
– 是技术难度非常大、诱惑力很强的领域,吸引了众多研究者,并取得了许多 可喜的成果。
l 相关设备
– 包括对信息检索所需的各种设备的研究,如计算机系统、危机与终端设备、 输入输出设备、存贮设备、通讯设施等。
l 系统效益研究
32
2021/2/10
信息检索系统开发与设计 第一章
1.4.2 相关学科及领域
l 计算机科学 l 数学 l 语言学 l 人工智能 l 认知科学
33
2021/2/10
信息检索系统开发与设计 第一章
l 现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/2/10
信息检索系统开发与设计 第一章
1. 2 信息检索系统
l 信息检索系统是由一定的设备和信息集合构成, 面向一定的用户,具有信息采集、组织、存贮、 选择和传播等功能的信息服务设施。
– 本功能模块任务:根据系统的经营方针和服务对象的需要, 以快速、经济的手段,广泛地、连续不断地采集各种信息源, 为系统提供充足而适用的数据来源。
18
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 标引子系统
– 标引,就是根据一定的规则和程序,对文献内容进 行分析,然后赋予每篇文献以一定数量的内容标识 (分类号、主题词、关键词等),作为存贮与检索 的依据。
的难度。
8
2021/2/10
信息检索系统开发与设计 第一章
文献
着重空格 标点等 处理
停用词 处理
名词 集合
词根 处理
自动或 手工标引
标引 词
结构识别
文
结
全
标
本
构
文
引
结
本
词
构
图1-2 文献的逻辑
2021/2/10
信息检索系统开发与设计 第一章
9
1.1 .2 文献的逻辑表示
l 传统: 一个集合中的文献常常通过标引词或关键词 的集合来表示。
11
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
l 定义和建立文本数据库 l 用户提问操作 l 匹配处理
12
2021/2/10
信息检索系统开发与设计 第一章
用户界面
文本操作
逻辑视图
提问操作
用户反馈
查询
检索得文献
排序
排序文献
文本 文本
标引 倒排文档
索引
数据库管理 者模块
– 命令语言:是指系统提供给用户的检索命令集合,包括基本命令 (如检索开始、结束、选词、组配、显示、打印等)和扩充集(如 截词、位置运算、限制检索、暂存检索策略、套录下载等)。
– 信息显示:指系统以屏幕显示形式提供给用户的各种信息,如菜单、 窗口、帮助信息、错误信息等。
– 反馈机制,即系统 对用户反馈的信息所做出的反应或操作。
– 标引作业通常与文献编目和文摘工作一起进行,然 后把标引结果和其他描述事项填入工作单,交录入 员去录入计算机中。
19
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 建库子系统
– 任务是建立和维护可直接用于计算机检索的数据库。 – 作业内容主要包括数据录入、错误检查与处理、数
l 数据库 l 联机信息检索与网络信息检索
– 是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设 备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术 等。
l 检索策略与方法
– 任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的 更有效的策略和方法。
31
2021/2/10
信息检索系统开发与设计 第一章
1.4.1 信息检索的研究对象
l 用户研究与培训
– 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立 响应的用户模型,作为系统设计以及制定系统营销策略的依据。
– 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非 常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。
据格式转换、生成并定期更新各种文档。
20
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
于机器处理的目标提问式。 l 检索,即从数据库中读入一批记录,与提问式进行比较,把满
足要求的记录记入输出文档。
23
2021/2/10
信息检索系统开发与设计 第一章
l 1硬.件2部.分3 信息检索系统的物理构成
– 主计算机 – 外围设备 – 数据处理或传送相关设备
l 软件部分
– 系统软件 – 应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引
第2讲 信息检索概述[精彩]
1.1 信息检索基本原理
l 信息检索的基本目标:
检索出所有与用户提问相关的文献,同时尽可能检 出更少的不相关文献。
l 相关信息的有效检索涉及两个方面
l 用户任务 l 文献的逻辑表示
4
2021/2/10
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
检索 浏览
程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等
l 数据库
– 磁媒体数据库 – 光盘数据库 – 多媒体数据库
24
2021/2/10
信息检索系统开发与设计 第一章
1.3 信息检索简史与趋势
l 信息检索发展分期 l 信息检索发展趋势
25
2021/2/10
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
l 50年代:探索与试验时期 l 60年代:实用化时期 l 70年代:联机服务市场化与网络化时期 l 80年代:最终用户检索发展与多元化时期 l 90年代:Web搜索引擎发展时期 l 21世纪:网络化与智能信息检索时期
26
2021/2/10
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
22
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 提问处理子系统
– 负责处理用户输入的检索词或提问式,并将它们与数据库中 存贮的数据进行比较运算,然后把运算结果输出给用户。
– 该模块主要由检索程序构成:
l 接收提问 l 提问校验:包括语法检查、格式检查和用词检查。 l 提问加工:指对源提问式进行解释性或编译性的加工,生成便
1.4.1 信息检索的研究对象
l 信息检索理论
– 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相 关性”理论以及有关的哲学问题。
l 信息检索系统
– 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护 技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。
l Web对信息检索系统的巨大影响
– Low cost : 是最便宜的存取各类信息源的系统,因 而吸引更多的用户;
– Great access: 数字通信技术的进步提供了更强的 接入能力,无论是本地还是远程;
– Publishing freedom: 人类历史上第一次,能够自由 地发布和获取大量信息。
21
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
28
2021/2/10
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l IR面临的问题和挑战
– 相关性信息的获取; – 更快速的提问响应; – 基于用户行为的新检索系统开发和设计;
Hale Waihona Puke 292021/2/10信息检索系统开发与设计 第一章
1.4 信息检索学科研究范围
l 信息检索的研究范围包括一切与信息存储检索有关的 系统、过程、理论和方法。
数据库
图 1-1 信息检索中用户任务
5
2021/2/10
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
l 检索 retrieval
– 用户将其信息需求和问题翻译成检索系统要求的提 问式(query),系统匹配后,提交相关文献。
l 浏览 browsing