第二章信息检索基础理论精品文档
第2章--信息检索PPT课件
经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
信息检索概述PPT课件
管理信息是经过加工并对生产经营活动产生影响的数据,使劳动创造的, 是一种资源,因而是由价值的。
9
1.2 信息概述
1.2.2 信息的特征(二)
层次性 相关性 简单性
可传输性
管理系统在客观上是有层次的(如公司级、工厂级、车间级等)。
1.2 信息概述
1.2.2 信息的特征(一)
客观性
信息反映客观事物的属性,必须真实、准确、如实反映客观实际。
主观性
对于信息和信息处理的任何研究和讨论,都离不开主体的目的或目标。
抽象性
整体性 不完全性 共享性
时效性 价值性
必须区分信息的载体和内容,是信息有可能在不同的载体之间转化与传递。 需要强调的是,人们往往把注意力集中在信息的载体(如计算机网络的建 设)或技术手段上,而忽视了信息本身的内容,这种本末倒置现象的产生 就远远对信息的抽象性缺乏明确的认识。
1.1.2 信息素养教育及其意义 ➢ 个人终身学习的需要 ➢ 人们生活的必备技能
1.2 信息概述
1.2.1 信息的概念 我国汉语中很早就有“信息”这个词。 早在一千多年前,唐朝诗人李中在《碧云 集·暮春怀故人》一诗中就留下了“梦断美 人沉信息,目穿长路倚楼台”的佳句。当 时,“信息”指的是音信、消息。
第一章 信息与信息素养
1.1 信息社会与信息素养 1.2 信息概述 1.3 信息源
1.1 信息社会与信息素养
1.1.1 信息社会及其特征 1.1.2 信息素养教育及其意义
1.1 信息社会与信息素养
1.1.1 信息社会及其特征 ➢ 信息成为宝贵的资源 ➢ 人们的信息意识空前强化
1.1 信息社会与信息素养
信息检索课件第2章
信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。
信息检索基础完整篇
第一章信息检索基础第一节信息资源概述一、信息含义:(1)广义信息定义为:信息是事物属性的表征。
(2)狭义的信息定义:信息是指系统传输和处理的对象。
二、知识1.概念:知识是人们通过实践对客观事物及运动过程和规律的认识。
人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性认识或经验,通过大脑对这些感性认识进行加工处理,形成理性认识,即知识。
2.知识与信息的联系:知识形成的过程就是人脑对客观事物传来的信息进行加工的过程,信息包含了知识,知识是信息被认识了的那部分。
3.信息、知识、文献三者关系(1、信息是物质存在的方式、形式和运动规律的表征。
(2、人脑对事物属性的感知形成知识。
人们对信息集合加工、整理形成人类社会实践的知识。
知识是能够被人们所认识到的那一部分信息。
(3、知识被记录在载体上形成文献。
(4.、文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。
三、文献1、定义——文献是记录有知识的一切载体。
(文献著录总则中定义)它把人类知识用文字、符号、图形及声频、视频信号等方式记录在纸张、感光材料、磁性材料等载体上。
2、文献四要素——文献信息、文献载体、符号系统、记录方式是构成文献的四个基本要素。
四者缺一不可。
知识决定文献的内容,载体决定文献的形态,记录则是构成文献的手段。
四、信息资源定义——这种大量的客观存在的人们直接或间接开发利用的信息集合总称为信息资源。
五、信息素质1.定义:指从各种信息源中检索、评价和使用信息的能力,是信息社会劳动者必须掌握的终身技能。
2.具有信息素质的人应具备的能力:运用信息工具、获取信息、处理信息、生成信息、创造信息、信息增效、信息协作、信息免疫第二节信息资源的构成一、从文献的性质和出版形式划分主要划分为以下十种类型,即所谓的“十大情报源”。
1.科技图书:一般是对已发表的科研成果、生产技术和科学知识的概括和总结。
它通常是以一次文献为基本素材,经过作者的选择、分析、鉴别和归纳后重新组织写成的。
第二章 信息检索的基本知识
一条英文书目记录:
AUTHOR: TITLE: PLACE: PUBLISHER: YEAR: PUB TYPE: FORMAT: in.) NOTES: Dichter, Carl. Software engineering with Perl Englewood Cliffs, N.J. Prentice Hall PTR, 1995 Book 282 p. : ill. ; 24 cm. + 1 computer disk (3 1/2 Includes bibliographical references (p. 267-268) and index System requirements for accompanying computer disk: High Density MSDOS; Macintosh with PC Exchange. 013016965X Software engineering. Perl (Computer program language) Software -- Engineering
2. 2信息检索原理及检索语言
2.2.1信息检索原理
各种检索系统的检索原理基本相同,简单地讲就是对 信息集合与需求集合的匹配与选择。信息检索的基本原理 如图2-2所示。 选择与匹配
信息 集合
特征化
表示
特征化 表示
需求 集合
图2-2 信息检索的基本原理示意图
检索提问标识与存储在检索工具中的文献索引标识进行 比较,两者一致或文献索引标识包含着检索提问标识,则具 有该标识的信息就从检索工具中输入,输出的信息就是检索 找到的信息。
N O P Q R S T U V X Z
自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
信息检索基础 PPT课件
2.4.2 信息财富
物质、能量、信息是现代社会发展的三大支柱,缺一 不可,而信息资源起着主导作用.
人类财富观:
古代农业社会—农业财富观、货币财富观。 工业社会—股票成为这一时期的财富代言。 20世纪50年代以来—信息资源成为财富的象征。
2.5 信息查询与利用的重要性
数字化时代生存的基本技能:是终身学习的技能, 即具有较强的信息发现、吸收、创新能力。在信息时 代一个人生存的质量如何取决于其信息化程度与信息 素质能力的高低。在信息社会中,个人的信息获取能 力,会对个人的事业成功、经济收入、社会地位即个 人的生存能力产生直接的影响,信息获取能力的差异 有可能形成社会中信息富有和信息贫穷的对立的不平 等情形:一部分人因拥有知识及技巧而能在许多方面 处于有利地位,另一部分人则有可能陷入不利境地。
2.2.4信息、知识与文献的关系
★事物发生发出信息;
★信息经人脑加工变为知识
信息只有经过加工,上升为对自然和社会发展客观规律的 认识,才构成知识。
★知识被记录形成文献;
★文献经传递、应用于理论与实践产生新的信息。
2.4信息社会和信息财富 2.4.1信息社会的特点:信息总量剧增,多媒体
技术和信息高速公路网络被广泛应用,成为信息 社会的重要表征,同时,信息渗入到社会生活的 各个角落,影响和改变了人们的生活和生存方式 。 一个国家的信息化程度,代表着其社会生产力的发 展水平,也决定着这个国家在下一个世纪中存在 与发展的实力和地位,而国家的信息化需要大批 具有信息素质的创造性人才。
3.信息检索方式
(1)根据信息的存储载体和检索技术手段的不同分类 手工检索:传统检索方法,是指手工翻检的方式,利用工具书 等各种印刷版适用于纸质印刷的 书刊文献。 例如:《计算机应用文摘》、《电子科技文摘》等。 计算机检索:使用的是检索系统。系统包括计算机设备、终端 、通信设施、数据库和检索、应用软件等。检索是针对数据 库进行的。即利用计算机检索系统从数据库中检索所需文献 信息。 例如:Dialog、Ei、ISTP、万方数据资源系统等。
第二节:信息资源(信息检索,符绍宏)
ห้องสมุดไป่ตู้
• 从检索本身来看,信息需求可分为已知文献需求和主 题信息需求两大类
– 已知文献需求:指用户在实施检索前,已了解到含有其所需 信息的文献的存在,并掌握了一些文献特征或线索,希望通 过检索查找到这些文献的具体位置并获取这些文献。 – 主题信息需求:是指用户在实施检索前,只知道所需信息的 主题范围,并不知道究竟有哪些文献含有其所需的信息。与 已知文献需求不同的是,满足主题信息需求的检索,是以所 需信息的主题特征为检索入口的,进而最终查找出包含这些 信息的文献。
• •
•
第三节:信息检索模型
要准确、量化地表述检索原理,实现检索机制,就需 要建立信息检索的数学模型。检索模型主要有经典模 型、结构化文本模型、浏览模型等。其中经典模型又 包括布尔模型、向量模型、概率模型。本节主要介绍 各模型的原理、优缺点及发展趋势: • 信息检索经典模型:布尔模型、向量模型、概率模型 • 结构化文本检索模型 • 浏览模型
1.2.1 信息资源的概念
信息与信息资源的定义,目前仍是众说纷坛。但国内 外多数专家都认为应该从狭义和广义两种角度来认识 和理解信息资源的涵义 : • 狭义信息资源:是指人类社会经济活动中经过加工处 理的、有序化并大量累积后的有用信息的集合。 • 广义信息资源:是信息和它的生产者以及信息技术的 集合 。 本书的陈述是基于狭义信息资源概念基础上的。
• • • • • •
2.2.2 印刷型检索工具的类型和结构
印刷型检索工具主要以文献和事实数据为检索对象, 因此分为文献检索工具和事实数据检索工具 两类,本 单元介绍这两种印刷型检索工具的类型及结构:
• 文献检索工具的类型:目录型检索工具、题录型检索 工具、索引型检索工具、文摘型检索工具 • 文献检索工具的一般结构:使用说明、目次表、正文、 辅助索引、附表等 • 事实与数据检索工具的类型:百科全书、传记资料、 地理资料、年鉴、机构指南、语文词典、统计资料等 • 事实与数据检索工具的一般结构:编辑说明、正文、 辅助索引、附录、书目与注释等
信息检索技术基础知识讲义(ppt 97页)
AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项:
• 布尔逻辑运算符运算顺序为: not→and→or • 运算符遵循数学运算法则;
(a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 单元词:指从信息内容中抽出的最基本的词汇。 • 关键词语言:关键词是从文题、文摘或正文中
抽出,具有实质意义,能够代表文献内容主题 的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词:指从信息的内容中抽出的、能概括表达 信息内容基本概念的名词或术语,它是经规范化处 理的自然语言词汇。
• 叙词受叙词表控制,有组配功能。 运输飞机设计
3
2.1 信息检索语言
检索 语言
描述文献 内容特征
分类语言
主题语言
关键词语言 单元词语言 标题词语言 叙词语言
描述文献 外表特征
题名(书名、刊名、篇名) 著者 出版事项
代码/序号
4
2.1 信息检索语言
• 主题语言(内容特征) • 按照主题性质的不同可分为:
• 标题词 • 单元词 • 叙词 • 关键词
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有 相交关系、同义关系或相关关系,这时 采用布尔逻辑进行检索项之间的逻辑组 配。
用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系, 这时采用布尔逻辑进行检索项之间的逻辑组配。 • 布尔逻辑算符有三种: 逻辑与、逻辑或、逻辑非 用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
信息检索基础.ppt
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
信息检索基础PPT课件
4
2.1.2 信息检索类型
信
息 检
依检索内容划分
索
类
型
文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法
《信息检索与利用》课程教学大纲
《信息检索与利用》课程教学大纲
一、课程介绍
(一)课程性质
“信息检索与利用”课是一门公共基础课,也是培养学生信息意识、信息能力、信息素质及检索基本技能的一门方法课,具有较强的理论性、知识性和实践性。
(二)课程任务
通过理论教学和实践,使学生具备文献信息检索的基础知识和基本理论,熟悉本专业及相关专业文献信息资源;掌握通过多种方式获取和利用文献信息资源的基本技能;学会用科学的方法进行文献信息的收集、整理、加工和利用,提高学生在学习和工作中的自学能力和独立创新能力。
课程主要内容包括信息检索的基本原理和基本知识、信息资源的特点及分布、各类检索工具及数据库的使用方法、信息利用的基本知识和方法。
通过该课程的学习有利于提高学生独立学习和自我知识更新的能力。
本课程总学时32,其中实验或自主上机8学时。
二、学习目标
(一)课程的总体目标与基本要求
通过理论学习,要求学生掌握文献信息检索的基本理论(包括信息资源、信息检索系统、信息检索语言、信息检索原理);掌握信息检索的基本技术(信息检索方法、信息检索途径、信息检索步骤、信息检索结果的识别);从而掌握文献信息检索的理论基础,具备分析和解决文献信息检索实践中的具体问题的理论知识。
基本技能的重点在于锻炼学生应用基础理论去探讨、研究和解决实际问题的能力。
通过教学实习环节,要求学生熟悉与本专业有关的数据库信息检索系统和因特网信息检索系统,运用文献信息检索的基本原理和基本技术,实际操作相关检索系统,完成文献信息的检索和利用,掌握文献信息检索的基本技术,具备文献信息检索的基本技能。
(二)各章节学习目标
三、教学大纲
四、学习计划
五、考核要点。
最新第2章信息检索基本知识ppt课件
布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
《信息检索基础知识》课件
03
信息检索系统
信息检索系统的构成
信息检索系统由信息源、信息组织与 检索方式、信息检索工具、用户界面
和信息利用等部分构成。
信息源是信息检索系统的物质基础, 包括各种类型的文献、网页、社交媒
体等。
信息组织与检索方式是信息检索系统 的核心,通过关键词、分类、主题等 方式对信息进行组织和检索。
信息检索工具是信息检索系统的手段 ,包括搜索引擎、数据库、图书馆等 。
05
信息检索的未来发展
信息检索技术的发展趋势
语义理解技术
随着自然语言处理技术的不断进步,信息检 索将更加注重对用户查询的语义理解,以提 高检索的准确性和相关性。
个性化检索
个性化检索技术将更加成熟,能够根据用户 的兴趣、偏好和行为习惯,为用户提供更加 精准和个性化的检索结果。
多模态检索
多模态检索技术将实现文本、图像、音频和 视频等多种媒体信息的融合检索,满足用户 对多媒体信息检索的需求。
自然语言处理
自然语言处理是信息检索中不可或缺的技术之一,它利用计算机对自然语言文本进行分析和处理,以 实现自然语言文本的自动识别和机器理解。
自然语言处理技术包括分词、词性标注、句法分析、语义分析等,这些技术能够将自然语言文本转换为 计算机可识别的格式,以便进行后续的信息检索和文本挖掘。
自然语言处理技术的应用范围广泛,例如在搜索引擎中实现自动纠错、自动完成、智能推荐等功能,以 及在智能客服中实现自动问答、智能回复等功能。
源。
网络信息检索阶段
随着计算机技术的发展,人们开始利用计算 机进行信息检索,出现了各种基于计算机技 术的检索工具和数据库。
智能信息检索阶段
随着人工智能技术的发展,智能信息检索逐 渐成为新的发展趋势,它能够更加智能地理 解用户需求,提供更加精准的信息服务。
信息检索理论基础(精选优秀)PPT
信息检索原理—信息检索及其发展
信息检索基本概念:
根据特定课题需要,运用科学的方法,采用专门的工具,从大量信息、 中迅速、准确、相对无遗漏地获取所需信息的过程即信息检索。 广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的 需要找出有关信息的过程,所以它的全称又叫“信息的存储与检索。 狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信 息的过程,相当于人们通常所说的信息查询。 完整的信息检索概念包括两项工作: (1)信息存储过程,即搜集、筛选、整理、积累现有信息及检索工具,建立信 息检索系统; (2)信息检索过程,即利用信息检索工具查找所需要的信息。
传统布尔检索模型的具体缺陷主要表现在以下五方面: ① 布尔检索式的非友善性,即构造一个好的检索式是不容易的。 ② 易造成零输出或输出过量。 ③ 无差别的组配元,不能区分各组配元的重要程度。 ④ 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判, 都一视同仁。 ⑤ 检索结果不能按照重要性排序输出。
(3)在社会科学化的进程中,信息检索经历了从手工检索到机械检索再 到计算机化检索的发展过程。
1.脱机检索( 20世纪50年代) 2.联机检索( 20世纪60年代末70年代初) 3.光盘检索( 20世纪80年代) 4.网络检索 ( 20世纪90年代)
信息检索原理
信息存储(标引)过程
检
原始
信息特
索
信息特
传统的向量空间模型将Tk取值为“0”或“1”,现在大多在[0,1] 区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提 问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计 算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相 似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使 检索更为合理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(4) 点击率方法
“鼠标投票” 代表:Direct Hit
(5) 分类和聚类
分类:将一篇文章/文本自动的识别出来, 按照先验的类别进行匹配,确定。
聚类:将一组的文章/文本/信息进行相 识性的比较,将比较相识的文章/文本/ 信息归为同一组的技术。
模糊聚类:没有先验的聚类因子,完全按 照算法来进行识别和类大小,类的多少, 类的误差等都是不确定因素。
“相关性”(relevance),是指信息检索系 统针对用户的查询(query)从文档集中检出 的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象,从严格 意义上讲,文档与查询之间不再是数据库检索 中的那种简单的匹配关系。但“匹配”这一术 语一直在使用,这里也接受这种说法。
手检相关性
依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行 为、认知能力
提高手检相关性的方法:
• 分析概念及学科属性;对检索工具的了解 • 调整检索策略
机检相关性
系统相关性
• (1) 词频方法 • (2) 位置方法 • (3) 引用率方法 • (4影响检索效果的主要因素
存储 检索 信息系统组织结构、检索系统功能问题 检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息检索系统特征 认真分析课题需求 灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价
索引数据库(范围、更新频率、索引建立 的方式)
信息组织管理评价指标 信息检索功能评价指标(检索方式、检索技
● 功能:
负责处理用户输入的检索词或提问式,并将它们与数据库 中存储的数据进行匹配运算,然后把运算结果返回给用户。
●主要操作流程:
——接收用户提问 ——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工 对源提问式进行解释性或编译性的加工,以便机器处
理。常用的加工方法有:表展开法,逆波兰法,准波兰法, 范式法等。
信息检索模型决定于:
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的 关系
如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常,可以把一个信息检索系统形式化地描述为一个 四元组: System=(D,T,Q, ρ)
其中: D={ d1,d2, d3…… dn },表示系统中经过标引 的或直接采集的文献集合;n为数据库容量(n≥0) T={ t1,t2,t3……tm },表示系统所有可能存在的 可检项的集合; Q={ q1,q2,q3……qk },表示所有提问的集合; ρ: Q×D→R, ρ称为映射函数或匹配函数, Q×D是 提问集合Q与文献集合D的笛卡尔乘积,R为函数值的 集合。
术、检索限定) 检索结果评价指标(排序) 检索界面的评价指标
2.2 信息检索系统和工具
类型
手工检索系统 穿孔卡片检索系统 缩微检索系统 光盘检索系统 计算机信息检索系统 网络信息检索系统
2.2.2 印刷型检索工具的类型和结构
文献检索工具
• 目录 题录 索引 文摘
存储是为了检索,检索又必须先进行存储。
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
计算机信息 检索原理
示意图
2.1.2 信息检索的相关性问题
定义:检索结果与用户需求一致性程度 影响因素:
用户信息需求的表达 相关度判断的算法 用户的主观判断
手检相关性、机检相关性
技术。绝大部分链接分析算法都有共同的出发点:
更多地被其他页面链接的页面是质量更好的页面,
并且从更重要的页面出发的链接有更大的权重。 这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出 并应用到Google搜索引擎中的PageRank算法以 及IBM用于CLEVER搜索引擎的HITS算法。
模型 信息检索系统的形式化表示 布尔检索模型 向量空间模型 概率检索模型 其他信息检索模型
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型?
模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述
面对相同的输入,模型的输出应该能够无限地 逼近现实世界的输出, 例如:天气的预测模型
模型和实现的区别:一个模型可以用多种方法 实现, 例如,布尔模型可以倒排文档(inverted file)实现,也可以用B-tree实现。
信息检索的数学模型:运用数学的语言和工 具,对IR中的信息及其处理过程加以翻译 和抽象,表达为某种数学公式。
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集 标引处理
创建数据库
词汇管理 工具
用户接口
提问处理/ 检索匹配
DB
DB
DB
数据库生成
数据库查询
2.2.3 计算机检索系统的结构及工作 原理
联机 光盘 网络 物理结构 逻辑结构
(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统
用户相关性
(1) 基于词频统计的相关性
当用户输入检索词时,搜索引擎去找那些检索词 在文章(网页)中出现频率较高的,位置较重要 的,再加上一些对检索词本身常用程度的加权, 最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的, 如Infoseek,Excite,Lycos等,它们基本上是 沿用了网络时代之前学术界的研究成果,工业界 的主要精力放在处理大访问量和大数据量上,对 相关性排序没有突破。
PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直 接浏览到的概率和从上一页中继续访问的概率总 和。其中,T是节点(页面)总数,C(t)是从页面 t指出的超链接总数,d称为阻尼因子(damping factor),一般取值为0.85。概率Pr(t)反映了节 点t的重要程度。
(2)标引处理子系统
● 功能 标引(indexing)是指对文献主题特征进行分析并
使之显性化,以便为存储和检索这两个环节提供某种 连接的文献加工操作。标引处理子系统将决定着数据 库的标引深度(或网罗度)和检索点,并直接影响到 系统的检索方式和检索功能。 ● 标引处理的类型
—— 人工赋词标引 —— 机器标引 —— 无标引(或全标引) ●标引要求 不漏标——全面 不错标——准确 不滥标——简练
HITS是IBM Almaden研究中心开发的另一种链 接分析算法。它认为每个WEB页面都有被指向、 作为权威(Authority)和指向其他页面作为资 源中心(Hub)的两方面属性,其取值分别用 A(p)和H(p)表示。A(p)值为所有指向p的页面q 的中心权重H(q)之和,同样,页面p的中心权 重H(p)值是所有p所指向的页面q的权威权重A(q) 之和,如下式:
(5)用户接口子系统
● 功能:
用于人机交互,承担用户与系统之间的通讯任务。
● 界面风格(5种)
——命令/指令语言(command language)
——菜单选择(menu selection)
——表格填充(form fill-in)
——直接操纵(direct manipulation)
——自然语言(natural language)
(1)信息选择与采集子系统
● 要求 快速、经济、广泛、连续
●功能 信息选择与采集子系统将决定信息检索系统中 数据库的类型及收录范围,是信息检索与利用 的起点。 ●工作方式 对通常的计算机化检索系统来说,信息选择 与采集主要由人工完成,但对于网络信息检索 系统来说,则主要通过网络搜索机器人Robot 自动进行,并且可以定期更新。
● 接口技术(2种):
——字符用户界面(CUI------Character User Interface)
——图形用户界面(GUI------Graphic User
Interface)
WIMP(Window、Icon、
Menu、Pointing device)
(6)提问处理 / 检索匹配子系统 (技术核心)
相关性判断方法的缺点分析
标引停留在字符层次 苹果?
不能区分同形异义词
公车?
不能联想
• 自行车 单车 脚踏车…
相关性研究的热点
基于内容的理解 联想功能及语义处理 相关反馈技术 提供信息导引功能
2.1.3 信息检索的效果评价
评价指标体系
• 查全率 • 查准率 • 漏检率 • 误检率
信息检索经典模型
1 布尔模型(1950s末)
布尔逻辑+集合论
◆ 扩展布尔模型(统一模型)(1980s初) 2 向量空间模型
(3)建库子系统
主要作业内容包括: ● 数据录入 ● 错误检查与处理 ● 数据格式转换 在程序控制下自动完成。例如,支持联机
检索的数据库一般要在主文档基础上再产生出 主文档索引、倒排文档和词典文档。
● 文档更新维护 由程序控制,定期进行更新或上载数据。
(4)词表管理子系统
在文本信息检索系统,各种词表系统(如主题词表、后 控词表等)通常作为一个重要成分而存在,词表中的 词汇可以在用户检索信息时实现对检索效果的有效控 制。词汇管理子系统有时也可独立存在。