第1章-信息检索

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索的起源与发展 信息检索基本原理 信息检索系统 信息检索学科研究范围
1.1 信息检索的起源与发展
什么是信息检索( Information Retrieval,IR )



信息检索通常指信息用户为处理解决各种问题而查找、 识别、获取相关的事实、数据、文献的活动及过程。 赖茂生先生:信息检索是将信息按一定的方式组织和 存贮起来,并根据用户的需要找出有关信息的过程。 信息检索涉及信息的表示、存贮、组织和存取
更快速的提问响应;

基于用户行为的新检索系统的开发和设计;
1.2 信息检索基本原理
信息检索过程涉及三个方面
用户任务 文献的逻辑表示 相关性判断

1.2 .1 信息检索中用户任务
检索
数据库 浏览
图 1-1 信息检索中用户任务
1.2.1 信息检索中用户任务
检索 retrieval


情报检索


信息检索

1.1 信息检索的起源与发展
信息检索方式的发展


手工检索 机械检索 计算机检索
1.1 信息检索的起源与发展
手工检索是指仅用手工的方式来处理和查找文献 工具,如文摘、索引、目录、参考工具书等。 优点:

不需要特殊设备,查找简单、灵活 用户可以随时修改检索策略 检索费用较低等优点 效率低下、费时较多、查全率较低
索引
检索得文献
排序
文本 数据库
排序文献
图1-3 检索处理过程
1. 3 .2 信息检索系统的逻辑 构成
信息检索系统的逻辑构成主要是指它所包 括的功能模块或子系统及其相互关系
1. 3 .2 信息检索系统的逻辑 构成
一个完整的信息检索系统,通常由以下几 个功能模块组成:



信息源选择采集子系统 标引子系统 建库子系统 词表管理子系统 用户接口子系统 提问处理子系统
标引信息
信息集合
1.2.2 文献的逻辑表示
全文本 —— 标引词的集合 目的:降低文献表示的复杂性,和计算机 处理的难度。
文献
着重空格 标点等 处理
停用词 处理
名词 集合
词根 处理
自动或 手工标引
标引 词
结构识别
文 本 结 构
结 构
全 文 本 图1-2 文献的逻辑表示
标 引 词
1.2.2 文献的逻辑表示



命令语言:是指系统提供给用户的检索命令集合,包括基本 命令(如检索开始、结束、选词、组配、显示、打印等)和 扩充集(如截词、位置运算、限制检索、暂存检索策略、套 录下载等)。 信息显示:指系统以屏幕显示形式提供给用户的各种信息, 如菜单、窗口、帮助信息、错误信息等。 反馈机制,即系统 对用户反馈的信息所做出的反应或操作。
数据录入 错误检查与处理 数据格式转换 等等

1. 3 .2 信息检索系统的逻辑 构成
词表管理子系统



功能是管理维护系统中已有的主题词表,使它 与标引、建库等子系统相连接 本体 作业:尝试构建一个情报学的领域本体
1. 3 .2 信息检索系统的逻辑 构成
用户接口子系统

用户接口子系统承担用户与系统之间的通讯功能(软 硬件)
1. 3 .2 信息检索系统的逻辑 构成
提问处理子系统


负责处理用户输入的检索词或提问式,并将它们与数 据库中存贮的数据进行比较运算,然后把运算结果输 出给用户。 该模块主要由检索程序构成:


接收提问 提问校验:包括语法检查、格式检查和用词检查。 提问加工:指对源提问式进行解释性或编译性的加工,生成 便于机器处理的目标提问式。 检索,即从数据库中读入一批记录,与提问式进行比较,把 满足要求的记录记入输出文档。

Precision vs. Recall Cutoff Points Test Collections/TREC Blair & Maron Study
What to Evaluate?
How much learned about the collection? How much learned about a topic? How much of the information need is satisfied? How inviting the system is?
1. 3 .2 信息检索系统的逻辑 构成
标引子系统


标引,就是根据一定的规则和程序,对文献内 容进行分析,然后赋予每篇文献以一定数量的 内容标识(分类号、主题词、关键词等),作 为存贮与检索的依据。 创建文档替代物
1. 3 .2 信息检索系统的逻辑 构成
建库子系统


任务是建立和维护可直接用于计算机检索的数 据库 主要工作包括:
缺点:

它是一种传统而又基础的检索手段,在某些部门 领域仍然使用
1.1 信息检索的起源与发展
计算机化检索的发展



20世纪50年代:探索与试验时期 20世纪60年代:实用化时期 20世纪70年代:联机服务市场化与网络化时期 20世纪80年代:最终用户检索时期 20世纪90年代:Web搜索引擎发展时期 21世纪:网络化与智能信息检索时期

多媒体信息检索、跨语言检索、分布式检索、对等网络检索技术、隐 性网页、网格检索技术、语义检索、基于本体的信息检索、小世界理 论
五次讨论
相关性反馈 网格环境下的信息检索技术 语义网与信息检索 基于本体的信息检索技术 小世界理论在信息检索中的技术
第一章 信息检索概述
本章主要内容
信息检索理论与技术
杨建林
信息检索理论与技术
引言
本课程教材
苏新宁主编 《信息检索理论与技术》 科学技术 文献出版社
本课程主要内容
信息检索概述 信息检索理论模型 文本信息检索 信息检索相关性研究 信息检索的预处理技术

标引、分类与文摘
Internet信息检索技术 信息检索技术的研究热点
1.1 信息检索的起源与发展
信息检索研究的兴起


起初,信息检索并没有作为一个研究领域而存 在 随着科学技术的发展和信息数量的剧增,信息 检索研究逐步兴起

人们越来越关注如何从浩如烟海的信息源中迅速而 准确地查找到学习和研究所需要的资料
1.1 信息检索的起源与发展
信息检索概念的发展

文献检索
1. 3 .2 信息检索系统的逻辑 构成
信息源选择采集子系统

本功能模块任务:将各种信息源电子化,为系统提供充足 而适用的数据来源。



目前,信息检索系统中的数据主要来自各种公开文献,如一次文 献中的期刊、图书、研究报告、会议论文、专利文献、政府出版 物、学位论文、二次文献中的文摘、索引和目录,三次文献中的 百科全书、专科词典,名录、指南、手册等 有些系统还收录各种机构的内部资料,如实验记录、测试或观测 结果、工程设计资料、统计资料等 自动采集系统
1.1 信息检索的起源与发展
Web对信息检索系统的巨大影响


低费用 (Low cost ): 是最便宜的存取各类信息 源的系统,因而吸引更多的用户; 自由发布信息: 人类历史上第一次,能够自由 地发布和获取大量信息。
1.1 信息检索的起源与发展
IR面临的问题和挑战

相关性信息的获取;
用户将其信息需求和问题翻译成检索系统要求 的提问式(query),系统匹配后,提交相关文献。 使用交互式界面翻阅整个文献集合,以找出感 兴趣的相关文献。
浏览 browsing

1.2 .1 信息检索中用户任务
要求 应征者 婚介所
基本信息
征婚者集合
1.2 .1 信息检索中用户任务
要求 用户 检索系统
1.4.1 信息检索的研究对象
检索策略与方法 任务是利用、研究、评价和完善现有的各种检索策略 和方法,研究开发新的更有效的策略和方法。
1.4.1 信息检索的研究对象
自动标引、自动分类和自动摘录 这是探索如何教会计算机去“理解”信息内容,自动 识别和提取出文献中的有用信息和检索标识,自动生 成主题标识或文摘。 是技术难度非常大、诱惑力很强的领域,吸引了众多 研究者,并取得了许多可喜的成果。
1. 3 .3 信息检索系统的物理构成
硬件部分

主计算机、外围设备、数据处理或传送相关设备 系统软件 应用软件:数据库管理系统, 检索程序,记帐统计程序等 磁媒体数据库、光盘数据库、多媒体数据库
软件部分

数据库

1.4 信息检索学科研究范围
信息检索的研究范围包括一切与信息存储、检索 有关的系统、过程、理论和方法



一切可供存贮和检索利用的信息类型,如文献、数据、 事实、知识、声音、图形等; 各种信息检索系统及其运行过程,如信息采集、标引、 组织、存贮、处理、匹配、输出、传送等; 信息检索过程中使用的各种方法,以及在信息检索实 践和研究的基础上形成的各种理论和假设。
1.4.1 信息检索的研究对象
信息检索理论 主要包括检索语言与标引理论,信息检索的数学模 型,知识表示理论,“相关性”理论以及有关的哲学问 题。 信息检索系统 主要研究信息检索系统的结构、功能、演变,它的设 计开发技术、管理维护技术和评价技术,还研究它与 其他信息系统乃至整个外部世界的关系。 数据库和数据仓库 信息资源的组织
传统: 一个集合中的文献常常通过标引词或关键 词的集合来表示。 现代:

用文献的所有词集合以及结构来表示 即全文索引
1. 3 信息检索系统
信息检索系统是实现计算机信息检索的平 台 本节主要内容


信息检索系统的处理过程 信息检索系统的逻辑构成 信息检索系统的物理构成
1. 3 信息检索系统
信息检索系统是由一定的设备和信息集合 构成,面向一定的用户,具有信息采集、 组织、存贮、选择和传播等功能的信息服 务设施
1. 3 .1 信息检索系统处理过 程
定义和建立数据库 用户提问操作 匹配处理
用户界面
文本 文本
文本操作
逻辑视图
提问操作
标引
倒Baidu Nhomakorabea文档
数据库管理 者模块
用户反馈
查询

1.5 信息检索评价

Precision and Recall

Contingency table
1.5 信息检索评价

Precision and Recall (contd…)




Recall is the proportion of relevant documents retrieved by the system. Precision is the proportion of retrieved documents that are relevant. Fallout is the proportion of non-relevant documents retrieved by the system. A good IR system should have a high recall (retrieve as many relevant documents as possible) & have a high precision (retrieve very few non-relevant documents).
1.4.1 信息检索的研究对象
相关设备 包括对信息检索所需的各种设备的研究,如计算机系 统、微机与终端设备、输入输出设备、存贮设备、通 讯设施等。 系统效益研究
1.4.2 相关学科及领域
计算机科学 数学 语言学 人工智能 认知科学
1.5 信息检索评价
查全率(Recall) 查准率(Precision) 互逆相关 F指标 M指标


20世纪中叶以前,信息检索研究关注的是如何检索、利用文 献中记载的信息 原因:当时,信息存储和传播主要以纸质介质为载体,信息 检索活动围绕着文献的获取和控制展开 20世纪50年代以后,社会信息传播与存储载体呈现多元化, 人们不再拘泥于纸质载体研究信息检索 “信息”一词较“情报”一词的含义更为宽泛
1.5 信息检索评价

Precision and Recall (contd…)

Unfortunately the two goals are quite contradictory. Average Precision
Evaluation
Relevance Evaluation of IR Systems
相关文档
最新文档