第二章信息检索基础理论精品文档
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 信息检索基础理论
本章要点
信息检索的主要数学模型
检索系统/工具的结构及工作原理 检索系统的评价
信息检索的相关性问题
查全率 查准率
信息检索的基本原理
2.1 信息检索的基本原理
通过对大量的、分散无序的文献信息进行搜集、 加工、组织、存储,建立各种各样的检索系统, 并通过一定的方法和手段使存储与检索这两个 过程所采用的特征标识达到一致,以便有效地 获得和利用信息源。
面对相同的输入,模型的输出应该能够无限地 逼近现实世界的输出, 例如:天气的预测模型
模型和实现的区别:一个模型可以用多种方法 实现, 例如,布尔模型可以倒排文档(inverted file)实现,也可以用B-tree实现。
信息检索的数学模型:运用数学的语言和工 具,对IR中的信息及其处理过程加以翻译 和抽象,表达为某种数学公式。
用户相关性
(1) 基于词频统计的相关性
当用户输入检索词时,搜索引擎去找那些检索词 在文章(网页)中出现频率较高的,位置较重要 的,再加上一些对检索词本身常用程度的加权, 最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的, 如Infoseek,Excite,Lycos等,它们基本上是 沿用了网络时代之前学术界的研究成果,工业界 的主要精力放在处理大访问量和大数据量上,对 相关性排序没有突破。
模型 信息检索系统的形式化表示 布尔检索模型 向量空间模型 概率检索模型 其他信息检索模型
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型?
模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述
PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直 接浏览到的概率和从上一页中继续访问的概率总 和。其中,T是节点(页面)总数,C(t)是从页面 t指出的超链接总数,d称为阻尼因子(damping factor),一般取值为0.85。概率Pr(t)反映了节 点t的重要程度。
术、检索限定) 检索结果评价指标(排序) 检索界面的评价指标
2.2 信息检索系统和工具
类型
手工检索系统 穿孔卡片检索系统 缩微检索系统 光盘检索系统 计算机信息检索系统 网络信息检索系统
2.2.2 印刷型检索工具的类型和结构
文献检索工具
• 目录 题录 索引 文摘
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集 标引处理
创建数据库
词汇管理 工具
用户接口
提问处理/ 检索匹配
DB
DB
DB
数据库生成
数据库查询
2.2.3 计算机检索系统的结构及工作 原理
联机 光盘 网络 物理结构 逻辑结构
(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统
技术。绝大部分链接分析算法都有共同的出发点:
更多地被其他页面链接的页面是质量更好的页面,
并且从更重要的页面出发的链接有更大的权重。 这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出 并应用到Google搜索引擎中的PageRank算法以 及IBM用于CLEVER搜索引擎的HITS算法。
(1)信息选择与采集子系统
● 要求 快速、经济、广泛、连续
●功能 信息选择与采集子系统将决定信息检索系统中 数据库的类型及收录范围,是信息检索与利用 的起点。 ●工作方式 对通常的计算机化检索系统来说,信息选择 与采集主要由人工完成,但对于网络信息检索 系统来说,则主要通过网络搜索机器人Robot 自动进行,并且可以定期更新。
信息检索模型决定于:
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的 关系
如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常,可以把一个信息检索系统形式化地描述为一个 四元组: System=(D,T,Q, ρ)
其中: D={ d1,d2, d3…… dn },表示系统中经过标引 的或直接采集的文献集合;n为数据库容量(n≥0) T={ t1,t2,t3……tm },表示系统所有可能存在的 可检项的集合; Q={ q1,q2,q3……qk },表示所有提问的集合; ρ: Q×D→R, ρ称为映射函数或匹配函数, Q×D是 提问集合Q与文献集合D的笛卡尔乘积,R为函数值的 集合。
HITS是IBM Almaden研究中心开发的另一种链 接分析算法。它认为每个WEB页面都有被指向、 作为权威(Authority)和指向其他页面作为资 源中心(Hub)的两方面属性,其取值分别用 A(p)和H(p)表示。A(p)值为所有指向p的页面q 的中心权重H(q)之和,同样,页面p的中心权 重H(p)值是所有p所指向的页面q的权威权重A(q) 之和,如下式:
A(p)=∑H(qi) (其中qi是所有链接到p的页面) H(p)=∑A(qi)(其中qi是所有页面p所链接到的 页面)
链接分析方法常常和基于内容的检索方法 相结合。尽管很多基于较小的数据规模 (数十G)网页数据的实验并不能证明链接 分析算法能够提高检索的性能。但是,很 多人都相信,链接分析方法能够反映WEB 社会的一些最自然的属性,应该能够在大 规模真实环境下提高检索结果。Google的 使用成功也增强了大家的信心砝码。
存储是为了检索,检索又必须先进行存储。
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
计算机信息 检索原理
示意图
2.1.2 信息检索的相关性问题
定义:检索结果与用户需求一致性程度 影响因素:
用户信息需求的表达 相关度判断的算法 用户的主观判断
手检相关性、机检相关性
● 功能:
管理维护系统中已有词表的结构、词汇,使它与标 引、建库、检索等多个子系统相连接;支持用户的各 种词汇查询操作;输出各种形式的词汇数据或词表产 品等。
● 类型:
主题词表(Thesaurus)(受控词汇检索系统) 后控词表(post-controlled vocabulary)(自 然语言检索系统)
词频统计其实根本没有利用任何跟网络有关的特 性,是前网络时代的技术。
(2) 位置方法
据关键词在文中出现的位置来判定文件的 相关性。认为关键词出现得越靠前,文件 的相关程度就越高。
(3) 引用率方法
科学引文分析 超链分析
百度 Google PangRank算法
WEB中各页面之间的链接关系是一项可以利用的 重要信息。基于这种信息的技术被称为链接分析
相关性判断方法的缺点分析
标引停留在字符层次 苹果?
不能区分同形异义词
公车?
不能联想
• 自行车 单车 脚踏车…
相关性研究的热点
基于内容的理解 联想功能及语义处理 相关反馈技术 提供信息导引功能
2.1.3 信息检索的效果评价
评价指标体系
• 查全率 • 查准率 • 漏检率 • 误检率
● 功能:
负责处理用户输入的检索词或提问式,并将它们与数据库 中存储的数据进行匹配运算,然后把运算结果返回给用户。
●主要操作流程:
——接收用户提问 ——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工 对源提问式进行解释性或编译性的加工,以便机器处
理。常用的加工方法有:表展开法,逆波兰法,准波兰法, 范式法等。
——检索匹配 将提问式与数据库记录进行匹配(精确匹配或局部匹配)。
联机检索系统的工作原理
联机数据库
• 存取号 基本索引字段 辅助索引字段
文档组织
• 顺排文档 倒排文档
检索流程Leabharlann Baidu
网络检索系统的结构及工作原理
一般结构: 自动索引程序 数据库 检索代理软件
工作原理 后面章节介绍
2.3 信息检索模型
(4) 点击率方法
“鼠标投票” 代表:Direct Hit
(5) 分类和聚类
分类:将一篇文章/文本自动的识别出来, 按照先验的类别进行匹配,确定。
聚类:将一组的文章/文本/信息进行相 识性的比较,将比较相识的文章/文本/ 信息归为同一组的技术。
模糊聚类:没有先验的聚类因子,完全按 照算法来进行识别和类大小,类的多少, 类的误差等都是不确定因素。
(2)标引处理子系统
● 功能 标引(indexing)是指对文献主题特征进行分析并
使之显性化,以便为存储和检索这两个环节提供某种 连接的文献加工操作。标引处理子系统将决定着数据 库的标引深度(或网罗度)和检索点,并直接影响到 系统的检索方式和检索功能。 ● 标引处理的类型
—— 人工赋词标引 —— 机器标引 —— 无标引(或全标引) ●标引要求 不漏标——全面 不错标——准确 不滥标——简练
(3)建库子系统
主要作业内容包括: ● 数据录入 ● 错误检查与处理 ● 数据格式转换 在程序控制下自动完成。例如,支持联机
检索的数据库一般要在主文档基础上再产生出 主文档索引、倒排文档和词典文档。
● 文档更新维护 由程序控制,定期进行更新或上载数据。
(4)词表管理子系统
在文本信息检索系统,各种词表系统(如主题词表、后 控词表等)通常作为一个重要成分而存在,词表中的 词汇可以在用户检索信息时实现对检索效果的有效控 制。词汇管理子系统有时也可独立存在。
● 接口技术(2种):
——字符用户界面(CUI------Character User Interface)
——图形用户界面(GUI------Graphic User
Interface)
WIMP(Window、Icon、
Menu、Pointing device)
(6)提问处理 / 检索匹配子系统 (技术核心)
信息检索经典模型
1 布尔模型(1950s末)
布尔逻辑+集合论
◆ 扩展布尔模型(统一模型)(1980s初) 2 向量空间模型
影响检索效果的主要因素
存储 检索 信息系统组织结构、检索系统功能问题 检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息检索系统特征 认真分析课题需求 灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价
索引数据库(范围、更新频率、索引建立 的方式)
信息组织管理评价指标 信息检索功能评价指标(检索方式、检索技
(5)用户接口子系统
● 功能:
用于人机交互,承担用户与系统之间的通讯任务。
● 界面风格(5种)
——命令/指令语言(command language)
——菜单选择(menu selection)
——表格填充(form fill-in)
——直接操纵(direct manipulation)
——自然语言(natural language)
依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行 为、认知能力
提高手检相关性的方法:
• 分析概念及学科属性;对检索工具的了解 • 调整检索策略
机检相关性
系统相关性
• (1) 词频方法 • (2) 位置方法 • (3) 引用率方法 • (4) 点击率方法 • (5) 分类或聚类
“相关性”(relevance),是指信息检索系 统针对用户的查询(query)从文档集中检出 的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象,从严格 意义上讲,文档与查询之间不再是数据库检索 中的那种简单的匹配关系。但“匹配”这一术 语一直在使用,这里也接受这种说法。
手检相关性
评价指标体系
查全率(检全率)
检全率系统 检中 出 相关 相文关献文总献 1量0量 0%
查准率(检准率)
检准率 检 检出 出相 文关 献文 总 献 1量 0量 % 0
评价指标体系
漏检率
漏检率 系漏 统检 中相 相关 关文 文献 献量 1总00量 %
误检率
误检率 检 误出 检文 文献 献 总 量 10量 % 0
本章要点
信息检索的主要数学模型
检索系统/工具的结构及工作原理 检索系统的评价
信息检索的相关性问题
查全率 查准率
信息检索的基本原理
2.1 信息检索的基本原理
通过对大量的、分散无序的文献信息进行搜集、 加工、组织、存储,建立各种各样的检索系统, 并通过一定的方法和手段使存储与检索这两个 过程所采用的特征标识达到一致,以便有效地 获得和利用信息源。
面对相同的输入,模型的输出应该能够无限地 逼近现实世界的输出, 例如:天气的预测模型
模型和实现的区别:一个模型可以用多种方法 实现, 例如,布尔模型可以倒排文档(inverted file)实现,也可以用B-tree实现。
信息检索的数学模型:运用数学的语言和工 具,对IR中的信息及其处理过程加以翻译 和抽象,表达为某种数学公式。
用户相关性
(1) 基于词频统计的相关性
当用户输入检索词时,搜索引擎去找那些检索词 在文章(网页)中出现频率较高的,位置较重要 的,再加上一些对检索词本身常用程度的加权, 最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的, 如Infoseek,Excite,Lycos等,它们基本上是 沿用了网络时代之前学术界的研究成果,工业界 的主要精力放在处理大访问量和大数据量上,对 相关性排序没有突破。
模型 信息检索系统的形式化表示 布尔检索模型 向量空间模型 概率检索模型 其他信息检索模型
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型?
模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述
PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直 接浏览到的概率和从上一页中继续访问的概率总 和。其中,T是节点(页面)总数,C(t)是从页面 t指出的超链接总数,d称为阻尼因子(damping factor),一般取值为0.85。概率Pr(t)反映了节 点t的重要程度。
术、检索限定) 检索结果评价指标(排序) 检索界面的评价指标
2.2 信息检索系统和工具
类型
手工检索系统 穿孔卡片检索系统 缩微检索系统 光盘检索系统 计算机信息检索系统 网络信息检索系统
2.2.2 印刷型检索工具的类型和结构
文献检索工具
• 目录 题录 索引 文摘
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集 标引处理
创建数据库
词汇管理 工具
用户接口
提问处理/ 检索匹配
DB
DB
DB
数据库生成
数据库查询
2.2.3 计算机检索系统的结构及工作 原理
联机 光盘 网络 物理结构 逻辑结构
(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统
技术。绝大部分链接分析算法都有共同的出发点:
更多地被其他页面链接的页面是质量更好的页面,
并且从更重要的页面出发的链接有更大的权重。 这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出 并应用到Google搜索引擎中的PageRank算法以 及IBM用于CLEVER搜索引擎的HITS算法。
(1)信息选择与采集子系统
● 要求 快速、经济、广泛、连续
●功能 信息选择与采集子系统将决定信息检索系统中 数据库的类型及收录范围,是信息检索与利用 的起点。 ●工作方式 对通常的计算机化检索系统来说,信息选择 与采集主要由人工完成,但对于网络信息检索 系统来说,则主要通过网络搜索机器人Robot 自动进行,并且可以定期更新。
信息检索模型决定于:
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的 关系
如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常,可以把一个信息检索系统形式化地描述为一个 四元组: System=(D,T,Q, ρ)
其中: D={ d1,d2, d3…… dn },表示系统中经过标引 的或直接采集的文献集合;n为数据库容量(n≥0) T={ t1,t2,t3……tm },表示系统所有可能存在的 可检项的集合; Q={ q1,q2,q3……qk },表示所有提问的集合; ρ: Q×D→R, ρ称为映射函数或匹配函数, Q×D是 提问集合Q与文献集合D的笛卡尔乘积,R为函数值的 集合。
HITS是IBM Almaden研究中心开发的另一种链 接分析算法。它认为每个WEB页面都有被指向、 作为权威(Authority)和指向其他页面作为资 源中心(Hub)的两方面属性,其取值分别用 A(p)和H(p)表示。A(p)值为所有指向p的页面q 的中心权重H(q)之和,同样,页面p的中心权 重H(p)值是所有p所指向的页面q的权威权重A(q) 之和,如下式:
A(p)=∑H(qi) (其中qi是所有链接到p的页面) H(p)=∑A(qi)(其中qi是所有页面p所链接到的 页面)
链接分析方法常常和基于内容的检索方法 相结合。尽管很多基于较小的数据规模 (数十G)网页数据的实验并不能证明链接 分析算法能够提高检索的性能。但是,很 多人都相信,链接分析方法能够反映WEB 社会的一些最自然的属性,应该能够在大 规模真实环境下提高检索结果。Google的 使用成功也增强了大家的信心砝码。
存储是为了检索,检索又必须先进行存储。
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
计算机信息 检索原理
示意图
2.1.2 信息检索的相关性问题
定义:检索结果与用户需求一致性程度 影响因素:
用户信息需求的表达 相关度判断的算法 用户的主观判断
手检相关性、机检相关性
● 功能:
管理维护系统中已有词表的结构、词汇,使它与标 引、建库、检索等多个子系统相连接;支持用户的各 种词汇查询操作;输出各种形式的词汇数据或词表产 品等。
● 类型:
主题词表(Thesaurus)(受控词汇检索系统) 后控词表(post-controlled vocabulary)(自 然语言检索系统)
词频统计其实根本没有利用任何跟网络有关的特 性,是前网络时代的技术。
(2) 位置方法
据关键词在文中出现的位置来判定文件的 相关性。认为关键词出现得越靠前,文件 的相关程度就越高。
(3) 引用率方法
科学引文分析 超链分析
百度 Google PangRank算法
WEB中各页面之间的链接关系是一项可以利用的 重要信息。基于这种信息的技术被称为链接分析
相关性判断方法的缺点分析
标引停留在字符层次 苹果?
不能区分同形异义词
公车?
不能联想
• 自行车 单车 脚踏车…
相关性研究的热点
基于内容的理解 联想功能及语义处理 相关反馈技术 提供信息导引功能
2.1.3 信息检索的效果评价
评价指标体系
• 查全率 • 查准率 • 漏检率 • 误检率
● 功能:
负责处理用户输入的检索词或提问式,并将它们与数据库 中存储的数据进行匹配运算,然后把运算结果返回给用户。
●主要操作流程:
——接收用户提问 ——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工 对源提问式进行解释性或编译性的加工,以便机器处
理。常用的加工方法有:表展开法,逆波兰法,准波兰法, 范式法等。
——检索匹配 将提问式与数据库记录进行匹配(精确匹配或局部匹配)。
联机检索系统的工作原理
联机数据库
• 存取号 基本索引字段 辅助索引字段
文档组织
• 顺排文档 倒排文档
检索流程Leabharlann Baidu
网络检索系统的结构及工作原理
一般结构: 自动索引程序 数据库 检索代理软件
工作原理 后面章节介绍
2.3 信息检索模型
(4) 点击率方法
“鼠标投票” 代表:Direct Hit
(5) 分类和聚类
分类:将一篇文章/文本自动的识别出来, 按照先验的类别进行匹配,确定。
聚类:将一组的文章/文本/信息进行相 识性的比较,将比较相识的文章/文本/ 信息归为同一组的技术。
模糊聚类:没有先验的聚类因子,完全按 照算法来进行识别和类大小,类的多少, 类的误差等都是不确定因素。
(2)标引处理子系统
● 功能 标引(indexing)是指对文献主题特征进行分析并
使之显性化,以便为存储和检索这两个环节提供某种 连接的文献加工操作。标引处理子系统将决定着数据 库的标引深度(或网罗度)和检索点,并直接影响到 系统的检索方式和检索功能。 ● 标引处理的类型
—— 人工赋词标引 —— 机器标引 —— 无标引(或全标引) ●标引要求 不漏标——全面 不错标——准确 不滥标——简练
(3)建库子系统
主要作业内容包括: ● 数据录入 ● 错误检查与处理 ● 数据格式转换 在程序控制下自动完成。例如,支持联机
检索的数据库一般要在主文档基础上再产生出 主文档索引、倒排文档和词典文档。
● 文档更新维护 由程序控制,定期进行更新或上载数据。
(4)词表管理子系统
在文本信息检索系统,各种词表系统(如主题词表、后 控词表等)通常作为一个重要成分而存在,词表中的 词汇可以在用户检索信息时实现对检索效果的有效控 制。词汇管理子系统有时也可独立存在。
● 接口技术(2种):
——字符用户界面(CUI------Character User Interface)
——图形用户界面(GUI------Graphic User
Interface)
WIMP(Window、Icon、
Menu、Pointing device)
(6)提问处理 / 检索匹配子系统 (技术核心)
信息检索经典模型
1 布尔模型(1950s末)
布尔逻辑+集合论
◆ 扩展布尔模型(统一模型)(1980s初) 2 向量空间模型
影响检索效果的主要因素
存储 检索 信息系统组织结构、检索系统功能问题 检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息检索系统特征 认真分析课题需求 灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价
索引数据库(范围、更新频率、索引建立 的方式)
信息组织管理评价指标 信息检索功能评价指标(检索方式、检索技
(5)用户接口子系统
● 功能:
用于人机交互,承担用户与系统之间的通讯任务。
● 界面风格(5种)
——命令/指令语言(command language)
——菜单选择(menu selection)
——表格填充(form fill-in)
——直接操纵(direct manipulation)
——自然语言(natural language)
依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行 为、认知能力
提高手检相关性的方法:
• 分析概念及学科属性;对检索工具的了解 • 调整检索策略
机检相关性
系统相关性
• (1) 词频方法 • (2) 位置方法 • (3) 引用率方法 • (4) 点击率方法 • (5) 分类或聚类
“相关性”(relevance),是指信息检索系 统针对用户的查询(query)从文档集中检出 的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象,从严格 意义上讲,文档与查询之间不再是数据库检索 中的那种简单的匹配关系。但“匹配”这一术 语一直在使用,这里也接受这种说法。
手检相关性
评价指标体系
查全率(检全率)
检全率系统 检中 出 相关 相文关献文总献 1量0量 0%
查准率(检准率)
检准率 检 检出 出相 文关 献文 总 献 1量 0量 % 0
评价指标体系
漏检率
漏检率 系漏 统检 中相 相关 关文 文献 献量 1总00量 %
误检率
误检率 检 误出 检文 文献 献 总 量 10量 % 0