第6章 信息检索与服务
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基本指标有:查全率、查准率、检索速度、 索引膨胀率等 索引的膨胀系数是指针对全文所建的索引文 件大小与全文文件大小之比,其中索引文件 的大小取决于索引的结构 没有为全文创建索引的全文检索系统,其膨 胀系数为0
6.1.6 语义检索
基于关键词匹配的传统文本信息检索技术对语义匹配 的支持能力较差,其性能取决于用户对方法的理解, 具有很大的局限性 尽管基于关键词匹配的检索技术已经经过多次改进, 但是由于没有添加语义处理方面的功能,检索性能没 有得到本质的改善,那些没有被文字直接表述出来但 隐含在文本内容中的一些重要的信息无法被检索 语义检索是对检索条件、信息组织以及检索结果显式 赋予了一定语义成分的一种新的检索方式 与传统关键词检索相比,它更加强调语义,其性能明 显改善
传统布尔查询的评价
为了弥补这些缺陷,发展了一些别的检 索模型,如向量空间、扩展布尔、概率 检索和聚类模型。
6.1.3 向量空间模型
向量空间模型(Vector space model)介绍 向量空间模型(VSM)的评价
向量空间模型介绍
1. 文献空间
(1)文献空间的概念
文献集合中的任一文献都可以表示为这个多维空 间中的一个向量,这个空间就称为“文献空间” 在一个文献空间内,用向量D1来代表某一文献, 则该向量在这个文献空间各个轴上的分量就是相 应的表述该文献的各个项的权重 文献与空间点
(1)准确匹配(exact matching)策略问题。布尔模 型采用准确匹配策略,对检索过程中客观存在的一些 不确定性情形绝对排斥,认为一篇文献对于某一提问 要么是“相关的”,要么是“不相关的”。这种“非 此即彼”的二值判断标准严重影响到检索系统的性能 改善,并带来其他一些相关问题。 (2)布尔逻辑表达用户需求的能力问题。把用户的一 个信息需求转换成一个恰当的布尔表达式,在很多情 况下并不容易实现。
传统布尔检索模型
查询表示
布尔提问式q = t1 and(t2 or not t3) q的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) q的简化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0) 和(1,0,0)是qdnf的3个合取子项(合取子项可用 符号qcc表示)
6.1.11 P2P检索
P2P信息检索的目的就是网络中的任意节点都可以提交 检索的请求,然后这些检索通过某种路由机制被路由 到和检索相关的节点上去,存储有和该检索相关信息 的节点将会回应请求,把本地相关的内容以对等的形 式直接传送到请求节点上 与传统的客户端/服务器模式相比,P2P模式具有明显 的优点:
(2)标引词空间
向量空间模型介绍
T3 D3={ d31,d32, d33 }
D1={d11,d12, d13 } T2
T1
D2={ d21,d22, d23 } 图 三维文献空间
向量空间模型介绍
2. 项权重
(1)词频
越重要的项分配越高的权值 可以用词频来作为该项的权重(用tf表示) 假设存在一个文献集合,其中大部分的文献都包 含了某一项,则说明该项对某一主题的专指度较 差,可能就不太重要 在设计项权重时,要考虑逆文献频率 (用idf表 示)
6.1.11 P2P检索
6.1.12 网格信息检索
信息检索过程
信息检索过程实际上涉及到三个重要的 处理:
文档集的逻辑表示 查询的表示 相似匹配及其排序
对上述因素和检索过程建模(抽象描 述),产生各种不同的信息检索模型
图6-1 信息检索系统的一般模 型
标引 信息资源 信息资源替代 物
相关性判断 需求替代物
6.1.5 全文检索
全文检索模型中信息资源的逻辑表示
全文索引 倒排表、署名文件、位图、Pat树和Pat数组 等模型 从中文语言特点出发提出的互关联后继树模 型等
目前常见的全文检索模型主要有
6.1.5 全文检索
基于单汉字的全文索引
单汉字(主键字) 记录号 段落号 位置号
索引倒排结构
记录数 记录号1 该记录位置集合 记录号1 该记录位置集合 ……
传统布尔检索模型
查询表示
在布尔检索系统中,根据用户提出的检索需求,选 取适当的检索标识,与布尔运算符“与”、“或”、 “非”共同构成与查询相符的检索提问式,也即相 应的布尔表达式
例如 :
1) “飞碟” 2) “飞碟”AND “美国” 3) “飞碟”AND (“中国” OR (NOT “科幻小 说”))
6.1 信息检索技术
6.1.1 检索模型概述
6.1.2 布尔模型
6.1.3 向量空间模型
6.1.4 概率模型
6.1.5 全文检索
6.1.6 语义检索
6.1 信息检索技术(续)
6.1.7 超文本模型
6.1.8 多媒体检索
6.1.9 跨语言检索
6.1.10分布式检索
通常采用布尔模型的查询表示方式
6.1.5 全文检索
全文检索模型中的匹配方式
检索的匹配算法一般是根据索引结构而研制 的 检索速度取决于匹配算法,一个优秀的全文 检索算法,在百兆级的数据库中,检索速度 应该在秒级水平,否则,不能算是一个好的 全文检索算法
Lucene
6.1.5 全文检索
全文检索技术指标
6.1.7 超文本模型
超文本技术的优点
1)非线性的组织结构 2)以信息单元为检索对象 3)体现了信息层次关系 4)交互更加友好 5)信息内容丰富多样 6)避免了检索语言的复杂性
6.1.7 超文本模型
超文本技术的缺陷
1)偶然发现 2)失控 3)迷航
6.1.8 多媒体检索
表达式构造 用户需求
检索结果
6.1.2 布尔模型
布尔检索模型的理论基础是布尔逻辑和 集合理论
6.1.2 布尔模型
布尔逻辑主要内容:命题逻辑与谓 词逻辑 布尔逻辑是数理逻辑的基础部分
利用符号来表示逻辑中的各种概念 建立了一系列的运算法则,利用代数 的方法研究逻辑问题
布尔运算
布尔逻辑运算符:
i i 1
i i i 2 i 2
N
p
1
2
1t
2t
|p ]
1 p
Leabharlann Baidu
向量空间模型的评价
优点
简单,功能却非常强大
能将非结构化的文献表示成向量的形式,使得各种数学处理成为 可能 模型的检索效果和布尔检索模型比起来,要好得多
不足
改进
忽略项之间存在的相互联系,必然使得检索效果产生极大的 偏差 传统向量处理模型不能处理布尔表达等结构化查询
传统布尔检索模型
匹配函数
菊池敏典算法
传统布尔检索模型
文献D1=(t1 ,t2 ,not t3) 查询Q=t1 and t2 and not t3
布尔检索示例
传统布尔查询的评价
该模型结构简单、容易实现和快速检索。
传统布尔查询的评价
布尔模型在检索系统的开发与应用中表现出的主 要问题有:
图6-3 基于本体的文本信息检 索系统的一般模型
领域概念关系本体集 指导主题标引 指导查询表达式的构造本体
主题标引 文档
带所属领域标 识的标引词序 列
相关性判断 查询表达式
表达式构造
指导实体关系标引 实体关系本体
检索结果
用户需 求
查询本体 实体关系标引 相关性匹配 查询本体构造
指导实体关系标引 领域实体关系本体集
利用向量的内积运算,得到文献向量Di与查询向 量q之间的相似度 Sim(Di,q)=Di•q 简单 存在的一个主要的不足是它忽略了项之间存在一 些相互联系的事实。通常,需要引入一些特别的 方法来改进这个相似度计算公式,使得其能够考 虑到项的相互联系这一重要因素
相似度的计算
内积相似度运算 Sim(Q, D) QTi DT 余弦相似度 Sim(Q, D) QT DT QT QT “距离”相似度运算 L ( D , D ) [ | d d 等等
(2)文献频率
向量空间模型介绍
2. 项权重
(3)权重的规范化处理
为了抵消由篇幅带来的不同影响,经常要对项权 重进行规范化处理 在各种规范化方法中,余弦规范是一种常用、有 效的方法:tf×idf权重/文献向量的欧氏长度
向量空间模型介绍
3.文献向量与查询向量的匹配
匹配函数
6.1.4 概率模型
基本思路:
给定一个用户提问,则检索系统中存在着一个与该 提问相关的理想命中结果集合R(该集合只包括与查 询完全相关的文档而不包括其他不相关的文档) 在用户提出检索要求时,检索系统并不知道这个理 想结果集合的特性
在检索开始之时就需要对R的特性进行某种猜测
根据初始的猜测,检索系统检索到一个初步的命中 结果集合 基于相关反馈的原理,需要进行一个逐步求精的过 程
指导查询本体的构造本体
6.1.7 超文本模型
所谓超文本,既是一种信息的组织形式,也是 一种信息检索技术 超文本不是单纯以线性方式存储文本,而是附 加了一种非线性结构来组织信息,即在文本中 设置若干超级链接(简称超链)指向相关位置, 以确保在顺序阅读文献的同时,还可以顺着超 级链接的指引“跳跃”阅读信息 超文本组织强调了信息与对象之间的联系关系, 符合人们联想式阅读和思维习惯
广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向 量处理模型以及基于语义分析的向量空间模型(SVSM)
6.1.4 概率模型
概率论模型主要基于概率论原理来理解 和解决信息检索问题
主要有早期的经典概率模型(又称为二值独 立检索模型,英文简称BIR) 基于贝叶斯网络的推理网络模型和信念网络 模型等 INQUERY检索系统是基于概率模型的代表
6.1.9 跨语言检索
跨语言信息检索是指用户以一种语言提 问,检出另一种语言或多种语言描述的 相关信息 跨语言信息检索的主要实现方法有:提 问式翻译法、文献翻译法、提问式—文 献翻译法、中间翻译法、不翻译法、提 问式构造法和音译法等方法
6.1.10分布式检索
分布式信息检索主要是指在分布式的环境中, 利用分布式计算和移动代理等技术从大量的、 异构的信息资源中检索出对用户有用的信息的 过程 这些信息资源在物理上分布于各地,在逻辑上 是一个整体,在数据库结构上存在差异 分布式信息检索主要有基于元搜索引擎、基于 Z39.50、基于XML语言、基于Web服务等模式
“与(AND)”、“或(OR)”、“非(NOT)” 运算的定义
传统布尔检索模型
文献表示
将文档表示成一个集合,集合中的每个元素都为一 个二元变量,取值非“0”即“1”,表示该元素所 代表的主题词是否包含在该篇文档之内。若包括在 文档中,则元素取值为1,反之则取0。 给定一个文献集合D,包含m篇文献,分别用 d1,d2,d3……dm表示。再给出一个标引词集合T,包 含n个标引词t1,t2,……,tn。假定对文献集D的描述 完全是基于该标引词集合的,则文献集D中任意一篇 文献di就可以表示为(di1,di2,……,din)
多媒体信息的检索主要是研究如何 快速有效地获取多媒体信息所涉及 的相关技术,它包括多媒体信息的 压缩、组织、检索和展示等 由于多媒体信息与文本信息的组织 方式和表现形式完全不同,所涉及 的检索技术也存在着较大差异
6.1.8 多媒体检索
基于文本的多媒体信息检索方法是多媒体信息 检索最常用的方法 基于内容的多媒体信息检索方法是一种新型的 检索技术,它融合了图像理解、模式识别、计 算机视觉等技术,直接根据描述媒体对象内容 的各种特征进行检索,从数据库中查找到具有 指定特征或含有特定内容的声音、图像、视频 等对象
6.1.4 概率模型
检索问题转化为求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di是检索 结果,否则不是检索结果
6.1.5 全文检索
直接在全文中进行匹配检索 获得的也是全文信息而非文献线索 全文检索技术以其较高的查准率和查全 率被广泛应用于网络信息的检索中 全文检索还提供位置检索功能
单汉字(主键字)
6.1.5 全文检索
以倒排表模型为基础的全文检索有检索 速度快,与原文无关的特点 其缺点主要包括两个方面:
首先,空间和时间效率低; 其次,当文本集合不断变化时,需要不断重 建全文索引
第一个问题通常采用压缩技术和更加高 效的编码策略加以解决
6.1.5 全文检索
全文检索模型中的查询表示