第6章信息检索与服务.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N
Sim(Q, D) QTi DTi
i 1
余弦相似度
Sim(Q, D)
QTi DTi
QTi 2
QTi 2
1
“距离”相似度运算
Lp(D1, D2) [ | d1t d 2t | p ] p
等等
向量空间模型的评价
优点
简单,功能却非常强大
能将非结构化的文献表示成向量的形式,使得各种数学处理成为 可能
说”))
传统布尔检索模型
查询表示
布尔提问式q = t1 and(t2 or not t3)
qt的2 a主nd析n取ot范t式3)(ort(1 ta1ndantd2
and not
tt23)anodr(nott1
and t3)
q的简化形式qdnf (1,1,1) or (1,1,0)
or (1,0,0),其中,(1,1,1)、(1,1,0)
匹配函数
利用向量的内积运算,得到文献向量Di与查询向 量q之间的相似度
Sim(Di,q)=Di•q 简单 存在的一个主要的不足是它忽略了项之间存在一
些相互联系的事实。通常,需要引入一些特别的 方法来改进这个相似度计算公式,使得其能够考 虑到项的相互联系这一重要因素
பைடு நூலகம்
相似度的计算
内积相似度运算
T3 D3={ d31,d32, d33 }
D1={d11,d12, d13 }
T2
T1
D2={ d21,d22, d23 }
图 三维文献空间
向量空间模型介绍
2. 项权重
(1)词频
越重要的项分配越高的权值 可以用词频来作为该项的权重(用tf表示)
(2)文献频率
假设存在一个文献集合,其中大部分的文献都包 含了某一项,则说明该项对某一主题的专指度较 差,可能就不太重要
(2)布尔逻辑表达用户需求的能力问题。把用户的一 个信息需求转换成一个恰当的布尔表达式,在很多情 况下并不容易实现。
传统布尔查询的评价
为了弥补这些缺陷,发展了一些别的检 索模型,如向量空间、扩展布尔、概率 检索和聚类模型。
6.1.3 向量空间模型
向量空间模型(Vector space model)介绍 向量空间模型(VSM)的评价
第6章 信息检索与服务
6.1 信息检索技术
6.1.1 检索模型概述 6.1.2 布尔模型 6.1.3 向量空间模型 6.1.4 概率模型 6.1.5 全文检索 6.1.6 语义检索
6.1 信息检索技术(续)
6.1.7 超文本模型 6.1.8 多媒体检索 6.1.9 跨语言检索 6.1.10分布式检索 6.1.11 P2P检索 6.1.12 网格信息检索
布尔模型在检索系统的开发与应用中表现出的主 要问题有:
(1)准确匹配(exact matching)策略问题。布尔模 型采用准确匹配策略,对检索过程中客观存在的一些 不确定性情形绝对排斥,认为一篇文献对于某一提问 要么是“相关的”,要么是“不相关的”。这种“非 此即彼”的二值判断标准严重影响到检索系统的性能 改善,并带来其他一些相关问题。
布尔检索模型的理论基础是布尔逻辑和 集合理论
6.1.2 布尔模型
布尔逻辑主要内容:命题逻辑与谓 词逻辑
布尔逻辑是数理逻辑的基础部分
利用符号来表示逻辑中的各种概念 建立了一系列的运算法则,利用代数
的方法研究逻辑问题
布尔运算
布尔逻辑运算符:
“与(AND)”、“或(OR)”、“非(NOT)” 运算的定义
信息检索过程
信息检索过程实际上涉及到三个重要的 处理:
文档集的逻辑表示 查询的表示 相似匹配及其排序
对上述因素和检索过程建模(抽象描 述),产生各种不同的信息检索模型
图6-1 信息检索系统的一般模 型
信息资源
标引
信息资源替代 物
相关性判断
表达式构造
需求替代物
用户需求
检索结果
6.1.2 布尔模型
在设计项权重时,要考虑逆文献频率 (用idf表 示)
向量空间模型介绍
2. 项权重
(3)权重的规范化处理
为了抵消由篇幅带来的不同影响,经常要对项权 重进行规范化处理
在各种规范化方法中,余弦规范是一种常用、有 效的方法:tf×idf权重/文献向量的欧氏长度
向量空间模型介绍
3.文献向量与查询向量的匹配
传统布尔检索模型
查询表示
在布尔检索系统中,根据用户提出的检索需求,选 取适当的检索标识,与布尔运算符“与”、“或”、“非” 共同构成与查询相符的检索提问式,也即相应的布 尔表达式
例如 :
1) “飞碟” 2) “飞碟”AND “美国” 3) “飞碟”AND (“中国” OR (NOT “科幻小
和符(号1q,cc表0,示0))是qdnf的3个合取子项(合取子项可用
传统布尔检索模型
匹配函数
菊池敏典算法
传统布尔检索模型
文献D1=(t1 ,t2 ,not t3) 查询Q=t1 and t2 and not t3
布尔检索示例
传统布尔查询的评价
该模型结构简单、容易实现和快速检索。
传统布尔查询的评价
模型的检索效果和布尔检索模型比起来,要好得多
不足
忽略项之间存在的相互联系,必然使得检索效果产生极大的 偏差
传统向量处理模型不能处理布尔表达等结构化查询
改进
广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向 量处理模型以及基于语义分析的向量空间模型(SVSM)
传统布尔检索模型
文献表示
将文档表示成一个集合,集合中的每个元素都为一 个二元变量,取值非“0”即“1”,表示该元素所代表 的主题词是否包含在该篇文档之内。若包括在文档 中,则元素取值为1,反之则取0。
给定一个文献集合D,包含m篇文献,分别用 d1,d2,d3……dm表示。再给出一个标引词集合T,包 含n个标引词t1,t2,……,tn。假定对文献集D的描述 完全是基于该标引词集合的,则文献集D中任意一篇 文献di就可以表示为(di1,di2,……,din)
向量空间模型介绍
1. 文献空间
(1)文献空间的概念
文献集合中的任一文献都可以表示为这个多维空 间中的一个向量,这个空间就称为“文献空间”
在一个文献空间内,用向量D1来代表某一文献, 则该向量在这个文献空间各个轴上的分量就是相 应的表述该文献的各个项的权重
文献与空间点
(2)标引词空间
向量空间模型介绍