信息存储与检索PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表示为一个四元组:[D, Q, F, R(dj, qi)]
信息检索模型取决于:
从什么样的视角去看待查询式和文档 基于什么样的理论去看待查询式和文档的关系 如何计算查询式和文档之间的相似度
信息检索模型的分类
结构化文本模型 非重叠链表模型 邻近节点模型 基于集合论 扩展布尔模型 模糊集合模型 基于代数 广义向量模型 潜语义标引模型 神经网络模型 基于概率论 统计语言模型 推理网络模型 信任网络模型
n
简化
sim(dj, q)
P(dj R) P(dj R)
n
标引词 独立
sim(dj , q )
P (ti R ) P (ti R )
i 1 i 1 n
P (ti R ) P (ti R )
(1 gi ( dj ))
g i ( dj )
(1 gi ( dj ))
取对数
sim(dj, q) : gi (dj ) lg
余弦向量度量法的特点
余弦值有界限,在[0,1]之间; 文档向量与查询向量的夹角越小,其余弦值 越大,认为文档与查询相似度越高。
示例
假设有两个文档和查询分别为: 文档d1:a b c a f b a f h; 文档d2:a c; 查询q: a c a; 标引词集合={a b c d e f g h}; 分别计算两个文档与查询的相似度。
P( R | d j )表示文档d 和查询式q相关的概率;
j
P( R | d j ) 表示文档dj和查询式q不相关的概率;
P(dj R) P(ti R)
i 1 n
n
gi ( dj )
P(ti R) P(ti R)
(1 gi ( dj ))
P ( a b)
P(b a) P(a)
space)
“计算机” “科学” “土豆” 计算机科学文档集 该文档集中的全部重要词项
实际上,这些词项是相互关联的
词项的权重
根据标引词对文档表示的贡献大小来确定权重 Tfik:标引词tk在文档di中出现的频率
标准化: Tfik= Tfik / maxi Tfik
df k:文档集D中出现标引词tk的文档数目 idfk:标引词tk的逆文档频率 idfk = log2 (N/ df k) (N: 文档集中文档总数)
标引词的选择
若干独立的词项被选作标引词(index terms) or 词表vocabulary 标引词代表了一个文档中的重要词项 计算机科学图书馆中的标引词应该是 哪些呢?
体系结构 总线 计算机 数据库 …. XML
计算机科学 文档集
文档集中的标引词
Hale Waihona Puke Baidu 标引词的选择
这些标引词是不相关的 (或者说是正 交的) ,形成一个向量空间(vector
布尔模型描述
匹配F 一个文档当且仅当它能够满足布尔查 询式时,才将其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定相关
示例
标引词
查询:“飞碟” and ―小 说”
检 索
匹 配
返回文档D4
文档与查询的相似度定义
qDNF表示查询布尔表达式的析取范式; 查询q= t1 ∧ (t2 ∨ ¬ t3) qDNF= (t1 ∧ t2 ∧ ¬ t3)
内积表示的特点
内积值没有界限 对长文档有利
内积用于衡量有多少词项匹配成功,而不计算 有多少词项匹配失败 长文档包含大量独立词项,每个词项均多次出 现,因此一般而言,和查询式中的词项匹配成 功的可能性就会比短文档大。
相似度计算 –余弦(Cosine)
t3
1
D1
2
t2
Q
t1
文档D 和查询式Q 的 相似度可以通过计算 他们夹角的余弦来衡 量:
D2
n
(w
k 1 k 1
n
k, q
wk , j )
2 w k, j k 1 n
sim ( D j , Q ) = cos( D j , Q )=
2 w k, q
相似度计算 –余弦(Cosine)
例: D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1 + 0T2 + 2T3
经典模型
——概率模型(Probabilistic Model)
模型概述
Maron和Kuhns最早在1960年提出第一概 率检索模型; 1976年Robertson和Sparck Jones等提 出第二概率检索模型; Turtle,Fuhr和Roberston又提出了统一 化模型,即第三概率检索模型。
P ( dj R ) P ( R ) P ( dj R ) P ( R )
g i ( dj )
P( j R ) sim (dd j ,)q P(ti R)
i 1
P( R g (d d )j )
i j
贝叶斯定理 (1 gi ( dj ))
P(b)
P ( R dj )
sim(dj , q )
相似度计算 – 内积(Inner Product)
文档D 和查询式Q 的相似度可以通过内积进 行计算: sim ( D j , Q ) =
(wk,q×
k 1
n
wk,j)
wk,q是查询式Q中词项k 的权重,wk,j 是文 档dj 中的词项k 的权重
相似度计算 – 内积(Inner Product)
概率模型也被称为二值独立检索模型(Binary Independent Retrivel,BIR)。
查询式与文档的相似度定义
查询和文档的表示
文档d可以表示为d(x1,x2,…xn),其中xi表示标 引词ti在文档中的权值; 查询式q是标引词项集合的子集;
R 是R 设R是相关文档集合(初始的猜测集合), 的补集(不相关文档的集合)
对于二值向量, 内积是查询式中的词项和文档 中的词项相互匹配的数量 例: D = 1, 1, 1, 0, 1, 1, 0 Q = 1, 0 , 1, 0, 0, 1, 1
sim(D, Q) = 3
向量的大小 = 词表的大小 = 7 0 意味着某个词项没有在文档中出现,或者没有在查询式中 出现
Gerard Salton(1927-1995)
现代搜索技术之父 向量空间模型的创始人 开发SMART向量空间模型 IR系统
模型原理
文档D和查询Q均被看成是由标引词构成的向量;
检索过程就是计算文档向量与查询向量之间的相似度;
可以根据相似度值的不同,对检索结果进行排序;
可以根据检索结果,进一步做相关检索(Relevance
模型原理
R
R
估计R的特征 进行检索
反馈信息
用户判断
信息检索的过程看成是寻找理想文档集合R的特征的过程。
概率模型的理论
概率模型基于以下基本假设:
文档与一个查询式的相关性与文档集合中的其他文档是 没有关系的,称为概率模型的相关性独立原则; 文档和查询式中标引词之间是相互独立的; 文档和查询中的标引词权重都是二元的; 文档相关性是二值的,只有相关和不相关两种,一篇文 档要么属于理想文档集,要么不属于理想文档集。
经典模型
——向量空间模型(Vector Space Model)
模型概述
Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
由标引词构成向量空间
2个标引词构成一个二维空间,一个文档可能 包含0, 1 或2个标引词
类似的,3个标引词构成一个三维空间,n个标 引词构成n维空间 一个文档或查询式可以表示为n个元素的线性 组合
di = 0, 0 (一个标引词也不包含) dj = 0, 0.7 (包含其中一个标引词) dk = 1, 2 (包含两个标引词)
向量空间模型的特点
标引词权重的算法提高了检索的性能; 部分匹配的策略使得检索的结果文档集更接近用户 的检索需求; 可以根据结果文档与查询的相似度对结果文档进行 排序; 标引词被认为是相互独立,会丢掉大量的文本结构 信息,降低语义准确性; 当有新文档加入时,必须重新计算词的权值,相似 度的计算量大。
Wik :词项tk在文档di中的权重
Wik= Tfik× idfk
示例
词项
df Idf
湖畔
2
夏夜
1
的
3 0
常常
2
蛙鸣
2
禅社
1
诗会
1
0.176 0.477
0.176 0.176 0.477 0.477
查询式的词项权重
一个自然语言查询式可以被看成一个文档 查询式:“有没有周杰伦的歌?” 会被 转换为: <周杰伦, 歌> 查询式: “请帮我找关于俄罗斯和车臣 之间的战争以及车臣恐怖主义首脑的资 料” 会被转换为: <俄罗斯 2, 车臣 2, 战争1, 恐怖主义1, 首脑 1>
第二章
信息检索模型
举例
百度为您找到相关 结果493,000个
?
如何找到与查询相关的文档?
如何将与查询相关的文档进行排序?
信息检索的原理
文档 集合
特征化 表示 特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义
信息检索模型:是描述文档和用户查询的 表示形式以及它们之间的关系的框架。
2 0 3 0 5 2 sim(D1 , Q) =cos(D1 , Q)= 2 2 2 =0.81 2 2 2 0 0 2 2 3 5 3 0 7 0 1 2 sim(D2 , Q) =cos(D2 , Q)= 2 2 2 2 2 2 =0.13 0 0 2 3 7 1
示例
文档集包含两个文档: 文档1:a b c f g h 文档2:a f b x y z 用户查询:文档中出现a或者b,但一定 要出现z。 返回与用户查询相关的文档。
布尔模型的特点
简单、易理解、易实现 ,有效识别包含 了一个某个特定标引词的文档;
不易全面反映用户需求; 不支持部分匹配,而完全匹配会导致太多或者 太少的结果文档被返回; 很难对输出进行排序; 很难进行自动的相关反馈。
feedback)
模型构建的主要步骤
(1)文档向量的构造;
(2)查询向量的构造;
(3)查询与文档的匹配函数的选择;
(4)相似度阈值的确定。
模型中的问题
怎样确定文档中哪些词是重要的词? (标引词) 怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
相似度计算 – 内积(Inner Product)
对于加权向量, 内积是查询式和文档中相互匹 配的词项的权重乘积之和 例:
D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1 + 0T2 + 2T3 sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2
∨ ( t1 ∧ ¬ t2 ∧ ¬ t3 ) ∨ (t1 ∧ t2 ∧ t3)
qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义
gi(dj)表示标引词ti是否在文档dj中出现 的值 ; gi(qF)查询合取分量qF中标引词ti是否 出现的值 ; sim(dj,q)表示文档和查询的相似度
文 本 检 索 模 型
经典模型 布尔模型 向量模型 概率模型 浏览模型
扁平式模型 结构导向模型 超文本模型
知识检索模型 基于本体的模型
经典模型
——布尔模型(Boolean Model)
布尔模型描述
文档表示 文档D被表示为标引词的集合 标引词(Index Term) 权值(Weight) 查询表示 查询式Q被表示为标引词的布尔组合,用 “与、或、非”连接起来,并用括弧指 示优先次序;
从文本到向量空间
图示
举例:
D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3
D1 = 2T1+ 3T2 + 5T3
T3
5
Q = 0T1 + 0T2 + 2T3
2 3
T1
D2 = 3T1 + 7T2 + T3
3
T2
7
• D1和D2哪一个更接近Q? • 怎样衡量相似程度?