信息存储与检索报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

space)
“计算机” “科学” “土豆” 计算机科学文档集 该文档集中的全部重要词项

实际上,这些词项是相互关联的
词项的权重

根据标引词对文档表示的贡献大小来确定权重 Tfik:标引词tk在文档di中出现的频率

标准化: Tfik= Tfik / maxi Tfik
df k:文档集D中出现标引词tk的文档数目 idfk:标引词tk的逆文档频率 idfk = log2 (N/ df k) (N: 文档集中文档总数)

概率模型也被称为二值独立检索模型(Binary Independent Retrivel,BIR)。
查询式与文档的相似度定义

查询和文档的表示

文档d可以表示为d(x1,x2,…xn),其中xi表示标 引词ti在文档中的权值; 查询式q是标引词项集合的子集;


R 是R 设R是相关文档集合(初始的猜测集合), 的补集(不相关文档的集合)
经典模型
——概率模型(Probabilistic Model)
模型概述



Maron和Kuhns最早在1960年提出第一概 率检索模型; 1976年Robertson和Sparck Jones等提 出第二概率检索模型; Turtle,Fuhr和Roberston又提出了统一 化模型,即第三概率检索模型。
余弦向量度量法的特点

余弦值有界限,在[0,1]之间; 文档向量与查询向量的夹角越小,其余弦值 越大,认为文档与查询相似度越高。
示例
假设有两个文档和查询分别为: 文档d1:a b c a f b a f h; 文档d2:a c; 查询q: a c a; 标引词集合={a b c d e f g h}; 分别计算两个文档与查询的相似度。
布尔模型描述


匹配F 一个文档当且仅当它能够满足布尔查 询式时,才将其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定相关
示例
标引词
查询:“飞碟” and ―小 说”
检 索
匹 配
返回文档D4
文档与查询的相似度定义

qDNF表示查询布尔表达式的析取范式; 查询q= t1 ∧ (t2 ∨ ¬ t3) qDNF= (t1 ∧ t2 ∧ ¬ t3)
feedback)
模型构建的主要步骤
(1)文档向量的构造;
(2)查询向量的构造;
(3)查询与文档的匹配函数的选择;
(4)相似度阈值的确定。
模型中的问题

怎样确定文档中哪些词是重要的词? (标引词) 怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?

∨ ( t1 ∧ ¬ t2 ∧ ¬ t3 ) ∨ (t1 ∧ t2 ∧ t3)

qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义



gi(dj)表示标引词ti是否在文档dj中出现 的值 ; gi(qF)查询合取分量qF中标引词ti是否 出现的值 ; sim(dj,q)表示文档和查询的相似度

表示为一个四元组:[D, Q, F, R(dj, qi)]

信息检索模型取决于:



从什么样的视角去看待查询式和文档 基于什么样的理论去看待查询式和文档的关系 如何计算查询式和文档之间的相似度
信息检索模型的分类
结构化文本模型 非重叠链表模型 邻近节点模型 基于集合论 扩展布尔模型 模糊集合模型 基于代数 广义向量模型 潜语义标引模型 神经网络模型 基于概率论 统计语言模型 推理网络模型 信任网络模型
相似度计算 – 内积(Inner Product)

文档D 和查询式Q 的相似度可以通过内积进 行计算: sim ( D j , Q ) =

(wk,q×
k 1
n
wk,j)
wk,q是查询式Q中词项k 的权重,wk,j 是文 档dj 中的词项k 的权重
相似度计算 – 内积(Inner Product)
相似度计算 – 内积(Inner Product)

对于加权向量, 内积是查询式和文档中相互匹 配的词项的权重乘积之和 例:
D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1 + 0T2 + 2T3 sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2
P( R | d j )表示文档d 和查询式q相关的概率;
j

P( R | d j ) 表示文档dj和查询式q不相关的概率;
P(dj R) P(ti R)
i 1 n
n
gi ( dj )
P(ti R) P(ti R)
(1 gi ( dj ))
P ( a b)
P(b a) P(a)
第二章
信息检索模型
举例
百度为您找到相关 结果493,000个
?

如何找到与查询相关的文档?

如何将与查询相关的文档进行排序?
信息检索的原理
文档 集合
特征化 表示 特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义

信息检索模型:是描述文档和用户查询的 表示形式以及它们之间的关系的框架。
对于二值向量, 内积是查询式中的词项和文档 中的词项相互匹配的数量 例: D = 1, 1, 1, 0, 1, 1, 0 Q = 1, 0 , 1, 0, 0, 1, 1


sim(D, Q) = 3
向量的大小 = 词表的大小 = 7 0 意味着某个词项没有在文档中出现,或者没有在查询式中 出现

Wik :词项tk在文档di中的权重
Wik= Tfik× idfk
示例
词项
df Idf
湖畔
2
夏夜
1

3 0
常常
2
蛙鸣
2
禅社
1
诗会
1
0.176 0.477
0.176 0.176 0.477 0.477
查询式的词项权重

一个自然语言查询式可以被看成一个文档 查询式:“有没有周杰伦的歌?” 会被 转换为: <周杰伦, 歌> 查询式: “请帮我找关于俄罗斯和车臣 之间的战争以及车臣恐怖主义首脑的资 料” 会被转换为: <俄罗斯 2, 车臣 2, 战争1, 恐怖主义1, 首脑 1>
n
简化
sim(dj, q)
P(dj R) P(dj R)
n
标引词 独立
sim(dj , q )
P (ti R ) P (ti R )
i 1 i 1 n
P (ti R ) P (ti R )
(1 gi ( dj ))
g i ( dj )
(1 gi ( dj ))
取对数
sim(dj, q) : gi (dj ) lg
从文本到向量空间
图示
举例:
D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3
D1 = 2T1+ 3T2 + 5T3
T3
5
Q = 0T1 + 0T2 + 2T3
2 3
T1
D2 = 3T1 + 7T2 + T3
3
T2
7
• D1和D2哪一个更接近Q? • 怎样衡量相似程度?
示例

文档集包含两个文档: 文档1:a b c f g h 文档2:a f b x y z 用户查询:文档中出现a或者b,但一定 要出现z。 返回与用户查询相关的文档。
布尔模型的特点

简单、易理解、易实现 ,有效识别包含 了一个某个特定标引词的文档;
不易全面反映用户需求; 不支持部分匹配,而完全匹配会导致太多或者 太少的结果文档被返回; 很难对输出进行排序; 很难进行自动的相关反馈。
由标引词构成向量空间

2个标引词构成一个二维空间,一个文档可能 包含0, 1 或2个标引词



类似的,3个标引词构成一个三维空间,n个标 引词构成n维空间 一个文档或查询式可以表示为n个元素的线性 组合
di = 0, 0 (一个标引词也不包含) dj = 0, 0.7 (包含其中一个标引词) dk = 1, 2 (包含两个标引词)


内积表示的特点


内积值没有界限 对长文档有利


内积用于衡量有多少词项匹配成功,而不计算 有多少词项匹配失败 长文档包含大量独立词项,每个词项均多次出 现,因此一般而言,和查询式中的词项匹配成 功的可能性就会比短文档大。
相似度计算 –余弦(Cosine)
t3

1
D1
2
t2
Q
Fra Baidu bibliotekt1
模型原理
R
R
估计R的特征 进行检索
反馈信息
用户判断
信息检索的过程看成是寻找理想文档集合R的特征的过程。
概率模型的理论

概率模型基于以下基本假设:


文档与一个查询式的相关性与文档集合中的其他文档是 没有关系的,称为概率模型的相关性独立原则; 文档和查询式中标引词之间是相互独立的; 文档和查询中的标引词权重都是二元的; 文档相关性是二值的,只有相关和不相关两种,一篇文 档要么属于理想文档集,要么不属于理想文档集。
文 本 检 索 模 型
经典模型 布尔模型 向量模型 概率模型 浏览模型
扁平式模型 结构导向模型 超文本模型
知识检索模型 基于本体的模型
经典模型
——布尔模型(Boolean Model)
布尔模型描述


文档表示 文档D被表示为标引词的集合 标引词(Index Term) 权值(Weight) 查询表示 查询式Q被表示为标引词的布尔组合,用 “与、或、非”连接起来,并用括弧指 示优先次序;
P ( dj R ) P ( R ) P ( dj R ) P ( R )
g i ( dj )
P( j R ) sim (dd j ,)q P(ti R)
i 1
P( R g (d d )j )
i j
贝叶斯定理 (1 gi ( dj ))
P(b)
P ( R dj )
sim(dj , q )


标引词的选择

若干独立的词项被选作标引词(index terms) or 词表vocabulary 标引词代表了一个文档中的重要词项 计算机科学图书馆中的标引词应该是 哪些呢?
体系结构 总线 计算机 数据库 …. XML
计算机科学 文档集
文档集中的标引词
标引词的选择

这些标引词是不相关的 (或者说是正 交的) ,形成一个向量空间(vector
文档D 和查询式Q 的 相似度可以通过计算 他们夹角的余弦来衡 量:
D2
n
(w
k 1 k 1
n
k, q
wk , j )
2 w k, j k 1 n
sim ( D j , Q ) = cos( D j , Q )=
2 w k, q
相似度计算 –余弦(Cosine)
例: D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1 + 0T2 + 2T3
2 0 3 0 5 2 sim(D1 , Q) =cos(D1 , Q)= 2 2 2 =0.81 2 2 2 0 0 2 2 3 5 3 0 7 0 1 2 sim(D2 , Q) =cos(D2 , Q)= 2 2 2 2 2 2 =0.13 0 0 2 3 7 1



经典模型
——向量空间模型(Vector Space Model)
模型概述


Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
Gerard Salton(1927-1995)


现代搜索技术之父 向量空间模型的创始人 开发SMART向量空间模型 IR系统
模型原理

文档D和查询Q均被看成是由标引词构成的向量;


检索过程就是计算文档向量与查询向量之间的相似度;
可以根据相似度值的不同,对检索结果进行排序;

可以根据检索结果,进一步做相关检索(Relevance
向量空间模型的特点




标引词权重的算法提高了检索的性能; 部分匹配的策略使得检索的结果文档集更接近用户 的检索需求; 可以根据结果文档与查询的相似度对结果文档进行 排序; 标引词被认为是相互独立,会丢掉大量的文本结构 信息,降低语义准确性; 当有新文档加入时,必须重新计算词的权值,相似 度的计算量大。
相关文档
最新文档