第二节 信息检索模型

合集下载

第2章-信息检索模型

第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档

信息检索模型

信息检索模型

信息检索模型信息检索模型是指通过计算机系统从大规模信息中自动地检索出与用户需求相关的信息的一种技术。

它是信息检索领域的重要研究内容,旨在提高用户检索信息的效率和准确性。

一、信息检索的定义和基本原理信息检索是指根据用户输入的查询需求,在大规模信息库中自动地查找并返回与用户需求相关的信息的过程。

它基于一定的检索模型和算法,通过匹配和排序等过程,将最相关的信息呈现给用户。

信息检索的基本原理包括以下几个方面:1. 查询处理:用户输入的查询需求经过预处理和分析,提取关键词和特征,形成查询向量。

2. 文档表示:对于每个文档,通过特征提取和表示方法,将其转化为向量表示,以便与查询向量进行匹配。

3. 相似度计算:根据查询向量和文档向量之间的相似度计算方法,评估文档与查询的相关性。

4. 排序和评价:根据相似度计算结果,对文档进行排序,将最相关的文档排在前面,并根据评价指标对结果进行评估。

5. 结果呈现:将排序后的文档结果以列表或摘要的形式呈现给用户,用户可以根据需要进行浏览和选择。

根据不同的检索模型和算法,信息检索可以分为多种模型,常见的有布尔模型、向量空间模型和概率模型等。

1. 布尔模型布尔模型是最早的信息检索模型之一,它基于布尔代数,将查询和文档转化为布尔表达式,通过逻辑运算来匹配和检索文档。

布尔模型简单直观,适用于处理简单的查询需求,但不擅长处理复杂的查询语句和表达需求的语义。

2. 向量空间模型向量空间模型是一种基于向量表示的信息检索模型,它将查询和文档都表示为向量,通过计算向量之间的相似度来评估文档的相关性。

向量空间模型可以灵活地处理复杂的查询需求和语义表达,常用的相似度计算方法包括余弦相似度和欧氏距离等。

3. 概率模型概率模型是一种基于概率统计的信息检索模型,它通过建立查询和文档之间的概率模型,利用统计方法计算文档的相关性。

概率模型可以较好地处理查询的不确定性和语义的歧义,常用的概率模型包括BM25模型和语言模型等。

第二章 信息检索模型

第二章 信息检索模型

根据相似度对输出结果进行排序 支持自动的相关反馈
• 有用的词项被添加到原始的查询式中 • 例如:Q database; text; information; document
模型中的问题
怎样确定文档中哪些词是重要的词?(索引 项)
怎样确定一个词在某个文档中或在整个文档 集中的重要程度?(权重) 怎样确定一个文档和一个查询式之间的相似 度?
文档的词项权重(TFIDF举例)
文本:“俄罗斯频繁发生恐怖事件,俄罗斯 的安全部门加大打击恐怖主义的力度。”
TF IDF TFIDF TF IDF TFIDF
俄罗斯 恐怖 的 频繁 发生 事件
2 2 2 1 1 1
较高 较高 非常低 较低 较低 较低
高 高 很低 低 低 低
安全 部门 加大 打击 主义 力度
基于代数论的IR模型(Algebraic models)
向量空间模型 潜性语义索引模型
基于概率统计的IR模型(Probabilistic models)
回归模型 二元独立概率模型 语言模型建模IR模型
1 布尔模型(Boolean Model)
布尔模型是建立经典集合论和布尔逻辑代数的 基础上。 优势:
匹配计算函数R
匹配函数R(dj,q)用于计算任一信息dj(dj∈D) 与任一提问q(q∈Q)形成的信息——提问对 (dj,q)之间的相似度大小。一般地,R(dj,q) 的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: • 计算方法简单,计算量小; • 函数值在取值区间均匀分布; • 针对某一提问所获取的相关文档集合,能够实 现合理的排序输出。
文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:

第二章 检索模型

第二章  检索模型


D1 = {(图书馆, .8), (自动化, .4)} D2 = {(图书馆, .5), (自动化, .6)} 提问式 = 图书馆 AND 自动化 V(D1) = MIN(.8,.4) = .4 V(D2) = MIN(.5,.6) = .5 D2 is ranked before D1 in the result set.
布尔模型的基本原理

(1)每个文献用一组标引词表示 例如,对于某一特定文献i,可表示为: Di=(T1,T2,T3,… Tm) 对于系统索引词集合的每个索引词在一篇文档中只 有两种状态:出现或者不出现,
布尔模型的基本原理

(2)提问式用3种布尔逻辑算符连接而成。 逻辑与:and 逻辑或: or 逻辑非: not
sim(Q, Di )
sim(Q, D 2)

t
t j 1
wq j wdij
2 2 ( w ) j 1 dij t
j 1 (wq j )
2
(0.4 0.2) (0.8 0.7) [(0.4) 2 (0.8) 2 ] [(0.2) 2 (0.7) 2 ] 0.64 0.98 0.42
2.3.2 向量模型的特点
2)向量模型的不足: 每篇文献主题词数量一致,反映不了文献信息量 的差异; 提问向量和文献向量一致,不符合用户检索习惯; 计算相关系数工作量大,且标引词的权值难以确 定; 标引词两两正交的假设过于僵硬等。 由于向量模型要求条件高,目前使用的并不多。
2.4 概率模型
2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表 示这些词在相关文献集合或无关文献集合中的出 现概率,然后计算某一给定文献与某给定提问相 关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值 来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型

第二章 信息检索模型

第二章  信息检索模型
(Relevance feedback)
模型构建的主要步骤பைடு நூலகம்
(1)文档向量的构造; (2)查询向量的构造; (3)查询与文档的匹配函数的选择; (4)相似度阈值的确定。
模型中的问题
怎样确定文档中哪些词是重要的词? (标引词)
怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
第二章 信息检索模型举例为您找到相关 结果493,000个
?
如何找到与查询相关的文档? 如何将与查询相关的文档进行排序?
信息检索的原理 逻辑视图
匹配规则
文档 集合
特征化 表示
特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义
太少的结果文档被返回; 很难对输出进行排序;(本质) 很难进行自动的相关反馈。
经典模型
——向量空间模型(Vector Space Model)
模型概述
Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the
Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
∨ (t1 ∧ t2 ∧ t3)
qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义
pi(dj)表示标引词ti是否在文档dj中出 现的值 ;
pi(qF)查询合取分量qF中标引词ti是否 出现的值 ;
sim(dj,q)表示文档和查询的相似度

信息检索模型

信息检索模型

例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出

第二章(1) 信息检索模型

第二章(1) 信息检索模型

布尔模型描述




文档D表示 一个文档被表示为索引项(关键词)的集合 查询项Q表示 查询项被表示为索引项的布尔组合,用“与、或、 非”连接起来,并用括弧指示优先次序 框架F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定某一文档与查询是否相关,如 果相关,则返回该文档
优点

到目前为止,布尔模型是最常用的检索模型,因 为:

由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查询 结果 相当于识别包含了一个某个特定term的文档

相当有效的实现方法


经过某种训练的用户可以容易地写出布尔查询式
问题

布尔模型被认为是功能最弱的方式

其主要问题在于不支持部分匹配,而完全匹配会导致太多或 者太少的结果文档被返回
什么是模型?


模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述 面对相同的输入,模型的输出应能够无 限地逼近现实世界的输出

举例:天气的预测模型
针对用户输入的查询,如何将文档按相关性 进行排序 如何看待文档是否与用户的查询相关

信息检索模型要解决的问题


信息检索的预备知识


方法1:对长文档进行惩罚,对短文档进行补偿 方法2:对长度进行归一化处理
由索引项构成向量空间

2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项



类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间 一个文档或查询式可以表示由n个元素组成的 向量

《信息检索模型》课件

《信息检索模型》课件

向量空间模型
向量空间模型使用向量表示文档和查询,通过计算余弦相似度来衡量文档与查询的相关性。它能够更全面地度 量文档的相关性,但需要处理高维度的向量空间。
概率检索模型
概率检索模型基于统计方法,通过建模查询与文档的概率分布来进行信息检 索。其中,BM25算法是常用的概率检索模型算法之一。
实践应用
信息检索系统由多个组成部分构成,包括文本预处理、索引构建、查询解析 和结果排序等,这些组件协同工作以提供准确和相关的搜索结果。
信息检索模型
信息检索模型是用于描述和处理信息检索过程中的相关原理和算法。常见的 模型包括布尔模型、向量空间模型和概率检索模型。
布尔模型
布尔模型使用布尔运算符进行查询匹配,根据查询关键词的逻辑关系确定文 档是否与查询匹配。它简单而直观,但缺乏对文档相关性的度量。
《信息检索模型》PPT课 件
欢迎来到本课程关于《信息检索模型》的PPT课件。本课程将带您深入了解信 息检索的不同模型、系统以及实践应用,让您对这一领域有全面的认识。
信息检索概述
信息检索是指通过计算机系统从大量的信息资源中找到用户所需信息的过程。ห้องสมุดไป่ตู้具有悠久的历史并在诸多领域 得到广泛应用。
信息检索系统
信息检索在多个领域有着广泛的实践应用,包括搜索引擎、文本分类、推荐系统等。下面我们将通过案例分析 搜索引擎的信息检索模型。
总结与展望
信息检索领域持续发展,未来的趋势包括个性化搜索、多模态检索和语义搜索等。信息检索的进步将对我们的 生活和工作产生深远影响。

1第二章信息检索的数学模型(7~8学时)

1第二章信息检索的数学模型(7~8学时)

2.3.1 布尔检索模型 2.3.2 模糊集合模型 2.3.3 扩展布尔检索模型
2.3.1 布尔检索模型
布尔模型是一种简单的检索模型,它建立在经典集合论和 布尔代数的基础上。鉴于集合论中“集合”概念的直观性以及布 尔表达式所具有的准确语义,布尔模型非常容易被用户理解和 接受,在早期的大多数商业化书目检索系统中,布尔模型更是 得到了广泛关注和应用。
2.3.2.1 模糊集合论的基本知识
模糊集合论对经典集合论的推广,主要表现在它把元素属于集合 的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属 于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于 概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对 于同一集合具有不同的隶属程度,引入了隶属度(membership)的概 念。 模糊集合的严格定义可以表述如下: 论域U到实区间[0,1]的任一映射 μA:U → [0,1] 对于任意x∈U,x →μA(x)都确定U上的一个模糊集合A,μA称做A 的隶属函数,μA(x)为元素x对A的隶属度。
1960年代末期,信息处理专家、美国著名学者萨尔顿(G. Salton) 基于“部分匹配”(partial matching)策略的信息检索思想,在其开发 的试验性检索系统SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性代数的理论和方法构建出 一种新型的检索模型,这就是后来广为人知的向量空间模型(Vector Space Model,简称VSM)。
接上片
所谓“局部权值”是指第i个索引词在第j篇文档中的权值;而“全局权值” 则是指第i个索引词在整个系统文档集合中的权值。 现在,假设N为系统文档总数;ni为系统中含有索引词ki的文档数;freqij 为索引词ki在文档dj中的出现次数;idfi表示索引词ki的逆文档频率 (inverse document frequency,简称idf或IDF); maxtfj表示文档dj中所有 索引词出现次数的最大值。那么,对于文档dj中索引词ki的权值计算方法, 可以如下进行: fij = freqij / maxtfj idfi = log(N / ni) wij = fij * idfi

二、信息检索模型研究

二、信息检索模型研究

邻近节 点模型
平坦 模型
结构导 向模型
超文本 模型
10
检索模型的基本概念——8.理论研究历史
描述查询的结构化阶段
布尔检索模型
描述相关性的量化阶段
向量空间模型 概率模型
Rijsbergen 逻辑模型
1960’s
1986
11
检索模型的基本概念——理论研究历史
定性评价与定量计算相结合的阶段
逻辑模型
Rijsbergen 逻辑模型
29
布尔模型
遵循两条基本规则
每个索引词在一篇文档中只有两种状态:出现 或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接 索引词组成的布尔表达式
30
布尔模型——9. 形式化表示
任意查询都可转化为一个主析取范式DNF
例如:查询为q=ka∧(kb∨¬kc)可表示为 q=ka∧(kb∨¬kc)=kakbkc∨kakb¬kc∨ka¬kb ¬kc qbnf=(1,1,1)∨(1,1,0)∨(1,0,0) 即:每一个分量都是三元组的二值向量 (ka , kb , kc ) 任一文本可以写成所有Term的交,如 doc=a∧b∧c∧d∧e 因为doc(蕴含)q,所以相似度为1
14
布尔模型——2.集合的直观描述
具有某种属性的对象总体(通常用大写字母表 示,如A,B等),这些对象称为其元素(通常用小 写字母表示,如x,y等)
x是A的元素记为:x∈A (读作x属于A) x不是A的元素记为:x∉A (读作x不属于A)
集合的基本特性是,对于给定的集合A,任何 对象x, x∈A与x∉A中有且只有一个成立.
16
布尔模型——4.集合的表示
集合间的关系

信息检索模型(精)

信息检索模型(精)

型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文
档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构。 因此,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全。 在结构化文本检索模型中,我们使用“匹配点”来表示文本与用户查询相匹 配的词串位置;我们使用“区域”表示文本的块;使用“节点”表示文档的结构 化组元。这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义 的逻辑属性。
—信息检索模型 信息检索模型
1
—信息检索模型 信息检索模型→概念
检索系统中,一般采用索引项来建立文档的索引和对文档进行检索。例 如对于文本信息检索来说,基于字表或词表的全文检索方法,已单个的字或 词作为索引项,对其出现位置进行索引,并依据单字和词的位置信息进行检
索。
用户在进行信息检索时,希望获得与其需求密切相关的检索结果,因此 信息检索系统所要解决的中心问题是:基于用户的需求,对文档集中的所有
要合理得多。
i 1 i 1
t
t
i, q
在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数。查询中的 索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q≥0,则查 询矢量Q被定义成Q=(w1,q,w2,q,w3,q…………wt,q),其中,t是系统中 所有索引项的数目,文档dj的矢量可以表示为Wj=(w1,j,w2,j,w3,j……… wt,j),矢量模型通过Wj和Q的相关度来评价文档dj和查询q的相关度。这种 关系可以用定量表示,一般使用两个矢量之间的夹角余弦值来计算。
布尔模型的缺点也是明显的。
首先:它的检索策略是基于二值决策准则,即一个文档只被判断成相关 的或不相关的,无任何等级变化;

信息检索模型

信息检索模型

概率模型
基本假设前提和理论 a.相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b.词的独立性。标引词和检索式中词与词之间是相互独立。 c.文献相关性是二值的,即只有相关和不相关两种。 d.概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e.贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)· P(R)/P(d)
布尔模型(Boolean Model)
布尔模型:查询和文档均表示为标引词(“是否存 在”) 的布尔表达式,通常表示成D(t 1,t 2,⋯ ,t i)的形 式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表 达式进行匹配,匹配成功的文档的得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
权重计算


标引词的文档频率DF(Document Frequency):标引词在 整个文档集合中出现的文档篇数,DF反映了标引词的区分 度, DF越高表示标引词越普遍,因此其区分度越低,其权 重也越低。 逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下 公式计算:(N是文档集合中所有文档的数目)

布尔模型的优点
简单、易理解、易实现 现代很多搜索引擎中仍然包含布尔模型的思 想,如Google的高级检索

布尔模型的局限性



只能严格匹配,文献要么相关、要么不相关,并没有一个相 关级别的概念,因此很难有好的检索效果 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、 OR、NOT运算符的结合来准确地表达一个检索语句,标引 词的简单组配不能完全反映用户的实际需要; 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制 输出量的大小 结果不能按用户定义的重要性排序输出,用户只能从头到尾 浏览输出结果才能知道哪些文献更适合自己的需要

信息检索模型

信息检索模型
2.依据共有词汇假设的信息检索
存在共有:如果 dj 有 q 含有的某些 ki , 则 relevant(q, dj )=1 全部共有:如果 dj 有 q 含有的所有的 ki , 则 relevant(q, dj )=1 比例共有:如果 q 和 dj 共有多于 m%的 ki , 则 relevant(q, dj)=1
二、 IR 模型的形式化特征 1.文档逻辑视图: 用一组索引词或关键词来表示一篇文档。索引词既可以自动提取,也
可以是由人主观指定。
2.信息检索模型(IR model),
依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表 示为一个四元组< D, Q, F, R(qi,dj) >,其中D是一个文档集合,Q是一个查询集合,F是一个对 文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予 一个排序值。常用的信息检索模型有:集合论模型、代数模型、概率模型等。
例如:查询为 q = ka ∧ (kb ∨ ¬kc ) ,进一步表达为 qdnf = (1,1,1) ∨ (1,1, 0) ∨ (1, 0, 0)
即:每一个分量都是三元组 (ka , kb , ka ) 的二值向量 2. 定义:用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。文献dj 与查询 q 的相似度为
Indexing
quer
5
inverted file
8
Searching
Inde
8
retrieved docs
ranked docs
Ranking
2
四、IR 的两种形式: Ad Hoc and Filtering Ad hoc retrieval (特别检索: 文档集合保持不变) Filtering(过滤: 用户需求不变)

信息检索技术 第二章 信息检索模型(1)

信息检索技术 第二章 信息检索模型(1)

D1 比 D2 高9.5倍
向量空间优点
• 索引项权重的算法提高 索引项权重的算法提高了检索的性能 检索的性能 • 部分匹配的策略使得检索的结果文档集更接近用 户的检索需求 • 可以根据结果文档对于查询串的相似度通过 CosineRanking等公式对结果文档进行排序
模型的特点
• 基于关键词(一个文本由一个关键词列表组成) 基于关键词( 个文本由 个关键词列表组成) • 根据关键词的出现频率计算相似度 • 用户规定一个词项(term)集合,可以给每个词项附加权重
未加权的词项: Q= database;text;information 加权的词项:Q= 加权的词项: Q = database0.5;text0.8;information0.2 database 0 5; text 0 8; information 0 2 查询式中没有布尔条件 例如:文档的统计特性 例如 文档的统计特性
T2
7
词项的权重
• 根据 根据词项在文档 项在 档(tf)和文档集 档集(idf)中的 频率(frequency)计算词项的权重
– tfij = 在文档i中词项j的频率 – df j = 词项j的文档频率= 包含词项j的文档数量 – idfj = 词项j的反文档频率= log2 (N/ df j)
• 余弦相似度计算两个向量的夹角 • 余弦相似度是利用向量长度对内积进行 归一化的结果 t D1 ( )
CosSim(Di, Q) =
t3
d
k 1
ik
q
t
k

Q
t1
d ik q k
2 k 1 k 1
t
2
t2
D2
D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 5 / 38 = 0.81 D2 = 3T1 + 7T2 + T3 CosSim(D2 , Q) = 1 / 59 = 0.13 0 13 Q = 0T1 + 0T2 + 2T3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
sim(dj , q) P(dj | R) P( R) / P(dj | Rc) P( Rc)
第二节 信息检索模型
• 文档dj可以表示为平面上的一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y)之间的距离作为任一文档d 和提问q的相似性度量;而对于合取提问式q= kxand ky 来 说,它与文档的相似性则可以通过点(1,1)和点(x,y)之 间的距离来测度。因此,适用于析取提问式和合取提问式 的一种正规化相似度计算公式分别如下所示:
ni,nj分别表示集合D中含有索引词ki和kj的文档数,nij表示集合D中同时有ki 和kj的文档数
(1 c )
il
文档dj隶属于集合Di的程度,由dj中所含有的索引词和索引词ki的关联强度所 决定。
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (3)扩展布尔模型 在布尔模型的基础上,加入向量空间模型的局部匹配、索 引词加权等思想。 • 文档dj可以表示为dj=(wxj,wyj),其中, wxj,wdj分别表示 kx,ky在文档dj中的权重。 • 计算提问式与文档的相似度。文档dj可以表示为平面上的 一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y) 之间的距离作为任一文档d和提问q的相似性度量;而对 于合取提问式q= kxand ky 来说,它与文档的相似性则可 以通过点(1,1)和点(x,y)之间的距离来测度。因此,适 用于析取提问式和合取提问式的一种正规化相似度计算公 式分别如下所示:
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (2)模糊集合模型 • 对元素属于集合的概念模糊化,承认论域上既不完全 属于某集合,又不完全不属于某集合的元素,即变经典的 “绝对属于”为“相对属于”。 • 集合运算由满足集合的词间关系及其隶属度值决定 词间关系距阵 c ij nij /(ni nj nij) 文档的隶属度 uij 1
第二节 信息检索模型
• 一、信息检索的形式化表达 system=(D,Q,F,R(dj,q)) 其中: D,Q,F和R(dj,q)分别表 示信息检索系统的信息资源集合、用户信 息需求集合、信息资源与信息需求处理框 架及型分类 1、基于内容的检索模型 集合论模型 代数论模型 概率论模型 2、基于结构的数学模型 非重叠链表 邻近接点 3、浏览型数学模型 平台 结构导航 超文本
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (1)布尔检索模型 • 遵循两条基本规则 : 每个索引词在一篇 文档中只有两种状态:出现或不出现, 对应权值为 0 或 1 。 • 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 • 存在问题:只有0和1,在OR方式中,包含很多查 询词的文档和包含少数词的文档是等同的;在 AND方式中,即使缺少一个词,结果也是0,等 于一个词也没有。没有排序,布尔表达非友善性。
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 文档向量的构造
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 词频权值计算
第二节 信息检索模型
• 2、代数检索模型 向量空间模型 匹配函数的选择及相似度域值的确定
第二节 信息检索模型
• 3、概率模型 P( B | A) P( A) P( A | B) P( B) 贝叶斯定理 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A与 B相互独立。对一篇文档而言,若文档中的各个 词相互独立,则有 P(dj)=P(k1)…P(kt) 相似度计算: sim(dj, q) P( R | dj ) / P( Rc | dj ) 根据贝叶斯公式计算为:
相关文档
最新文档