第二章 检索模型

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Also, documentD2 (0.2,0.7) What does their similarity comparisonyield?
sim(Q, D2 )
(0.4*0.2) (0.8*0.7) [(0.4)2 (0.8)2 ]*[(0.2)2 (0.7)2 ]
0.64 0.98 0.42
2.2.3 模糊集合模型的主要缺点
(1)由于它建立在布尔检索的框架内,故它也带有传统布 尔模型的某些缺陷。
(2)模糊集合的运算规则导致其排序能力不能全面反映标 引词的重要程度。例,
A and B D1:(A,0.8) (B,0.1), D2:(A,0.2) (B,0.1), 哪篇文献会排到前面?
2.2 模糊集合模型
最早从事模糊集合模型研究的有C.V. 内戈伊塔(Negoita)、V.塔哈尼(Tahani) 和T· 拉德基(Radecki)等人。内戈伊塔 1973年就尝试用模糊逻辑来解释情报检 索原理。塔哈尼1976年提出了他的模型 。由于系统中标引词集合的容量可能很大 ,检索过程要处理的项很多。为了节省处 理时间,提高响应速度,拉德基等人提出 为提问中每个词选定一个阈值A(o≤A≤1) ,将小于A的项去掉,以简化运算过程。
nk the number of documentsin C that contain Tk
idfk
log
N nk
2.3.1 向量模型的描述
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它 区分文档类别属性的能力越低,其权值越小;另一方面,某一 文档中某一词条出现的频率越高,说明它区分文档内容属性的 能力越强,其权值越大。
2.3.1 向量模型的描述
1)文档D(Document):也称文献向量, 泛指文档或文档中的一个片段(如文档 中的标题、摘要、正文等)。 2)特征项t(Term):也称为属性向量, 指出现在文档中能够代表文档性质的基 本语言单位(如字、词等),也就是通 常所指的检索词。 3)文献向量的表示:这样一个文档D就 可以表示为D(t1,t2,…,tn),其中n就代表 了检索字的数量。
布尔提问式Boolean Queries
Cat Cat OR Dog Cat AND Dog (Cat AND Dog) (Cat AND Dog) OR Collar (Cat AND Dog) OR (Collar AND Leash) (Cat OR Dog) AND (Collar OR Leash)
2.3.1 向量模型的描述
6)相似度S(Similarity):指两个文档内容相关 程度的大小,当文档以向量来表示时,可以使用 向量文档向量间的距离来衡量,一般使用内积或 夹角θ的余弦来计算,两者夹角越小说明相似度 越高。
2.3.1 向量模型的描述
图2-1 文档相似度表示
Say wehave query vecot r Q (0.4,0.8)
教学目的和要求:
了解几种基本的检索模型
主要内容:
一 布尔检索模型 二 Fuzzy sets模糊集合模型 三 向量空间检索模型 四 概率检索模型
信息检索的原理
信息检索的基本原理 信息集合和需求集合的匹配和和选择。 (1)信息集合 文献d, 标引词k, 权重w (2)需求集合 潜在真实需求(real information need) 意识到的需求(perception information need) 表达出来的需求(request) 系统能够接受理解的需求(query)
自1967年被文献检索系统采用后,逐渐在信息检索系 统中得到广泛的世纪应用。
2.1布尔检索模型
缺点
难以构造合适的检索式; 容易造成零输出或输出过量; 不能区分各组配单元的重要程度; 不能按照用户定义的重要性排序输出。
2.2 模糊集合模型
对每一个标引词,都存在一个模糊的文献 集合与之相关。同时,对某一给定的标引 词,用某种隶属函数去表示每一文献与该 词相关的程度,在0-1之间取值。
Term B
Di=(di1,wdi1;di2, wdi2;…;dit, wdit) Q =(qi1,wqi1;qi2, wqi2;…;qit, wqit)
1.0
Q = (0.4,0.8)
0.8 0.6
Q D1=(0.8,0.3) D2=(0.2,0.7)
sim(Q, Di )
w w t j 1 q j dij
(3)匹配(函数)
2.1布尔检索模型
2.1.1 概念及原理
布尔(Boolean)。布尔检索模型采用布尔代数的方法,用布 尔表达式表示用户提问,通过对文献表示与提问式的逻辑比 较来检索文献。由于集合的定义是非常直观,布尔模型提供 了一个信息检索系统和用户容易掌握的框架。因而得到了广 泛的应用。
标引词集合和提问式的匹配
(Cat OR Dog) AND (Collar OR Leash)
◦ 下面6篇文献那篇是命中文献
12
34 5 6
Cat
x
x
Dog
x
x
Collar
x
x
Leash
x
x
2.1布尔检索模型
优点:
用户可以按照自己习惯的思维方式用普通语言进行提问 ;
将复杂的检索过程简单化,能够将检索提问按其概念组 面的逻辑关系描述出来,从而变成计算机执行的逻辑运 算。
假设有两篇文献和两个检索词
◦ D1={(t1,0.5), (t2,0.3)} ◦ D2={(t1,0.9), (t2,0.1)} ◦ 第一篇文献和第一个检索词的相关度为0.5,和第二个
词的相关度为0.3
如果要查找t1or t2,那么
v(D1) = max(0.5,0.3) = 0.5, v(D2) = max(0.9,0.1) = 0.9 D2会排在d1的前面。
缺点是什么?
英文Inverse Document Frequency,基于以下假设 :某词的重要性与它在特定文档中的出现次数成正 比,与含有该词的文档数成反比。
词频加逆文档词频确定权值的方法得到了广泛的应 用。
wik tfik *log(N / nk )
Tk term k in documentDi tfik frequencyof termTk in documentDi idfk inversedocumentfrequencyof termTk in C N totalnumber of documentsin the collection C
(3)定义隶属函数,也是一个很棘手的问题? 大家思考隶属函数可以从哪些方面着手
2.3 向量模型
又称为代数模型,是检索系统所有数学模型中 最有创造性、最能揭示文献之间的关系。20世 纪70年代中期由杰拉尔德. 索顿提出了检索系 统的代数模型,定义了文献向量、提问向量、 文献提问相关系数以及属性-文献相关矩阵、属 性相关矩阵、文献相关矩阵等概念。
请思考这种方 式的优缺点
2.2.2 模糊集合模型的主要优点
1)它与传统的布尔检索关系 非常密切,保留了布尔检索功 能,且更灵活。所有能支持布 尔检索的理论,对它也同样适 用。能满足那些既想利用布尔 检索的长处又想避免其二值相 关性测度的局限性的人的需要。 (2)文献可按用户定义的重 要程度排序输出。
t j 1
(wq
j
)2
(w ) t
2
j 1 dij
2
0.4
sim(Q, D2)
(0.4 0.2) (0.8 0.7)
[(0.4)2 (0.8)2 ][(0.2)2 (0.7)2 ]
D1 0.2 1
0.64 0.98
0.42
0
0.2
0.4
0.6
0.8
1.0
sim(Q, D1)
.56 0.74 0.58
如果要查找t1and t2,
v(D1) = mix(0.5,0.3) = 0.3, v(D2) = mix(0.9,0.1) = 0.1
D1 = {(图书馆, .8), (自动化, .4)} D2 = {(图书馆, .5), (自动化, .6)} 提问式 = 图书馆 AND 自动化
V(D1) = MIN(.8,.4) = .4 V(D2) = MIN(.5,.6) = .5 D2 is ranked before D1 in the result set.
模型1 Maron(马龙)and Kuhns(库恩)
1960年提出概率标引理论: 给定某一文献D,对某一标引词来说,标引 员要做这样的判断,如果某一个类型用户B 判定D为相关,且在提问式中只用一个词, 那他选择该词的概率有多大。
模型2 Robertson & Sparck Jones
基本思想:标引阶段不对标引词进行加权,而是在检 索阶段才导入概率检索机制。检索作业重复若干次, 每重复一次,用户就对检出文献进行相关性判断,然 后利用这种反馈信息,根据每个词在相关文献集合和 无关文献集合中的分布情况来计算他们的相关概率。
有关标引词的模糊集和是在标引过程建立 的。标引员不是简单的把标引词赋予文献 ,还要指出标引词与文献的相关程度。
当全部文献标引完毕后,实际上就已经为 每个标引词定义了一种隶属函数,指明了 每一文献与每个标引词的相关程度。
2.2 模糊集合模型
提问可以用布尔表达式表示,并指定所需文献 对每个标引词的隶属度。检索过程中,模糊集 合的运算根据扎德所定义的规则来进行,即将 提问式“A AND B”转换为“Wand—Min(a,b)” ,“A OR B”转换为“Wor=Max(a,b)”。其中 a和b分别为词A和词B的权值.Wand和Wor分别 为上述两个提问式的权值。“NOT A”或 “NOT B”的权值则定义为1-a或1一b。最后, 将检索结果按文献的权值排序输出。
2)向量模型的不足: 每篇文献主题词数量一致,反映不了文献信息量 的差异; 提问向量和文献向量一致,不符合用户检索习惯; 计算相关系数工作量大,且标引词的权值难以确 定; 标引词两两正交的假设过于僵硬等。 由于向量模型要求条件高,目前使用的并不多。
2.4 概率模型
2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表 示这些词在相关文献集合或无关文献集合中的出 现概率,然后计算某一给定文献与某给定提问相 关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值 来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型
i (d )
N tfi (d ) log( ni
0.1)
n
i 1
(tfi (d ))2
log 2 ( N ni
0.1)
2.3.1 向量模型的描述
5)提问向量:用属性向量表示特定提问式: Q=(q1,q2,…qm),其中qj(j=1,2,…,m), 表示提问中含有集合A中属性的程度,规定Q包 含属性aj,则qj=1,否则qj=0。
布尔模型的基本原理
(1)每个文献用一组标引词表示 例如,对于某一特定文献i,可表示为: Di=(T1,T2,T3,… Tm) 对于系统索引词集合的每个索引词在一篇文档中只
有两种状态:出现或者不出现,
布尔模型的基本原理
(2)提问式用3种布尔逻辑算符连接而成。 逻辑与:and 逻辑或: or 逻辑非: not
2.3.2 向量模型的特点
1)优点: 更深刻和准确地描述出文献之间的关系; 检索基于聚类文档,即通过计算文献之间的相关系 数,使属性相似的文献尽量聚集在一起,提高了检 索效率; 采用部分匹配策略及排序输出原理,提高了检索的 灵活性; 通过相应反馈技术自动修正提问向量,改进检索结 果。
2.3.2 向量模型的特点
2.3.1 向量模型的描述
4)特征项权重Wk(Term Weight):指特征项tn能够代表文 档D能力的大小,体现了特征项在文档中的重要程度。这样文 档D的向量可以表示为D(wn1,wn2,…,wnm),其中 w1,w2,…,wm分别代表文档D特征项t1,t2,…,tn的特征项权重。
(1)绝对词频法
根据每个词在特定文档(集合)中的出现频次来确定该词 重要程度的一种方法,最早有卢恩提出。基本原理
给定一个由N篇文档组成的文档集合,计算出每篇文档中 每个不同的词的出现次数。
把每个不同的词在N篇文档的出现次数相加,得到词K的 集合频率。
按集合频率递减顺序排列这些词,并确定高频词和低频词 的阈值。挑选剩下的中频词作为标引词,并按照他们在相 应文档的出现频次确定权重。
相关文档
最新文档