第二章 信息检索模型
第2章-信息检索模型
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
信息检索模型
信息检索模型信息检索模型是指通过计算机系统从大规模信息中自动地检索出与用户需求相关的信息的一种技术。
它是信息检索领域的重要研究内容,旨在提高用户检索信息的效率和准确性。
一、信息检索的定义和基本原理信息检索是指根据用户输入的查询需求,在大规模信息库中自动地查找并返回与用户需求相关的信息的过程。
它基于一定的检索模型和算法,通过匹配和排序等过程,将最相关的信息呈现给用户。
信息检索的基本原理包括以下几个方面:1. 查询处理:用户输入的查询需求经过预处理和分析,提取关键词和特征,形成查询向量。
2. 文档表示:对于每个文档,通过特征提取和表示方法,将其转化为向量表示,以便与查询向量进行匹配。
3. 相似度计算:根据查询向量和文档向量之间的相似度计算方法,评估文档与查询的相关性。
4. 排序和评价:根据相似度计算结果,对文档进行排序,将最相关的文档排在前面,并根据评价指标对结果进行评估。
5. 结果呈现:将排序后的文档结果以列表或摘要的形式呈现给用户,用户可以根据需要进行浏览和选择。
根据不同的检索模型和算法,信息检索可以分为多种模型,常见的有布尔模型、向量空间模型和概率模型等。
1. 布尔模型布尔模型是最早的信息检索模型之一,它基于布尔代数,将查询和文档转化为布尔表达式,通过逻辑运算来匹配和检索文档。
布尔模型简单直观,适用于处理简单的查询需求,但不擅长处理复杂的查询语句和表达需求的语义。
2. 向量空间模型向量空间模型是一种基于向量表示的信息检索模型,它将查询和文档都表示为向量,通过计算向量之间的相似度来评估文档的相关性。
向量空间模型可以灵活地处理复杂的查询需求和语义表达,常用的相似度计算方法包括余弦相似度和欧氏距离等。
3. 概率模型概率模型是一种基于概率统计的信息检索模型,它通过建立查询和文档之间的概率模型,利用统计方法计算文档的相关性。
概率模型可以较好地处理查询的不确定性和语义的歧义,常用的概率模型包括BM25模型和语言模型等。
第二章 检索模型
D1 = {(图书馆, .8), (自动化, .4)} D2 = {(图书馆, .5), (自动化, .6)} 提问式 = 图书馆 AND 自动化 V(D1) = MIN(.8,.4) = .4 V(D2) = MIN(.5,.6) = .5 D2 is ranked before D1 in the result set.
布尔模型的基本原理
(1)每个文献用一组标引词表示 例如,对于某一特定文献i,可表示为: Di=(T1,T2,T3,… Tm) 对于系统索引词集合的每个索引词在一篇文档中只 有两种状态:出现或者不出现,
布尔模型的基本原理
(2)提问式用3种布尔逻辑算符连接而成。 逻辑与:and 逻辑或: or 逻辑非: not
sim(Q, Di )
sim(Q, D 2)
t
t j 1
wq j wdij
2 2 ( w ) j 1 dij t
j 1 (wq j )
2
(0.4 0.2) (0.8 0.7) [(0.4) 2 (0.8) 2 ] [(0.2) 2 (0.7) 2 ] 0.64 0.98 0.42
2.3.2 向量模型的特点
2)向量模型的不足: 每篇文献主题词数量一致,反映不了文献信息量 的差异; 提问向量和文献向量一致,不符合用户检索习惯; 计算相关系数工作量大,且标引词的权值难以确 定; 标引词两两正交的假设过于僵硬等。 由于向量模型要求条件高,目前使用的并不多。
2.4 概率模型
2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表 示这些词在相关文献集合或无关文献集合中的出 现概率,然后计算某一给定文献与某给定提问相 关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值 来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型
第二章 信息检索模型
模型构建的主要步骤பைடு நூலகம்
(1)文档向量的构造; (2)查询向量的构造; (3)查询与文档的匹配函数的选择; (4)相似度阈值的确定。
模型中的问题
怎样确定文档中哪些词是重要的词? (标引词)
怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
第二章 信息检索模型举例为您找到相关 结果493,000个
?
如何找到与查询相关的文档? 如何将与查询相关的文档进行排序?
信息检索的原理 逻辑视图
匹配规则
文档 集合
特征化 表示
特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义
太少的结果文档被返回; 很难对输出进行排序;(本质) 很难进行自动的相关反馈。
经典模型
——向量空间模型(Vector Space Model)
模型概述
Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the
Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
∨ (t1 ∧ t2 ∧ t3)
qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义
pi(dj)表示标引词ti是否在文档dj中出 现的值 ;
pi(qF)查询合取分量qF中标引词ti是否 出现的值 ;
sim(dj,q)表示文档和查询的相似度
信息检索模型
例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出
第二章(1) 信息检索模型
布尔模型描述
文档D表示 一个文档被表示为索引项(关键词)的集合 查询项Q表示 查询项被表示为索引项的布尔组合,用“与、或、 非”连接起来,并用括弧指示优先次序 框架F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定某一文档与查询是否相关,如 果相关,则返回该文档
优点
到目前为止,布尔模型是最常用的检索模型,因 为:
由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查询 结果 相当于识别包含了一个某个特定term的文档
相当有效的实现方法
经过某种训练的用户可以容易地写出布尔查询式
问题
布尔模型被认为是功能最弱的方式
其主要问题在于不支持部分匹配,而完全匹配会导致太多或 者太少的结果文档被返回
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述 面对相同的输入,模型的输出应能够无 限地逼近现实世界的输出
举例:天气的预测模型
针对用户输入的查询,如何将文档按相关性 进行排序 如何看待文档是否与用户的查询相关
信息检索模型要解决的问题
信息检索的预备知识
方法1:对长文档进行惩罚,对短文档进行补偿 方法2:对长度进行归一化处理
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间 一个文档或查询式可以表示由n个元素组成的 向量
1第二章信息检索的数学模型(7~8学时)
2.3.1 布尔检索模型 2.3.2 模糊集合模型 2.3.3 扩展布尔检索模型
2.3.1 布尔检索模型
布尔模型是一种简单的检索模型,它建立在经典集合论和 布尔代数的基础上。鉴于集合论中“集合”概念的直观性以及布 尔表达式所具有的准确语义,布尔模型非常容易被用户理解和 接受,在早期的大多数商业化书目检索系统中,布尔模型更是 得到了广泛关注和应用。
2.3.2.1 模糊集合论的基本知识
模糊集合论对经典集合论的推广,主要表现在它把元素属于集合 的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属 于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于 概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对 于同一集合具有不同的隶属程度,引入了隶属度(membership)的概 念。 模糊集合的严格定义可以表述如下: 论域U到实区间[0,1]的任一映射 μA:U → [0,1] 对于任意x∈U,x →μA(x)都确定U上的一个模糊集合A,μA称做A 的隶属函数,μA(x)为元素x对A的隶属度。
1960年代末期,信息处理专家、美国著名学者萨尔顿(G. Salton) 基于“部分匹配”(partial matching)策略的信息检索思想,在其开发 的试验性检索系统SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性代数的理论和方法构建出 一种新型的检索模型,这就是后来广为人知的向量空间模型(Vector Space Model,简称VSM)。
接上片
所谓“局部权值”是指第i个索引词在第j篇文档中的权值;而“全局权值” 则是指第i个索引词在整个系统文档集合中的权值。 现在,假设N为系统文档总数;ni为系统中含有索引词ki的文档数;freqij 为索引词ki在文档dj中的出现次数;idfi表示索引词ki的逆文档频率 (inverse document frequency,简称idf或IDF); maxtfj表示文档dj中所有 索引词出现次数的最大值。那么,对于文档dj中索引词ki的权值计算方法, 可以如下进行: fij = freqij / maxtfj idfi = log(N / ni) wij = fij * idfi
二、信息检索模型研究
邻近节 点模型
平坦 模型
结构导 向模型
超文本 模型
10
检索模型的基本概念——8.理论研究历史
描述查询的结构化阶段
布尔检索模型
描述相关性的量化阶段
向量空间模型 概率模型
Rijsbergen 逻辑模型
1960’s
1986
11
检索模型的基本概念——理论研究历史
定性评价与定量计算相结合的阶段
逻辑模型
Rijsbergen 逻辑模型
29
布尔模型
遵循两条基本规则
每个索引词在一篇文档中只有两种状态:出现 或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接 索引词组成的布尔表达式
30
布尔模型——9. 形式化表示
任意查询都可转化为一个主析取范式DNF
例如:查询为q=ka∧(kb∨¬kc)可表示为 q=ka∧(kb∨¬kc)=kakbkc∨kakb¬kc∨ka¬kb ¬kc qbnf=(1,1,1)∨(1,1,0)∨(1,0,0) 即:每一个分量都是三元组的二值向量 (ka , kb , kc ) 任一文本可以写成所有Term的交,如 doc=a∧b∧c∧d∧e 因为doc(蕴含)q,所以相似度为1
14
布尔模型——2.集合的直观描述
具有某种属性的对象总体(通常用大写字母表 示,如A,B等),这些对象称为其元素(通常用小 写字母表示,如x,y等)
x是A的元素记为:x∈A (读作x属于A) x不是A的元素记为:x∉A (读作x不属于A)
集合的基本特性是,对于给定的集合A,任何 对象x, x∈A与x∉A中有且只有一个成立.
16
布尔模型——4.集合的表示
集合间的关系
第二章 信息检索方法
化合物的英文综合学术性文献。 A.外文Elsevier数据库 B.外文农业类CAB文摘数据库 C.外文农业类AGRICOLA数据库 D.外文食品科技文摘数据库FSTA
15
了解收录的文献类型 【例题】已知参考文献:王涛.土木工程CAD.中国水利水电出版
26
检索途径
1、主题途径 2、分类途径 3、责任者/刊名途径 4、号码途径
27
1、主题途径
主题途径是采用反映文献主题概念的 检索词作为检索入口的一种检索途径,也 是最常用、最重要的检索途径。
主题“是一组具有共性事物的总称, 用以表达文献所论述和研究的具体对象和 问题”,即文献的“中心内容”。
每种文献都包含着若干主题,研究或 阐述一个或多个问题。
Classification) 《国会图书馆图书分类法》(LCC)(Library congress
classification)
中国图书分类法: 《中国图书馆分类法》(中图法) 《中国科学院图书馆分类法》(科图法) 《中国人民大学图书馆分类法》(人大法)
32
《中图法》介绍
《中图法》——《中国图书馆分类法》,以学科来组织知 识,将全部知识领域划分为5个基本部类,22大类。
U447 桥梁安全与 事故
U448 各种桥型 U449 涵洞工程
图 2-4 《中图法》结构示意图 34
T类又可分为以下几类
TB 一般工业技术
TD 矿业技术
TE 石油、天然气工业
TF 冶金工业
TG 金属学、金属工艺
TH 机械、仪表工艺
TJ 武器工业
TK 动力工程
最新第2章信息检索基本知识ppt课件
布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
信息检索模型
概率模型
基本假设前提和理论 a.相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b.词的独立性。标引词和检索式中词与词之间是相互独立。 c.文献相关性是二值的,即只有相关和不相关两种。 d.概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e.贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)· P(R)/P(d)
布尔模型(Boolean Model)
布尔模型:查询和文档均表示为标引词(“是否存 在”) 的布尔表达式,通常表示成D(t 1,t 2,⋯ ,t i)的形 式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表 达式进行匹配,匹配成功的文档的得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
权重计算
标引词的文档频率DF(Document Frequency):标引词在 整个文档集合中出现的文档篇数,DF反映了标引词的区分 度, DF越高表示标引词越普遍,因此其区分度越低,其权 重也越低。 逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下 公式计算:(N是文档集合中所有文档的数目)
布尔模型的优点
简单、易理解、易实现 现代很多搜索引擎中仍然包含布尔模型的思 想,如Google的高级检索
布尔模型的局限性
只能严格匹配,文献要么相关、要么不相关,并没有一个相 关级别的概念,因此很难有好的检索效果 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、 OR、NOT运算符的结合来准确地表达一个检索语句,标引 词的简单组配不能完全反映用户的实际需要; 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制 输出量的大小 结果不能按用户定义的重要性排序输出,用户只能从头到尾 浏览输出结果才能知道哪些文献更适合自己的需要
第二讲 第二章 信息检索原理74.ppt.Convertor
第2章信息检索原理2.1 信息检索的基本概念2.1.1信息检索的定义和类型1.信息检索的定义检索的含义“检索就是查找”,这仅仅是一种狭义的解释。
从广义的角度讲,检索包括“存贮”和“查找”两个过程。
没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索)第2章信息检索原理信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。
广义的信息检索还包括信息存贮,两者又往往合并称为"信息存贮与检索"(Information storage and retrieval)。
第2章信息检索原理1.2.3文献的内部特征和外部特征文献的内容特征:就是可以从某种角度反映文献内容的特征。
文献的内部特征包括文献的题目、摘要、由著者或图书情报人员给出的主题词及其分类号。
文献的外部特征:是与内容特征关系不是十分密切的一些特征,包括文献的作者姓名、作者所在的工作单位名称,期刊刊名、会议录名称、专利说明书的专利号和科技报告的报告号等。
这些特征通常在文献的封面或扉页出现。
第2章信息检索原理2.2.1信息检索的一般原理无论是手工检索,还计算机检索,各种检索系统的检索原理基本相同。
简单地讲,就是检索提问标识与存贮在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。
存贮过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。
信息检索同样包括存储和检索两个过程。
第2章信息检索原理(1)信息检索根据检索对象不同,可分为:文献检索、数据检索、事实检索A.文献检索(Document Retrieval)。
文献检索是以文献为检索对象的信息检索。
信息检索技术 第二章 信息检索模型(1)
D1 比 D2 高9.5倍
向量空间优点
• 索引项权重的算法提高 索引项权重的算法提高了检索的性能 检索的性能 • 部分匹配的策略使得检索的结果文档集更接近用 户的检索需求 • 可以根据结果文档对于查询串的相似度通过 CosineRanking等公式对结果文档进行排序
模型的特点
• 基于关键词(一个文本由一个关键词列表组成) 基于关键词( 个文本由 个关键词列表组成) • 根据关键词的出现频率计算相似度 • 用户规定一个词项(term)集合,可以给每个词项附加权重
未加权的词项: Q= database;text;information 加权的词项:Q= 加权的词项: Q = database0.5;text0.8;information0.2 database 0 5; text 0 8; information 0 2 查询式中没有布尔条件 例如:文档的统计特性 例如 文档的统计特性
T2
7
词项的权重
• 根据 根据词项在文档 项在 档(tf)和文档集 档集(idf)中的 频率(frequency)计算词项的权重
– tfij = 在文档i中词项j的频率 – df j = 词项j的文档频率= 包含词项j的文档数量 – idfj = 词项j的反文档频率= log2 (N/ df j)
• 余弦相似度计算两个向量的夹角 • 余弦相似度是利用向量长度对内积进行 归一化的结果 t D1 ( )
CosSim(Di, Q) =
t3
d
k 1
ik
q
t
k
Q
t1
d ik q k
2 k 1 k 1
t
2
t2
D2
D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 5 / 38 = 0.81 D2 = 3T1 + 7T2 + T3 CosSim(D2 , Q) = 1 / 59 = 0.13 0 13 Q = 0T1 + 0T2 + 2T3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据相似度对输出结果进行排序 支持自动的相关反馈
• 有用的词项被添加到原始的查询式中 • 例如:Q database; text; information; document
模型中的问题
怎样确定文档中哪些词是重要的词?(索引 项)
怎样确定一个词在某个文档中或在整个文档 集中的重要程度?(权重) 怎样确定一个文档和一个查询式之间的相似 度?
文档的词项权重(TFIDF举例)
文本:“俄罗斯频繁发生恐怖事件,俄罗斯 的安全部门加大打击恐怖主义的力度。”
TF IDF TFIDF TF IDF TFIDF
俄罗斯 恐怖 的 频繁 发生 事件
2 2 2 1 1 1
较高 较高 非常低 较低 较低 较低
高 高 很低 低 低 低
安全 部门 加大 打击 主义 力度
基于代数论的IR模型(Algebraic models)
向量空间模型 潜性语义索引模型
基于概率统计的IR模型(Probabilistic models)
回归模型 二元独立概率模型 语言模型建模IR模型
1 布尔模型(Boolean Model)
布尔模型是建立经典集合论和布尔逻辑代数的 基础上。 优势:
匹配计算函数R
匹配函数R(dj,q)用于计算任一信息dj(dj∈D) 与任一提问q(q∈Q)形成的信息——提问对 (dj,q)之间的相似度大小。一般地,R(dj,q) 的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: • 计算方法简单,计算量小; • 函数值在取值区间均匀分布; • 针对某一提问所获取的相关文档集合,能够实 现合理的排序输出。
文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:
dj= (w1j, w2j, …,wij)
其中,向量分量wij代表第i个索引词ki在文档dj中所具有的 权重,t为系统中索引词的个数。 在Boolean模型中, wij ={0,1} 在VSM中,wij =[0,1] 一篇文档有多个索引词,如何计算每个索引词的权值?
模型的特点
基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度
• 例如:文档的统计特性
用户规定一个词项(term)集合,可以给每个词项附加权重
• 未加权的词项: Q = database; text; information • 加权的词项: Q = database 0.5; text 0.8; information 0.2 • 查询式中没有布尔条件
• 由于查询简单,因此容易理解 • 通过使用复杂的布尔表达式,可以很方便地控制查 询结果
相当有效的实现方法
• 相当于识别包含了一个某个特定term的文档
经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 • 非常刚性: “与”意味着全部; “或”意味着任何一个 很难控制被检索的文档数量 • 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 • 不考虑索引词的权重,所有文档都以相同的方式和查询 相匹配 很难进行自动的相关反馈 • 如果一篇文档被用户确认为相关或者不相关,怎样相应 地修改查询式呢?
课堂习题(2)
2 向量空间模型
向量空间模型(Vector Space Model)是康奈尔大学 Salton1970年代提出并倡导 成功应用于SMART( System for the Manipulation and Retrieval of Text)文本检索系统 这一系统理论框架到现在仍然是信息检索技术研究 的基础
1 1 1 1 1 1
中等 较低 较低 中等 较低 中等
高 低 低 高 低 高
Idf 计算示例
查询式的词项权重
如果词项出现在查询式中,则该词项在查询式 中的权重为1,否则为0 也可以用用户指定查询式中词项的权重 一个自然语言查询式可以被看成一个文档
• 查询式:“有没有周杰伦的歌?” 会被转换为: <周杰伦, 歌> • 查询式: “请帮我找关于俄罗斯和车臣之间的战争 以及车臣恐怖主义首脑的资料” 会被转换为: <俄罗斯 2, 车臣 2, 战争1, 恐怖主义1, 首脑 1> • 过滤掉了:“请帮我找”,“和”,“之间的”, “以及”,“的资料” 两个文档之间的相似度可以同理计算
索引词的权重
根据词项在文档(tf)和文档集(idf)中的频 率(frequency)计算词项的权重
• tfij = 词项j在文档i中的频率 • df j = 词项j的文档频率= 包含词项j的文档数量 • idfj = 词项j的反文档频率= log2 (N/ df j)
N: 文档集中文档总数 反文档频率用词项区别文档
• “集合”概念直观 • 容易被理解和接受
布尔模型描述
文档表示 • 一个文档被表示为关键词的集合 查询式表示 • 查询式(Queries)被表示为关键词的布尔组合,用 “与、或、非”连接起来,并用括弧指示优先次 序 匹配 • 一个文档当且仅当它能够满足布尔查询式时,才 将其检索出来 • 检索策略基于二值判定标准
பைடு நூலகம்
向量空间模型的基本原理
文档 关键字的权重矢量 提问
关键字的权重矢量
匹配
检索到文献
模型的描述
文档D(Document):泛指文档或文档中的一个片段(如文档 中的标题、摘要、正文等)。 索引项t(Term):指出现在文档中能够代表文档性质的基 本语言单位(如字、词等),也就是通常所指的检索词,这 样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检 索字的数量。 特征项权重Wk(Term Weight):指特征项tn能够代表文档 D能力的大小,体现了特征项在文档中的重要程度。 相似度S(Similarity):指两个文档内容相关程度的大小
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。 可以是一组索引词或关键词。既可以自动提取,也 可以是由人主观指定。
匹配处理框架(F)
在信息集合(D)与需求集合(F)之间建立模 型化处理的框架与规则。 不同检索模型的匹配处理的数学机制是不同的。
• 布尔模型:集合论的基本运算 • 向量空间模型:多维向量空间理论和向量线性代数 • 概率模型:集合论、概率运算和Bayes法则
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
如:提问式 q = k1 and (k2 or not k3)可写成等价的 析取范式形式: q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 ) 这里q dnf是提问式q的主析取范式。可进一步简化表 示 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0) 其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取 子项qcc,他们是一组向量,由对应的三元组(k1 , k2 , k3) 的每一个分量取0或1得到。 基于以上规则和假定,布尔模型对于任一篇文献 dj∈D,定义与用户提问q的匹配函数为:
课堂练习题(1)
课堂思考题:
• 想查关于今年超女5进4比赛的新闻,用布尔模型 怎么构造查询?
参考答案
������ (2006 OR 今年) AND (超级女声OR 超 女OR 超级女生) AND (6进5 OR 六进五OR 六AND 进AND 五) ������ 表达式相当复杂,构造困难! ������ 不严格的话结果过多,而且很多不相关; 非常严格的话结果会很少,漏掉很多结果。
例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
例如:文档总数为1000,出现关键词k1文档为100 篇,出现关键词k2文档为500篇,出现关键词k3 文档为800篇 N=1000, n1=100, n2=500, n3=800 根据公式: idfi = log(N/ni) ,可计算出 idf1= 3 - 2 = 1 idf2= 3 – 2.7 = 0.3 idf3 = 3 – 2.9 = 0.1 Idf越大,表明区别(分)文档的能力越强。
布尔模型的基本原理 布尔模型在解释信息检索处理过程时,主要遵守的两 条原则: 系统索引词集合中的每一个索引词在一篇文档中只 有两种状态:出现或不出现。每个索引词的权值 wij∈{0,1} 检索提问式q由三种布尔逻辑运算符“and”、“or”、 “not”连接索引词来构成。 根据布尔逻辑的运算规定,提问式q可以被表示成 由合取子项(conjunctive components)组成的析 取范式(disjunctive normal form,简称dnf)形式。
索引项的选择
若干独立的词项被选作索引项(index terms) or 词表