信息检索的概率模型-
信息检索 概率模型
信息检索概率模型
信息检索是基于概率模型的一种技术。
概率模型通常用于描述信息检索中的查询概率和查询结果的可靠性。
在基于概率模型的信息检索中,一个查询被表示为一个概率分布的向量。
例如,假设查询概率分布为 [0, 1],表示查询结果的可靠性为0%或100%。
在这种情况下,如果用户输入一个查询,系统将返回所有匹配查询的页面,其中每个页面的匹配概率不同,取决于页面中信息的质量和相关性。
概率模型还可以用于确定查询的最佳超集。
例如,如果一个查询的不确定性很高,那么系统可能需要搜索多个可能的超集来找到最佳的匹配结果。
系统可以使用概率模型来确定哪些超集是最有可能匹配查询的,并返回这些超集。
总之,基于概率模型的信息检索技术可以提高查询结果的可靠性和用户体验,使用户更容易找到需要的信息。
第2章-信息检索模型
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
第四章 信息检索模型
向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
【计算机科学】_概率信息检索模型_期刊发文热词逐年推荐_20140727
2012年 序号 1 2 3 4 5 6 7 8 9
科研热词 概率信息检索模型 条件随机场 条件偏好 排序 属性单元 事件表示 事件检索 事件抽取 xml
推荐指数 1 1 1 1 1 1 1 1 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11
科研热词 统计推断 查询词权重 查询分析 文档生成 搜索引擎 分类 信息检索 依存句法分析 主题模型 term重要性 pam
推荐指数 1 1 1 1 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5
科研热词 辨识 确定型属性 相似度 概率分布型属性 时变对象
推荐指数 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8
科研热词 推荐指数 音乐流派分类 1 音乐标签 1 统计主题模型 1 特征选择 1 标签预测 1 标签系统 1 基于特征间相互影响的前向特征选择算法(ibffs) 1 型 1
试述布尔模型、向量空间模型及概率模型的工作原理及其优缺点
试述布尔模型、向量空间模型及概率模型的工作原理及其优缺点布尔模型:布尔模型是信息检索中一种有效的文本表示方法,它将文档表示为一系列由词语组成的集合,这些词语是从文档中提取出来的。
它不考虑文字在文档中的位置,也不考虑文字的相关性,只重视文档中是否出现这个词语。
优点:1.布尔模型可以通过词语之间的简单逻辑运算(如与、或、非等)和组合来检索出精确的信息。
2.它可以有效地处理空查询,因为它不依赖单词的排列顺序。
3.它可以快速地检索大规模的文档,因为它只需要检查文档中是否出现索引词。
缺点:1. 布尔模型不能有效地处理同义词和近义词的检索,因为它不考虑文本的上下文。
2. 布尔模型对文档的分类和排序没有任何作用,因为它不考虑文档的内容。
向量空间模型:向量空间模型是一种基于向量空间理论的文本表示方法,它将文档表示为一组“特征-值”对,其中特征是词语,值是权值,通过这种表示方法把文档转换成一个向量。
它考虑文档中词语的频率,以及这些词语在文档中出现的位置等信息,以计算出权值。
优点:1. 向量空间模型可以有效地处理同义词和近义词的检索,因为它考虑了文本的上下文。
2. 向量空间模型可以根据文档的内容对文档进行分类和排序,因为它考虑了文档的内容。
缺点:1. 计算复杂度较高,因为它需要计算每个词语的权值。
2. 向量空间模型无法处理空查询,因为它依赖于单词的频率和排列顺序。
概率模型:概率模型是一种基于概率理论的信息检索模型,它根据文档内容计算出词语的概率。
它考虑文档中词语的频率,以及这些词语在文档中出现的位置等信息,以计算出概率。
优点:1. 概率模型可以有效地处理同义词和近义词的检索,因为它考虑了文本的上下文。
2. 概率模型可以根据文档的内容对文档进行分类和排序,因为它考虑了文档的内容。
缺点:1. 计算复杂度较高,因为它需要计算每个词语的概率。
2. 概率模型无法处理空查询,因为它依赖于单词的频率和排列顺序。
信息检索
信息检索与信息组织 信息组织:描述信息资源或信息对象。 信息检索:发现适当的信息资源或信息对象。 互逆的过程:
存储、收藏-----标引
提取、利用-----检索
目录
1. 2. 3.
信息检索的沿革与发展 信息检索的职能与范围 信息检索的技术与方法
信 信 性信 信 息息 息息 检检 检检 索索 索索 的的 的的 模发 类涵 型展 型义 历 与 程 特
信息检索的沿革与发展:4.信息检索的模型
q = 病毒 AND (计算机 OR 电脑)AND NOT医
d1:
…据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很 感兴趣,最近发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径…
哪些文档会被检索出来?
进行抽象描述,用于信息检索过程。
用户提问 匹配? 信息集文档
信息检索的沿革与发展:4.信息检索的模型
信息检索模型决 定于:
从什么样的视角
去看待查询式和 文档 基于什么样的理 论去看待查询式 和文档的关系 如何计算查询式 和文档之间的相 似度
信息检索的沿革与发展:4.信息检索的模型
布尔逻辑检索模型:Boolean Retrieval Model, BRM 文档表示: 一个文档被表示为关键词的集合 查询式表示:查询式(Queries)被表示为关键词的布尔 组合 用“与或非”连接起来,并用括弧指示优先次序匹配
பைடு நூலகம்
与:AND,* 或:OR,+ 非:NOT,—,
一个文档当且仅当它能够满足布尔查询式时,才将其 检索出来
信息检索模型
例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出
1第二章信息检索的数学模型(7~8学时)
2.3.1 布尔检索模型 2.3.2 模糊集合模型 2.3.3 扩展布尔检索模型
2.3.1 布尔检索模型
布尔模型是一种简单的检索模型,它建立在经典集合论和 布尔代数的基础上。鉴于集合论中“集合”概念的直观性以及布 尔表达式所具有的准确语义,布尔模型非常容易被用户理解和 接受,在早期的大多数商业化书目检索系统中,布尔模型更是 得到了广泛关注和应用。
2.3.2.1 模糊集合论的基本知识
模糊集合论对经典集合论的推广,主要表现在它把元素属于集合 的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属 于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于 概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对 于同一集合具有不同的隶属程度,引入了隶属度(membership)的概 念。 模糊集合的严格定义可以表述如下: 论域U到实区间[0,1]的任一映射 μA:U → [0,1] 对于任意x∈U,x →μA(x)都确定U上的一个模糊集合A,μA称做A 的隶属函数,μA(x)为元素x对A的隶属度。
1960年代末期,信息处理专家、美国著名学者萨尔顿(G. Salton) 基于“部分匹配”(partial matching)策略的信息检索思想,在其开发 的试验性检索系统SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性代数的理论和方法构建出 一种新型的检索模型,这就是后来广为人知的向量空间模型(Vector Space Model,简称VSM)。
接上片
所谓“局部权值”是指第i个索引词在第j篇文档中的权值;而“全局权值” 则是指第i个索引词在整个系统文档集合中的权值。 现在,假设N为系统文档总数;ni为系统中含有索引词ki的文档数;freqij 为索引词ki在文档dj中的出现次数;idfi表示索引词ki的逆文档频率 (inverse document frequency,简称idf或IDF); maxtfj表示文档dj中所有 索引词出现次数的最大值。那么,对于文档dj中索引词ki的权值计算方法, 可以如下进行: fij = freqij / maxtfj idfi = log(N / ni) wij = fij * idfi
信息检索模型(精)
型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文
档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构。 因此,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全。 在结构化文本检索模型中,我们使用“匹配点”来表示文本与用户查询相匹 配的词串位置;我们使用“区域”表示文本的块;使用“节点”表示文档的结构 化组元。这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义 的逻辑属性。
—信息检索模型 信息检索模型
1
—信息检索模型 信息检索模型→概念
检索系统中,一般采用索引项来建立文档的索引和对文档进行检索。例 如对于文本信息检索来说,基于字表或词表的全文检索方法,已单个的字或 词作为索引项,对其出现位置进行索引,并依据单字和词的位置信息进行检
索。
用户在进行信息检索时,希望获得与其需求密切相关的检索结果,因此 信息检索系统所要解决的中心问题是:基于用户的需求,对文档集中的所有
要合理得多。
i 1 i 1
t
t
i, q
在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数。查询中的 索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q≥0,则查 询矢量Q被定义成Q=(w1,q,w2,q,w3,q…………wt,q),其中,t是系统中 所有索引项的数目,文档dj的矢量可以表示为Wj=(w1,j,w2,j,w3,j……… wt,j),矢量模型通过Wj和Q的相关度来评价文档dj和查询q的相关度。这种 关系可以用定量表示,一般使用两个矢量之间的夹角余弦值来计算。
布尔模型的缺点也是明显的。
首先:它的检索策略是基于二值决策准则,即一个文档只被判断成相关 的或不相关的,无任何等级变化;
概率检索模型PPT课件
文档数目
494 MB
规模
1995—2002 文章发表年份
1,532
平均每篇文档中的XML节点个数
6.9
平均每个节点的深度
30
CAS主题的数目
30
CO 主题的数目
10
现代信息检索
向量空间模型
▪ 文档表示成向量
▪ 查询也表示成向量
▪ 计算两个向量之间的相似度:余弦相似度、内积 相似度等等
▪ 在向量表示中的词项权重计算方法主要是tf-idf公 式,实际考虑tf、idf及文档长度3个因素
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
▪ 专利: give me patens whose claims mention RSA public key encryption and that cite US patent 4,405,829
19
现代信息检索
乘法公式、全概率公式和贝叶斯公式
▪ 乘法公式:
▪ P(AB)=P(A)P(B|A)
▪ P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1)
▪ 全概率公式:A1A2…An是整个样本空间的
一个划分
n
P(B)= P( Ai )P(B | Ai )
i 1
▪ 贝叶斯公式: A1A2…An是整个样本空间的
▪ 雅可比贝努利(Jacob Bernoulli) : 1654-1705
信息检索的三个经典模型
信息检索的三个经典模型
1. 布尔模型
布尔模型是最简单和最早的信息检索模型之一。
它基于布尔逻辑,并
使用逻辑运算符(如AND、OR和NOT)组合查询词来匹配文档集合。
在这种模型中,文档要么与查询匹配(1),要么不匹配(0),没有其
他评分标准。
布尔模型适用于处理简单的查询和需求明确的场景,特
别是在较小的文档集合中。
2. 向量空间模型
向量空间模型是一种常用的信息检索模型,根据向量表示文档和查询,并计算它们之间的相似度进行排序。
在这种模型中,将文档和查询表
示为权重向量,每个维度表示一个词项,并使用词频、逆文档频率等
权重策略进行建模。
通过计算文档与查询之间的余弦相似度,可以衡
量它们的相关性并进行排序。
向量空间模型适用于大规模的文档集合
和较复杂的查询需求。
3. 概率检索模型
概率检索模型基于概率统计理论,对文档与查询之间的概率关系进行
建模和计算。
最典型的概率检索模型是基于贝叶斯理论的朴素贝叶斯
模型。
该模型假设文档生成过程是随机的,并使用贝叶斯公式计算查
询的后验概率。
通过比较不同文档的概率得分,可以将其排序。
概率
检索模型适用于处理较复杂的查询和在语义理解方面有一定要求的场景。
IR信息检索模型
信息检索模型刘挺哈工大信息检索研究室2004年秋提纲信息检索模型的概述布尔模型向量空间模型(VSM)扩展的布尔模型潜在语义索引模型(LSI)概率模型基于统计语言模型的信息检索模型 基于本体论的信息检索模型信息检索模型的概述什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型模型和实现的区别一个模型可以用多种方法实现例如:布尔模型可以用倒排文档(inverted file)实现,也可以用B-tree实现信息检索模型四元组[D, Q, F, R(q i, d j)]D: 文档集的机内表示Q: 用户需求的机内表示F: 文档表示、查询表示和它们之间的关系的模型框架(Frame)R(q i, d j): 给query q i和document d j评分信息检索模型决定于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度模型分类布尔模型(Boolean Model)布尔模型文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来不同的系统可以使用:不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息不同的实现方法强调到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”,怎么表示?不可能企望用户自己规定m值系统可以从m=n开始,然后逐渐减少m,但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型统计模型基于关键词(一个文本由一个关键词列表组成)根据关键词的出现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=〈database; text; information 〉加权的词项: Q = 〈database 0.5; text 0.8; information 0.2 〉 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Q ⇒〈database; text; information; document〉统计模型中的问题怎样确定文档中哪些词是重要的词?怎样确定一个词在某个文档中或在整个文档集中的重要程度?怎样确定一个文档和一个查询式之间的相似度?在WWW中,什么是文档集(collection),链接、文档结构以及其它形式特征(如字体、颜色等)对统计模型有何影响?向量空间模型若干独立的词项被选作索引项(index terms) or词表vocabulary 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项向量空间模型向量空间模型实际上,这些词项是相互关联的 当你在一个文档中看到“计算机”, 非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”向量空间模型2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项d i= 〈0, 0 〉(一个索引项也不包含)d j= 〈0, 0.7 〉(包含其中一个索引项)d k= 〈1, 2 〉(包含两个索引项)类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合图示文档集相似度计算相似度是一个函数,它给出两个向量之间的相似程度 查询式和文档都是向量,各类相似度存在于:两个文档之间两个查询式之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。
bm25算法 python 代码
BM25算法及其在Python中的实现一、介绍BM25算法BM25算法是一种用于信息检索的概率模型,它被广泛应用于搜索引擎和文本检索系统中。
BM25算法通过考虑查询词在文档中的出现频率和文档长度等因素来对文档进行打分,从而实现对文档的相关性排序。
BM25算法在实际应用中表现出色,因此深受信息检索领域的研究者和从业者的青睐。
二、BM25算法的基本原理1. 词频对文档打分的影响BM25算法考虑了查询词在文档中的出现频率对文档相关性打分的影响。
当查询词在文档中出现的次数越多时,说明该文档可能与查询词相关度较高,因此需要给予更高的打分。
BM25算法通过对查询词的词频进行加权,从而实现对文档的相关性打分。
2. 文档长度对相关性打分的影响BM25算法还考虑了文档长度对文档相关性打分的影响。
一般来说,文档长度越长,其中出现的查询词的频率就越高。
BM25算法引入了文档长度对相关性打分的调整因子,从而在计算文档打分时考虑了文档的长度因素。
3. 总体打分的计算根据以上原理,BM25算法通过对文档中查询词的词频进行加权,并考虑文档长度对打分的调整因子,计算出文档的最终相关性打分。
具体的计算方法可以参考BM25算法的相关文献和资料。
三、BM25算法在Python中的实现1. 使用Python库实现BM25算法在Python中,可以使用第三方库来实现BM25算法。
可以使用`gensim`库中的`BM25`类来实现BM25算法。
通过该类,可以很方便地对文档集合进行BM25打分并进行相关性排序。
2. 自行实现BM25算法除了使用第三方库外,也可以自行编写BM25算法的Python代码。
BM25算法的原理相对简单,因此可以根据算法的基本原理来编写BM25算法的计算代码。
在实现BM25算法时,需要注意对查询词的词频进行加权、考虑文档长度对打分的调整因子,并最终计算出文档的相关性打分。
3. 性能优化在实际应用中,为了提高BM25算法的计算性能,可以进行一些性能优化的操作。
经典信息检索模型的分类比较
经典信息检索模型的分类比较作者:于莉来源:《软件》2011年第03期摘要:信息检索的模型,主要是用于检索和排序的计算用户查询请求和信息的匹配程度的问题。
目前已有的检索模型有布尔模型、向量模型、概率模型以及以上三个经典模型的变形模型。
通过对经典模型进行分析比较,以便在设计具体的检索系统时,根据检索对象的特点,采取合适的检索模型,提高检索效率。
关键词:信息检索;经典模型;扩展模型中图分类号:TP31文献标识码:Adoi: 10.3969/j.issn.1003-6970.2011.03.008Classification of Classic Information Retrieval ModelYU Li(Journal of Tianjin Institue of Financial and Commercial Management)【Abstract】Information retrieval model, is primarily used to retrieve and rank of a query and information that matches the problem. At present there are the boolean model, the vector space model, the probabilistic model and distorted model of the above three classic models. By analysis of the classical model, in order to adopt suitablemodel to improve the retrieval efficiency whendesigning specific retrieval system.【Key words】information retrieval; classic information retrieval model; extended model0引言信息检索技术在许多领域中都有相应的应用,例如:Web搜索引擎、图形图像检索、视频检索、构件检索等。
信息检索模型
概率模型
基本假设前提和理论 a.相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b.词的独立性。标引词和检索式中词与词之间是相互独立。 c.文献相关性是二值的,即只有相关和不相关两种。 d.概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e.贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)· P(R)/P(d)
布尔模型(Boolean Model)
布尔模型:查询和文档均表示为标引词(“是否存 在”) 的布尔表达式,通常表示成D(t 1,t 2,⋯ ,t i)的形 式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表 达式进行匹配,匹配成功的文档的得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
权重计算
标引词的文档频率DF(Document Frequency):标引词在 整个文档集合中出现的文档篇数,DF反映了标引词的区分 度, DF越高表示标引词越普遍,因此其区分度越低,其权 重也越低。 逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下 公式计算:(N是文档集合中所有文档的数目)
布尔模型的优点
简单、易理解、易实现 现代很多搜索引擎中仍然包含布尔模型的思 想,如Google的高级检索
布尔模型的局限性
只能严格匹配,文献要么相关、要么不相关,并没有一个相 关级别的概念,因此很难有好的检索效果 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、 OR、NOT运算符的结合来准确地表达一个检索语句,标引 词的简单组配不能完全反映用户的实际需要; 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制 输出量的大小 结果不能按用户定义的重要性排序输出,用户只能从头到尾 浏览输出结果才能知道哪些文献更适合自己的需要
讲稿3-信息检索模型
信息检索模型1、概念模型是采用数学工具,对现实世界某种事务或某种运动的抽象描述。
面对相同的输入,模型的输出应能无限地逼近现实世界的输出,例如,天气的预测模型。
模型和实现的区别是:一个模型可以用多种方法实现,例如,布尔模型可以用倒排文档(inverted file )实现,也可以用B-tree 实现。
影响一个信息检索系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。
信息检索模型(IR model ), 依照用户查询,对文档集合进行相关排序的一组前提假设和算法。
IR 模型可形式地表示为一个四元组< D, Q, F, R(q i ,d j) >,其中D 是一个文档集合,Q 是一个查询集合,F 是一个对文档和查询建模的框架,R(q i ,d j ) 是一个排序函数,它给查询q i 和文档 d j 之间的相关度赋予一个排序值。
常用的信息检索模型有:集合论模型、代数模型、概率模型等。
其中, D 通常由文档逻辑视图来表示。
Q 一个查询集合,是用户任务的表达,由查询需求的逻辑视图来表示。
F 是一个框架,用以构建文档,查询以及它们之间关系的模型。
R(q i ,d j )是一个排序函数,它给查询q i 和文档 d j 之间的相关度赋予一个排序值。
即:IR 模型由上述四个要素组成<D,Q,F, R(q i ,d j )>.信息检索模型决定于:⏹ 从什么样的视角去看待查询式和文档⏹ 基于什么样的理论去看待查询式和文档的关系⏹ 如何计算查询式和文档之间的相似度2、IR 模型分类分为三类: 基于内容的信息检索模型,结构化模型,浏览型检索模型.2.1 基于内容的信息检索模型集合论模型(Set Theoretic):布尔模型(Boolean )、模糊集合模型(Fuzzy Set)、扩展布尔模型(Extended Boolean)、代数模型(Algebraic): 向量空间模型(Vector)、广义向量空间模型(Generalized Vector)、潜在语义标引模型(Latent Semantic Index)、神经网络模型(Neural Networks)概率模型(Probalilistic): 经典概率论模型、推理网络模型(Inference Network)、置信(信念)(Belief Network)网络模型2.2 基于结构的结构化模型(Structured Models)非重叠链表模型(Non-Overlapping Lists)、临近节点模型(Proximal Nodes) (了解)用户希望能够对文档中的某些结构组元中包含的信息进行检索,例如,对出现在章、节、标题的词进行检索;把文档内容与文档的结构结合起来。
向量空间模型和概率检索模型的异同之处
向量空间模型和概率检索模型的异同之处向量空间模型和概率检索模型都是信息检索领域常用的模型,二者在某些方面有着相似之处,但也存在一些差异。
首先,向量空间模型是一种基于向量空间的检索模型,它将文本表示为向量,通过计算向量之间的相似性来判断文本之间的相关性,常用的相似度计算方法有向量点积和余弦相似度。
而概率检索模型则是一种基于概率论的检索模型,它将文本表示为概率分布,在检索时通过计算文本与查询之间的相似度来判断文本的相关性,常用的相似度计算方法有BM25算法和语言模型。
其次,向量空间模型注重于文本的局部特征,即将每个文本看作向量空间中的一个点,通过这个点向量来描述文本,而不考虑其背景信息;而概率检索模型则侧重于文本与查询的全局关系,即通过统计文本中的词项与查询中的词项的关联性来计算文本与查询之间的相似度。
最后,向量空间模型没有对文本出现的概率进行建模,而是通过词项的权重来进行排名;而概率检索模型则是通过建模文本出现的概率分布,来计算文本与查询之间的相似度,得到相关性排名。
综上所述,向量空间模型和概率检索模型都有各自的特点,选用哪种模型应根据问题的具体情况进行选择。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索的概率模型一、综述一、信息检索技术由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工作方式,我们真正处于一个“信息爆炸”的时代。
一方面,因特网上面蕴含的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。
于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。
同时保证人们在信息选择方面的个人隐私权利?成为学术界和企业界所十分关注的焦点。
随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。
如此众多的信息,仅仅依靠大脑来收集和整理所需要的信息显然是不够的。
所以,自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。
根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。
由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。
因此我们在下面主要讨论中文文本检索和相关的评价方案。
1、信息检索技术的发展信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出了设计自动的,在大规模的存储数据中进行查找的机器的构想。
这被认为是现在信息检索技术的开山之作。
进入50年代后,研究者们开始为逐步的实现这些设想而努力。
在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者取得了一些成果。
其中最有代表性的是Luhn在IBM公司的工作,他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索的方法,这种方法就是目前常用的倒排文档技术的雏形。
在著名的国际文本检索会议(Text Retrieval Conference,TREC)上,有两个最重要的研究方向:Routing Task和Ad Hoc Task。
其热点问题包括从早期的文本检索、文本过滤到当前的问题回答。
文本信息检索就是根据用户提出的具体查询,在大量相对稳定的文本源中,检索出符合用户查询条件的文本,并按其满足查询的程度排序列出。
文本检索技术的发展已经有四十多年的历史,取得了很大的成就,产生了大批实用的检索系统,积累了很多成熟的技术。
1992年,NIST(美国国家标准和技术研究所)与DARPA联合赞助了每年一次的TREC,对于文本检索和文本过滤和问题回答等专题倾注了极大的热忱。
目前随着因特网的迅速发展,需求的不断增加,文本检索以及相关技术方面取得了长足的进展,成为信息产业新的增长点。
2、信息检索技术的简介信息检索系统流程大致如下图所示:总体上,系统可分为四个部分:数据预处理,索引生成,查询处理,检索。
下面我们分别对各个部分采用的技术加以介绍。
1. 数据预处理目前检索系统的主要数据来源是Web,格式包括网页、WORD 文档、PDF 文档等,这些格式的数据除了正文内容之外,还有大量的标记信息,因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。
此外,众所周知,中文字符存在多种编码,比如GB2312、BIG5、Unicode(CJK 区),而原始数据集往往包含多种编码,因此要正确地检索到结果必须进行统一编码转换。
研究者们对预处理部分要提取哪些信息并没有共识,这与后续处理所需的信息密切相关,一般来说,正文、锚文本和链接地址都是要提取出来的。
2. 索引生成对原始数据建索引是为了快速定位查询词所在的位置,为了达到这个目的,索引的结构非常关键。
目前主流的方法是以词为单位构造倒排文档表,其结构大致如下图所示:每个文档都由一串词组成,而用户输入的查询条件通常是若干关键词,因此如果预先记录这些词出现的位置,那么只要在索引文件中找到这些词,也就找到了包含它们的文档。
为了进一步提高查询的速度,在组织索引时还可以采用一些更复杂的方法,比如B树、TRIE 树、哈希表等。
这个阶段还需要对预处理之后的文档进行词法分析,这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。
例如,中文里的词与词之间不存在分隔符,因此必须先进行分词,而英文中的词存在很多变形,比如“compute”就存在“computes”、“computing”、“computed”等多种变形,应先进行词根还原。
此外,有些词虽然出现频率很高,但对于查询没有任何帮助,比如“的”、“了”等,就无需放入索引,为此需要预备一个停用词表(stop word list)对这类词进行过滤。
3. 查询处理用户输入的查询条件可以有多种形式,包括关键词、布尔表达式、自然语言形式的描述语句甚至是文本,但如果把这些输入仅当作关键词去检索,显然不能准确把握用户的真实信息需求。
很多系统采用查询扩展来克服这一问题。
各种语言中都会存在很多同义词,比如查“计算机”的时候,包含“电脑”的结果也应一并返回,这种情况通常会采用查词典的方法解决。
但完全基于词典所能提供的信息有限,而且很多时候并不适宜简单地以同义词替换方法进行扩展,因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。
4. 检索最简单的检索系统只需要按照查询词之间的逻辑关系返回相应的文档就可以了,但这种做法显然不能表达结果与查询之间的深层关系。
为了把最符合用户需求的结果显示在前面,还需要利用各种信息对结果进行重排序。
目前有两大主流技术用于分析结果和查询的相关性:链接分析和基于内容的计算。
许多研究者发现,WWW 上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。
基于这种链接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。
这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
而基于内容的计算则沿用传统的文本分类方法,多采用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度(相关性)。
两者各有优缺点,而且恰好互补。
链接分析充分利用了Web 上丰富的链接结构信息,但它很少考虑网页本身的内容,而直观上看,基于内容的计算则较为深入地揭示了查询和结果之间的语义关系,但忽略了不同网页之间的指向关系,因此现在很多系统尝试把两者结合起来,以达到更好的性能。
3、信息检索技术的模型信息检索模型可形式化地表示成为一个四元组< D, Q, F, R(qi,dj) >,D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档dj 之间的相关度赋予一个排序值。
3.1、布尔模型所谓布尔检索, 就是采用布尔代数的方法, 用布尔表达式表示用户提问, 通过对文本标识与用户给出的检索式进行逻辑比较来检索文本。
设文本集D 中某一文本i, 该文本可表示为:Di = ( t1 , t2, ⋯, tm) ,其中, t1 , t 2, ⋯, t m 为标引词, 用以反映i 的内容。
另设用户某一检索式如下:Qj = ( t1 ∧t 2) ∨( t3 ∧( t4) ) .对于该检索式, 系统响应并输出的一组文本应为: 它们都含有标引词t1 和t2 , 或者含有标引词t 3, 但不含有标引词t 4。
布尔检索具有简单、易理解、易实现等优点, 故得到广泛的应用。
1967年后, 布尔检索模型正式被大型文献检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式, 服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。
尽管布尔检索有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点。
( 1) 布尔逻辑式的构造不易全面反映用户的需求。
用标引词的简单组配不能完全反映用户的实际需要, 用户需要那一方面内容的文本, 需要到多大程度, 这是检索式无法表达清楚的, 如对上述检索式, t1 和t2 , 究竟用户希望能得到更多地反映t1 内容的文本还是反映t2 内容的文本, 传统的布尔检索无法解决此问题。
( 2) 匹配标准存在某些不合理的地方。
例如, 在响应某个用“∧”连接的检索时, 系统把只含有其中一个或数个但非全部检索词的文本看作与那些根本不含有其中一个检索词的文本一样差, 同样加以排除; 另一方面, 用响应某个用“∨”连接的检索式时, 系统都不能把含有所有这些检索词的文本看作比那些只含有其中一个检索词的文本更好一些。
( 3) 检索结果不能按照用户定义的重要性排序输出。
系统检索输出的文本中, 排在第一位的文本不一定是文本集中最适合用户需要的文本, 用户只能从头到尾浏览才能知道输出文本中那些更适合自己的需要。
针对于标准的布尔模型中文献表达形式过于简单、检索条件过于严格而出现的问题,人们对其采取了扩充和修改,提出了扩展的布尔模型。
如Salton 于1983年提出的一种所谓的扩展布尔检索模型, 它是将向量检索模型与布尔检索模型融为一体, 并克服了传统希尔模型的一些缺陷, 下面我们用矢量的方法来讨论布尔检索。
设文本集中每篇文本仅由两个标引词t1 和t2 标引, 并且t1、t2允许赋以权值, 其权值范围为[ 0, 1] , 权值越接近1, 说明该词越能反映文本的内容, 反之, 越不能反映文本的内容, 在Salton 模型中, 上述情形用平面坐标系上某点代表某一文本和用户给出的检索式, 如图:图中的横、纵坐标用t1、t2 表示, 其中A( 0, 1) 表示词t1 权值为0, 词t 2 权值为1 的文本, B( 1, 0) 表示词t 1权值为1, 词t 2 权值为0 的文本, C( 1, 1) 表示词t 1、t 2 的权值均为1 的文本, 文本集D 中凡是可以用t 1、t 2 标引的文本可以用四边形OACB 中某一点表示, 同样, 用户给出检索式后, 也可用四边形OACB 中某一点表示。
下面我们来看看Salton 模型中是如何构造相似度计算式的。
对于由t1 和t2 构成的检索式q = t1 ∨ t2 , 在图1中只有A 、B 、C 3点所代表的各文本才是最理想的文本, 对于某一文本D 来说, 当D 点离A 、B 、C 3点越接近时说明相似度越大,或者说,当D 点离O 点越远时,相似度越大。