信息检索模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用连词∨把几个公式连接起来所构成的公 式叫做析取,而此析取式的每一组成部 分叫做析取项。 p或q,记作“p∨q”
非p ┐p
离散数学相关概念
析取范式: 仅由有限个简单合取式构成的析取式
A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q) 合取范式:
仅由有限个简单析取式构成的合取式 A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)
R档(qdi,jd之j) 间是的一相个关排度序赋函予数一,个它排给序查值询qi和文 即: IR模型由上述四个要素组成
< D, Q, F, R(qi,dj) >
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型检索模型.
基于内容的信息检索模型有 集合论模型:布尔模型、模糊集合模型、扩展
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。文档 逻辑视图可以是一组索引词或关键词。也可以用n-gram 方式表示。既可以自动提取,也可以是由人主观指定。 (从全文到一组标引词)
信息检索模型
Q是一个查询集合,用户任务的表达,由 查询需求的逻辑视图来表示。
F是一个框架,用以构建文档,查询以及它 们之间关系的模型
信息检索模型
信息检索模型的概述
信息检索模型
信息检索模型(IR model),依照用户查询, 对文档集合进行相关排序的一组前提假设和算 法。IR模型可形式地表示为一个四元组 < D, Q, F, R(qi,dj) > 其中D是一个文档集合,Q是一个查询集合,F 是一个对文档和查询建模的框架,R(qi,dj) 是一 个排序函数,它给查询qi和文档dj之间的相关度 赋予一个排序值
任何命题公式的主析取范式都是存在的, 并且是唯一的。
布尔检索模型
wenku.baidu.com
首先,将查询转化为一个析取范式DNF
例如:查询为 q ka (kb kc )
进一步表达为
qdnf (1,1,1) (1,1, 0) (1, 0, 0)
即:每一个分量都是三元组Ka
Kb
(ka , kb , kc ) 的二值向量
索引词通常由名词构成,因为名词本身具有语 义,人们能够比较容易地理解它的意思。形容 词、副词、连词很少作为索引词,因为它们主 要起补充作用,不能单独表示语义。
布尔模型(Boolean Model)
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。
Docs Filtered for User 2
User 1 Profile
Docs for User 1
Documents Stream
相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并 无太大意义的词。例如在英文中常用的停用词有the,a, it等; 在中文中常见的有“是”,“的”,“地”等。
IR的两种形式: Ad Hoc and Filtering
Ad hoc retrieval (特别检索: 文档集合保持不变)
Q1 Q2
Q3
Collection “Fixed Size”
Q4 Q5
IR的两种形式: Ad Hoc and Filtering
Filtering(过滤: 用户需求不变)
User 2 Profile
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
经典信息检索模型
经典的信息检索模型有三个:布尔模型、向量 模型和概率模型。
每篇文档可以用一组有代表性的关键词即索引 词集合来描述。索引词是文档中的词,其语义 可以帮助理解文档的主题;因此,索引词常用 于编制索引和概括文档的内容。
(1,1,0) (1,0,0)
(1,1,1)
布尔检索模型
定 的义 任: 意用 合取qdn分f表量示。查文询献q的dj 析取范式,qcc表示qdnf 与查询q的相似度为
sim(d j , q)
1 0
if qcc | (qcc otherwise
qdnf
)
(ki ,
gi (d
j)
gi (qcc ))
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中) countries => country,interesting => interest
组合词: 北京大学 中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分 布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验 室/”。
查询是由三种布尔逻辑运算符 and, or, not 连接索 引词组成的布尔表达式。
根据布尔逻辑的运算规定,提问式q可以被表示 成由合取子项(conjunctive component)组成的 析取范式(disjunctive normal form,简称DNF) 形式。
离散数学相关概念
用连词∧把几个公式连接起来而构成的公 式叫做合取,而此合取式的每个组成部 分叫做合取项。p并且q,记作“p∧q”
如果 sim(d j , q) 1,则表示文献dj与q相关,否则为 不相关。
sim(dj, q) 为该模型的匹配函数。
布尔模型 代数模型: 向量空间模型、广义向量空间模型、
潜在语义标引模型、神经网络模型 概率模型: 经典概率论模型、推理网络模型、
置信(信念)网络模型
信息检索模型的分类 集合论模型 模糊集合论模型
可扩展布尔模型 经典模型
检索:
用 户
特别检索 过滤


浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
相关文档
最新文档