《信息检索模型》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于内容的信息检索模型有
集合论模型:布尔模型、模糊集合模型、扩展 布尔模型
代数模型: 向量空间模型、广义向量空间模型、 潜在语义标引模型、神经网络模型
概率模型: 经典概率论模型、推理网络模型、 置信(信念)网络模型
精选课件ppt
10
信息检索模型的分类 集合论模型 模糊集合论模型
可扩展布尔模型 经典模型
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分
精选课件ppt
1
IR的两种形式: Ad Hoc and Filtering
Ad hoc retrieval (特别检索: 文档集合保持不变)
Q1 Q2
Q3
Collection “Fixed Size”
Q4 Q5
精选课件ppt
2
IR的两种形式: Ad Hoc and Filtering
Filtering(过滤: 用户需求不变)
信息检索
信息检索(information retrieval,IR),将 信息按一定的方式组织和存储起来,并根 据用户的需要找出有关信息的过程。
发展的几个阶段
手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s)
任何命题公式的主析取范式都是存在的, 并且是唯一的。
精选课件ppt
18
布尔检索模型
首先,将查询转化为一个析取范式DNF
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。
查询是由三种布尔逻辑运算符 and, or, not 连接索 引词组成的布尔表达式。
精选课件ppt
7
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。文档 逻辑视图可以是一组索引词或关键词。也可以用n-gram 方式表示。既可以自动提取,也可以是由人主观指定。 (从全文到一组标引词)
精选课件ppt
8
信息检索模型
Q是一个查询集合,用户任务的表达,由 查询需求的逻辑视图来表示。
检索: 用 特别检索 户 过滤 任 务
浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
根据布尔逻辑的运算规定,提问式q可以被表示 成由合取子项(conjunctive component)组成的 析取范式(disjunctive normal form,简称DNF) 形式。
精选课件ppt
15
离散数学相关概念
用连词∧把几个公式连接起来而构成的公 式叫做合取,而此合取式的每个组成部 分叫做合取项。p并且q,记作“p∧q”
布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验
室/”。
精选课件ppt
4ห้องสมุดไป่ตู้
信息检索模型
精选课件ppt
5
信息检索模型的概述
精选课件ppt
6
信息检索模型
信息检索模型(IR model),依照用户查询, 对文档集合进行相关排序的一组前提假设和算 法。IR模型可形式地表示为一个四元组
< D, Q, F, R(qi,dj) > 其中D是一个文档集合,Q是一个查询集合,F 是一个对文档和查询建模的框架,R(qi,dj) 是一 个排序函数,它给查询qi和文档dj之间的相关度 赋予一个排序值
用连词∨把几个公式连接起来所构成的公 式叫做析取,而此析取式的每一组成部 分叫做析取项。 p或q,记作“p∨q”
非p ┐p
精选课件ppt
16
离散数学相关概念
析取范式: 仅由有限个简单合取式构成的析取式
A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q) 合取范式:
仅由有限个简单析取式构成的合取式 A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)
精选课件ppt
12
经典信息检索模型
经典的信息检索模型有三个:布尔模型、向量 模型和概率模型。
每篇文档可以用一组有代表性的关键词即索引 词集合来描述。索引词是文档中的词,其语义 可以帮助理解文档的主题;因此,索引词常用 于编制索引和概括文档的内容。
索引词通常由名词构成,因为名词本身具有语 义,人们能够比较容易地理解它的意思。形容 词、副词、连词很少作为索引词,因为它们主 要起补充作用,不能单独表示语义。
User 2 Profile
Docs Filtered for User 2
User 1 Profile
Docs for User 1
Documents Stream
精选课件ppt
3
相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并 无太大意义的词。例如在英文中常用的停用词有the,a, it等; 在中文中常见的有“是”,“的”,“地”等。
F是一个框架,用以构建文档,查询以及它 们之间关系的模型
R(qi,dj) 是一个排序函数,它给查询qi和文 档 dj 之间的相关度赋予一个排序值
即: IR模型由上述四个要素组成
< D, Q, F, R(qi,dj) >
精选课件ppt
9
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型检索模型.