信息检索模型PPT

合集下载

信息检索技术PPT课件

信息检索技术PPT课件

2021/4/4
.
19
信息检索的统计模型
一个信息检索模型IRM 是一个三元组
D是文档的集合;
Q是用户需求的集合;
R:D×Q→ R R是集合D与Q的笛卡尔乘积到实数集R的一个 映射,对每个用户查询 q∈Q,每个文档d∈D ,映射R将 (q d)映射为一个实数,称为用户查询q与文档d的相关度。
2021/4/4
1996年正式提出“超链分析”概念并发表了相关文章 ,1997年2月申请了专利——“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859 )。超链分析技术的发明,一改互联网搜索杂乱无章、信 息冗余的局面,使搜索效果大幅提升。
PXY1,… … ,Yn
该条件概率表示该节点与其父节点 Y1,……,依Yn赖关系
的强度,在贝叶斯网络中,一个节点仅条件依赖于它的父 节点。
2021/4/4
.
28
概率模型
索引词节点 k i
文档节点 d j
用户查询 q
边有2种类型: 贝叶斯网络的3个层次
2021/4/4
.
29
概率模型
可见:
2021/4/4
2021/4/4
.
13
信息检索中的系统的评价
精确度-召回率曲线分析
2021/4/4
.
14
信息检索系统中的评价
许多用户对信息检索系统精确度要求较高,他们希望尽快 查到相关的文档,而不把时间浪费在无关的文档上。另外 一些用户则认为召回率更加重要,他们认为相关文档占检 索返回的文档比例越高,系统效果则越好。
.
38
搜索引擎
2021/4/4

第2章-信息检索模型

第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档

信息检索 ppt 第1章 绪论

信息检索 ppt 第1章 绪论

信息需求集合
当人们为完成某一任务时,经常觉得缺少的某些知识,即信 息需求。
匹配与选择
需要一种匹配机制。 匹配机制的主要功能:能够把信息需求集合与信息资源集合 依据某种相似性标准进行比较与判断,选择出符合用户需要 的信息。
第 1章 概
1.1 1.2 1.3 1.4 1.5 1.6
述Hale Waihona Puke 信息、知识、文献 信息的特征及类型 信息检索概念和原理 信息检索类型 信息检索的主要研究问题 信息检索的发展历史
信息检索类型
按检索内容不同
文献检索
以文摘、题录、全文 为检索对象。
数据检索
以数据为检索对象
事实检索
以事实、概念、思想、 知识等非数值信息为 检索对象
文献检索
以文献(包括文摘、题录或全文)为检索对象的 一类信息查询活动。是一种相关性检索,不直接回答 用户所提的问题本身,只是提供有关的文献供参考。 典型的文献检索
二次文献
(书目文献、索引、文摘)
是以一次文献为依据加工整理而形成的信息,是对一次信息的浓缩 或有序化产物。如:目录、文摘、索引等。 特点:为查找一次文献提供线索,具有系统性、工具性特点。
三次文献
对零次文献、一次文献、二次文献进行分析研究,加工提炼和概括 综合而形成的信息。如:综述、述评、进展报告、学科年度总结等。 特点:信息量大、综合性强、系统性好。
查找某出版社2008年出版图书的信息; 查找某公司在全球哪些地区设立了分公司、分公司地址、员工 数、主要负责人等。
数据检索
是指查找用户所需特定数据的检索。可以利用专门的数据 库进行检索。例如: 我国第五次人口普查中全国汉民族的人数。
狭义的信息检索仅指信息的查找,是指从信息集

信息检索 ppt课件

信息检索 ppt课件

详细描述
社交网络信息检索技术主要针对社交网络中 海量、动态更新的信息进行处理和检索。特 点包括实时性、个性化和社会化等。同时, 也面临一些挑战,如信息过载、隐私保护等

案例四:社交网络信息检索技术实践分享
总结词
社交网络信息检索技术的创新与应用
详细描述
介绍一些创新性的社交网络信息检索技术,如基于内 容的推荐算法、情感分析技术等。同时,分享一些成 功应用案例,如微博搜索、微信小程序等,说明这些 技术在社交网络中的实际应用和效果。
云服务和移动化 借助云服务和移动通信技术,实 现信息检索服务的移动化和云端 化,方便用户随时随地获取信息 。
个性化推荐和定制化服务 通过数据分析和挖掘,实现个性 化推荐和定制化服务,满足用户 多样化的信息需求。
多模态信息检索 融合文本、图像、音频和视频等 多种类型的信息,实现多模态信 息检索,提高信息检索的全面性 和多样性。
04
信息检索的应用领域
搜索引擎
搜索结果相关性
提高搜索结果与用户查询的关联 度,减少无关信息的展现。
语义分析和理解
对用户查询进行深度解析,识别关 键词的语义,提高搜索的准确性。
实时更新
对互联网上的新信息进行实时跟踪 和更新,确保用户获取最新、最相 关的信息。
数字图书馆
资源数字化
将传统图书馆的资源进行数字化 处理,方便用户在线阅读和下载
关联规则挖掘
挖掘信息之间的关联规则,帮 助用户发现隐藏的信息需求。
信息检索的评价指标
查全率
评估检索系统找全满足用户需求的信息的能 力。
响应时间
评估检索系统响应用户请求的速度。
查准率
评估检索系统找准满足用户需求的信息的能 力。

《信息检索模型》PPT课件

《信息检索模型》PPT课件

索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分
任何命题公式的主析取范式都是存在的, 并且是唯一的。
精选课件ppt
18
布尔检索模型
首先,将查询转化为一个析取范式DNF
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
检索: 用 特别检索 户 过滤 任 务
浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。

《信息检索模型》PPT课件

《信息检索模型》PPT课件
文档集中的索引项
精选ppt
18
索引项的选择
这些索引项是不相关的 (或者说是正交的) ,形成一个 向量空间vector space
“计算机” “科学” “商务”
计算机科学文档集
该文档集中的全部重要词项
实际上,这些词项是相互关联的
当你在一个文档中看到 “计算机”, 非常有可能同时看到“科 学”
当你在一个文档中看到 “计算机”, 有中等的可能性同时看到 “商务”
索引项t(Term):指出现在文档中能够代表文档性质
的基本语言单位(如字、词等),也就是通常所指的
检索词,这样一个文档D就可以表示为D(t1,t2,…,tn), 其中n就代表了检索字的数量。
特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程
精选ppt
23
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
di = 0, 0 (一个索引项也不包含) dj = 0, 0.7 (包含其中一个索引项) dk = 1, 2 (包含两个索引项)
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间
信息检索模型
哈工大信息检索研究室 2007
精选ppt
1
这一部分将讲述
布尔模型,向量空间模型,扩展的布尔 模型
概率模型和基于语言模型的信息检索模 型的区别和联系
基于本体的信息检索模型和基于隐性语 义索引的信息检索模型
精选ppt
2
信息检索模型的概述
精选ppt
3
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述
文档表示 一个文档被表示为关键词的集合

第2章--信息检索PPT课件

第2章--信息检索PPT课件

信息(information)
是物质存在的一种方式,一般指数据、消息中
所包 含的意义。
普遍性、差异性、特征性 可传递性、可存储性
医学文献信息的作用
记录、保存、传递医学信息 科研和临床实践借鉴、交流的重要载体 评价科研水平与成果的主要依据 推动促进科研发展的资源动力
第一节 信息检索基础
信息 存储 收集 选择 著录 加工 标引 加工 存储 标识
存储与检 索系统进 行匹配
检索 语言
信息 检索 分析 需求 检索 提高 提供 标识
输出
检索 标识
信息检索原理示意图
信息的检索过程
用户利用检索工具获取所需信息的过程。
用户在分析待检内容范围的基础上,将检索需求
转换成检索提问标识,利用相应的检索系统,查
文献检索特殊意义
一是确定有无类似的研究成果,是否要立项?
二是参考其他文献,理清思路,搞清楚要做的研
究是什么?
三是取长补短,推陈出新,设立新论题,取得新
成果。
文献检索在课程设计、毕业设计、开题立项、成
果查新方面都具有重要作用。
第一节 信息检索基础
二、信息检索原理
信息检索系统由文献的存储和检索两个部分组成。
LOGO
第二章 信息检索
掌握信息检索的概念;
掌握信息检索的原理; 了解信息检索的类型,以及信息检索类型的几种 划分方法; 掌握检索语言的种类,及检索语言的作用; 掌握信息检索的方法、途径与步骤。
第一节 信息检索基础 一、信息检索概念
二、信息检索原理 三、信息检索的类型 第二节 信息检索语言 一、检索语言的定义和作用 二、检索语言的种类 第三节 信息检索的方法、途径与步骤 一、信息检索方法 二、信息检索途径 三、信息检索步骤与策略 四、检索效果的评价

信息检索ppt课件

信息检索ppt课件
及时获取有价值的信息。
06
信息检索的未来发展
语义网与信息检索
语义网技术的成熟发展为信息检索提供了新的机会和挑战。
语义网通过使用本体、词汇表和规则等,使信息具有明确的含义和上下文,从而提 高了信息检索的准确性和效率。
基于本体的信息检索利用语义网中的本体模型,能够实现更精确、更快速的信息检 索,为搜索引擎、问答系统和推荐系统等应用提供了新的解决方案。
个性化推荐
通过分析用户的购物历史和浏览行 为,电子商务平台可以运用信息检 索技术为用户提供个性化的商品推 荐。
信息检索在数字图书馆中的应用
文本检索
数字图书馆使用信息检索 技术,允许用户通过关键 词或主题词检索相关的图 书和文献资料。
图像检索
数字图书馆中的图像资源 丰富,信息检索技术可以 帮助用户根据图像内容进 行检索,提高查找效率。
跨语言信息检索与多媒体信息检索
随着全球化的加速和互联网的普及,跨 语言信息检索和多媒体信息检索成为研
究的热点问题。
跨语言信息检索主要解决不同语言间 的语义鸿沟问题,通过语言翻译、对齐 等技术,实现跨语言的信息检索和问答

多媒体信息检索主要针对图像、视频、 音频等多媒体数据进行信息检索和分析 ,通过使用图像识别、视频分析和音频 识别等技术,提高多媒体信息检索的准
确性和效率。
THANKS FOR WATCHING
感谢您的观看
01
02
03
04
文本处理技术
包括分词、词性标注、句法分 析、文本聚类等。
索引技术
包括倒排索引、B树索引、位 图索引等。
查询处理技术
包括查询扩展、查询优化、查 询执行等。
结果展示技术
包括排序算法、摘要生成、结 果反馈等。

信息检索基础PPT课件

信息检索基础PPT课件
信息检索基本原理的核心是用户信息需 求与文献信息集合的比较和选择,信息检索实 质上是两者匹配的过程。
4
2.1.2 信息检索类型

息 检
依检索内容划分



文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法

《信息检索模型》课件

《信息检索模型》课件

向量空间模型
向量空间模型使用向量表示文档和查询,通过计算余弦相似度来衡量文档与查询的相关性。它能够更全面地度 量文档的相关性,但需要处理高维度的向量空间。
概率检索模型
概率检索模型基于统计方法,通过建模查询与文档的概率分布来进行信息检 索。其中,BM25算法是常用的概率检索模型算法之一。
实践应用
信息检索系统由多个组成部分构成,包括文本预处理、索引构建、查询解析 和结果排序等,这些组件协同工作以提供准确和相关的搜索结果。
信息检索模型
信息检索模型是用于描述和处理信息检索过程中的相关原理和算法。常见的 模型包括布尔模型、向量空间模型和概率检索模型。
布尔模型
布尔模型使用布尔运算符进行查询匹配,根据查询关键词的逻辑关系确定文 档是否与查询匹配。它简单而直观,但缺乏对文档相关性的度量。
《信息检索模型》PPT课 件
欢迎来到本课程关于《信息检索模型》的PPT课件。本课程将带您深入了解信 息检索的不同模型、系统以及实践应用,让您对这一领域有全面的认识。
信息检索概述
信息检索是指通过计算机系统从大量的信息资源中找到用户所需信息的过程。ห้องสมุดไป่ตู้具有悠久的历史并在诸多领域 得到广泛应用。
信息检索系统
信息检索在多个领域有着广泛的实践应用,包括搜索引擎、文本分类、推荐系统等。下面我们将通过案例分析 搜索引擎的信息检索模型。
总结与展望
信息检索领域持续发展,未来的趋势包括个性化搜索、多模态检索和语义搜索等。信息检索的进步将对我们的 生活和工作产生深远影响。

《信息检索模型》PPT课件

《信息检索模型》PPT课件

(1,1,0) (1,0,0)
(1,1,1)
精选课件ppt
19
布尔检索模型
定义:用qdnf表示查询q的析取范式,qcc表示qdnf 的任意合取分量。文献dj
与查询q的相似度为
s im (d j,q ) 1 0 io fth e q rc w ci|s (e q c c q d n f) ( k i,g i(d j) g i(q c c ))
根据布尔逻辑的运算规定,提问式q可以被表示 成由合取子项(conjunctive component)组成的 析取范式(disjunctive normal form,简称DNF) 形式。
精选课件ppt
15
离散数学相关概念
用连词∧把几个公式连接起来而构成的公 式叫做合取,而此合取式的每个组成部 分叫做合取项。p并且q,记作“p∧q”
用连词∨把几个公式连接起来所构成的公 式叫做析取,而此析取式的每一组成部 分叫做析取项。 p或q,记作“p∨q”
非p ┐p
精选课件ppt
16
离散数学相关概念
析取范式: 仅由有限个简单合取式构成的析取式
A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q) 合取范式:
仅由有限个简单析取式构成的合取式 A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)
询结果
相当有效的实现方法
相当于识别包含了一个某个特定term的文档
经过某种训练的用户可以容易地写出布尔查询 式
布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
精选课件ppt
23
问题
布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回
精选课件ppt

信息检索课件ppt

信息检索课件ppt
用知识资源。
信息检索的发展历程
传统信息检索阶段
主要依赖于手工检索,如图书 馆目录、卡片等。
计算机信息检索阶段
随着计算机技术的发展,人们 开始利用计算机进行信息检索 。
网络信息检索阶段
互联网的普及使得信息检索技 术得到了广泛应用,搜索引擎 等网络信息检索工具应运而生 。
个性化信息检索阶段
随着大数据和人工智能技术的 发展,个性化信息检索逐渐成 为研究热点,如推荐系统等。
信息检索课件
目录
• 信息检索概述 • 信息检索基础 • 信息检索相关技术 • 信息检索评价 • 信息检索前沿技术 • 信息检索应用案例
01
信息检索概述
定义与概念
定义
信息检索是指通过一定的方法和 手段,从大量的文档、数据中查 找出与用户需求相关的信息,并 将结果呈现给用户的过程。
概念
信息检索主要关注如何有效地从 海量的信息中筛选出与用户需求 相关的信息,它强调的是对大规 模数据的处理和挖掘能力。
用户。
推荐系统
个性化推荐
通过分析用户的浏览历史、购买记录等个人信息 ,推荐系统能够为用户提供个性化的推荐。
实时性
推荐系统能够根据用户的最新行为进行实时推荐 ,以提供更准确的结果。
考虑用户反馈
推荐系统通常会考虑用户的反馈,以调整其推荐 策略和提高用户满意度。
数字图书馆
资源丰富
数字图书馆拥有大量的电子书籍、期刊和论文等资源,能够满足 用户的学术需求。
混合搜索算法
结合基于关键词匹配和基于权重的搜索算法,提高搜索准确率和召 回率。
机器学习在信息检索中的应用
特征提取
利用机器学习算法从文本中提取 特征,如TF-IDF(词频-逆文档频
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程 度。
相似度S(Similarity):指两个文档内容相关程度的 大小
17
模型的特点
基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度
例如:文档的统计特性
11
示例
文档集包含两个文档:
文档1:a b c f g h 文档2:a f b x y z 用户查询:文档中出现a或者b,但一定要出现z。
将查询表示为布尔表达式q(ab)z,并转换成 析取范式 q D N F ( 1 ,0 ,1 ) (0 ,1 ,1 ) ( 1 ,1 ,1 )
文档1和文档2的三元组对应值分别为(1,1,0)和 (1,1,1)
13
问题
布尔模型被认为是功能最弱的方式,其主要问题在于 不支持部分匹配,而完全匹配会导致太多或者太少的 结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个
很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回
很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和 查询相匹配
查询式Q表示 查询式(Queries)被表示为关键词的布尔组合,用 “与、或、非”连接起来,并用括弧指示优先次序
匹配F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准
算法R 根据匹配框架F判定相关
9
举例
Q=病毒AND(计算机OR电脑)ANDNOT医 文档:
代数 扩展的向量空间 隐性语义索引
神经网络
人工智能
概率
基于本体论的模型
语言模型
推理网络
信念网络
6
布尔模型(Boolean Model)
7
布尔模型
最早的IR模型,也是应用最广泛的模型 目前仍然应用于商业系统中 Lucene是基于布尔(Boolean)模型的
8
布尔模型描述
文档D表示 一个文档被表示为关键词的集合
经过匹配 ,将文档2返回
12
优点
到目前为止,布尔模型是最常用的检索模型, 因为:
由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查
询结果
相当有效的实现方法
相当于识别包含了一个某个特定term的文档
经过某种训练的用户可以容易地写出布尔查询 式
布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
架(Frame) R(qi, dj): 排序函数,给query qi 和document dj评分
信息检索模型取决于:
从什么样的视角去看待查询式和文档 基于什么样的理论去看待查询式和文档的关系 如何计算查询式和文档之间的相似度
5
模型分类
信息检索模型
布尔 向量空间
概率 知识
集合论 模糊集 扩展的布尔模型
信息检索模型
计算机学院信息检索研究室 秦兵
1
这一部分将讲述
布尔模型,向量空间模型,扩展的布尔 模型
概率模型和基于语言模型的信息检索模 型的区别和联系
基于本体的信息检索模型和基于隐性语 义索引的信息检索模型
2
信息检索模型的概述
3
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述
有用的词项被添加到原始的查询式中
例如:Q database; text; information; document
18
模型中的问题
怎样确定文档中哪些词是重要的词? (索引项)
怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
“计算机” “科学” “商务”
计算机科学文档集
D1:…据报道计算机病毒最近猖獗 D2:小王虽然是学医的,但对研究电脑病毒也感兴
趣… D3:计算机程序发现了艾滋病病毒传播途径
上述文档哪一个会被检索到?
10
查询表示
在布尔模型中, 所有索引项的权值变量
和文档dj与查询q的相关度都是二值的 查询q被表述成一个常规的布尔表达式,
为方便计算查询q和文档d的相关度,一 般将查询q的布尔表达式转换成析取范式 qDNF
用户规定一个词项(term)集合,可以给每个词项附加 权重
未加权的词项: Q = database; text; information 加权的词项: Q = database 0.5; text 0.8; information 0.2 查询式中没有布尔条件
根据相似度对输出结果进行排序 支持自动的相关反馈
很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样 相应地修改查询式呢?
14
向量空间模型
15
模型的提出
Salton在上世纪60年代提出的向量空间 模型进行特征表达
成功应用于SMART( System for the Manipulation and Retrieval of Text)文 本检索系统
这一系统理论框架到现在仍然是信息检 索技术研究的基础
16
模型的描述
文档D(Document):泛指文档或文档中的一个片段( 如文档中的标题、摘要、正文等)。
索引项t(Term):指出现在文档中能够代表文档性质 的基本语言单位(如字、词等),也就是通常所指的 检索词,这样一个文档D就可以表示为D(t1,t2,…,tn), 其中n就代表了检索字的数量。
19
索引项的选择
若干独立的词项被选作索引项(index terms) or 词表 vocabulary
索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪线 计算机 数据库 …. XML
文档集中的索引项
20
索引项的选择
这些索引项是不相关的 (或者说是正交的) ,形成一个 向量空间vector space
面对相同的输入,模型的输出应能够无 限地逼近现实世界的输出
举例:天气的预测模型
信息检索模型
是表示文档,用户查询以及查询与文档的关 系的框架
4
信息检索模型
信息检索模型是一个四元组[D, Q, F, R(qi, dj)]
D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框
相关文档
最新文档