现代信息检索导论 王斌 计算所 课件 lecture6-tfidf
现代信息检索ppt课件
陆铭
66134922 richard.lu@ /
一、 引言
课程概况 研究历史和现状 学科框架 基本概念
2
1. 课程概况(About the course)
设课目的
市场发展的需求 用户需要信息检索技术
互联网的信息量太大,寻找信息非常不容易
11
一些重要的工具
Lemur:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写 Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发
12
2. 研究历史和现状
历史分段:
报告、电子邮件、来往公函 ... 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重
标引是主观的
标引者之间不一致, 经验统计表明标引者之间仅20% 相同 作者与标引者之间、检索者与用户之间不一致
5
信息检索的问题
语言问题
一词多意
Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems?
英国剑桥大学SparckJones (1935-2007)
概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL终身成就奖和Salton奖
22
2. 国际著名研究机构和代表人物
现代信息检索
现代信息检索了解信息检索发展历史,文献的载体形式与等级结构,检索工具的类型与特点;掌握信息检索的基本概念及其研究对象,检索工具的组成以及检索工具的编制方法;重点掌握各种类型的检索工具、检索工具的质量评价标准、信息检索的基本原理与检索工具检索效率的评价指标。
第一章信息检索导论1.1信息检索及其研究对象1.2.1 信息检索的基本类型1 文献检索2 数据检索3 事实检索1.2.2 信息检索的研究内容1 有关检索语言的研究2 有关检索系统的研究3 有关检索策略的研究4 有关检索服务的研究1.2.3 信息检索的特性1 信息检索的相关性2 信息检索的不确定性3 信息检索的逻辑性1.2科技文献及其类型1.3.1 按照物质载体形式和记录手段☺1 印刷型2 缩微型3 机读型4 声像型1.3.2 按照文献中信息量1 一次文献2 二次文献3 三次文献1.3.3 按其它划分按文献的知识内容,可分为医学文献、化学文献、数学文献等。
按流通范围,科技文献又有公开,内部和保密之分,我国大致分为:公开、限国内、内部、保密几种。
按出版类型,包括科技图书、科技期刊、专利文献、科技报告、会议文献、政府出版物、学位论文、标准文献、产品样本及其它十大类。
1.3检索工具与类型1.4.1 编制检索工具的内容1 文献著录2 文献标引3 索引组织1.4.2 文献著录1 著录规则2 我国文献著录的国家标准3 著录项目与格式1.4.3 检索工具的类型检索工具的种类很多,从总体上可分为手工检索工具和机械检索工具两大类(以下简称为”手检”和”机检”)。
手工检索工具,是人直接参与检索过程所使用的检索工具,如书本式、卡片式检索工具;机械检索工具,是利用力学、光学和电子学原理,按照人们的要求,自动检索的工具,如机械穿孔卡片系统、光电检索系统和计算机检索系统等。
1.4.4 目录性检索工具目录是图书或其它单独出版的资料的系统化记载及内容的揭示(的清单或清册)。
目录多按“种”或“件”(如一本图书、一件专利等)报导,按类编排,强调有具体的收藏单位,一般不附索引,对文献的著录比较简单,与题录相近,只记述这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。
信息检索导论-王斌 第二次课后作业(6-12)
1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtf t,d, tf t,d>00, ot erwiseidf=log Ndf归一化:12+12+1.3012=1.9221/1.922 = 0.521301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。
但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。
如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。
因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。
这样高分文档更可能在倒排索引的前期出现。
4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。
系统2的返回结果中相关文档比较分散。
系统1比系统2获得较高的MAP值。
排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。
《信息检索导论》课件
总结和展望
总结
信息检索是现代信息领域中最为重要的研究领域之 一,它可以帮助人们准确、高效地获取所需信息。
展望
信息检索领域仍然存在着很多值得研究和探索的问 题,如如何充分利用新技术和新数据,提高信息检 索的精度和效率。
检索结果中真正相关的结果占所有结果的比例。
MAP
平均精度指标,表示所有相关结果的平均排名。
信息检索的技术及应用
搜索引擎
应用最为广泛的信息检索技术, 例如Google、Bing等。
问答系统
利用信息检索、自然语言处理等 技术,实现智能问答。
情感分析
利用信息检索和自然语言处理技 术,分析用户对产品、服务等的 情感倾向。
利用向量空间模型、语言模型等方式将
信息的匹配
4
文本信息表示成数学模型。
将检索的查询与数据集中的文本信息进
行匹配,返回最相关的结果。
5
信息的展示与反馈
将检索结果呈现给用户,同时提供反馈 机制,优化检索结果。
信息检索的评价指标
召回率
全部相关结果中被检索到的结果数。
F1值
综合考虑召回率和准确率的结果。
准确率
信息检索的挑战与发展
1 数据量爆炸
随着互联网的高速发展,数据量呈指数级增长,如何应对数据规模的挑战成为信息检索 研究的重点。
2 多语言处理
全球范围内的信息检索需要支持多种语言的处理,而不同语言的语法和语义差异性带来 了技术上的困难。
3 个性化需求
用户对信息检索的需求越来越个性化,如何满足用户的个性化需求成为信息检索领域的 发展方向。
《信息检索导论》课件
本课程将带领您了解信息检索的各个方面,从基本概念到技术应用,从评价 指标到挑战发展,全方位展开信息检索的知识体系。
最新信息检索课件教学讲义ppt课件
信息素养 • 信息素养:利用大量的信息工具及主要信息
源使问题得到解答的技术和技能。
本课程 的教学 目标
了解自己的信息需求 承认准确和完整的信息是制定明智决策的基础 能在信息需求的基础上系统阐述问题 能识别潜在的信息源、检索信息源,制定成功的检索策略 能利用以计算机为基础的信息技术和其它技术 具有评价信息的能力 能为实际应用而对信息进行组织 具有将新信息结合到现存的知识体现中的能力 能采用批判性思关的其它概念
§ 1.知识:人类对于客观世界的认识。 § 2.情报:人们搜集到的能为我们所用的新知
识或新信息。 § 3.文献:记录有知识的一切载体。
(人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性 认识或经验,然后对这些感性认识通过大脑进行加工处理,形成理性认识。)
现实信息源
口头信息源 体语信息源 实物信息源 文献信息源等
非文献信息源
第二节 文献的基本知识
一、文献(信息源)类型
§ 文献(信息源)类型: 1.按文献载体形式分:印刷型
微缩型:存储量高达22.5万页/平片 声像型 电子型 2.按文献加工深度分: 零次, 一次, 二次, 三次文献。
§ 一次文献:
§ 二次文献: 20061128:太湖西区公路两侧植物物种多样 性的研究/[刊]/朱晓勇,胡海波,鲁小珍/南 京林业大学学报.2006.30(3):-85~88
u 一、概念 信息检索:信息存储&信息查找
信息标引和存储过程:对大量无
信息的需求分析和检索过程。分
序的信息资源进行标引处理,使
《现代信息检索》PPT课件
CA收录范围
CA被称为“世界化学化工文献的钥 匙”,收录世界160多个国家和地区60 多种文字的化学化工方面的出版物约 16,000余种,包括期刊论文、会议录、 资料汇编、报告、新书、专利(30多个 国家和2个国际专利组织)等。
载体形式
登记号手册
分子式索引 著者索引 专利索引
文摘号
文摘
CAS来源索引
索取原文
(5) 检索实例
课题:饮料中维生素C的测定
从主题途径查找: 第一步:分析课题,确定检索词。 饮料—drink, beverage 维生素C—Vitamin C 第二步:核对主题词 《索引指南》 结果:饮料—beverage, 维生素C—L-ascorbic acid [50-81-7] 见 图例
第六步:索取原文。
《SA》检索途径示意图
《SA》检索途径示意图
主题途径 主题词
主题指南 分类号
叙词表
主题索引
著者途径 著者姓名
著者索引
其它途径
参考书目索引 图书索引 会议索引 团体著者索引
分类途径
类目名称
分类目次表
页 码
文 摘 号
文摘
来源期刊目录
索取原文
1. 文 摘
编排方式
手工检索工具要点
分类 (CA, SA)
第三步:查主题索引。 Beverage用“普通主题索引”查; L-ascorbic acid用“化学物质索引”查。 见 图例
第四步:阅读文摘,记录原文出处。 如127:259621j号文摘的原文出处为: Chem. Pharm. Bull. 1997,45(8), 1376-1378(见 图例 )。
《信息检索导论》PPT课件
出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。
lecture8-evaluation 信息检索导论 王斌 PPT 课件 第8章
15
现代信息检索
评价任务的例子
两个系统,一批查询,对每个查询每个系统 分别得到一些结果。目标:哪个系统好? 系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2 1 d3 d1 d6 d1 2 d6 d4 d7 d2 3 d8 d7 d3 d4 4 … d10 d11 d9 d13
19
现代信息检索
评价指标分类
对单个查询进行评估的指标
在单个查询上检索系统的得分
对多个查询进行评估的指标
在多个查询上检索系统的得分
20
现代信息检索
回到例子
系统&查询
系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
1
2
3
4
d10 d11 d9 √ d13
…
d3 √ d6 √ d8 d1 d4 d7 d6 √ d7 d2 d1 d2 d4
29
现代信息检索
关于正确率和召回率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 用、不用的用户可能会对两者的要求不一样。 因此,实际应用中应该考虑这点。
垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量 少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点,他不需要结果很全 就能完成任务。
23
现代信息检索
四种关系的矩阵表示
真正相关文档 RR+NR 真正不相关文档 系统判定相关 RR+RN (检索出)
RR
RN
Ret = RR+RN Precision
系统判定不相关 (未检索出)
NR
NN
lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章
19
现代信息检索
Reuters RCV1语料库的统计信息
N L M 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000
6
现代信息检索
基于B-树的词典查找
7
现代信息检索
基于轮排索引的通配查询处理
查询: 对 X, 查找 X$ 对X*, 查找 X*$ 对*X, 查找 X$* 对*X*, 查找 X* 对 X*Y, 查找 Y$X*
8
现代信息检索
基于k-gram索引的通配查询处理
比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒 排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引)
将输入的文档集分片(split) (对应于BSBI/SPIMI算法中的块) 每个数据片都是一个文档子集
39
现代信息检索
分析器(Parser)
主节点将一个数据片分配给一台空闲的分析器 分析器一次读一篇文档然后输出 (term,docID)-对 分析器将这些对又分成j 个词项分区 每个分区按照词项首字母进行划分
计算机信息检索讲座PPT课件
信息检索算法
信息检索算法是实现信息 检索的关键,常见的有匹 配算法、排序算法、聚类 算法等。
信息检索评价
信息检索评价是衡量信息 检索效果的重要手段,常 见的有查准率、查全率和F 值等。
03 计算机信息检索技术
布尔逻辑检索
布尔逻辑检索是计算机信息检索中最 基本的技术之一,它通过使用逻辑运 算符(如AND、OR、NOT)来组合 检索词,以缩小或扩大检索范围。
计算机信息检索讲座
目 录
• 引言 • 信息检索基础知识 • 计算机信息检索技术 • 信息检索评价与优化 • 信息检索应用与实践 • 未来信息检索技术展望
01 引言
讲座背景
信息技术的快速发展
随着计算机和互联网技术的迅速发展, 信息检索在日常生活和工作中变得越 来越重要。
信息过载问题
学术研究需求
在学术研究领域,如何有效地检索和 利用学术资源对于科研人员来说至关 重要。
信息检索优化
01
02
03
04
文本处理
对文本进行分词、去停用词、 词干提取等处理,以提高信息
检索的准确性和效率。
索引构建
建立高效索引,提高信息检索 的查准率和查全率。
查询处理
对用户查询进行语义分析和扩 展,以提高信息检索的准确性
和全面性。
个性化推荐
根据用户历史查询和行为,为 用户提供个性化的信息推荐和
04 信息检索评价与优化
信息检索评价
查准率
衡量检索结果中相关文 档的比例,是评价检索 系统性能的重要指标。
查全率
衡量检索结果中相关文 档覆盖率,反映检索系 统捕捉相关信息的全面
性。
响应时间
检索系统响应请求并返 回结果所需的时间,是 衡量检索效率的重要指
《信息检索导论》课件
未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应 用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未 来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式, 为人们提供更快速的信息服 务。
目前的研究状况
信息检索领域的研究涵盖了 多个方向,包括模型、算法 和应用等。
3
用户界面
提供搜索框和界面展示,最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等,用于评估 检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估,来评 价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型,使用向量表示文档和查 询,适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型,以链接分析算法为 基础,比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用,了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据 中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域,如Web搜索、 数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型,检索效果 受到诸多限制。
lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章
现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式:
U.S.A. 和 USA
归一化的结果就是词项,而词项就是我们最终要 索引的对象 可以采用隐式规则的方法来表示多个词条可以归 一成同一词项,比如
剔除句点
U.S.A., USA USA
字:李 明 天 天 都 准 时 上 班
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾 文档 词项
通常做法+非英语处理
英语
❹
❺
跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥:324a3df234cb23e (800) 234-2333
lecture9-queryexpansion 信息检索导论 王斌 PPT 课件 第9章
更新时间: 2011/10/11
现代信息检索 Modern Information Retrieval
第9讲 相关反馈及查询扩展 Relevance Feedback & Query Expansion
19
现代信息检索
关于召回率Recall
本讲当中会放松召回率的定义,即(在前几页)给用户返回更 多的相关文档
这可能实际上会降低召回率,比如,将jaguar扩展为 jaguar(美洲虎;一种汽车品牌)+panthera(豹属) 可能会去掉一些相关的文档,但是可能增加前几页返回 给用户的相关文档数
❺
查询扩展
2
提纲
❶ ❷ ❸ ❹
上一讲回顾 动机 相关反馈基础 相关反馈详细介绍
❺
查询扩展
3
上一讲回顾
信息检索的评价方法
不考虑序的评价方法(即基于集合):P、R、F 考虑序的评价方法:P/R曲线、MAP、NDCG
信息检索评测语料及会议 检索结果的摘要
4
现代信息检索
正确率(Precision)和召回率(Recall)
现代信Байду номын сангаас检索
相关反馈后的检索结果
Source: Fernando Dí az
33
例3: 一个实际的例子
初始查询: [new space satellite applications] 初始查询的检索结果: (r = rank)
+ + r 1 2 3 4 5 6 7 + 8 0.539 0.533 0.528 0.526 0.525 0.524 0.516 0.509 NASA Hasn’t Scrapped Imaging Spectrometer NASA Scratches Environment Gear From Satellite Plan Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget Scientist Who Exposed Global Warming Proposes Satellites for Climate Research Report Provides Support for the Critics Of Using Big Satellites to Study Climate Arianespace Receives Satellite Launch Pact From Telesat Canada Telecommunications Tale of Two Companies
lecture12-languagemodel 信息检索导论 王斌 PPT 课件 第12章
5
现代信息检索
几种概率检索模型
基于Logistic回归的检索模型
经典的二值独立概率模型BIM 经典的BM25模型 (BestMatch25)
6
现代信息检索
Logistic 回归IR模型
基本思想:为了求Q和D相关的概率P(R=1|Q,D),通 过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这 些函数的组合。 Cooper等人提出一种做法*:定义log(P/(1-P))为多个 特征函数的线性组合。则P是一个Logistic函数,即:
三元模型(trigram):
对于n-gram,n越大,则模型越复杂,估计的参数(即估计 的概率)也越多。当然,当数据量足够大的情况下,模型 阶数越高越对片段概率的计算也越准确。
18
现代信息检索
课堂思考
设词典大小为M ,试估计N元模型要估计的参数 (概率)空间大小。
P(w1w2 w3w4 ) P(w1 ) P(w2 ) P(w3 ) P(w4 )
一元模型(Unigram)*:
P(种过科雪园)=P(种) P(过) P(科) P(雪) P(园) P(重果可薛原)=P(重) P(果) P(可) P(薛) P(原) P(中国科学院)=P(中) P(国) P(科) P(学) P(院) 训练:在训练语料库中估计以上各 P(X)的值
课堂思考:一元模型存在的问题?
其中,P(D|R=1)、P(D|R=0)分别表示在相关和不相关情况 下生成D的概率。Ranking函数显然是随着P(R=1|D)的增长 而增长。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率
tf-idf权重计算 向量空间模型
13
现代信息检索
排序式检索(Ranked retrieval)
迄今为止,我们主要关注的是布尔查询
文档要么匹配要么不匹配
对自身需求和文档集性质非常了解的专家而言,布尔查询 是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条 结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练 才能撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web 搜索更是如此
10
现代信息检索
Reuters RCV1索引压缩总表
11
现代信息检索
本讲内容
对搜索结果排序(Ranking) : 为什么排序相当重要? 词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法 向量空间模型(Vector space model): 信息检索中最重要的形 式化模型之一 (其他模型还包括布尔模型和概率模型)
32
现代信息检索
常见词项所期望的权重
常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相 关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给 一个正的权重,但是这个权重小于罕见词权重
28
现代信息检索
课堂练习
计算下列查询-文档之间的Jaccard系数 q: [information on cars] d: “all you’ve ever wanted to know about cars” q: [information on cars] d: “information on trucks, information on planes, information on trains” q: [red cars and red trucks] d: “cops stop red cars more often”
21
现代信息检索
Paul Jaccard(1868-1944)
瑞士植物学家,ETH教授
1894年毕业于苏黎世联邦理工 学院ETH(出过包括爱因斯坦在 内的21位诺贝尔奖得主)
1901年提出Jaccard Index即 Jaccard Coefficient概念
22
提纲
❶ ❷
上一讲回顾
可变字节(VB)码
被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照 位对齐)的简单且不错的混合产物 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特,那么c 置 1,将间隔编入一个 字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的 位数采用同样的方法进行处理,最后一个字节的c置1 (表示结束)
词项 calpurnia animal sunday fly under the dft idft
1 100 1000 10,000 100,000 1,000,000
6 4 3 2 1 0
36
现代信息检索
idf对排序的影响
在某种意思上说,这种表示方法是一种“倒退”,因为 位置索引中能够区分上述两篇文档 本课程后部将介绍如何“恢复”这些位置信息 这里仅考虑词袋模型
26
现代信息检索
词项频率 tf
词项t的词项频率 tft,d 是指t 在d中出现的次数 下面将介绍利用tf来计算文档评分的方法 第一种方法是采用原始的tf值(raw tf) 但是原始tf不太合适: 某个词项在A文档中出现十次,即tf = 10,在B文档中 tf = 1,那么A比B更相关 但是相关度不会相差10倍 相关度不会正比于词项频率tf
→ 0 个结果 – 太少
在布尔检索中,需要大量技巧来生成一个可以获得合适规 模结果的查询
15
现代信息检索
排序式检索
排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多
前提:排序算法真的有效,即相关度大的文档结果会排在 相关度小的文档结果之前
14
现代信息检索
布尔搜索的不足: 结果过少或者过多
布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 查询 1 (布尔与操作): [standard user dlink 650]
→ 200,000 个结果 – 太多
查询2 (布尔与操作): [standard user dlink 650 no card found]
27
现代信息检索
一种替代原始tf的方法: 对数词频
t 在 d 中的对数词频权重定义如下:
tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等 文档-词项的匹配得分是所有同时出现在q和文档d中的词 项的对数词频之和 t ∈q∩d (1 + log tft,d ) 如果两者没有公共词项,则得分为0
授课人:王斌
/~wangbin
1
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率词项频率
b = 0.49
4
现代信息检索
Zipf定律
反映词项的分布 拟合度不是太高,但是今 本反映词项的分布规律: 高频词少,低频词多。
5
现代信息检索
将整部词典看成单一字符串 (Dictionary as a string)
6
现代信息检索
单一字符串方式下按块存储
7
现代信息检索
对间隔编码
8
现代信息检索
排序式检索
❸
❹ ❺
词项频率tf-Biblioteka df权重计算 向量空间模型23
现代信息检索
二值关联矩阵
Anthony Julius and Caesar Cleopatra
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 1 1 1 0 1 1 1 1 1 1 1 0 0 0
19
现代信息检索
Jaccard系数的计算样例
查询 “ides of March”
文档 “Caesar died in March”
JACCARD(q, d) = 1/6
20
现代信息检索
Jaccard系数的不足
不考虑词项频率 ,即词项在文档中的出现次数 罕见词比高频词的信息量更大,Jaccard系数没有考虑这个 信息 没有仔细考虑文档的长度因素 本讲义后面,我们将使用 (即余弦计 算) 来代替 |A ∩ B|/|A ∪ B| ,前者进行的长度归一化
0 0 1 0 0 5 1 1 0 0 0 0 8 5
每篇文档可以表示成一个词频向量 ∈ N|V|
25
现代信息检索
词袋(Bag of words)模型
不考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John 的 表示结果一样 这称为一个词袋模型(bag of words model)
(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标 实际中往往计算[log N/dft ]而不是 [N/dft ] ,这可以对idf 的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式
35
现代信息检索
idf的计算样例
利用右式计算idft:
18
现代信息检索
第一种方法: Jaccard系数
计算两个集合重合度的常用方法 令 A 和 B 为两个集合 Jaccard系数的计算方法:
JACCARD (A, A) = 1
JACCARD (A, B) = 0 如果 A ∩ B = 0
A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值
tf-idf权重计算 向量空间模型
2
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率词项频率
tf-idf权重计算 向量空间模型
3
现代信息检索
Heaps定律
词汇表大小M 是文档集规 模T的一个函数 图中通过最小二乘法拟合 出的直线方程为: log10M = 0.49 ∗ log10T + 1.64 于是有: M = 101.64T0.49 k = 101.64 ≈ 44
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 157 4 232 0 57 2 2 73 157 227 10 0 0 0
The Hamlet Tempest
0 0 0 0 0 3 1 0 2 2 0 0 8 1
Othello
Macbeth ...
33
现代信息检索
文档频率(Document frequency, df)
对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的 匹配得分 文档频率指但是出现词项的文档数目