lecture10xmlretrieval信息检索导论王斌
信息检索14-svm-ltr
![信息检索14-svm-ltr](https://img.taocdn.com/s3/m/f332b13e4b35eefdc8d333fb.png)
12
现代信息检索
应该选哪个超平面?
13
现代信息检索
本讲内容
支持向量机
线性可分:最大间隔 非线性可分:最大间隔+最小错误
空间转换:核函数及核技巧
排序机器学习
基于基于布尔权重的学习
基于基于实数权重的学习 基于序回归的排序学习
14
提纲
❶ 上一讲回顾 ❷ 支持向量机
❸ 文本分类中的问题
❻ 基于序回归的排序学习
2
提纲
❶ 上一讲回顾 ❷ 支持向量机
❸ 文本分类中的问题
❹ 基于布尔权重的学习 ❺ 基于实数权重的学习
❻ 基于序回归的排序学习
3
现代信息检索
特征选择
文本分类中,通常要将文本表示在一个高维空间下,每 一维对应一个词项 本讲义中,我们不特意区分不同的概念: 每个坐标轴 = 维 = 词语 = 词项 = 特征 许多维上对应是罕见词 罕见词可能会误导分类器 这些会误导分类器的罕见词被称为噪音特征(noise feature) 去掉这些噪音特征会同时提高文本分类的效率和效果 上述过程称为特征选择(feature selection)
29
现代信息检索
为什么要使间隔最大化?
SVM 分类器:在决策面周围有 大的间隔 与放置(无穷的)决策超平面 相比,如果要在类别间放置 一个宽间隔,那么选择会少 很多 减少记忆容量 增加测试文档分类泛化能力
30
现代信息检索
SVM的形式化
超平面(Hyperplane) n维超平面(n=1时对应点,n=2时对应直线,n=3时对应普通 平面)
Optimal Separating Hyperplane
Margin
第八章-搜索引擎技术new
![第八章-搜索引擎技术new](https://img.taocdn.com/s3/m/41f824ba1a37f111f1855b92.png)
北京大学软件与微电子学院2009年度课程
16
信息采集的研究趋势
高速、高质量信息采集 个性化信息采集
只采集符合用户的兴趣的数据
采集某个领域的数据 采集后提取结构化信息
基于主题的信息采集
信息采集及抽取
北京大学软件与微电子学院2009年度课程
17
主要内容
信息采集技术(Information gathering) 信息的组织和索引(Information organization&indexing) 相似度计算—信息检索模型(IR models) 链接分析技术 查询分析技术 结果呈现技术 搜索引擎的评估技术(Evaluation)
2
北京大学软件与微电子学院2009年度课程
主要内容
信息采集技术(Information gathering) 信息的组织和索引(Information organization&indexing) 相似度计算—信息检索模型(IR models) 链接分析技术 查询分析技术 结果呈现技术 搜索引擎的评估技术(Evaluation)
索引量大大降低,查准率较高,查全率不是百分百,而且 还会受分词错误的影响,比如上面可能会切分成:李 明天 天都 准时 上班
北京大学软件与微电子学院2009年度课程 37
字词混合方式
英文词根还原(Stemming)
stop
北京大学软件与微电子学院2009年度课程
3
信息的采集技术
北京大学软件与微电子学院2009年度课程
4
信息采集的概念
信息检索导论-王斌 第二次课后作业(6-12)
![信息检索导论-王斌 第二次课后作业(6-12)](https://img.taocdn.com/s3/m/a6f7361876c66137ee06191e.png)
1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtf t,d, tf t,d>00, ot erwiseidf=log Ndf归一化:12+12+1.3012=1.9221/1.922 = 0.521301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。
但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。
如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。
因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。
这样高分文档更可能在倒排索引的前期出现。
4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。
系统2的返回结果中相关文档比较分散。
系统1比系统2获得较高的MAP值。
排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。
信息检索InformationRetrievalIR
![信息检索InformationRetrievalIR](https://img.taocdn.com/s3/m/0b916f420722192e4536f6e9.png)
User Interface
4, 10
Text Text
Text Operations
user feedback
logical view
Query Operations
5
query
Searching
8
retrieved docs
logical view Indexing
inverted file Index
A = 测量区间,B = 关联方面(绝对关联), C = 文档,D = 上下文, 在这里进行关联测量(包括需要的信息) E = 用户的判断
a
9
相关概念
文本形式,文本存在多种规范形式,通常包括非结构化(也称
为纯文本)、半结构化和结构化文本。大多数情况下,文本被看 作是半结构化。比如,一本书的说明书可能是如下的形式:
a
15
实现方法
2. 索引 (*)
- 速度快
- 易于改进
例如:
关键词表示: 原句子:数据库和人工智能在工业上的应用 预处理后:数据库、人工智能、工业、应用 原句子:人工智能和数据库在工业上的应用 预处理后:人工智能、数据库、工业、应用 倒排文档: 人工智能 ——〉{d1, d3,d5, d6,d7} 查找过程描述: 用户问题:Q = {w1=数据库, w2=人工智能, w3=工业}, 且 Q= w1 AND w2 AND (NOT w3) 文档列表:w1 ——〉{d1, d2, d5, d7, d9}
ISBN: 0-201-12227-8 Author: Salton, Gerard Titre: Automatic text processing: the transformation,
analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 … Content: <Text Content>
信息检索15-lsi
![信息检索15-lsi](https://img.taocdn.com/s3/m/dad6dbe6c8d376eeaeaa31fb.png)
回顾一下词项-文档矩阵
Anthony and Julius Cleopatra Caesar anthony brutus caesar cleopatra mercy 5.25 1.21 8.59 2.85 1.51 3.18 6.10 2.54 1.54 0.0 0.0 The Tempest 0.0 0.0 0.0 0.0 0.0 1.90 Hamlet 0.0 1.0 1.51 0.0 0.0 0.12 Othello 0.0 0.0 0.25 0.0 0.0 5.25 Macbeth 0.35 0.0 0.0 0.0 0.0 0.88
30
现代信息检索
LSI是如何解决一义多词和语义关联问题的
降维迫使我们忽略大量“细节” 我们将原始空间下不同的词映射到低维空间的同一维中 将同义词映射到同一维的“开销”远小于无关词的聚集 SVD选择开销最小的映射方法 因此,SVD会将同义词映射到同一维 但是,它同时能避免将无关词映射到同一维
34
现代信息检索
参考资料
《信息检索导论》第 18 章 /ir
Deerwester等人写的第一篇LSI的文章 Thomas Hofmann提出的概率LSI (PLSI) 利用LSI来得到此空间
35
现代信息检索
课后练习
36
20
提纲
❶
上一讲回顾
❷
❸ ❹
隐性语义索引
空间降维处理 LSI 在IR中的应用
21
现代信息检索
为什么在LSI中使用SVD分解
最关键的性质:每个奇异值对应的是每个“语义”维度的权重 将不太重要的权重置为0,可以保留重要的信息,去掉一些信 息“枝节” 这些“枝节”可能是: 噪音 – 这种情况下,简化后的LSI 噪音更少,是一种更好 的表示方法 枝节信息可能会使本来应该相似的对象不相似,同样简化 的LSI 由于其能更好地表达相似度,因而是一种更优的表 示方式 “细节越少越好”的一个类比 鲜红色花朵的图像 红黑花朵的图像 如果忽略颜色,将更容易看到两者的相似性
lecture8-evaluation 信息检索导论 王斌 PPT 课件 第8章
![lecture8-evaluation 信息检索导论 王斌 PPT 课件 第8章](https://img.taocdn.com/s3/m/19094b607e21af45b307a852.png)
15
现代信息检索
评价任务的例子
两个系统,一批查询,对每个查询每个系统 分别得到一些结果。目标:哪个系统好? 系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2 1 d3 d1 d6 d1 2 d6 d4 d7 d2 3 d8 d7 d3 d4 4 … d10 d11 d9 d13
19
现代信息检索
评价指标分类
对单个查询进行评估的指标
在单个查询上检索系统的得分
对多个查询进行评估的指标
在多个查询上检索系统的得分
20
现代信息检索
回到例子
系统&查询
系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
1
2
3
4
d10 d11 d9 √ d13
…
d3 √ d6 √ d8 d1 d4 d7 d6 √ d7 d2 d1 d2 d4
29
现代信息检索
关于正确率和召回率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 用、不用的用户可能会对两者的要求不一样。 因此,实际应用中应该考虑这点。
垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量 少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点,他不需要结果很全 就能完成任务。
23
现代信息检索
四种关系的矩阵表示
真正相关文档 RR+NR 真正不相关文档 系统判定相关 RR+RN (检索出)
RR
RN
Ret = RR+RN Precision
系统判定不相关 (未检索出)
NR
NN
lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章
![lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章](https://img.taocdn.com/s3/m/a65282de195f312b3169a552.png)
19
现代信息检索
Reuters RCV1语料库的统计信息
N L M 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000
6
现代信息检索
基于B-树的词典查找
7
现代信息检索
基于轮排索引的通配查询处理
查询: 对 X, 查找 X$ 对X*, 查找 X*$ 对*X, 查找 X$* 对*X*, 查找 X* 对 X*Y, 查找 Y$X*
8
现代信息检索
基于k-gram索引的通配查询处理
比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒 排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引)
将输入的文档集分片(split) (对应于BSBI/SPIMI算法中的块) 每个数据片都是一个文档子集
39
现代信息检索
分析器(Parser)
主节点将一个数据片分配给一台空闲的分析器 分析器一次读一篇文档然后输出 (term,docID)-对 分析器将这些对又分成j 个词项分区 每个分区按照词项首字母进行划分
[信息检索]第一讲布尔检索BooleanRetrieval
![[信息检索]第一讲布尔检索BooleanRetrieval](https://img.taocdn.com/s3/m/906599c332d4b14e852458fb770bf78a65293aaf.png)
[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容:1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索?Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据(通常是⽂本)的集合(通常保存在计算机上)中找出满⾜⽤户信息需求的资料(通常是⽂档)的过程。
Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询?布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如:信息 AND 检索2、⼀个信息检索的例⼦(莎⼠⽐亚全集)不到100万单词,假设每个英⽂单词平均长度为8字节,则整个全集不到10MB查询需求:莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?查询的布尔表⽰:Brutus AND Caesar AND NOT Calpurnia解决⽅案:⽅法⼀:暴⼒⽅法从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时⼜不包含Calpurnia不⾜之处:速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易(不到末尾不能停⽌判断)不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点:实现简单很容易⽀持⽂档动态变化⽅法⼆:倒排记录表词项-⽂档(term-doc)关联矩阵若某剧本包含某单词,则该位置为1,否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量,每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量,每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量,并对Calpurnia 的⾏向量求反,最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题:当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号),那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时,词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1:词项-⽂档矩阵⾼度稀疏(sparse)更好的办法:仅仅记录1的位置,即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰,通常是正整数,如1,2,3…磁盘上,顺序存储⽅式⽐较好,便于快速读取内存中,采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程:1、词条序列:<词条,docID>⼆元组2、排序按词项排序,然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了,如何利⽤索引来处理查询?AND查询的处理:考虑如下查询(从简单的布尔表达式⼊⼿):Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表,即求交集合并过程:每个倒排记录表都有⼀个定位指针,两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录,然后移动某个或两个指针。
lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章
![lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章](https://img.taocdn.com/s3/m/e7c8c4e319e8b8f67c1cb952.png)
现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式:
U.S.A. 和 USA
归一化的结果就是词项,而词项就是我们最终要 索引的对象 可以采用隐式规则的方法来表示多个词条可以归 一成同一词项,比如
剔除句点
U.S.A., USA USA
字:李 明 天 天 都 准 时 上 班
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾 文档 词项
通常做法+非英语处理
英语
❹
❺
跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥:324a3df234cb23e (800) 234-2333
《信息检索导论》课件2
![《信息检索导论》课件2](https://img.taocdn.com/s3/m/ee9c528ddb38376baf1ffc4ffe4733687f21fc6f.png)
学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研 讨会和学术会议,与专家交 流并进行实践项目。
《信息检索导论》PPT课 件
欢迎来到《信息检索导论》PPT课件,本课程将介绍信息检索的基础概念、技 术和实践案例,让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和 技术,学习如何构建高效的 检索系统。
课程内容
包括信息检索的定义、流程、 模型与评价指标等重要概念。
课程安排
第一部分:信息检索基础 第二部分:信息检索技术 第三部分:实践案例分析 第四部分:进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率 和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干 提取等技术,以便更好地处理 查询和文档。
倒排索引
一种高效的索引结构,用于快 速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展, 同时通过界面展示与查询相关 的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百 度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的 信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如 何实现快速准确的商品搜索。
lecture9-queryexpansion 信息检索导论 王斌 PPT 课件 第9章
![lecture9-queryexpansion 信息检索导论 王斌 PPT 课件 第9章](https://img.taocdn.com/s3/m/5849907901f69e3143329452.png)
更新时间: 2011/10/11
现代信息检索 Modern Information Retrieval
第9讲 相关反馈及查询扩展 Relevance Feedback & Query Expansion
19
现代信息检索
关于召回率Recall
本讲当中会放松召回率的定义,即(在前几页)给用户返回更 多的相关文档
这可能实际上会降低召回率,比如,将jaguar扩展为 jaguar(美洲虎;一种汽车品牌)+panthera(豹属) 可能会去掉一些相关的文档,但是可能增加前几页返回 给用户的相关文档数
❺
查询扩展
2
提纲
❶ ❷ ❸ ❹
上一讲回顾 动机 相关反馈基础 相关反馈详细介绍
❺
查询扩展
3
上一讲回顾
信息检索的评价方法
不考虑序的评价方法(即基于集合):P、R、F 考虑序的评价方法:P/R曲线、MAP、NDCG
信息检索评测语料及会议 检索结果的摘要
4
现代信息检索
正确率(Precision)和召回率(Recall)
现代信Байду номын сангаас检索
相关反馈后的检索结果
Source: Fernando Dí az
33
例3: 一个实际的例子
初始查询: [new space satellite applications] 初始查询的检索结果: (r = rank)
+ + r 1 2 3 4 5 6 7 + 8 0.539 0.533 0.528 0.526 0.525 0.524 0.516 0.509 NASA Hasn’t Scrapped Imaging Spectrometer NASA Scratches Environment Gear From Satellite Plan Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget Scientist Who Exposed Global Warming Proposes Satellites for Climate Research Report Provides Support for the Critics Of Using Big Satellites to Study Climate Arianespace Receives Satellite Launch Pact From Telesat Canada Telecommunications Tale of Two Companies
lecture12-languagemodel 信息检索导论 王斌 PPT 课件 第12章
![lecture12-languagemodel 信息检索导论 王斌 PPT 课件 第12章](https://img.taocdn.com/s3/m/514edecb0c22590102029d52.png)
5
现代信息检索
几种概率检索模型
基于Logistic回归的检索模型
经典的二值独立概率模型BIM 经典的BM25模型 (BestMatch25)
6
现代信息检索
Logistic 回归IR模型
基本思想:为了求Q和D相关的概率P(R=1|Q,D),通 过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这 些函数的组合。 Cooper等人提出一种做法*:定义log(P/(1-P))为多个 特征函数的线性组合。则P是一个Logistic函数,即:
三元模型(trigram):
对于n-gram,n越大,则模型越复杂,估计的参数(即估计 的概率)也越多。当然,当数据量足够大的情况下,模型 阶数越高越对片段概率的计算也越准确。
18
现代信息检索
课堂思考
设词典大小为M ,试估计N元模型要估计的参数 (概率)空间大小。
P(w1w2 w3w4 ) P(w1 ) P(w2 ) P(w3 ) P(w4 )
一元模型(Unigram)*:
P(种过科雪园)=P(种) P(过) P(科) P(雪) P(园) P(重果可薛原)=P(重) P(果) P(可) P(薛) P(原) P(中国科学院)=P(中) P(国) P(科) P(学) P(院) 训练:在训练语料库中估计以上各 P(X)的值
课堂思考:一元模型存在的问题?
其中,P(D|R=1)、P(D|R=0)分别表示在相关和不相关情况 下生成D的概率。Ranking函数显然是随着P(R=1|D)的增长 而增长。
现代信息检索技术
![现代信息检索技术](https://img.taocdn.com/s3/m/3526ffe4ad51f01dc281f17b.png)
概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL终身成就奖和1988年Salton奖
36
现代信息检索
国际著名研究机构和代表人物
微软英国剑桥研究院、伦敦城市大学 Robertson
概率检索模型的先驱和倡导者 开发了OKAPI检索系统 2000年Salton奖得主
23
现代信息检索
老师介绍(1)
主讲老师:王斌,中科院计算所博士毕业,副研 究员,博士生导师。现为中科院计算所前瞻研究 实验室信息检索课题组负责人。
/~wangbin/ wangbin@ 新浪微博:计算所王斌/wang2bin1 办公电话:62601350
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
现代信息检索
提纲
① 什么是信息检索? ② 为什么要学习信息检索? ③ 课程情况
2
现代信息检索
提纲
① 什么是信息检索? ② 为什么要学习信息检索? ③ 课程情况
Web信息检索:在超大规模数据集上的检索。
中科院研究生院2011年度秋季课程
12
现代信息检索
提纲
① 什么是信息检索? ② 为什么要学习信息检索? ③ 课程情况
中科院研究生院2011年度秋季课程
13
现代信息检索
市场发展的需求
用户需要信息检索技术:互联网的信息量太大、噪音太多, 寻找所需要的信息非常不容易
15
现代信息检索
对相关专业研究生的基本要求
信息检索技术是内容应用特别是互联网内容应用 的核心技术,可以说在这些应用中无处不在
信息检索导论课后答案
![信息检索导论课后答案](https://img.taocdn.com/s3/m/04aa3430d15abe23492f4d16.png)
信息检索导论课后答案【篇一:信息检索导论王斌译第一章课后习题答案】casts 1 1home 4 1 2 3 4in2 2 3increase 1 3july3 2 3 4new2 1 4rise2 2 4sales4 1 2 3 4top1 1把所有文档中的词抽取,按顺序排序。
倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写习题 1-2a题1234approach 0 0 1 0breakthrough1 0 0 0drug 1 1 0 0for 1 0 1 1hope 0 0 0 1new 0 1 1 1of0 0 1 0patient 0 0 0 1schizophrenia1 1 1 1treatment0 0 1 0矩阵行是词,按顺序排列;列方向是文档编号。
某文档出现某词,相应位置填 1,否则填 0 b 题approach 1 3breakthrough 1 1drug 2 1 2for3 1 3 4hope 1 4new3 2 3 4of1 3patient 1 4schizophrenia 4 1 2 3 4treatment 1 3习题 1-71. kaleidoscope or eyes87009+2133122. marmalade or skies 107913+2716583. tangerine or trees46653+316812按估计的记录个数,从小到大的顺序124113145173174p2 31 54 101q11 2 4 11 31 45 54 101 173 174相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移习题 1-10answer -while p1!=nil or p2!=nildo if docid(p1)=docid(p2)then add(answer,docid(p1))p1-next(p1)p2-next(p2)else if docid(p1)docid(p2)add(answer,docid(p1))p1-next(p1)elseadd(answer,docid(p2))p2-next(p2) return answer【篇二:信息检索导论-王斌第三次课后作业 (13-21) 】xt>1 、习题 13-2答: (i) 贝努利模型:三个文档具有相同的模型表示(ii) 多项式模型:文档 1 和文档 2 相同,文档 3 与它们都不同。
信息检索导论-王斌 第一次课后练习(1-4)
![信息检索导论-王斌 第一次课后练习(1-4)](https://img.taocdn.com/s3/m/b4cb8a094431b90d6c85c7ec.png)
信息检索导论第一次课后练习(第1讲-第4讲)1.习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a. schizophrenia AND drugb. for AND NOT (drug OR approach)解答:习题1-2的文档集如下:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patients词项文档对应如下:词项docID 词项docId breakthrough 1 approach 3drug 1 breakthrough 1for 1 drug 1 schizophrenia 1 drug 2new 2 for 1 schizophrenia 2 for 3drug 2 for 4new 3 hopes 4 approach 3 => new 2for 3 new 3 treatment 3 new 4of 3 of 3 schizophrenia 3 patients 4new 4 schizophrenia 1 hopes 4 schizophrenia 2for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3它对应的倒排索引表如下:词项文档频率倒排记录表approach 1 → 3breakthrough 1 → 1drug 2 →1→2for 3 →1→3→4hopes 1 → 4new 3 →2→3→4of 1 → 3patients 1 → 4schizophrenia 4 →1→2→3→4treatment 1 → 3a.schizophrenia AND drugschizophrenia →1→2→3→4AND drug →1→2得出交集=> 1→2结果为文档1和2b. for AND NOT (drug OR approach)先求drug OR approachdrug →1→2OR approach → 3得出并集→1→2→3则NOT (drug OR approach)→ 4AND for →1→3→4得出交集→ 4所以结果为文档42. 习题1-7请推荐如下查询的处理次序。
智能信息检索xml信息检索精品PPT课件
![智能信息检索xml信息检索精品PPT课件](https://img.taocdn.com/s3/m/f81d758c26fff705cc170a99.png)
XML文档
文档的树型表示: 叶子节点包含了一些文本; 内部节点对文档的结构信息 (title、act、scene)或元信息 (author)进行编码 。
XML基本概念
• XML DOM(document object model) • Xpath • Schema
XML DOM
XML DOM(document object model):访问和处理XML文档的标准
XML 检索
• 介绍 • XML的基本概念 • XML检索面对的挑战性问题 • 基于向量空间模型的XML检索 • XML检索评估
XML文档
有序的、带标签树 树上的每个节点都是一个XML元 素,由起始标签和结束标签来界定 一个XML元素可以有一个或多个 XML属性 XML属也可以具有值 XML元素也可以有子元素
•数字图书馆:查找关于快速傅里叶变换的完整论文。 •专利:在专利权利要求中提到RSA公钥密码并引用了专利号为的 美国专利。
•已标注命名实体文本:查找关于梵蒂冈和古罗马竞技场观光旅游 的文章。
这三个查询都是结构化查询,很难通过一个无序检索来得到好 的应答结果。
RDB不适用于此种情况的三个主要问题
1. 无序检索系统可能会返回大量有关检索词的文档,而不会将最相 关的查询结果放在最前面。
它是用于描述和规范XML文档的逻辑结构的一种语言,其最大的 作用就是验证XML文件逻辑结构的正确性;
可以理解成与DTD功能差不多,但是Schema在当前的WEB开发 环境下优越很多,因为它本身就是一个有效的XML文档,因而可以更 直观的了解XML的结构;
Schema 支持命名空间,内置多种简单和复杂的数据类型,并支持 自定义数据类型。
路径上前后元素间用’/’来分割,如act/scene表示选择所有父节点为act元 素的scene元素;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章,这些文章提到 Vatican、the
Coliseum和sightseeing tours,但是并没有按照它们和查询的相关 度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如,用户可 能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉,或者他们压根就 不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理,返回新结果 ▪ 新结果可望(理想上说)有更高的召回率
5
现代信息检索
Rocchio 1971 算法 (SMART系统使用)
实际中使用的公式:
qm: 修改后的查询; q0: 原始查询; Dr 、Dnr : 已知的相关和不相关文档集合 α, β, γ: 权重 ▪ 新查询向相关文档靠拢而远离非相关文档 ▪ α vs. β/γ 设置中的折中: 如果判定的文档数目很多,那 么 β/γ可以考虑设置得大一些 ▪ 一旦计算后出现负权重,那么将负权重都设为0 ▪ 在向量空间模型中,权重为负是没有意义的。
6
现代信息检索
伪相关反馈(Pseudo-relevance feedback)
▪ 伪相关反馈对于真实相关反馈的人工部分进行自动化 ▪ 伪相关反馈算法
▪ 对于用户查询返回有序的检索结果 ▪ 假定前 k 篇文档是相关的 ▪ 进行相关反馈 (如 Rocchio)
▪ 平均上效果不错 ▪ 但是对于某些查询而言可能结果很差 ▪ 几次循环之后可能会导致查询漂移(query drift)
7
现代信息检索
查询扩展(Query expansion)
▪ 查询扩展是另一种提高召回率的方法 ▪ 我们使用 “全局查询扩展” 来指那些 “查询重构
(query reformulation)的全局方法” ▪ 在全局查询扩展中,查询基于一些全局的资源进行修改,
这些资源是与查询无关的 ▪ 主要使用的信息: 同义词或近义词 ▪ 同义词或近义词词典(thesaurus) ▪ 两种同(近)义词词典构建方法:人工构建和自动构建
记的“生”文本--“raw” text without markup)中返回信息 ▪ RDB系统主要用于查询关系型数据(relational data),即一系
列记录集合,这些记录中包含预先定义的属性及属性值,如 员工号、职位和工资
一些包含文本的结构化数据最好建模成结构化文档而不是关系 型数据,结构化文档的检索称为结构化检索 (structured
▪最著名的相关反馈方法:Rocchio 相关反馈
▪查询扩展(Query expansion): 通过在查询中加入同义或者相关 的词项来提高检索结果
▪ 相关词项的来源: 人工编辑的同义词词典、自动构造的同义词词典、 查询日志等等。
4
现代信息检索
相关反馈的基本思想
▪ 用户提交一个(简短的)查询 ▪ 搜索引擎返回一系列文档 ▪ 用户将部分返回文档标记为相关的,将部分文档标记为
10
提纲
❶ 上一讲回顾 ❷ 简介 ❸ 基本的XML概念 ❹ XML IR中的挑战 ❺ 基于向量空间模型的XML IR ❻ XML IR评价
11
现代信息检索
IR vs. 关系数据库
IR 系统常常与关系数据库进行对比 (RDB) ▪ 传统上说, IR 系统从无结构文本(unstructured text, 指没有标
8
现代信息检索
查询扩展的类型
▪ 人工构建的同(近)义词词典 (人工编辑人员维护的词典, 如 PubMed)
▪ 自动导出的同(近)义词词典 (比如,基于词语的共现统计 信息)
▪ 基于查询日志挖掘出的查询等价类 (Web上很普遍,比 如上面的 “palm” 例子)
9
现代信息检索
本讲内容
▪ XML IR中的基本概念 ▪ XML IR中的挑战 ▪ XML IR中的向量空间模型 ▪ XML IR评价
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
1
提纲
❶ 上一讲回顾 ❷ 简介 ❸ 基本的XML概念 ❹ XML IR中的挑战 ❺ 基于向量空间模型的XML IR ❻ XML IR评价
I中nt科ro院du研ct究io生n t院o 2In01fo1r年m秋at季io课n R程e《tri现ev代al信息检索》
更新时间: 2011/10/11
现代信息检索 Modern Information Retrieval
第10讲 XML检索 XML Retrieval
授课人:王斌
/~wangbin
2
提纲
❶ 上一讲回顾 ❷ 简介 ❸ 基本的XML概念 ❹ XML IR中的挑战 ❺ 基于向量空间模型的XML IR ❻ XML IR评价
3
现代信息检索
上一讲内容
▪交互式相关反馈(Interactive relevance feedback): 在初始检索 结果的基础上,通过用户交互指定哪些文档相关或不相关, 然后改进检索的结果