Lec3信息检索的评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(100%,10%) (precision, recall)
1. d123 •
6. d9 •
2. d84
7. d511
3. d56 •
8. d129
4. d6
9. d187
5. d8
(66%,20%)
10. d25 •
(50%,30%) (40%,40%)
11. d38 12. d48 13. d250 14. d113 15. d3 •
l RPA/B=0:对于第i个查询,两个算法有相同的性能 l RPA/B>0:对于第i个查询,算法A有较好的性能 l RPA/B<0:对于第i个查询,算法B有较好的性能
21
智能信息检索
单值概括(3-1)
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10 -0.5
5
智能信息检索
评价IR系统的困难
n 相关性不是二值评价,而是一个连续的量 n 即使进行二值评价,很多时候也很难 n 从人的立场上看,相关性是:
l 主观的,依赖于特定用户的判断 l 情景相关的,依赖于用户的需求 l 认知的,依赖于人的认知和行为能力 l 时变的,随着时间而变化
-1.0
2
-1.5
Query Number
22
智能信息检索
单值概括(4)
n 概括统计表
l 查询数 l 检出的所有文献数量 l 相关文献数 l 应检出的相关文献数 l ……
23
智能信息检索
评价指标的不足
19
智能信息检索
单值概括(2)
n R-Precision
l 计算序列中前R个位置文献的准确率
l R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
6. d9 • 7. d511 8. d129 9. d187 10. d25 •
l Example
1. d123 •(1) 6. d9 •(0.5) 11. d38
2. d84
7. d511
12. d48
3. d56 •(0.66) 8. d129 13. d250
n 其中D2、D5 和D7是相关文档,D3 和D4为未 经判断的文档。
n 对这个例子来说, n R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1
8
智能信息检索
相关性判断
n 在早期的检索实验集合中, 相关性判断是全方 位的,就是说, 由专家事先对集合中每一篇文献 与每一个主题的相关性做出判断。
n 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于检 索问题所来自的测试文档集合,并采用一种 “pooling”的技术来完成。
n 性能评价
l 对于检索系统的性能来说,除了系统的时间和空 间因素之外,要求检索结果能够按照相关度进行 排序
4
智能信息检索
ห้องสมุดไป่ตู้
相关性
n 相关性理论假定:对于一个给定的文档集合 和一个用户查询,存在并且只存在一个与该 查询相关的文档集合
n 检索系统的目标就在于检出相关文档而排除 不相关文档
9
智能信息检索
“pooling”方法
n 两个假设
l 假设绝大多数的相关文档都收录在这个文档池中 l 没有进行判断的文档即未被认为是不相关的
n “pooling”技术的具体操作方法是:针对某一检索 问题,所有参与其检索试验的系统分别给出各自检 索结果中的前K个文档(例如K=100),将这些结果 文档汇集起来,得到一个可能相关的文档池“pool”
24
智能信息检索
Bpref指标
n 只考虑对返回结果列表中的经过判断后的文档进行评价
n 在相关性判断完整的情况下,bpref具有与MAP相一致的 评价结果
n 在测试集相关性判断不完全的情况下,bpref依然具有很 好的应用
n 这个评价指标主要关心不相关文档在相关文档r之前出现 的次数n。具体公式为:
n 前面提到的一些评价指标,如R-准确率, MAP,P@10等,都只考虑经过pooling技术 之后判断的相关文档的排序
n 对判断不相关文档与未经判断的文档的差别 并没有考虑
n 目前随着互联网的发展,测试集越来越大, 由于相关性判断还基本上是人工判断,因此 建立完整的相关性判断变得越来越难
n 由检索评价专家进行人工判断,最终评判出每一文 档的相关性
10
智能信息检索
准确率和召回率(查全率和查准率)
全部文本集合
相关文本
检索出的 文本
相关 不相关
检出且 不相关
未检出且 不相关
检出且 相关
n 如下为两个检索算法在多个查询下的查准率/查全率的值。
l 第一个检索算法在低查全率下,其查准率较高。 l 另一个检索算法在高查全率下,其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
20
40
60
80
100
120
Recall
16
4. d6
9. d187
14. d113
5. d8 10. d25 • (0.4) 15. d3 • (0.3)
(1+0.66+0.5+0.4+0.3)/5=0.57
n 一个文档集合C。系统将从该集合中按照查询要求检出相关
文档
n 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求
n 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该 集合可由人工方式构造
n 一组评价指标。这些指标反映系统的检索性能。通过比较系 统实际检出的结果文档集和标准的相关文档集,对它们的相 似性进行量化,得到这些指标值
• Nq: the number of queries used
• Pi(r): the precision at recall level r for the i-th query
15
智能信息检索
多个查询下进行检索算法的比较
n 对多个查询,进行平均,有时该曲线也称为:查准率/查全率 的值。
l 多个查询的R-Precision测度 l 用来比较两个算法的检索纪录
RPA/ B (i) = RPA (i) − RPB (i) where RPA(i) and RPB (i) are R − precision values of retrieval algorithms A and B for the i − th query
返回了大多数相关文档
但是包含很多垃圾
1
理想情况
召回率
0 准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
12
智能信息检索
举例
n Example:Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} n 通过某一个检索算法得到的排序结果:
检出
未检出且 相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数 准确率(Precision)= 检出的相关文档数/检出文档数 假设:文本集中所有文献已进行 了检查
11
智能信息检索
准确率和召回率的关系
n 从信息检索系统诞生以来,对检索系统的评 价就一直是推动其研究、开发与应用的一种 主要力量
3
智能信息检索
信息检索的评价
n 针对一个检索系统,可以从功能和性能两个 方面对其进行分析评价
n 功能评价
l 可通过测试系统来判定是否支持某项功能,因此 相对来说较容易
新的评价指标
n 随着测试集规模的扩大以及人们对评测结 果理解的深入,更准确反映系统性能的新 评价指标逐渐出现
n 单值概括
18
智能信息检索
单值概括(1)
n 已检出的相关文献的平均准确率
l 逐个考察检出新的相关文献,将准确率平均
l 在某种意义上,技术评测就可以起到一个提出问 题的作用
2
智能信息检索
评价
n 评价一般是指评估某个系统的性能、某种产 品的质量、某项技术的价值,或者是某项政 策的效果等等
n 信息检索评价则是指对信息检索系统的性能 (主要是其满足用户信息需求的能力)进行 评估的活动
bpref
=
1 R
∑1 r
−
|
n
ranked higher than r | R
25
智能信息检索
举例
n 下面举个例子来说明bpref的性能,假设检索 结果集S为:
n S ={D1 ,D2 ·∙,D3 * ,D4 * ,D5 ·∙,D6 , D7 ·∙,D8 ,D9 ,D10 }
智能信息检索
第3章 信息检索的评价
智能信息检索
评价的目的
n 技术评测为科研提供了一种统一的评价基准
n 评测技术本身的进步,对科学研究的进展也 起着不可忽视的促进作用
n 技术评测还对技术的发展起到一种引导作用
l 爱因斯坦1938年在《物理学的进化》中说: “提 出一个问题往往比解决一个问题更为重要”
80 100 120
14
智能信息检索
平均准确率
n 上述准确率召回率的值对应一个查询
n 每个查询对应不同的准确/召回率曲线
n 为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
Nq
∑ Pi (r)
P(r) = i=1 Nq
2. 1. d123 2. d84
3. d56 •
R=10 and # relevant=4 R-precision=4/10=0.4
R=3 and # relevant=1 R-precision=1/3=0.33
20
智能信息检索
单值概括(3)
n 准确率直方图
(33%,50%)
13
智能信息检索
一个查询的11个标准查准率
n 11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p
r 120 e 100 c 80
interpolation
i 60
s
i 40 o 20
n
0 20 40 60
6
智能信息检索
检索的评价
n 检索性能的评价
l 检索结果的准确度
n 检索任务
l 批处理查询 l 交互式查询
n 实验室环境下主要是批处理查询,具有良好 的可重复性和可扩展性
7
智能信息检索
在评价和比较检索系统的检索性能需要以下条件
智能信息检索
适应性
n 合理估计需要了解集合的所有文献
n 这两个指标相互关联,评价不同方面,结 合在一起形成单个测度更合适
n 测的是批处理模式下查询集合性能,对现 代信息检索系统,交互式是重要特征,对 量化检索过程的性能指标可能会更合适
17
智能信息检索