Lec3信息检索的评价 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(100%,10%) (precision, recall)
1. d123 •
6. d9 •
2. d84
7. d511
3. d56 •
8. d129
4. d6
9. d187
5. d8
(66%,20%)
10. d25 •
(50%,30%) (40%,40%)
11. d38 12. d48 13. d250 14. d113 15. d3 •
l RPA/B=0:对于第i个查询，两个算法有相同的性能 l RPA/B>0:对于第i个查询，算法A有较好的性能 l RPA/B<0:对于第i个查询，算法B有较好的性能
21
智能信息检索
单值概括（3-1）
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10 -0.5
5
智能信息检索
评价IR系统的困难
n 相关性不是二值评价，而是一个连续的量 n 即使进行二值评价，很多时候也很难 n 从人的立场上看，相关性是：
l 主观的，依赖于特定用户的判断 l 情景相关的，依赖于用户的需求 l 认知的，依赖于人的认知和行为能力 l 时变的，随着时间而变化
-1.0
2
-1.5
Query Number
22
智能信息检索
单值概括（4）
n 概括统计表
l 查询数 l 检出的所有文献数量 l 相关文献数 l 应检出的相关文献数 l ……
23
智能信息检索
评价指标的不足
19
智能信息检索
单值概括（2）
n R-Precision
l 计算序列中前R个位置文献的准确率
l R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
6. d9 • 7. d511 8. d129 9. d187 10. d25 •
l Example
1. d123 •(1) 6. d9 •(0.5) 11. d38
2. d84
7. d511
12. d48
3. d56 •(0.66) 8. d129 13. d250
n 其中D2、D5 和D7是相关文档，D3 和D4为未经判断的文档。
n 对这个例子来说， n R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1
8
智能信息检索
相关性判断
n 在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。
n 由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合，并采用一种 “pooling”的技术来完成。
n 性能评价
l 对于检索系统的性能来说，除了系统的时间和空间因素之外，要求检索结果能够按照相关度进行排序
4
智能信息检索
ห้องสมุดไป่ตู้
相关性
n 相关性理论假定：对于一个给定的文档集合和一个用户查询，存在并且只存在一个与该查询相关的文档集合
n 检索系统的目标就在于检出相关文档而排除不相关文档
9
智能信息检索
“pooling”方法
n 两个假设
l 假设绝大多数的相关文档都收录在这个文档池中 l 没有进行判断的文档即未被认为是不相关的
n “pooling”技术的具体操作方法是：针对某一检索问题，所有参与其检索试验的系统分别给出各自检索结果中的前K个文档（例如K=100），将这些结果文档汇集起来，得到一个可能相关的文档池“pool”
24
智能信息检索
Bpref指标
n 只考虑对返回结果列表中的经过判断后的文档进行评价
n 在相关性判断完整的情况下，bpref具有与MAP相一致的评价结果
n 在测试集相关性判断不完全的情况下，bpref依然具有很好的应用
n 这个评价指标主要关心不相关文档在相关文档r之前出现的次数n。具体公式为：
n 前面提到的一些评价指标，如R-准确率， MAP，P@10等，都只考虑经过pooling技术之后判断的相关文档的排序
n 对判断不相关文档与未经判断的文档的差别并没有考虑
n 目前随着互联网的发展，测试集越来越大，由于相关性判断还基本上是人工判断，因此建立完整的相关性判断变得越来越难
n 由检索评价专家进行人工判断，最终评判出每一文档的相关性
10
智能信息检索
准确率和召回率（查全率和查准率）
全部文本集合
相关文本
检索出的文本
相关不相关
检出且不相关
未检出且不相关
检出且相关
n 如下为两个检索算法在多个查询下的查准率/查全率的值。
l 第一个检索算法在低查全率下，其查准率较高。 l 另一个检索算法在高查全率下，其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
20
40
60
80
100
120
Recall
16
4. d6
9. d187
14. d113
5. d8 10. d25 • (0.4) 15. d3 • (0.3)
(1+0.66+0.5+0.4+0.3)/5=0.57
n 一个文档集合C。系统将从该集合中按照查询要求检出相关
文档
n 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求
n 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造
n 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值
• Nq: the number of queries used
• Pi(r): the precision at recall level r for the i-th query
15
智能信息检索
多个查询下进行检索算法的比较
n 对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。
l 多个查询的R-Precision测度 l 用来比较两个算法的检索纪录
RPA/ B (i) = RPA (i) − RPB (i) where RPA(i) and RPB (i) are R − precision values of retrieval algorithms A and B for the i − th query
返回了大多数相关文档
但是包含很多垃圾
1
理想情况
召回率
0 准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
12
智能信息检索
举例
n Example：Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} n 通过某一个检索算法得到的排序结果：
检出
未检出且相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数准确率(Precision)= 检出的相关文档数/检出文档数假设：文本集中所有文献已进行了检查
11
智能信息检索
准确率和召回率的关系
n 从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量
3
智能信息检索
信息检索的评价
n 针对一个检索系统，可以从功能和性能两个方面对其进行分析评价
n 功能评价
l 可通过测试系统来判定是否支持某项功能，因此相对来说较容易
新的评价指标
n 随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现
n 单值概括
18
智能信息检索
单值概括（1）
n 已检出的相关文献的平均准确率
l 逐个考察检出新的相关文献，将准确率平均
l 在某种意义上，技术评测就可以起到一个提出问题的作用
2
智能信息检索
评价
n 评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等
n 信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动
bpref
=
1 R
∑1 r
−
|
n
ranked higher than r | R
25
智能信息检索
举例
n 下面举个例子来说明bpref的性能，假设检索结果集S为：
n S ={D1 ,D2 ·∙,D3 * ,D4 * ,D5 ·∙,D6 , D7 ·∙,D8 ,D9 ,D10 }
智能信息检索
第3章信息检索的评价
智能信息检索
评价的目的
n 技术评测为科研提供了一种统一的评价基准
n 评测技术本身的进步，对科学研究的进展也起着不可忽视的促进作用
n 技术评测还对技术的发展起到一种引导作用
l 爱因斯坦1938年在《物理学的进化》中说: “提出一个问题往往比解决一个问题更为重要”
80 100 120
14
智能信息检索
平均准确率
n 上述准确率召回率的值对应一个查询
n 每个查询对应不同的准确/召回率曲线
n 为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：
Nq
∑ Pi (r)
P(r) = i=1 Nq
2. 1. d123 2. d84
3. d56 •
R=10 and # relevant=4 R-precision=4/10=0.4
R=3 and # relevant=1 R-precision=1/3=0.33
20
智能信息检索
单值概括（3）
n 准确率直方图
(33%,50%)
13
智能信息检索
一个查询的11个标准查准率
n 11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p
r 120 e 100 c 80
interpolation
i 60
s
i 40 o 20
n
0 20 40 60
6
智能信息检索
检索的评价
n 检索性能的评价
l 检索结果的准确度
n 检索任务
l 批处理查询 l 交互式查询
n 实验室环境下主要是批处理查询，具有良好的可重复性和可扩展性
7
智能信息检索

在评价和比较检索系统的检索性能需要以下条件
智能信息检索
适应性
n 合理估计需要了解集合的所有文献
n 这两个指标相互关联，评价不同方面，结合在一起形成单个测度更合适
n 测的是批处理模式下查询集合性能，对现代信息检索系统，交互式是重要特征，对量化检索过程的性能指标可能会更合适
17
智能信息检索