信息检索性能评价指标
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11. d38 12. d48 13. d250 14. d113 15. d3
(20%,100%)
0.36 F (15) 2 1 1 0.20 1 0.33
14
单个查询评价指标(4) —引入序的作用
R-Precision
计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数
1. d123 2. d84 3. d56 4. d6 5. d8 6. d9 7. d511 8. d129 9. d187 10. d25 2. 1. 2. 3. d123 d84 56
R=10 and # relevant=4 R-precision=4/10=0.4
R=3 and # relevant=1 R-precision=1/3=0.33
单个查询评价指标(3)—P和R融合
F值:召回率R和正确率P的调和平均值,if P=0 or R=0, then F=0, else 采用下式计算:
F ( j) 2 1 1 R( j ) P( j ) ( P 0, R 0)
������
E值:召回率R和正确率P的加权平均值,b>1表示 更重视P 1 b E( j) 1 ( P 0, R 0) b 1
P-R曲线的例子
某个查询q的标准答案集合为: Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} 某个IR系统对q的检索结果如下:
1. d123 R=0.1,P=1 6. d9 R=0.3,P=0.5 7. d511 8. d129 9. d187 11. d38 12. d48 13. d250 14. d113
IR评价研究的内容
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
时间指标 空间指标 对按照相关度进行排序的检索结果进行准确 度的评价
IR评价研究的程序
一项完整的检索评价工作可分为以下5个步骤:
(1)确定评价范围和目标 (2)选择评价方式 (3)设计或者制定评价方案 (4)实施评价方案 (5)总结与评价结论的形成
6
如何评价效果
相同的文档集合,相同的查询主题集合,相同的评 价指标,不同的检索系统进行比较。
The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System,Gerald Salton, 1964-1988 (数千篇文档 集合) TREC(Text Retrieval Conference), Donna Harman, 美 国标准技术研究所, 1992 -(上百万篇文档),信息检索的 “奥运会”
15
单个查询评价指标(5) —引入序的作用
正确率-召回率曲线(precision versus recall curve)
������ 检索结果以排序方式排列,用户不可能马 上看到全部文档,因此,在用户观察的过程中, 正确率和召回率在不断变化(vary)。 ������ 可以求出在召回率分别为: 0%,10%,20%,30%,…, 90%,100%上对应的正确 率,然后描出图像。
评价指标分类
对单个查询进行评估的指标
对单个查询得到一个结果
对多个查询进行评估的指标(通常用于对 系统的评价)
求平均
单个查询的评价指标(1)
全部文本集合 检索出的 相关文本 文本
不相关
检出且 不相关
检出且 相关
未检出且 不相关 未检出且 相关 未检出
相关
检出 召回率(Recall)=检出的相关文档数/相关文档数,也称为查 全率,R∈[0,1] 准确率(Precision)=检出的相关文档数/检出文档数,也称 为查准率,P∈[0,1] 假设:文本集中所有文献已进行了检查
准确率直方图
多个查询的R-Precision测度 用来比较两个算法的检索纪录
RPA / B (i) RPA (i) RPB (i) where RPA (i) and RPB (i) are R precisionvalues of retrievalalgorithmsA and B for thei th query
2 2
R( j )
P( j )
Example
1. d123 2. d84 3. d56 4. d6 5. d8
(33.3%,33.3%)
F (3) 2 1 1 0.33 0.33
6. d9 7. d511 8. d129 9. d187 10. d25
(25%,66.6%)
0.33 F (8) 2 1 1 0.25 0.67
RPA/B=0:对于第i个查询,两个算法有相同的性能 RPA/B>0:对于第i个查询,算法A有较好的性能 RPA/B<0:对于第i个查询,算法B有较好的性能
28
Example
1.5 1.0
8
0.5
0.0
1
2
3
4
5
6
7
8
9
wenku.baidu.com10
-0.5
-1.0
2
-1.5
Query Number
29
多个查询评价指标(11)
多个检索算法之间的比较
对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。
第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
100 90 80 70
Precision
60 50 40 30 20 10 0 0 20 40 60 Recall 80 100 120
26
单个查询评价指标(9) —不考虑召回率
Precision@N:在第N个位置上的正确率,对于搜 索引擎,考虑到大部分作者只关注前一、两页的结 果,P@10(系统对于查询返回的前10个结果的准确 率) , P@20 对大规模搜索引擎非常有效. 举例
NDCG:后面详细介绍。
多个查询评价指标(10)
2. d84 3. d56 R=0.2, P=0.67 4. d6 5. d8
10. d25 R=0.4,P=0.4 15. d3 R=0.5, P=0.33
P-R曲线的例子
P-R曲线的插值问题
对于前面的例子,假设Rq={d3,d56,d129}
������ 3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
返回
10
关于召回率的计算
对于大规模语料集合,列举每个查询的所有相关 文档是不可能的事情,因此,不可能准确地计算召 回率
缓冲池(Pooling)方法:对多个检索系统的Top N 个结果组成的集合进行标注,标注出的相关文档集 合作为整个相关文档集合。这种做法被验证是可行 的,在TREC会议中被广泛采用。
信息检索的评价指标
高海燕 2010114014
信息检索的评价指标体系
评价IR的意义 IR评价研究的内容和程序 评价指标分类
单个查询的评价指标 多个查询的评价指标
评价IR的意义
信息检索评价是对信息检索系统性能(主要满足用 户信息需求的能力)进行评估的活动。 通过评估可以评价不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高。 信息检索系统的目标是较少消耗情况下尽快、全面 返回准确的结果。
P-R曲线的优缺点
优点: ������ 简单直观
������ 既考虑了检索结果的覆盖度,又考虑了 检索结果的排序情况
缺点: ������ 单个查询的P-R曲线虽然直观,但是难以 明确表示两个查询的检索结果的优劣
单个查询评价指标(6) —P-R曲线的单一指标
Break Point:P-R曲线上P=R的那个点
9
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d 123} 通过某一个检索算法得到的排序结果: (100%,10%) (precision, recall) 1. d123 6. d9 2. d84 7. d511 3. d56 8. d129 4. d6 9. d187 (50%,30%) (66%,20%) d8 5. 10.(40%,40%) d25 11. d38 12. d48 13. d250 14. d113 (33%,50%) 15. d3
未插值的AP: 某个查询Q共有6个相关结果,某系统排 序返回了5篇相关文档,其位置分别是第1,第2,第5, 第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点 上的正确率求平均,等价于11点平均
只对返回的相关文档进行计算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果 的系统,没有考虑召回率
关于召回率和正确率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 用、不用的用户可能会对两者的要求不一样。因此, 实际应用中应该考虑这点。 ������
垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是 尽量少将正常邮件判定成垃圾邮件。 ������ 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点,他不需要结果很全就能 完成任务。
平均的求法:
宏平均(Macro Average):对每个查询求出某个指标 ,然后对这些指标进行算术平均 微平均(Micro Average):将所有查询视为一个查询 ,将各种情况的文档总数求和,然后进行指标的计算 如:Micro Precision=(对所有查询检出的相关文档 总数)/(对所有查询检出的文档总数)
单个查询评价指标(8) —不考虑召回率
Bpref :Binary preference,2005年首次引入到TREC的Terabyte
任务中 只考虑对返回结果列表中的经过判断后的文档进行评价 在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果 在测试集相关性判断不完全的情况下,bpref依然具有很好的应用 这个评价指标主要关心不相关文档在相关文档之前出现的次数。具 体公式为:
这样可以直接进行单值比较
11点平均正确率(11 point average precision):在 召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率 求平均,等价于插值的AP
P-R曲线中的Breakpoint
Breakpoint
单个查询评价指标(7) —引入序的作用
平均正确率(Average Precision, AP):对不同召回 率点上的正确率进行平均
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相关文档 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信 息需求 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由 人工方式构造 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检 出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得 到这些指标值
1 | n ranked higher than r | bpref 1 R r R
25
Example
下面举个例子来说明bpref的性能,假设检索结果 集S为: S ={D1 ,D2 · 3 * ,D4 * ,D5 · 6 ,D7 · 8 ,D9 ,D10 } ,D ,D ,D 其中D2、D5 和D7是相关文档,D3 和D4为未经判 断的文档。 对这个例子来说, R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
������ 不存在10%, 20%,…,90%的召回率点,而只 存在33.3%, 66.7%, 100%三个召回率点 ������ 在这种情况下,需要利用存在的召回率点对 不存在的召回率点进行插值(interpolate) ������ 对于t%,如果不存在该召回率点,则定义 t%为从t%到(t+10)%中最大的正确率值。 ������ 对于上例,0%,10%,20%,30%上正确率为 0.33,40%~60%对应0.25,70%以上对应0.2