02信息检索评价
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Query Number
22
单值概括(4)
概括统计表
查询数 检出的所有文献数量 相关文献数 应检出的相关文献数 ……
信息检索实验室
23
评价指标的不足
前面提到的一些评价指标,如R-准确率, MAP,P@10等,都只考虑经过pooling技术 之后判断的相关文档的排序
对判断不相关文档与未经判断的文档的差 别并没有考虑
20
40
60
80
100
120
Recall
信息检索实验室
适应性
合理估计需要了解集合的所有文献 这两个指标相互关联,评价不同方面,
结合在一起形成单个测度更合适 测的是批处理模式下查询集合性能,对
现代信息检索系统,交互式是重要特征, 对量化检索过程的性指标可能会更合适
信息检索实验室
17
新的评价指标
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P(r) Nq Pi (r)
N i1
q
•Nq: the number of queries used
•Pi(r): the precision at recall level r for the i-th query
“pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
由检索评价专家进行人工判断,最终评判出每一 文档的相关性
信息检索实验室
10
准确率和召回率
全部文本集合 相关文本
权威性,是否来自可靠的信息源
信息检索实验室
5
评价IR系统的困难
相关性不是二值评价,而是一个连续的量 即使进行二值评价,很多时候也很难 从人的立场上看,相关性是:
主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化
信息检索实验室
信息检索实验室
28
MRR( Mean Reciprocal Ranking )平均排序倒数
MRR是在RR的基础上对多个查询的RR结果取平均值。 即对一个检索系统输入多个查询,分别得到每个查询的 排序倒数,取平均即为MRR。计算公式如下:
n 1
MRR q1 rankq n
例如MRR=0.25就意味着检索系统平均在返回结果的第 四个位置找到相关文档。
随着测试集规模的扩大以及人们对评测结 果理解的深入,更准确反映系统性能的新 评价指标逐渐出现
单值概括
信息检索实验室
单值概括(1)
已检出的相关文献的平均准确率
逐个考察检出新的相关文献,将准确率平均
Example
1. d123 •(1) 6. d9 •(0.5)
2. d84
7. d511
3. d56 •(0.66) 8. d129
6
检索的评价
检索性能的评价
检索结果的准确度
检索任务
批处理查询 交互式查询
实验室环境下主要是批处理查询,具有良 好的可重复性和可扩展性
信息检索实验室
7
在评价和比较检索系统的检索性能需要 以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了 用户的信息需求
P(j): the precision for the j-th document in the ranking
F 2PR
PR
信息检索实验室
30
Example
1. d123 2. d84 3. d56 • 4. d6 5. d8
6. d9 11. d38 7. d511 12. d48 8. d129 • 13. d250 9. d187 14. d113 10. d25 15. d3 •
一个查询的11个标准查准率
11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p r
120
e 100
c 80
interpolation
i 60
s i
40
o 20
n
0 20 40 60
80 100 120
信息检索实验室
14
平均准确率
上述准确率召回率的值对应一个查询
每个查询对应不同的准确/召回率曲线
信息检索实验室
15
多个查询下进行检索算法的比较
对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。
第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
由于TREC 的文献集合如此庞大, 全方位的 判断是不可行的。因此TREC相关性判断基 于检索问题所来自的测试文档集合,并采 用一种“pooling”的技术来完成。
信息检索实验室
9
“pooling”方法有以下两个假设
假设绝大多数的相关文档都收录在这个文档池中
没有进行判断的文档即未被认为是不相关的
检索系统的目标就在于检出相关文档而排 除不相关文档
信息检索实验室
4
相关性
相关性是一种主观评价
是不是正确的主题
输入:“和服”;输出:“···咨询和服务···” 由于分词错误,导致检索结果偏离主题
是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息
输入:“美国总统是谁”;输出:“克林顿” 信息已经过时
其中D2、D5 和D7是相关文档,D3 和D4为未 经判断的文档。
对这个例子来说,
R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
信息检索实验室
26
单一相关文档检索的评价
对于搜索引擎系统来讲,由于没有一个搜索引擎 系统能够保证搜集到所有的网页,所以召回率很 难计算,因而准确率成为目前的搜索引擎系统主 要关心的指标。
信息检索实验室
R=3 and # relevant=1 R-precision=1/3=0.33
20
单值概括(3)
准确率直方图
多个查询的R-Precision测度 用来比较两个算法的检索纪录
RPA/ B (i) RPA (i) RPB (i) whereRPA(i) and RPB (i) are R precision values of retrieval algorithms A and B for the i th query
这个评价指标主要关心不相关文档在相关文档之前出现的 次数。具体公式为:
bpref
1 R
1
r
|nΒιβλιοθήκη ranked higher than r | R
信息检索实验室
25
举例
下面举个例子来说明bpref的性能,假设检 索结果集S为:
S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 }
F( j) 1
1 b2 b2 1
r( j) p( j)
F
(b2 1) P b2 P R
R
信息检索实验室
6. d9 • 11. d38
2. d84
7. d511 12. d48
3. d56 •
8. d129 13. d250
4. d6
9. d187 14. d113
5. d8
(66%,20%)
10. d25 • 15. d3 •
(50%,30%) (40%,40%) (33%,50%)
信息检索实验室
13
检索出的 文本
相关 不相关
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)=检出的相关文档数/相关文档数
准确率(Precision)=检出的相关文档数/检出文档数
假设:文本集中所有文献已进行了检查
信息检索实验室
11
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
信息检索实验室
2
信息检索的评价
针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和
空间因素之外,要求检索结果能够按照相关度
进行排序
信息检索实验室
3
相关度
相关度理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
然而RR评价是基于2元相关判断基础上的,因此RR与 MRR都不能区分一个高相关性的文档与低相关性文档 之间的区别。
信息检索实验室
其它测度方法
调和平均值
F( j)
1
2
1
r( j) p( j)
R(j): the recall for the j-th document in the ranking
而目前随着互联网的发展,测试集越来越
大,由于相关性判断还基本上是人工判断
,因此建立完整的相关性判断变得越来越
难
信息检索实验室
24
Bpref指标
只考虑对返回结果列表中的经过判断后的文档进行评价
在相关性判断完整的情况下,bpref具有与MAP相一致的评 价结果
在测试集相关性判断不完全的情况下,bpref依然具有很好 的应用
4. d6
9. d187
11. d38 12. d48 13. d250 14. d113
5. d8
10. d25 • (0.4) 15. d3 • (0.3)
(1+0.66+0.5+0.4+0.3)/5=0.57
信息检索实验室
19
单值概括(2)
R-Precision
计算序列中前R个位置文献的准确率
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。 该集合可由人工方式构造
一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
信息检索实验室
8
相关性判断
在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
(33.3%,33.3%) (25%,66.6%)
(20%,100%)
F(3)
2 11
0.33 F(8)
1
2
1
0.36 F(15)
1 2 1 0.33
0.33 0.33
0.25 0.67
0.20 1
信息检索实验室
31
其他测度方法 (cont.)
E指标
允许用户根据需要调整精确率和召回率的比例
R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
6. d9 • 7. d511 8. d129 9. d187 10. d25 •
2. 1. d123 2. d84
3. 56 •
R=10 and # relevant=4 R-precision=4/10=0.4
RPA/B=0:对于第i个查询,两个算法有相同的性能 RPA/B>0:对于第i个查询,算法A有较好的性能 RPA/B<0:对于第i个查询,算法B有较好的性能
信息检索实验室
21
单值概括(3-1)
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10 -0.5
-1.0
2
-1.5
信息检索实验室
而当用户在使用Web搜索引擎的时候,用户常常 在找到一个好的页面后就不再继续察看排序列表 其他结果。
只找出一个相关的文档的高准确率就是信息检索 系统的一个重要任务
信息检索实验室
27
RR排序倒数和MRR平均排序倒数
RR(Reciprocal Ranking)是第一个相关文档出现位置的 倒数
经常用于评价只找到一个相关文档的情况, RR值具体为1/r,其中r为第一个相关文档在结果中排序数 如果检索结果中没有相关文档,那么RR值为0。
1
理想情况
召回率
0
准确率
信息检索实验室
1
返回最相关的文本
但是漏掉了很多
相关文本
12
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
1. d123 •
信息检索的评价
哈工大计算机学院 信息检索研究室
2007
信息检索实验室
1
评价
评价一般是指评估某个系统的性能、某种 产品的质量、某项技术的价值,或者是某 项政策的效果等等
信息检索评价则是指对信息检索系统的性 能(主要是其满足用户信息需求的能力) 进行评估的活动
从信息检索系统诞生以来,对检索系统的 评价就一直是推动其研究、开发与应用的 一种主要力量