02信息检索评价

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
权威性,是否来自可靠的信息源
信息检索实验室
5
评价IR系统的困难
相关性不是二值评价,而是一个连续的量 即使进行二值评价,很多时候也很难 从人的立场上看,相关性是:
主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化
信息检索实验室
6
检索的评价
检索性能的评价
检索结果的准确度
检索任务
批处理查询 交互式查询
实验室环境下主要是批处理查询,具有良 好的可重复性和可扩展性
信息检索实验室
7
在评价和比较检索系统的检索性能需要 以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了 用户的信息需求
而目前随着互联网的发展,测试集越来越
大,由于相关性判断还基本上是人工判断
,因此建立完整的相关性判断变得越来越
Βιβλιοθήκη Baidu

信息检索实验室
24
Bpref指标
只考虑对返回结果列表中的经过判断后的文档进行评价
在相关性判断完整的情况下,bpref具有与MAP相一致的评 价结果
在测试集相关性判断不完全的情况下,bpref依然具有很好 的应用
由于TREC 的文献集合如此庞大, 全方位的 判断是不可行的。因此TREC相关性判断基 于检索问题所来自的测试文档集合,并采 用一种“pooling”的技术来完成。
信息检索实验室
9
“pooling”方法有以下两个假设
假设绝大多数的相关文档都收录在这个文档池中
没有进行判断的文档即未被认为是不相关的
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。 该集合可由人工方式构造
一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
信息检索实验室
8
相关性判断
在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
P(j): the precision for the j-th document in the ranking
F 2PR
PR
信息检索实验室
30
Example
1. d123 2. d84 3. d56 • 4. d6 5. d8
6. d9 11. d38 7. d511 12. d48 8. d129 • 13. d250 9. d187 14. d113 10. d25 15. d3 •
这个评价指标主要关心不相关文档在相关文档之前出现的 次数。具体公式为:
bpref
1 R
1
r
|
n
ranked higher than r | R
信息检索实验室
25
举例
下面举个例子来说明bpref的性能,假设检 索结果集S为:
S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 }
而当用户在使用Web搜索引擎的时候,用户常常 在找到一个好的页面后就不再继续察看排序列表 其他结果。
只找出一个相关的文档的高准确率就是信息检索 系统的一个重要任务
信息检索实验室
27
RR排序倒数和MRR平均排序倒数
RR(Reciprocal Ranking)是第一个相关文档出现位置的 倒数
经常用于评价只找到一个相关文档的情况, RR值具体为1/r,其中r为第一个相关文档在结果中排序数 如果检索结果中没有相关文档,那么RR值为0。
R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
6. d9 • 7. d511 8. d129 9. d187 10. d25 •
2. 1. d123 2. d84
3. 56 •
R=10 and # relevant=4 R-precision=4/10=0.4
其中D2、D5 和D7是相关文档,D3 和D4为未 经判断的文档。
对这个例子来说,
R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
信息检索实验室
26
单一相关文档检索的评价
对于搜索引擎系统来讲,由于没有一个搜索引擎 系统能够保证搜集到所有的网页,所以召回率很 难计算,因而准确率成为目前的搜索引擎系统主 要关心的指标。
RPA/B=0:对于第i个查询,两个算法有相同的性能 RPA/B>0:对于第i个查询,算法A有较好的性能 RPA/B<0:对于第i个查询,算法B有较好的性能
信息检索实验室
21
单值概括(3-1)
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10 -0.5
-1.0
2
-1.5
信息检索实验室
Query Number
22
单值概括(4)
概括统计表
查询数 检出的所有文献数量 相关文献数 应检出的相关文献数 ……
信息检索实验室
23
评价指标的不足
前面提到的一些评价指标,如R-准确率, MAP,P@10等,都只考虑经过pooling技术 之后判断的相关文档的排序
对判断不相关文档与未经判断的文档的差 别并没有考虑
F( j) 1
1 b2 b2 1
r( j) p( j)
F
(b2 1) P b2 P R
R
信息检索实验室
检索系统的目标就在于检出相关文档而排 除不相关文档
信息检索实验室
4
相关性
相关性是一种主观评价
是不是正确的主题
输入:“和服”;输出:“···咨询和服务···” 由于分词错误,导致检索结果偏离主题
是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息
输入:“美国总统是谁”;输出:“克林顿” 信息已经过时
然而RR评价是基于2元相关判断基础上的,因此RR与 MRR都不能区分一个高相关性的文档与低相关性文档 之间的区别。
信息检索实验室
其它测度方法
调和平均值
F( j)
1
2
1
r( j) p( j)
R(j): the recall for the j-th document in the ranking
检索出的 文本
相关 不相关
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)=检出的相关文档数/相关文档数
准确率(Precision)=检出的相关文档数/检出文档数
假设:文本集中所有文献已进行了检查
信息检索实验室
11
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
(33.3%,33.3%) (25%,66.6%)
(20%,100%)
F(3)
2 11
0.33 F(8)
1
2
1
0.36 F(15)
1 2 1 0.33
0.33 0.33
0.25 0.67
0.20 1
信息检索实验室
31
其他测度方法 (cont.)
E指标
允许用户根据需要调整精确率和召回率的比例
信息检索的评价
哈工大计算机学院 信息检索研究室
2007
信息检索实验室
1
评价
评价一般是指评估某个系统的性能、某种 产品的质量、某项技术的价值,或者是某 项政策的效果等等
信息检索评价则是指对信息检索系统的性 能(主要是其满足用户信息需求的能力) 进行评估的活动
从信息检索系统诞生以来,对检索系统的 评价就一直是推动其研究、开发与应用的 一种主要力量
1
理想情况
召回率
0
准确率
信息检索实验室
1
返回最相关的文本
但是漏掉了很多
相关文本
12
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
1. d123 •
信息检索实验室
15
多个查询下进行检索算法的比较
对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。
第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
6. d9 • 11. d38
2. d84
7. d511 12. d48
3. d56 •
8. d129 13. d250
4. d6
9. d187 14. d113
5. d8
(66%,20%)
10. d25 • 15. d3 •
(50%,30%) (40%,40%) (33%,50%)
信息检索实验室
13
信息检索实验室
2
信息检索的评价
针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和
空间因素之外,要求检索结果能够按照相关度
进行排序
信息检索实验室
3
相关度
相关度理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P(r) Nq Pi (r)
N i1
q
•Nq: the number of queries used
•Pi(r): the precision at recall level r for the i-th query
随着测试集规模的扩大以及人们对评测结 果理解的深入,更准确反映系统性能的新 评价指标逐渐出现
单值概括
信息检索实验室
单值概括(1)
已检出的相关文献的平均准确率
逐个考察检出新的相关文献,将准确率平均
Example
1. d123 •(1) 6. d9 •(0.5)
2. d84
7. d511
3. d56 •(0.66) 8. d129
“pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
由检索评价专家进行人工判断,最终评判出每一 文档的相关性
信息检索实验室
10
准确率和召回率
全部文本集合 相关文本
一个查询的11个标准查准率
11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p r
120
e 100
c 80
interpolation
i 60
s i
40
o 20
n
0 20 40 60
80 100 120
信息检索实验室
14
平均准确率
上述准确率召回率的值对应一个查询
每个查询对应不同的准确/召回率曲线
信息检索实验室
R=3 and # relevant=1 R-precision=1/3=0.33
20
单值概括(3)
准确率直方图
多个查询的R-Precision测度 用来比较两个算法的检索纪录
RPA/ B (i) RPA (i) RPB (i) whereRPA(i) and RPB (i) are R precision values of retrieval algorithms A and B for the i th query
20
40
60
80
100
120
Recall
信息检索实验室
适应性
合理估计需要了解集合的所有文献 这两个指标相互关联,评价不同方面,
结合在一起形成单个测度更合适 测的是批处理模式下查询集合性能,对
现代信息检索系统,交互式是重要特征, 对量化检索过程的性指标可能会更合适
信息检索实验室
17
新的评价指标
4. d6
9. d187
11. d38 12. d48 13. d250 14. d113
5. d8
10. d25 • (0.4) 15. d3 • (0.3)
(1+0.66+0.5+0.4+0.3)/5=0.57
信息检索实验室
19
单值概括(2)
R-Precision
计算序列中前R个位置文献的准确率
信息检索实验室
28
MRR( Mean Reciprocal Ranking )平均排序倒数
MRR是在RR的基础上对多个查询的RR结果取平均值。 即对一个检索系统输入多个查询,分别得到每个查询的 排序倒数,取平均即为MRR。计算公式如下:
n 1
MRR q1 rankq n
例如MRR=0.25就意味着检索系统平均在返回结果的第 四个位置找到相关文档。
相关文档
最新文档