第三章信息检索系统的评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
尼亚,2小时4分55秒
信息组织、存储与检索
为什么要对IR进行评价?
信息检索评价则是指对信息检索系统的性能 (主要是其满足用户信息需求的能力)进行 评估的活动;
从信息检索系统诞生以来,对检索系统的评 价就一直是推动其研究、开发与应用的一种 主要力量;
信息组织、存储与检索
IR的评价指标
针对一个检索系统,可以从功能和性能两个 方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
信息组织、存储与检索
性能评价指标
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C;
系统将从该集合中按照查询要求检出相关文档。
一组用户查询要求{q1, q2, …, qn};
每个查询要求qi描述了用户的信息需求。
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn};
该集合可由人工方式构造。
一组评价指标;
这些指标反映系统的检索性能。通过比较系统实际检出的结 果文档集和标准的相关文档集,对它们的相似性进行量化, 得到这些指标值。
信息组织、存储与检索
第三章 信息检索系统的评价
信息组织、存储与检索
评价
评价一般是指评估某个系统的性能、某种产 品的质量、某项技术的价值,或者是某项政 策的效果等等;
竞技体育:世界记录 vs. 世界最好成绩
110米栏世界记录:梅里特,美国,12’’80 男子马拉松世界最好成绩:保罗·特尔加特,肯
整个文档集合C
Ra
检索出的 相关文档
检索出的不相 关文档
信息组织、存储与检索
四种关系的表示
检出不相 关文档
检出 相关 文档
相关文本
未检出相 关文档
检出文档 相关文档
相关
不相关
检出且 不相关
未检出且 不相关
检出且 相关
检出
未检出且 相关
未检出
信息组织、存储与检索
准确率和召回率
正确率(Precision): 检出的相关文档数与检出 文档数的比值,也称为查准率;
信息组织、存储与检索
单值评价方法
R准确率(R-Precision)
单个查询的R准确率是检索出R篇相关文档时 的准确率;
查询集合中所有查询的R准确率是每个查询的 R准确率的平均值。
R-Precision= 前R篇文档中相关文档数
R
信息组织、存储与检索
计算R准确率举例
假设有两个查询,第1个查询有50个相关文 档,第2个查询有10个相关文档。某个系统 对于第1个查询返回的前50个结果中有17个 是相关的,对于第2个查询返回的前10个结 果中有7个事相关的。分别计算查询1、查询 2和查询集合的R准确率。
信息组织、存储与检索
准确率/召回率曲线
准确率 1 0.8 0.6 0.4 0.2
0 0.2 0.4 0.6 0.8 1
召回率
信息组织、存储与检索
11点标准召回率
准确率 Biblioteka Baidu 0.8 0.6 0.4 0.2
计算召回率分别为0、10%、 20%…, 100%下的准确率
召回率
0 0.2 0.4 0.6 0.8 1
求检索的准确率和召回率。
10
信息组织、存储与检索
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
11
信息组织、存储与检索
准确率/召回率曲线
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
信息组织、存储与检索
平均准确率
上述准确率召回率的值对应一个查询
每个查询对应不同的准确/召回率曲线
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P(r) Nq Pi (r)
N i1
q
•Nq: 是使用的查询总数 •Pi(r):是召回率为r时的第i个查询的准 确率
信息组织、存储与检索
评价任务示例
系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
12 3 4 … d3 d6 d8 d10 d1 d4 d7 d11 d6 d7 d3 d9 d1 d2 d4 d13
信息组织、存储与检索
整个文档集合的划分
未检索出的 不相关文档
未检索出的 相关文档
Ra P
A
召回率(Recall): 系统检出的相关文档数与实 际相关文档数目的比值,也称为查全率。
Ra R
R
信息组织、存储与检索
示例
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 而针对q的检出相关文档集合为: Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}
信息组织、存储与检索
单值评价方法
已检出相关文档的平均准确率均值(MAP)
逐个考察检出新的相关文献,将准确率平均
1 r
i
MAP
r 第i个相关文档的位置 i 1
r为相关文档数。
信息组织、存储与检索
计算MAP举例
假设有两个查询,查询1有4个相关文档,查 询2有5个相关文档。某系统对于查询1检索 出4个相关文档,其排序分别为1,2,4,7;对 于查询2检索出3个相关文档,其排序分别为 1,3,5。计算MAP的值。
信息组织、存储与检索
单值评价方法
准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录
RPAB (i) RPA (i) RPB (i)
信息组织、存储与检索
单值评价方法
P@10 P@10是系统对于查询返回的前10个结果的
准确率。
例:检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
P@10=30%(共有10篇检出文档,其中3篇为相 关文档)
信息组织、存储与检索
为什么要对IR进行评价?
信息检索评价则是指对信息检索系统的性能 (主要是其满足用户信息需求的能力)进行 评估的活动;
从信息检索系统诞生以来,对检索系统的评 价就一直是推动其研究、开发与应用的一种 主要力量;
信息组织、存储与检索
IR的评价指标
针对一个检索系统,可以从功能和性能两个 方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
信息组织、存储与检索
性能评价指标
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C;
系统将从该集合中按照查询要求检出相关文档。
一组用户查询要求{q1, q2, …, qn};
每个查询要求qi描述了用户的信息需求。
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn};
该集合可由人工方式构造。
一组评价指标;
这些指标反映系统的检索性能。通过比较系统实际检出的结 果文档集和标准的相关文档集,对它们的相似性进行量化, 得到这些指标值。
信息组织、存储与检索
第三章 信息检索系统的评价
信息组织、存储与检索
评价
评价一般是指评估某个系统的性能、某种产 品的质量、某项技术的价值,或者是某项政 策的效果等等;
竞技体育:世界记录 vs. 世界最好成绩
110米栏世界记录:梅里特,美国,12’’80 男子马拉松世界最好成绩:保罗·特尔加特,肯
整个文档集合C
Ra
检索出的 相关文档
检索出的不相 关文档
信息组织、存储与检索
四种关系的表示
检出不相 关文档
检出 相关 文档
相关文本
未检出相 关文档
检出文档 相关文档
相关
不相关
检出且 不相关
未检出且 不相关
检出且 相关
检出
未检出且 相关
未检出
信息组织、存储与检索
准确率和召回率
正确率(Precision): 检出的相关文档数与检出 文档数的比值,也称为查准率;
信息组织、存储与检索
单值评价方法
R准确率(R-Precision)
单个查询的R准确率是检索出R篇相关文档时 的准确率;
查询集合中所有查询的R准确率是每个查询的 R准确率的平均值。
R-Precision= 前R篇文档中相关文档数
R
信息组织、存储与检索
计算R准确率举例
假设有两个查询,第1个查询有50个相关文 档,第2个查询有10个相关文档。某个系统 对于第1个查询返回的前50个结果中有17个 是相关的,对于第2个查询返回的前10个结 果中有7个事相关的。分别计算查询1、查询 2和查询集合的R准确率。
信息组织、存储与检索
准确率/召回率曲线
准确率 1 0.8 0.6 0.4 0.2
0 0.2 0.4 0.6 0.8 1
召回率
信息组织、存储与检索
11点标准召回率
准确率 Biblioteka Baidu 0.8 0.6 0.4 0.2
计算召回率分别为0、10%、 20%…, 100%下的准确率
召回率
0 0.2 0.4 0.6 0.8 1
求检索的准确率和召回率。
10
信息组织、存储与检索
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
11
信息组织、存储与检索
准确率/召回率曲线
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
信息组织、存储与检索
平均准确率
上述准确率召回率的值对应一个查询
每个查询对应不同的准确/召回率曲线
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P(r) Nq Pi (r)
N i1
q
•Nq: 是使用的查询总数 •Pi(r):是召回率为r时的第i个查询的准 确率
信息组织、存储与检索
评价任务示例
系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
12 3 4 … d3 d6 d8 d10 d1 d4 d7 d11 d6 d7 d3 d9 d1 d2 d4 d13
信息组织、存储与检索
整个文档集合的划分
未检索出的 不相关文档
未检索出的 相关文档
Ra P
A
召回率(Recall): 系统检出的相关文档数与实 际相关文档数目的比值,也称为查全率。
Ra R
R
信息组织、存储与检索
示例
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 而针对q的检出相关文档集合为: Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}
信息组织、存储与检索
单值评价方法
已检出相关文档的平均准确率均值(MAP)
逐个考察检出新的相关文献,将准确率平均
1 r
i
MAP
r 第i个相关文档的位置 i 1
r为相关文档数。
信息组织、存储与检索
计算MAP举例
假设有两个查询,查询1有4个相关文档,查 询2有5个相关文档。某系统对于查询1检索 出4个相关文档,其排序分别为1,2,4,7;对 于查询2检索出3个相关文档,其排序分别为 1,3,5。计算MAP的值。
信息组织、存储与检索
单值评价方法
准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录
RPAB (i) RPA (i) RPB (i)
信息组织、存储与检索
单值评价方法
P@10 P@10是系统对于查询返回的前10个结果的
准确率。
例:检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
P@10=30%(共有10篇检出文档,其中3篇为相 关文档)