信息检索评价指标1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于召回率和正确率的讨论( 关于召回率和正确率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 和 都很重要, 虽然 都很重要 不用的用户可能会对两者的要求不一样。因此, 用、不用的用户可能会对两者的要求不一样。因此, 实际应用中应该考虑这点。 实际应用中应该考虑这点。
垃圾邮件过滤:宁愿漏掉一些垃圾邮件, 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是 尽量少将正常邮件判定成垃圾邮件。 尽量少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点, 有些用户希望返回结果准一点,他不需要结果很全就能 完成任务。 完成任务。
相关
检出 召回率(Recall)=检出的相关文档数/相关文档数,也称为查 查 召回率 全率,R∈[0,1] 全率 准确率(Precision)=检出的相关文档数/检出文档数,也称 准确率 为查准率 查准率,P∈[0,1] 查准率 假设:文本集中所有文献已进行了检查
9
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d 123} 通过某一个检索算法得到的排序结果: (100%,10%) (precision, recall) 1. d123 • 6. d9 • 2. d84 7. d511 3. d56 • 8. d129 4. d6 9. d187 (50%,30%) (66%,20%) d8 5. 10.(40%,40%) d25 •
6
如何评价效果
相同的文档集合,相同的查询主题集合, 相同的文档集合,相同的查询主题集合,相同的评 价指标,不同的检索系统进行比较。 价指标,不同的检索系统进行比较。
The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合 上百篇文档集合) 上百篇文档集合 SMART System,Gerald Salton, 1964-1988 (数千篇文档 数千篇文档 集合) 集合 TREC(Text Retrieval Conference), Donna Harman, 美 国标准技术研究所, 1992 -(上百万篇文档 ,信息检索的 国标准技术研究所 上百万篇文档), 上百万篇文档 奥运会” “奥运会”
一个文档集合 。 一个文档集合C。系统将从该集合中按照查询要求检出相关文档 文档集合 一组用户查询要求 查询要求{q 一组用户查询要求 1, q2, …, qn}。每个查询要求 i描述了用户的信 。每个查询要求q 息需求 对应每个用户查询要求的标准相关文档集 相关文档集{R 对应每个用户查询要求的标准相关文档集 1, R2,…, Rn}。该集合可由 。 人工方式构造 一组评价指标 这些指标反映系统的检索性能。 评价指标。 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检 出的结果文档集和标准的相关文档集,对它们的相似性进行量化, 出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得 到这些指标值
IR评价研究的内容 评价研究的内容
效率(Efficiency)—可以采用通常的评价方法 可以采用通常的评价方法 效率
时间开销 空间开销 响应速度
效果(Effective所有相关文档中返回了多少 返回得靠不靠前 覆盖率(Coverage) 覆盖率 访问量 数据更新速度
P-R曲线的例子
某个查询q的标准答案集合为: 个查询 的标准答案集合为: Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} 系统对q的检索结果如下: 某个IR系统对 的检索结果如下: 系统对
1. d123 R=0.1,P=1 , 6. d9 R=0.3,P=0.5 , 7. d511 8. d129 9. d187 11. d38 12. d48 13. d250 14. d113
Break Point:P-R曲线上 曲线上P=R的那个点 : 曲线上 的那个点 这样可以直接进行单值比较
11点平均正确率 点平均正确率(11 point average precision):在 点平均正确率 : 召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率 召回率分别为 的十一个点上的正确率 求平均,等价于插值的AP 求平均,等价于插值的
信息检索的评价指标
信息检索的评价指标体系
评价IR的意义 评价IR的意义 IR IR评价研究的内容和程序 评价研究的内容和程序 如何评价效果 评价指标分类
单个查询的评价指标 多个查询的评价指标
评价IR的意义 评价IR的意义 IR
信息检索评价是对信息检索系统性能( 信息检索评价是对信息检索系统性能(主要满足用 性能 户信息需求的能力)进行评估的活动。 户信息需求的能力)进行评估的活动。 通过评估可以评价不同技术的优劣,不同因素对系 通过评估可以评价不同技术的优劣, 评估可以评价不同技术的优劣 统的影响 从而促进本领域研究水平的不断提高。 影响, 统的影响,从而促进本领域研究水平的不断提高。 信息检索系统的目标是较少消耗情况下尽快 较少消耗情况下尽快、 信息检索系统的目标是较少消耗情况下尽快、全面 返回准确的结果。 准确的结果 返回准确的结果。
P-R曲线的优缺点
优点: 优点: 简单直观 既考虑了检索结果的覆盖度, 既考虑了检索结果的覆盖度,又考虑了 检索结果的排序情况 缺点: 缺点: 单个查询的P 曲线虽然直观, 单个查询的P-R曲线虽然直观,但是难以 明确表示两个查询的检索结果的优劣
单个查询评价指标(6) 单个查询评价指标(6) —P-R曲线的单一指标 P
单个查询评价指标(3) P 单个查询评价指标(3)—P和R融合 (3)
F值:召回率R和正确率 的调和平均值,if P=0 or 值 召回率 和正确率 的调和平均值, 和正确率P的调和平均值 R=0, then F=0, else 采用下式计算: 采用下式计算:
F( j) = 2
1 1 + R( j) P( j)
(20%,100%)
= 0.36 F (15) = 2 1 1 + 0.20 1 = 0.33
14
单个查询评价指标(4) 单个查询评价指标(4) —引入序的作用 引入序的作用
R-Precision
计算序列中前R 计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8 6. d9 • 7. d511 8. d129 9. d187 10. d25 • 2. 1. 2. 3. d123 d84 56 •
2. d84 3. d56 R=0.2, , P=0.67 4. d6 5. d8
10. d25 R=0.4,P=0.4 15. d3 R=0.5, , , P=0.33
P-R曲线的例子
P-R曲线的插值问题
对于前面的例子,假设 对于前面的例子,假设Rq={d3,d56,d129}
3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
评价指标分类
对单个查询进行评估的指标
对单个查询得到一个结果
对多个查询进行评估的指标( 对多个查询进行评估的指标(通常用于对 系统的评价) 系统的评价)
求平均
单个查询的评价指标( 单个查询的评价指标(1) 评价指标
全部文本集合 检索出的 相关文本 文本
不相关
检出且 不相关
检出且 相关
未检出且 不相关 未检出且 相关 未检出
检索结果以排序方式排列, 检索结果以排序方式排列,用户不可能马 上看到全部文档,因此,在用户观察的过程中, 上看到全部文档,因此,在用户观察的过程中, 正确率和召回率在不断变化(vary)。 正确率和召回率在不断变化 。 可以求出在召回率分别为 可以求出在召回率分别为: 0%,10%,20%,30%,…, 90%,100%上对应的正确 上对应的正确 然后描出图像。 率,然后描出图像。
R=10 and # relevant=4 R-precision=4/10=0.4
R=3 and # relevant=1 R-precision=1/3=0.33
15
单个查询评价指标(5) —引入序的作用
正确率-召回率曲线 正确率 召回率曲线(precision versus recall 召回率曲线 curve)
P-R曲线中的Breakpoint 曲线中的Breakpoint
Breakpoint
单个查询评价指标(7) 单个查询评价指标(7) —引入序的作用 引入序的作用
平均正确率(Average Precision, AP):对不同召回 平均正确率 : 率点上的正确率进行平均
未插值的AP: 某个查询 共有 个相关结果,某系统排 某个查询Q共有 个相关结果, 共有6个相关结果 未插值的 序返回了5篇相关文档 其位置分别是第1, , 篇相关文档, 序返回了 篇相关文档,其位置分别是第 ,第2,第5, , 第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6 , 位 插值的AP:在召回率分别为 在召回率分别为0,0.1,0.2,…,1.0的十一个点 插值的 在召回率分别为 的十一个点 上的正确率求平均,等价于11点平均 上的正确率求平均,等价于 点平均 只对返回的相关文档进行计算的AP, 只对返回的相关文档进行计算的 AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果 , 的系统, 的系统,没有考虑召回率
IR评价研究的程序 评价研究的程序
一项完整的检索评价工作可分为以下5个步骤 一项完整的检索评价工作可分为以下 个步骤: 个步骤
(1)确定评价范围和目标 ) (2)选择评价方式 ) (3)设计或者制定评价方案 ) (4)实施评价方案 ) (5)总结与评价结论的形成 )
在评价和比较检索系统的检索性能需要以下条件: 在评价和比较检索系统的检索性能需要以下条件:
(33.3%,33.3%)
F (3) = 2 1 1 + 0.33 0.33
6. d9 7. d511 8. d129 • 9. d187 10. d25
(25%,66.6%)
= 0.33 F (8) = 2 1 1 + 0.25 0.67
11. d38 12. d48 13. d250 14. d113 15. d3 •
11. d38 12. d48 13. d250 14. d113 (33%,50%) 15. d3 •
10
关于召回率的计算
对于大规模语料集合, 对于大规模语料集合,列举每个查询的所有相关 文档是不可能的事情,因此, 文档是不可能的事情,因此,不可能准确地计算召 回率 缓冲池(Pooling)方法:对多个检索系统的Top N 方法:对多个检索系统的 缓冲池 方法 个结果组成的集合进行标注, 个结果组成的集合进行标注,标注出的相关文档集 合作为整个相关文档集合。 合作为整个相关文档集合。这种做法被验证是可行 会议中被广泛采用。 的,在TREC会议中被广泛采用。 会议中被广泛采用
不存在10%, 20%,…,90%的召回率点,而只 的召回率点, 不存在 的召回率点 存在33.3%, 66.7%, 100%三个召回率点 存在 三个召回率点 在这种情况下, 在这种情况下,需要利用存在的召回率点对 不存在的召回率点进行插值(interpolate) 不存在的召回率点进行插值 对于t%,如果不存在该召回率点, 对于 ,如果不存在该召回率点,则定义 t%为从 到(t+10)%中最大的正确率值。 为从t%到 中最大的正确率值。 为从 中最大的正确率值 对于上例, 对于上例,0%,10%,20%,30%上正确率为 上正确率为 0.33,40%~60%对应 对应0.25,70%以上对应 以上对应0.2 , 对应 , 以上对应
(P ≠ 0, R ≠ 0)
E值:召回率R和正确率 的加权平均值,b>1表示 值 召回率 和正确率 的加权平均值, 和正确率P的加权平均值 表示 更重视P 更重视 1+b E( j) =1− (P ≠ 0, R ≠ 0) b + 1
2 2
R( j)
P( j)
Example
1. d123 2. d84 3. d56 • 4. d6 5. d8