信息检索的评价

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

❖ 针对一个检索系统,可以从功能和性能两个 方面对其进行分析评价
❖ 功能评价
可通过测试系统来判定是否支持某项功能,因此 相对来说较容易
❖ 性能评价
对于检索系统的性能来说,除了系统的时间和空
间因素之外,要求检索结果能够按照相关度进行
排序
2
相关度
❖ 相关度理论假定:对于一个给定的文档集合 和一个用户查询,存在并且只存在一个与该 查询相关的文档集合
权威性,是否来自可靠的信息源
4
评价IR系统的困难
❖ 相关性不是二值评价,而是一个连续的量 ❖ 即使进行二值评价,很多时候也很难 ❖ 从人的立场上看,相关性是:
主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化
5
检索的评价
❖ 检索性能的评价
❖ 检索系统的目标就在于检出相关文档而排除 不相关文档
3
相关性
❖ 相关性是一种主观评价
是不是正确的主题
❖ 输入:“和服”;输出:“···咨询和服务···” ❖ 由于分词错误,导致检索结果偏离主题
是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息
❖ 输入:“美国总统是谁”;输出:“克林顿” ❖ 信息已经过时
评价
❖ 评价一般是指评估某个系统的性能、某种产 品的质量、某项技术的价值,或者是某项政 策的效果等等
❖ 信息检索评价则是指对信息检索系统的性能 (主要是其满足用户信息需求的能力)进行 评估的活动
❖ 从信息检索系统诞生以来,对检索系统的评 价就一直是推动其研究、开发与应用的一种 主要力量
1
信息检索的评价
检索结果的准确度
❖ 检索任务
批处理查询 交互式查询
❖ 实验室环境下主要是批处理查询,具有良好 的可重复性和可扩展性
6
在评价和比较检索系统的检索性能需要以 下条件:
❖ 一个文档集合C。系统将从该集合中按照查询要求检出相关 文档
❖ 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求
p r
120
e 100
c 80
interpolation
i 60
s i
40
o 20
n
0 20 40 60
80 100 120
13
平均准确率
❖ 上述准确率召回率的值对应一个查询
❖ 每个查询对应不同的准确/召回率曲线
❖ 为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)=检出的相关文档数/相关文档数 准确率(Precision)=检出的相关文档数/检出文档数 假设:文本集中所有文献已进行了检查
10
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
3. d56 •
8. d129 13. d250
4. d6
9. d187 14. d113
5. d8
10. d25 • 15. d3 •
(66%,20%)
(50%,30%) (40%,40%) (33%,50%)
12
一个查询的11个标准查准率
❖ 11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
相关文本
11
❖ Example
举例
Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
❖ 通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
1. d123 •
6. d9 • 11. d38
2. d84
7. d511 12. d48
现代信息检索系统,交互式是重要特征, 对量化检索过程的性指标可能会更合适
16
新的评价指标
❖ 随着测试集规模的扩大以及人们对评测结 果理解的深入,更准确反映系统性能的新 评价指标逐渐出现
❖ 单值概括
单值概括(1)
❖ 已检出的相关文献的平均准确率
逐个考察检出新的相关文献,将准确率平均
Example
1. d123 •(1) 6. d9 •(0.5) 11. d38
❖ 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于 检索问题所来自的测试文档集合,并采用一 种“pooling”的技术来完成。
8
“pooling”方法有以下两个假设
❖ 假设绝大多数的相关文档都收录在这个文档池中 ❖ 没有进行判断的文档即未被认为是不相关的 ❖ “pooling”技术的具体操作方法是:针对某一检索
问题,所有参与其检索试验的系统分别给出各自检 索结果中的前K个文档(例如K=100),将这些结 果文档汇集起来,得到一个可能相关的文档池 “pool” ❖ 由检索评价专家进行人工判断,最终评判出每一文 档的相关性
9
准确率和召回率
全部文本集合 相关文本
检索出的 文本
相关 不相关
检出且 不相关
检出且 相关
❖ 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。 该集合可由人工方式构造
❖ 一组评价指标。这些指标反映系统的检索性能。通过比较系 统实际检出的结果文档集和标准的相关文档集,对它们的相 似性进行量化,得到这些指标值
7
相关性判断
❖ 在早期的检索实验集合中, 相关性判断是全方 位的,就是说, 由专家事先对集合中每一篇文 献与每一个主题的相关性做出判断。
第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
20
40
60
80
100
120
Reca百度文库l
适应性
❖ 合理估计需要了解集合的所有文献 ❖ 这两个指标相互关联,评价不同方面,
结合在一起形成单个测度更合适 ❖ 测的是批处理模式下查询集合性能,对
P(r) Nq Pi (r)
N i1
q
•Nq: the number of queries used
•Pi(r): the precision at recall level r for the i-th query
14
多个查询下进行检索算法的比较
❖ 对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 ❖ 如下为两个检索算法在多个查询下的查准率/查全率的值。
相关文档
最新文档