检索效果的评价指标.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索效果的评价指标
克兰弗登( Cranfield)在分析用户基本要求的基础上,提出了 6 项检索系统
性能的评价指标,它们是收录范围、查全率、查准率、响应时间、用户负担和
输出形式。
( 1)查全率
查全率 (recall factor)是指检出的相关文献量与检索系统中相关文献总量
的百分比,是衡量信息检索系统检出相关文献能力的尺度,可用下式表示:
查全率 =检出的相关文献总量 / 系统中的相关文献总量×100% 即 R=b/a * 100%
设 R 为查全率, P 查准率, M 表示漏检率、 N 表示误检率, m 为检出文献总量, a 为检索系统中的相关文献总量, b 为检出的相关文献总量。
例如,要利用某个检索系统查某课题。假设在该系统数据库中共有相关
文献为 40 篇,而只检索出来 30 篇,那么查全率就等于 75%。
( 2)查准率
查准率 (Pertinency factor)是指检出的相关文献量与检出文献总量的百
分比,是衡量信息检索系统精确度的尺度,可用下式表示:
查准率 =检出的相关文献总量 / 检出文献总量×100%
即 P=b/m*100%
例如,如果检出的文献总篇数为 50 篇,经审查确定其中与课题相关的文
献只有 40 篇,另外 10 篇与该课题无关。那么,这次检索的查准率就等于80%。
检索效果 2
检索系统的响应时间是指从发出检索提问到获得检索结果平均消耗的时
间。主要包括:
① 用户请求到服务器的传送时间;② 服务器处理请求的时间;② 服务器的答复到用户端的传送时间;④用户端计算机处理服务器传来信息的时间。
提高检索效果的措施
1."提高用户信息素质
2."选择好的检索工具和系统
3."优选检索词
4."合理调整查全率和查准率
不同的检索课题对文献信息的需求不同,用户应根据课题的需要,适当调
整查全率和查准率,优化检索策略,以达到最佳检索效果。
(1)提高查全率
提高查全率时,调整检索式的主要方法有:
① 降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。
②减少 AND 组配,如删除某个不甚重要的概念组面(检索词)。
③多用 OR组配,如选同义词、近义词等并以“ OR方”式加入到检索式中。
④ 族性检索,如采用分类号检索。
⑤ 截词检索。
⑥ 放宽限制运算,如取消字段限制符,调松位置算符等。
(2)提高查准率
提高查准率时,调整检索式的主要方法有:
① 提高检索词的专指度,增加或采用下位词和专指性较强的检索词。
②增加 AND 组配,用 AND 连接一些进—步限定主题概念的相关检索项。
③减少 OR组配。
④用逻辑非 NOT来排除一些无关的检索项。
⑤ 加权检索。
⑥ 利用文献的外表特征进行限制,如限制文献类型、出版年代、语种、作者等。
⑦ 限制检索词出现的可检字段,如限定在篇名字段和叙词字段中进行检索。
⑧ 使用位置算符进行限制。