信息检索系统的评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 信息检索系统评价
11.2 评价指标
一、评价指标体系
要评价一个检索系统,必须有一套科学的评价标准。 要评价一个检索系统,必须有一套科学的评价标准。 建立检索系统评价指标体系应遵循的原则: 建立检索系统评价指标体系应遵循的原则: 各指标应定义单一、明确,具有可操作性。 各指标应定义单一、明确,具有可操作性。 评价指标最好能够量化或计量。 评价指标最好能够量化或计量。 指标要完善、细致、全面。 指标要完善、细致、全面。 下面给出传统检索系统评价指标体系模型:(供参考) 下面给出传统检索系统评价指标体系模型:(供参考) :(供参考
①文献库编制质量 文献收集是否齐全,索引体系是否完善,检索途径的多少, 文献收集是否齐全,索引体系是否完善,检索途径的多少, 都会影响到查全率。 都会影响到查全率。 ②对情报需求的理解 要达到较高的查全率R和查准率P,应较好地理解情报需 要达到较高的查全率R P,应较好地理解情报需 制定好检索策略。 求,制定好检索策略。
15 R = = 75 % 20
15 P= = 50 % 30
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
为便于分析,我们给出数学语言描述: 为便于分析,我们给出数学语言描述:设某文献库所存储的文献总 量为L。对某一给定提问, 量为 。对某一给定提问, a—表示被检出的与提问相关的文献数;(前例 a=15) a—表示被检出的与提问相关的文献数;(前例 a=15) 表示被检出的与提问相关的文献数;( b—表示被检出的与提问无关的文献数;(误检,前例 b=15) 表示被检出的与提问无关的文献数;(误检, 表示被检出的与提问无关的文献数;(误检 ) c—表示与提问相关,但未被检出的文献数(漏检,前例 c=5) 表示与提问相关, 表示与提问相关 但未被检出的文献数(漏检, )
第十一章 信息检索系统评价
11.1 评价研究概述
二、评价范围与类型
评价类型: 评价类型: 类型
• 效益评价 效益评价(benefits evaluation):测定系统或用户获得的的 测定系统或用户获得的的 经济效益和社会效益。 有直接的、潜在的;难以直接计量) 经济效益和社会效益。 (有直接的、潜在的;难以直接计量)
提 问
1 试解释信息检索系统的内涵。 试解释信息检索系统的内涵 信息检索系统的内涵。 什么是”评价” 2 什么是”评价”?
第十一章 信息检索系统评价
11.1 评价研究概述 一、意义
评价(Evaluation):发现和收集关于某种活动的数据, 评价 发现和收集关于某种活动的数据, 发现和收集关于某种活动的数据 从中判断该项活动的质量及达到预期目标程度的行为。 从中判断该项活动的质量及达到预期目标程度的行为。 简单地说,评价就是对系统的价值和效率进行测评。 简单地说,评价就是对系统的价值和效率进行测评。 信息检索系统评价:根据给定的 信息检索系统评价:根据给定的指标体系,采用一定的 ,采用一定的方 法和程序,对信息检索系统的 ,对信息检索系统的功能、特性和运营状况进行 和 进行 评测,或对有关假设、预期效益、性能值进行验证 验证, 评测,或对有关假设、预期效益、性能值进行验证,以确 定系统达到了何种水平、投入成本是否值得、 定系统达到了何种水平、投入成本是否值得、是否可以改 进和如何改进,乃至系统是否应生存下去。 进和如何 ,乃至系统是否应生存下去。
查全率(Recall ratio R): 查全率(Recall ratio,R):衡量一次检索中与提问相关的 文献有多少篇被检出。 衡量检出相关文献的能力) 文献有多少篇被检出。(衡量检出相关文献的能力)
检出的相关文献量 R= 数据库中的相关文献总 量
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
逐一评价这些指标,可以判定检索系统的优劣。 其中, 逐一评价这些指标,可以判定检索系统的优劣。 其中,比较重要的 是检索性能指标。 是检索性能指标。
11.2 评价指标 问 题:
什么是查全率、查准率? 什么是查全率、查准率?
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
1.查全率和查准率 .
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
(1)查全率和查准率的相互关系 的关系可由下图描述:(称为R P :(称为 R与P的关系可由下图描述:(称为R—P图)
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
1.查全率和查准率 .
(2)影响查全率、查准率的相关因素 影响查全率、
第十一章 信息检索系统评价
11.1 评价研究概述 一、意义
信息检索系统的评价研究,一直是信息检索领域的一项 重要研究内容。多年来人们进行了大量的评价试验和多角度 。 的探索。 的探索。 原因在于, 原因在于,检索系统评价工作在为研究者验证检索系统 效益、比较各种检索技术的优劣、改进现有检索系统、 效益、比较各种检索技术的优劣、改进现有检索系统、开发 新的应用领域等方面,都具有不可替代的作用。 新的应用领域等方面,都具有不可替代的作用。
• 宏观评价:着眼于检索系统的宏观方面,如情报源类型、系统 宏观评价:着眼于检索系统的宏观方面,如情报源类型、
结构、收录范围、利用率等。 结构、收录范围、利用率等。 • 个别评价:仅对系统的某一性能、功能进行评价。 个别评价:仅对系统的某一性能、功能进行评价。 • 性能评价 性能评价(performance evaluation):面向用户的评价,测定检 :面向用户的评价, 索系统的质量或服务效果。也称为检索效果评价(effectiveness 索系统的质量或服务效果。也称为检索效果评价 evaluation)。
⑥ 检索策略和提问构造
对检索词的选取,需恰当地确定网罗度和专指度。 对检索词的选取,需恰当地确定网罗度和专指度。 当采用布尔组配时,若使用AND较多,即限制严,则R下降,而P 较多, 下降, 当采用布尔组配时,若使用 较多 即限制严, 上升;反之,若使用OR较多 较多, 上升, 下降。 上升;反之,若使用 较多,则R上升,而P下降。
a a 查准率 p = 查全率 R = a+b a+c c b 漏检率Q = 误检率 E = a+c a+b 显然,Q=1 ,E=1 显然,Q=1-R,E=1-p
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
1.查全率和查准率 .
下面讨论与查全率、查准率有关的几个问题。 下面讨论与查全率、查准率有关的几个问题。 (1)查全率和查准率的相互关系 一个理想的检索系统,应是R= 、P=1 R=1 一个理想的检索系统,应是R=1、P=1。 但实际上是不可能的。 但实际上是不可能的。 一般说来,二者之间存在着反变关系, 一般说来,二者之间存在着反变关系,即: 反变关系 若要提高查全率,查准率往往就会下降; 若要提高查全率,查准率往往就会下降; 若要提高查准率,查全率又就会下降。 若要提高查准率,查全率又就会下降。 二者相互制约) (二者相互制约)
• 费用/效果评价 费用/效果评价(cost effectiveness evaluation):考察系统 考察系统
。(用户 系统两方面) 用户、 达到的性能与费用消耗之间的关系。(用户、系统两方面) • 费用/效益评价 费用/效益评价(cost benefits evaluation):考察系统的服务 考察系统的服务 。(计量难度较大 计量难度较大) 效益与费用消耗间的关系。(计量难度较大) P207的解释 (详见P207的解释) 详见P207的解释)
第十一章 信息检索系统评价
11.1 评价研究概述
二、评价范围与类型
信息检索系统是一个有众多功能模块组成的集合体。 信息检索系统是一个有众多功能模块组成的集合体。 评价可以从不同角度、基于不同目的和方法来进行。 评价可以从不同角度、基于不同目的和方法来进行。 评价范围:各种类型的检索系统及组成要素。 评价范围:各种类型的检索系统及组成要素。 评价类型 类型: 评价类型:
பைடு நூலகம்
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
(2)影响查全率、查准率的相关因素 影响查全率、
③检索语言的一致性 检索的实质就是提问标识与文献标识的异同比较。 检索的实质就是提问标识与文献标识的异同比较。 为此,需要不同人员表达文献主题的语言一致, 为此,需要不同人员表达文献主题的语言一致,更需要标识提问与 标识文献的语言一致。 标引语言和检索语言的一致性, 标识文献的语言一致。即,标引语言和检索语言的一致性,对查全和 查准起着支配作用。 查准起着支配作用。 ④标引的网罗性 对文献主题分析得越透彻,抽出的检索词越多, 对文献主题分析得越透彻,抽出的检索词越多,检索时可检出的相 关文献就越多,即查全率越高。但检出的文献并非全部适用, 关文献就越多,即查全率越高。但检出的文献并非全部适用,因而查 准率降低。 准率降低。 反之,如果标引时只标出中心主题,检出的文献必然比较适用, 反之,如果标引时只标出中心主题,检出的文献必然比较适用,即 查准率较高。但漏检会增多,从而降低查全率。 查准率较高。但漏检会增多,从而降低查全率。
第十一章 信息检索系统评价
11.2 评价指标
综合指标体系
系统费用
研 制 费 用 运 行 费 用
数据质量
收 可 录 靠 范 性 围 使 用 方 便 性 检 灵 索 活 结 果 性 形 式
检索性能
查 查 响 新 全 准 应 颖 率 率 时 性 间 可 存 取 性 存 贮 空 间 开 销
用户费用
学 习 费 用 实 验 费 用
1.查全率和查准率 .
查准率(Precision ratio,P):衡量被检出的文献中有多少 查准率 : 篇与提问相关。 衡量检索的精确度) 篇与提问相关。 (衡量检索的精确度)
检出的相关文献量 P= 检出文献总量
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
例: 设某检索系统的数据库中共有相关文献 篇。针对某 : 设某检索系统的数据库中共有相关文献20篇 一个提问,检出文献总数为30篇 其中相关文献数为15 一个提问,检出文献总数为 篇,其中相关文献数为 求查全率R、查准率P。 篇。求查全率 、查准率
第十一章 信息检索系统评价
11.2 评价指标 二、主要性能指标及分析
(2)影响查全率、查准率的相关因素 影响查全率、 ⑦ 检索软件的功能
检索软件功能是否完善,结构是否合理, 检索软件功能是否完善,结构是否合理,影响到是否会漏检 和误检。 和误检。
⑧ 检索者的熟练程度
检索人员的专业知识水平、使用系统的熟练程度, 检索人员的专业知识水平、使用系统的熟练程度,对R和P影 和 影 响很大。往往是系统一方的检索者自拟定检索式时查准率高, 系统一方的检索者自拟定检索式时查准率高 响很大。往往是系统一方的检索者自拟定检索式时查准率高, 检索用户编制检索式时 因不熟悉系统和不善于使用系统, 编制检索式时, 而检索用户编制检索式时,因不熟悉系统和不善于使用系统, 就容易造成误检、漏检。 就容易造成误检、漏检。
第十一章 信息检索系统评价
11.1 评价研究概述
一、意义
主要意义:
了解已有检索系统的功能,找出缺陷并改进; 了解已有检索系统的功能,找出缺陷并改进; 比较各种检索系统的优劣; 比较各种检索系统的优劣; 提高提高效率和效益; 提高提高效率和效益; 有助于新的检索系统的设计; 有助于新的检索系统的设计; 丰富信息检索的理论。 丰富信息检索的理论。
第十一章 信息检索系统评价
11.2 评价指标
二、主要性能指标及分析
(2)影响查全率、查准率的相关因素 影响查全率、
⑤ 检索词的专指性
检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口, 检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口, 查准率就越高。但命中文献就越少,查全率就会降低。 查准率就越高。但命中文献就越少,查全率就会降低。 相反,如果检索词定得较笼统、较宽泛,检出的文献就会增多, 相反,如果检索词定得较笼统、较宽泛,检出的文献就会增多,查 全率会提高。但不相关的文献也会增多,查准率会降低。 全率会提高。但不相关的文献也会增多,查准率会降低。