检索效率
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 4 讲 检索效率
罗 东 俊 ZSUJONE@126.COM
主要内容
4.1 查全率与查准率 4.2 影响检索效率的因素 4.3 提高检索效率的方法 4.4 检索实例评价
1
本讲重点、难点
• 查全率 • 查准率
2
4.1 查全率与查准率
• 查全率和查准率是判定检索效果的主要指标。查准 率和查全率结合起来,描述了检索的成功率。 • 查全率
10
4.3.1 提高查全率的基本方法
• 1)扩大检索课题的目标。
– 使用主要概念,排除次要概念。
• 2)跨库检索。
– 可以使用文献型信息跨库检索工具,如CNKI的多 个数据库或者Google学术搜索实现对不同类型Байду номын сангаас 献的一次性检索。
• 3)选择逐步扩大检索范围的检索途径。
– 依次选择题名、关键词、文摘、主题、任意字段 (全文)往往能逐步提高查全率。 – 通常用分类号也可检索到更多信息。
17
用户原选取的主题词和检索式
low temperature humidity standard? 1*3 1*2*3 10295篇 10797篇 76534篇 193篇 0篇
18
用户修改后的主题词和检索式
low temperature 10295篇
humidity
moisture wet standard? 1*(2+3+4) (2+3+4)*5 1*5
5
查全率与查准率的互逆关系
• 从理论上说,任何理想的检索都应当是既全面又准 确的检索。 • 但由于许多因素的影响,在实际检索中,查全率和 查准率是不可能达到100%,而是存在着一种互逆 关系:
– 即在同一次检索中,查全率提高,则查准率会降低;反之, 查准率提高,则查全率会下降。 – 而且,对于同一检索效果,不同用户的满意程度是不同的, 比如,撰写论文的用户比较重视查准率,而作高级研究的 用户要求有较高的信息查全率。
• 4)预防操作错误,采用严谨的科学态度,耐心细致 地检查检索步骤的各环节。
– 例如,检查输入内容是否与字段符合,检索式是否多了空 格。
16
4.4 检索实例评价
• 课题:低温湿度标准 • 检索思路:
– 首先,将课题分成若干概念,每个概念用一个或 一个以上的检索词来描述; – 然后,每个概念作为独立小课题进行查找; – 最后,将所有概念组合起来查找(逻辑与),得 到所需结果。
4
基于经验的评价标准
• 在一般的检索中,用户对漏检的情况可通过 经验来判断:
– 经验1:通过相关领域专业人员情况来判断,如 果从事该项研究的人员较多,而检索中获得的相 关信息很少,则应怀疑有漏检的情况发生。 – 经验2:通过检索人员掌握的信息资料来判断, 如果检索人员掌握的同时段的相关信息都出现在 相关的检索结果中,可以认为查全率较高;反之, 如果相关检索中并没反映已有的某些信息,则可 以认为有漏检情况发生
11
提高查全率的基本方法
• 4)取消或者放宽限定条件。
– 例如,避免使用或者放宽信息类型、语种、地理范围、年 代范围等检索途径。
• 5)降低检索词的专指度。
– 可以从词表或检出文献中选一些上位词或相关词补充到检 索式。
• 6)使用截词检索
– 外文单词使用截词检索,可以采用前截断、后截断、前后 截断等截词方法。 – 在中文类数据库可以使用更简短的检索词。
– 查全率是指系统在进行某一检索时,检索出的相关文献量 与系统文献库中相关文献总量的比率.它反映该系统文献 库中实有的相关文献量在多大程度上被检索出来。 – 查全率=(检出相关文献量/文献库内相关文献总 量)×100%
• 查准率
– 查准率是指系统在进行某一检索时,检出的相关文献量与 检出文献总量的比率,它反映每次从该系统文献库中实际 检出的全部文献中有多少文献是相关的。 – 查准率=(检出相关文献量/检出文献总量)×100%
• 7)逐步扩大算符的检索范围。
– 逐步提高查全率的算符依次是:位置算符 (w→nw→near)→逻辑算符(and→or)。
12
4.3.2 提高查准率的基本方法
• 1)精确确定检索课题的目标。
– 如使用专业词汇。
• 2)选择专业性检索工具。
– 如使用产品数据库、特种搜索引擎。
• 3)选择逐步缩小检索范围的检索途径。
8
影响查准率的因素
1.分析课题缺乏精确性 2.检索工具的检索精度较差 3.检索词的专指度较差 4.增加限定的字段以提高查准率 5.增加检索词以提高查准率 6.采用逻辑not运算以排除歧义
9
4.3 提高检索效率的方法
4.3.1 提高查全率的基本方法 4.3.2 提高查准率的基本方法 4.3.3 兼顾查全率和查准率的方法
6
4.2 影响检索效率的因素
• 查全率和查准率与文献的存储和信息检索两 个方面直接相关,与系统的收录范围、索引 语言、标引工作和检索工作等都有着非常密 切的关系。
7
影响查全率的因素
1.对课题的分析望文生义 2.检索工具收录范围有缺漏,功能较差 3.检索工具标引不规范,正确的常规检索方法也会有缺漏 4.用户选择不对口的检索工具 5.检索途径失误 6.选用了不规范的词 7.所选检索词与检索工具的用词习惯不符 8.遗漏隐含概念 9.遗漏了同义词、近义词和下位词 10.检索式有多余的检索词用逻辑and连接,限定条件过窄 11.误用禁用词
3
查全率和查准率的评价标准
• 查全率和查准率的评价基本上都是限于理论意义。
– 首先,查全率用的比较参照是“系统中相关信息总量”, 所以准确地说,用这个指标来评价系统的检索性能比较适 宜,而用来评价某次检索效果则欠妥。 – 其次,如果工具或系统中收录的信息不全,那么评价查全 率对用户来说就变得毫无价值。 – 再次,对于用户来说查全率应该以某地区或世界上相关信 息的总量作为参照,但是参照中的信息总量对于用户来讲 几乎无从得知,因此查全率很难成为用户自我评价检索效 率的准绳。 – 此外,一般认为查全率比查准率重要,只要查全了,才能 进一步查准,因此查准率的评价也基本上限于理论意义。
• 6)逐步缩小算符的检索范围。
– 逐步提高查准率的算符依次是:逻辑算符 (or→and)→位置算符(near→nw→w); – 使用算符“not”排除干扰信息。
14
4.3.3 兼顾查全率和查准率的方法
• 1)跨库检索,并结合专业的检索工具。
– 例如,中国国家科技图书文献中心的跨库检索界 面; – 专业的数据库,如《化学文摘》数据库、《生物 学文摘》数据库、美国PubMed数据库对于专业 性文献的收录全面而准确,利于查全率和查准率 都提高。
10797篇
12675篇 12025篇 76534篇 307篇 1166篇 193篇
1*(2+3+4)*5
3篇
19
本讲要求
• 本讲要求掌握提高检索效率的方法。
20
21
– 选择题名、关键词比文摘、主题、任意字段(全文) 查准率高; – 限定期刊范围:全部期刊→重要期刊→核心期刊, 也能逐步减少检索结果,提高查准率。
13
提高查准率的基本方法
• 4)用不太常用的检索途径作为限定条件。
– 如信息类型、语种、地理范围、年代范围、作者 或号码
• 5)提高检索词的专指度。
– 如增加或换用下位词和专指度较强的自由词。
• 2)分类途径和主题途径等多途径结合使用。
15
兼顾查全率和查准率的方法
• 3)尝试多次检索,在失败中调节检索策略,阅读已 知的信息,增加背景知识。
– 例如,先检索搜索引擎Google、百科全书、词典、手册、 文献综述,寻找更多词汇; – 阅读国际专利分类表,寻找专利分类号; – 在维普资讯网(www.cqvip.com)的“分类检索”点击中 国图书馆图书分类表,寻找图书和期刊论文的分类号。
罗 东 俊 ZSUJONE@126.COM
主要内容
4.1 查全率与查准率 4.2 影响检索效率的因素 4.3 提高检索效率的方法 4.4 检索实例评价
1
本讲重点、难点
• 查全率 • 查准率
2
4.1 查全率与查准率
• 查全率和查准率是判定检索效果的主要指标。查准 率和查全率结合起来,描述了检索的成功率。 • 查全率
10
4.3.1 提高查全率的基本方法
• 1)扩大检索课题的目标。
– 使用主要概念,排除次要概念。
• 2)跨库检索。
– 可以使用文献型信息跨库检索工具,如CNKI的多 个数据库或者Google学术搜索实现对不同类型Байду номын сангаас 献的一次性检索。
• 3)选择逐步扩大检索范围的检索途径。
– 依次选择题名、关键词、文摘、主题、任意字段 (全文)往往能逐步提高查全率。 – 通常用分类号也可检索到更多信息。
17
用户原选取的主题词和检索式
low temperature humidity standard? 1*3 1*2*3 10295篇 10797篇 76534篇 193篇 0篇
18
用户修改后的主题词和检索式
low temperature 10295篇
humidity
moisture wet standard? 1*(2+3+4) (2+3+4)*5 1*5
5
查全率与查准率的互逆关系
• 从理论上说,任何理想的检索都应当是既全面又准 确的检索。 • 但由于许多因素的影响,在实际检索中,查全率和 查准率是不可能达到100%,而是存在着一种互逆 关系:
– 即在同一次检索中,查全率提高,则查准率会降低;反之, 查准率提高,则查全率会下降。 – 而且,对于同一检索效果,不同用户的满意程度是不同的, 比如,撰写论文的用户比较重视查准率,而作高级研究的 用户要求有较高的信息查全率。
• 4)预防操作错误,采用严谨的科学态度,耐心细致 地检查检索步骤的各环节。
– 例如,检查输入内容是否与字段符合,检索式是否多了空 格。
16
4.4 检索实例评价
• 课题:低温湿度标准 • 检索思路:
– 首先,将课题分成若干概念,每个概念用一个或 一个以上的检索词来描述; – 然后,每个概念作为独立小课题进行查找; – 最后,将所有概念组合起来查找(逻辑与),得 到所需结果。
4
基于经验的评价标准
• 在一般的检索中,用户对漏检的情况可通过 经验来判断:
– 经验1:通过相关领域专业人员情况来判断,如 果从事该项研究的人员较多,而检索中获得的相 关信息很少,则应怀疑有漏检的情况发生。 – 经验2:通过检索人员掌握的信息资料来判断, 如果检索人员掌握的同时段的相关信息都出现在 相关的检索结果中,可以认为查全率较高;反之, 如果相关检索中并没反映已有的某些信息,则可 以认为有漏检情况发生
11
提高查全率的基本方法
• 4)取消或者放宽限定条件。
– 例如,避免使用或者放宽信息类型、语种、地理范围、年 代范围等检索途径。
• 5)降低检索词的专指度。
– 可以从词表或检出文献中选一些上位词或相关词补充到检 索式。
• 6)使用截词检索
– 外文单词使用截词检索,可以采用前截断、后截断、前后 截断等截词方法。 – 在中文类数据库可以使用更简短的检索词。
– 查全率是指系统在进行某一检索时,检索出的相关文献量 与系统文献库中相关文献总量的比率.它反映该系统文献 库中实有的相关文献量在多大程度上被检索出来。 – 查全率=(检出相关文献量/文献库内相关文献总 量)×100%
• 查准率
– 查准率是指系统在进行某一检索时,检出的相关文献量与 检出文献总量的比率,它反映每次从该系统文献库中实际 检出的全部文献中有多少文献是相关的。 – 查准率=(检出相关文献量/检出文献总量)×100%
• 7)逐步扩大算符的检索范围。
– 逐步提高查全率的算符依次是:位置算符 (w→nw→near)→逻辑算符(and→or)。
12
4.3.2 提高查准率的基本方法
• 1)精确确定检索课题的目标。
– 如使用专业词汇。
• 2)选择专业性检索工具。
– 如使用产品数据库、特种搜索引擎。
• 3)选择逐步缩小检索范围的检索途径。
8
影响查准率的因素
1.分析课题缺乏精确性 2.检索工具的检索精度较差 3.检索词的专指度较差 4.增加限定的字段以提高查准率 5.增加检索词以提高查准率 6.采用逻辑not运算以排除歧义
9
4.3 提高检索效率的方法
4.3.1 提高查全率的基本方法 4.3.2 提高查准率的基本方法 4.3.3 兼顾查全率和查准率的方法
6
4.2 影响检索效率的因素
• 查全率和查准率与文献的存储和信息检索两 个方面直接相关,与系统的收录范围、索引 语言、标引工作和检索工作等都有着非常密 切的关系。
7
影响查全率的因素
1.对课题的分析望文生义 2.检索工具收录范围有缺漏,功能较差 3.检索工具标引不规范,正确的常规检索方法也会有缺漏 4.用户选择不对口的检索工具 5.检索途径失误 6.选用了不规范的词 7.所选检索词与检索工具的用词习惯不符 8.遗漏隐含概念 9.遗漏了同义词、近义词和下位词 10.检索式有多余的检索词用逻辑and连接,限定条件过窄 11.误用禁用词
3
查全率和查准率的评价标准
• 查全率和查准率的评价基本上都是限于理论意义。
– 首先,查全率用的比较参照是“系统中相关信息总量”, 所以准确地说,用这个指标来评价系统的检索性能比较适 宜,而用来评价某次检索效果则欠妥。 – 其次,如果工具或系统中收录的信息不全,那么评价查全 率对用户来说就变得毫无价值。 – 再次,对于用户来说查全率应该以某地区或世界上相关信 息的总量作为参照,但是参照中的信息总量对于用户来讲 几乎无从得知,因此查全率很难成为用户自我评价检索效 率的准绳。 – 此外,一般认为查全率比查准率重要,只要查全了,才能 进一步查准,因此查准率的评价也基本上限于理论意义。
• 6)逐步缩小算符的检索范围。
– 逐步提高查准率的算符依次是:逻辑算符 (or→and)→位置算符(near→nw→w); – 使用算符“not”排除干扰信息。
14
4.3.3 兼顾查全率和查准率的方法
• 1)跨库检索,并结合专业的检索工具。
– 例如,中国国家科技图书文献中心的跨库检索界 面; – 专业的数据库,如《化学文摘》数据库、《生物 学文摘》数据库、美国PubMed数据库对于专业 性文献的收录全面而准确,利于查全率和查准率 都提高。
10797篇
12675篇 12025篇 76534篇 307篇 1166篇 193篇
1*(2+3+4)*5
3篇
19
本讲要求
• 本讲要求掌握提高检索效率的方法。
20
21
– 选择题名、关键词比文摘、主题、任意字段(全文) 查准率高; – 限定期刊范围:全部期刊→重要期刊→核心期刊, 也能逐步减少检索结果,提高查准率。
13
提高查准率的基本方法
• 4)用不太常用的检索途径作为限定条件。
– 如信息类型、语种、地理范围、年代范围、作者 或号码
• 5)提高检索词的专指度。
– 如增加或换用下位词和专指度较强的自由词。
• 2)分类途径和主题途径等多途径结合使用。
15
兼顾查全率和查准率的方法
• 3)尝试多次检索,在失败中调节检索策略,阅读已 知的信息,增加背景知识。
– 例如,先检索搜索引擎Google、百科全书、词典、手册、 文献综述,寻找更多词汇; – 阅读国际专利分类表,寻找专利分类号; – 在维普资讯网(www.cqvip.com)的“分类检索”点击中 国图书馆图书分类表,寻找图书和期刊论文的分类号。