信息处理与分析一节文献检索策略与案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

获取全文 输出检索结果
满 意
浏览并优化检 索结果
不满意
拟定检索词 编制检索式
课题形式特征分析
1.检索年限 2.文献类型 3.文献语种等
跨库检索系统 核心检索系统
全文数据库
侧重查全 适用各种情况
侧重查准
及选 检择 索数 系据 统库
5
(一)检索策略的定义
狭义的检索策略
特指检索过程中构建检索式的环节 包含检索词的确定,运算符的选择,检索字段
(二)查准率
查准率(Precision Ratio,简称P)
是检索系统检出的相关文献数量(a)与检出的 文献总量(a+b)的比率,即:
查准P) 率 检 ( 检 出 出 相 文 关 献 1文 0 总 % 0 献 a量 ab 数 1量 0% 0
15
查全R 率 ) 系 (检 统出 中相 全关 部量 文 相 1献 0 关 % 0 数 文 a a量 c献 10数 % 0
第九章 信息处理与分析 第一节 文献检索策略 与案例分析
1
一、文献检索策略概述 二、文献检索效果评价 三、文献检索策略构建案例分析
2
一、文献检索策略概述
(一)检索策略的定义 (二)常用的检索策略类型
3
(一)检索策略的定义
广义的检索策略
指为实现检索目标而制定的全盘计划和方案, 是对整个检索过程的科学规划和指导。
具体而言就是在明确检索目的、分析课题特征 的基础上,选择合适的数据库和检索系统,拟 定检索方案,确定检索词,构建检索提问式, 执行检索并调整检索式,直至获得较满意的检 索结果的全过程。
4
检索策略的制定流程
用户
检索课题
检索目的分析 1.侧重检全 2.侧重检准 3.检全检准平衡
课题内容特征分析
1.所属学科 2.主要概念面 3.各概念面的分支概念
11
二、文献检索效果评价
(一)查全率 (二)查准率 (三)查全率与查准率的关系 (四)影响查全率和查准率的因素
12
数据库检索结果距阵
数据库
用户 相关文献
非相关文献
检出文献数 a(命中) b(噪音)
总计 a+b
未检出文献数 c(漏检) d(合理拒绝) c+d
合计
a+c
b+d
a+b+c+d
13
查全R 率 ) 系 (检 统出 中相 全关 部量 文 相 1献 0 关 % 0 数 文 a a量 c献 10数 % 0
的设定及限制选项的设置等
6
(二)常用的检索策略类型
积木型(Building Block)
把检索课题剖析成若干个不同的概念面,逐个 查找各个概念面
在每个概念面检索时尽可能全地列举同义词、 近义词和相关词,用“OR”连接,构成针对每 个概念面的检索式,即多个子检索式
最后根据课题要求,选用合适的布尔算符把所 有子检索式连接起来,构成一个总的检索式
然后再重复进行浏览选词再检索的过程,直到 获得理想的最终检索结果为止
这种策略最具交互性,检索词更具针对性,检 索式在变化中完善,不足是检索费时较多
8
(二)常用的检索策略类型
逐次分馏(Successive Fractions)
先用较宽泛的检索式,确定一个范围较广的命 中文献初始集
然后逐步利用各种检索限制或限定措施,逐渐 提高校索式的专指度,缩小命中文献集,直到 得到数量适宜、用户满意的命中文献集为止
(四)影响查全率和查准率的因素
提高检全度的方法
将检索词限定到文摘、全部字段等 使用截词符。如:transplant* 使用同义词。如:(lung cancer or lung carcinoma) 查全同义单词的不同拼写方式
如:fibre or fiber
查全缩写与全称
如:“ang 1 7” OR “angiotensin 1 7”
(三)查全率与查准率的关系
查全率与查准率之间为互逆的关系 通常采取措施提高查全率时会降低查准率 反之,采取措施提高查准率时则会降低查
全率 在检索中很难实现查准率和查全率均逼近
100% 在检索中要根据课题的实际需求,确定以
查准为主还是以查全为主,或是寻求查准 与查全之间的平衡。
16
查全R 率 ) 系 (检 统出 中相 全关 部量 文 相 1献 0 关 % 0 数 文 a a量 c献 10数 % 0
这种策略有利于平衡检索的全面性和准确性, 如能较好地掌握检索限制和限定的尺度,可取 得相当好的检索效果
9
(二)常用的检索策略类型
最专指面优先(Most wenku.baidu.compecific Facet First)
首先从课题中最专指的一个概念面入手检索, 得到初步检索结果后再决定是否要加入其他概 念面
这些其他概念面只有在要提高查准率时才需输 入,各概念面在检索式中是逻辑 “与”的关系
如果觉得命中文献太少,通常不需要再把其他 概念面加到检索式中去
这种策略比较灵活,检索用时也相对较少
10
(二)常用的检索策略类型
最低登录量面优先(Lowest Posting Facet First)
登录量是指一个索引词在标引中的使用次数 用户在索引词表界面查询课题中每个概念面对
应的检索词的登录量,用登录量最少的概念面 为入口开始检索 如命中文献相当少,则完成检索。如结果较多, 再选择登录量较低的概念加入到检索式中,逻 辑关系为“与” 这种策略与最专指面优先策略极为相似,不同 的是在计算机检索中,很容易明确哪个概念组 面的登录最小
(一)查全率
查全率(Recall Ratio,简称R)
是检索系统中检出的相关文献数量(a)与检索 系统中相关文献总量(a+c)的比率,即:
查全R 率 ) 系 (检 统出 中相 全关 部量 文 相 1献 0 关 % 0 数 文 a a量 c献 10数 % 0
14
查全R 率 ) 系 (检 统出 中相 全关 部量 文 相 1献 0 关 % 0 数 文 a a量 c献 10数 % 0
变词组检索为邻近检索
如:“acute pancreatitis” 改为 acute adj2 pancreatitis
这种策略类似把各个积木块拼成完整图案,因 此称为积木型检索策略
7
(二)常用的检索策略类型
引文珠形增长(Citation Pearl-Growing)
首先检索课题中较为核心的、最专指的概念面, 以便至少检出一篇命中文献或相关信息
浏览检出文献,从中选出新的相关检索词,补 充到检索式中,重新检索出更多的命中文献
相关文档
最新文档