2017第二讲(1)-信息检索概述 二

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 用NOT (not)或 -算符表示 • A NOT B:表示检索含有检索词A而不含检索词B的信息。 即在含有A检索词的文献中去除含有B检索词的文献。
例如:查找有关“非儿童白血病”的文献 运用布尔逻辑技术的检索式可写成: 白血病 NOT 儿童
其作用是缩小检索范围,提高查准率。
如:查“除锌之外其他微量元素”的有关 文献可写成检索表达式:
trace elements not zone 微量元素 not 锌
布尔逻辑运算符优先级
• 有括号时:括号内的先执行
• 无括号时:NOT > AND > OR
10
布尔逻辑检索举例:
例题1: 若检索除激素疗法外SARS治疗方法的文献, 应如何进行逻辑组配。
逻辑运算表达式: (SARS AND 治疗方法)NOT 激素疗法 或: SARS AND(治疗方法 NOT 激素疗法)
1. 分析检索课题
接到检索课题时应当分析研究课题,全面了解课题的内 容以及用户对检索的各种要求,从而有助于正确选择检索工 具,制定合理的检索策略等。 分析检索课题时应从以下几方面进行:
弄清用户情报需求的目的和意图;
分析课题涉及的学科范围、主题要求; 课题所需情报的内容及其特征; 课题所需情报的类型,包括文献类型、出版类型、年代范
• S(即Sentence 句)
A (S) B A、B两词只要在同一句子中就符合 检出要求
• F(即:field 字段) A (F) B A、B两词必须在同一字段里出现 (例如同在题目字段或文摘字段 )
限制程度: W > N > S > F
4、限制检索(字段限制)
• 是通过限制检索范围,缩小检索结果,达到优化检索结 果的方法。 • 在检索系统中,数据库设置的可供检索的字段通常有两 种:表达文献主题内容特征的基本字段和表达文献外部 特征的辅助字段。 • 其作用:缩小或约束检索结果,是调整检索策略的一种重 要手段。
English in LA
综合检索式表达例题:
检索近五年发表的有关篇名中含aspirin的综述文献。
aspirin* /TI AND DT=review AND PY=201?
(可分析一下该检索试采用了检索技术)
5.模糊与精确检索
模糊检索
也称概念检索,是指检索系统不仅能检索出包含指定的检索词,
还将与检索词主题概念相同的信息检索出来。
22
基本字段限制用法 :
检索词/字段代码 如:检索标题中含有Aspirine的文献
Aspirine/TI
检索标题和文摘中含有Aspirine的文献
Aspirine / TI,AB
辅助字段限制用法
• 包括“ in, =,>, <”等对特定字段进行限制检索, 如年份PY限制检索、语种LA限制检索、文献类型 DT限制检索等。 • 如:要求检索的文献为英文文献
例题2: 若检索心痛定(A),其通用名尼非地平 (B)除了高效液相法(C)以外的所有含 量测定方法(D)的文献,应如何进行逻 辑组配。 逻辑运算表达式: ( A + B ) * ( D - C)
2、截词检索
截词检索就是用截断的词的一个局部进行的检索,并认为 凡满足这个词局部中的所有字符(串)的文献,都为命中的 文献。 通常用于西文检索中。主要用于检索词的单复数、词性的 词尾变化、词根相同的一类词,以及同一词的拼法变异等。
6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
5.检索调整检索策略
• 根据反馈的检索结果,反复对检索式进行调整,直到得到 满意的结果: • 对检索结果数量比较少的,可以进行扩检,提高查全率。 • 对检索结果过多的,进行缩检,提高查准率。
检索结果信息量过少
• 造成检索信息量少的原因要特别注意以下几点:其一,选用了 不规范的主题词或某些产品的俗称、商品名称作为检索词; 其二,同义词、相关词、近义词没有运用全; 其三,上位概念或下位概念没有完整运用。
检索结果信息量过少
调整检索策略的方法如下: • 降低检索词的专指度,选用上位概念词
如:罗红霉素--大环内酯类----抗生素
• 选全同义词与相关词并用逻辑“或”将它们连接 起来
如:小檗碱 别名:黄连素
减少逻辑“与”的运算,丢掉一些次要的或者太专 指的概念。
如:阿莫西林抗菌临床文献 如: ( 阿莫西林 与 抗菌),不要在加上“临床”
围、语种、著者、机构等;
课题对查新、查准、查全的指标要求等。
2. 选择检索工具或检索系统
在全面分析检索课题的基础上,根据用户要求得到的情报 类型、时间范围、课题检索、经费支持等因素综合考虑后,选 择检索系统和数据库。 选择检索系统和数据库要从以下几方面考虑:
收录的情报内容所涉及的学科范围;
收录的文献类型、数量、时间范围以及更新周期; 所提供的检索途径、检索功能和服务方式。
1、布尔逻辑检索
在检索过程中用于表达词于词之间 的逻辑关系的算符就称为布尔逻辑运 算符。
分为三种布尔逻辑运算符: 逻辑与、逻辑或、逻辑非
逻辑与:是一种概念交叉或概念限定关系的组配。
• 用AND(and)或“*” 算符表示(有的系统用空格) • A ANห้องสมุดไป่ตู้ B:表示让系统检索同时包含检 索词A和检索词B的信息
(2)使用逻辑“或”算符可以扩大命中范围,得到更多的检 索结果,起到扩检的作用,查全率也就高。 (3)使用“非”算符可以缩小命中范围,得到更切题的检索 效果,也可以提高查准率,但是使用时要慎重,以免把一些 相关信息漏掉。 (4)在构建检索提问式时,还要注意位置算符、截词符等的 使用方法,及各个检索项的限定要求及输入次序等。
如某数据库专业检索界面:利用计算机检索技术写出表 达式进行检索
TAK(Amoxicillin AND prepar*)
高级检索界面
逻辑与 逻辑或 逻辑非
根据条件在检索输入框选择检索项,布尔逻辑算 符,输入检索词检索
两种检索结果一致
又如:某中文数据库界面
第二节 信息检索的步骤
1. 分析检索课题 2. 选择检索工具或检索系统 3. 确定检索词 4. 构造检索提问式(检索策略) 5. 实施检索并调整检索策略 6. 输出检索结果
如 * cancer (cancer anticancer) wom?n prepar *
• 截词检索是一种模糊检索,可以 作为扩大检索范围的手段,能够 帮助提高检索的查全率。但一定 要合理使用,否则会造成误检。
3、位置检索
主要是通过检索式中的专门符号来规定检索词在 结果中的相对位置。 • 位置关系:词距(单词间的距离)、词序(单词间的 次序)。
通用的截词符有:?和*
?代表一个字符(属有限截断);*代表不定个 字符(属无限截断) 如:wom?n 可查到woman 和 women
prepar *,可查到prepare, prepartion, prepared等所有以prepar开头的单词。
• 另:按截断的位置不同又分为左截断、右截断和中间 截断
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检,以免漏
检; (4)一般不选用动词、形容词(如发展、研究等),少用或不用不能表 达课题实质内容的高频词,必须用时,也应与其他主题概念进行组配
4、构建检索提问式 ---运用计算机检索技术构建检索式:
(1)使用逻辑“与”算符可以缩小命中范围,起到缩检的作 用,得到的检索结果专指性强,查准率也就高。
• N(即near 邻近) A (nN) B A、B两词相隔最多n词,且前后 次序不限符合检出要求; n=1时即A(N)B表示表示A、B两词检索所记 录里必须紧密相连,空格和标点除外,词 序可变。
Omeprazol (N) preparate 表代的含义: 检索记录中会出现 …Omeprazol,preparate… 或…preparate, Omeprazol… 或Omeprazol preparate 或 … preparate Omeprazol…
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
药学信息资源检索
第二讲 信息资源检索概述(二)
第一节 计算机检索技术 第二节 信息检索的步骤 第三节 检索效果的评价
第一节 计算机检索技术
1.布尔逻辑检索 2.截词检索 3.位置运算检索 4.字段限定检索 5.模糊与精确检索
不同的检索系统表示方法不尽相同,以美国DIALOG检索 系统(具有代表性)使用的为例作讲解
运用布尔逻辑技术的检索式可写成:
“vitamin C ”OR “L-ascorbic acid ”
其作用是扩大检索范围,提高查全率
如:检索“乙肝的诊断或治疗”的文献可写成检索表达式: hepatitisB and (diagnosis or therapy) 乙肝 and(诊断 or 治疗)
逻辑非:是一种具有概念排除关系的组配
3. 确定检索词
• 检索词可以是主题词、关键词、人名、地名、专业术语、代码等,并使用适 当的检索技术形成检索表达式。 • 检索词选取原则:
(1)选择能够表达课题主要内容的主题词或关键词作为检索词或词组;
(2)对课题进行深入分析,提取出其隐含的概念和相关内容; (3)收集主题概念的同义词、近义词、广义词、狭义词、分子式、分类
• 去除或调整某些字段限制。
去除时间范围、作者、刊名等限制;调整:篇名—主题—关键词—全文
• 调整位置算符,由严变松。
如:两检索词限制在一句话中,改为全文中检索
检索结果信息量过多
调整检索策略的方法如下: • 提高检索词的专指度,选用下位概念词 • 减少同义词与同族相关词 • 增加限制概念,采用逻辑“与”连接检索词 • 使用字段限定,将检索词限定在某个或某些字段 范围 • 使用逻辑“非”算符,排除无关概念 • 调整位置算符,由松变严。
检索效果的评价公式


查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
• 主要有相邻位置算符(W)、(nW),(N)、(nN),句 子位置算符(S),字段算符(F)。
• W(即with 和)
A (nW) B A、B两词相隔最多n词,且前后次序 不变符合检出要求; n=1时即A(W)B表示A、B两词检索所记录里必须 紧密相连,空格和标点除外,词序不变。
如:
• Omeprazol (w) preparate 表代的含义: • 检索记录中会出现 …Omeprazol,preparate… 或 …Omeprazol preparate… 表示 两词检索所记录 紧密相连,空格和标点除 外,词序不变。
• 不同的数据库其字段代码可能不同。 • 常用字段有:
TI(题名)、AB(摘要)、DE(主题词)、ID(标识 词)、SU(主题词)、KW(关键词)、AU(著者)、BN (国际标准书号)、SN(国际标准刊号)、CC(分类 类目)、CS(机构)、DT(文献类型)或PT(出版物 类型)、JN(刊名)或JA(刊号)、LA(语种)、PY (出版年)、SO(来源出版物)
相关文档
最新文档