第4讲文献检索策略

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二.常用文献检索技术



1.布尔逻辑检索 2.截词检索 3.词位限定检索 4.字段限定检索 5.其他检索技术:大小写敏感、禁用词表
1.布尔逻辑检索


即运用布尔逻辑组配符对检索词进行逻 辑组配,表达两个概念之间的逻辑关系。 常用的组配符有: “AND”(并且) 、 “OR” (或者) 、“NOT”(不包含)三 种。 在中文数据库中,布尔逻辑算符有时用 AND、OR、NOT下拉菜单表示。 “与”、“或”、“非”
提高检索效果的措施 提高查全率的方法
1、降低检索词的专指度,换用一些上位词或相关词, 重新组成检索式。如使用“赤字财政政策”这一专 指度较高的主题词作为检索词,其查全率就很低, 宜选用“赤字财政”、“财政政策”等词编制成逻 辑提问式。 2、增加同义词、近义词或相关词的逻辑或运算。如 需要检索有关“社会主义市场经济下财政体制改革” 的资料,如果只用“经济体制改革”与其他主题词 进行逻辑乘匹配,则标引为“税制改革”、“财税 改革”等词的信息就会漏检,造成查全率下降。
文献信息 检索与利用
上节课重点回顾
1.文献检索语言
2.文献检索途径 3. 文献检索方法
1、文献检索语言
1、分类检索语言
按照一定的分类体系,对文献信息进行编排组织
2、主题检索语言
以词语作为表达主题概念的标识,按字顺编排的检 索语言
3、代码语言
指对事物的某方面特征,用某种代码系统来表示和 排列事物概念的检索语言。
(2) 影响查准率的因素

影响查准率的因素主要有:索引 词不能准确描述文献主题和检索要求; 组配规则不严密;选词及词间关系不正 确;标引过于详尽;组配错误;检索时 所用检索词(或检索式)专指度不够, 检索面宽于检索要求;检索系统不具备 逻辑"非"功能和反馈功能;检索式中允许 容纳的词数量有限;截词部位不当,检 索式中使用逻辑"或"不当等等
例如:

人口* 这是一个主题词无限右截断的例子,信 息标识的词干为“人口”的信息都满足 该检索条件。符合条件的检索词有:人 口、人口地理、人口地图、人口调查、 人口分布、人口构成、人口经济、人口 素质等。
再如:
*水文* 这是一个检索词左右截断的例子。符合该 条件的主题词有:水文、水文地理、水文 地质、工程水文学、区域水文学等。
再如:
检索1994年以后出版的有关计算机文 献检索的论文: 检索式:计算机/SUBJECT*文献检 索/SUBJECT|250a﹥1994 250a是出版年字段标识。该检索式先 进行主题词“计算机”和“文献检索” 的逻辑乘运算,在命中的文献集合中再 用出版年条件进行限制检索。



大小写敏感:指西文检索系统中对用户检索式 包含的大小写的处理方式。有些检索系统严格 按照用户输入的大小写来处理。 禁用词表:在西文数据库中,系统对信息进行 标引时,不能做标引词或检索词的语词,包括 介词、冠词、代词、连接词、某些形容词或副 词等。这部分词语由于使用频率过高,不能反 映信息的实际内容,即使用户输入,系统也不 会对其进行检索。不同系统的禁用词表略有不 同。





3.确定检索途径、检索词, 构造检索式
数据库所设的检索途径不同,比较常用的检 索途径有分类、题名、关键词、作者等, 选择不同的检索途径可以实现文献的不同 角度归类检索。
主题途径为主,多种检索途径 综合运用的原则
4.调整检索策略查找线索,
获取全文




根据反馈的检索结果,反复对检索式进行 调整,直到得到满意的结果。 对检索结果数量比较少的,可以进行扩检, 提高查全率。 对检索结果过多的,进行缩检,提高查准 率。 “检索就是不断试错的过程。”

文献检索的效果评价




判定一个检索系统的优劣,主要从质量、费 用和时间三方面来衡量。 质量标准主要通过查全率与查准率进行评价。 费用标准即检索费用是指用户为检索课题所投入 的费用。 时间标准是指花费时间,包括检索准备时间、检 索过程时间、获取文献时间等。 查全率和查准率是判定检索效果的主要标准。

3.词位限定检索



运用位置算符表示两个检索词间的位置邻近关 系。这种检索技术通常只出现在西文数据库中, 在全文检索中较多。 即邻近检索,指通过位置算符来表示两个检索 词(或短语)之间的距离和位置关系的检索式。 两个检索词在文献中相隔的距离不同,可能会 在一定程度上带来检索结果的差异。
目前应用广泛的位置算符:

2、文献检索途径
所谓检索途径就是检索时切入信息群体 的路径。
文献检索途径包括题名途径、著者途径、 分类途径、主题途径、号码途径和其他途径等。
3、文献检索方法
(1)顺查法
(2)倒查法 (3)抽查法
(4)追溯法
(5)综合法
本节课重点
1.文献检索的原理
2. 信息检索技术
3. 信息检索策略 4.文献检索的效果评价
2.选择检索工具




1)选择检索工具 不同类型的科技文献,其检索工具往往也不同。在检索文 献信息时,要确定利用哪些检索工具,以哪种检索工具为 重点来查找文献。检索工具选择恰当与否,直接影响检索 效果。选择检索工具时,要根据具体情况,考虑到以下几 个方面的因素: a.检索工具报道文献的学科专业范围。 b.检索工具所报道的文献类型。 c.检索工具所收录文献的语种。 d.检索工具提供的检索途径。 同时,还应从本单位本地区现有检索工具的实际情况出发 选择检索工具。

例如:

要查询在期刊《经济研究》发表的政治经济学研 究的文献,就可以在主题词逻辑检索式中增加一 个母体文献名字段限制检索。其检索式: 政治经济学/SUBJECT*理论研究 /SUBJECT|经济研究/463 “|”是限制检索符,“/”的左方是检索词,右方 是索引标识或字段标识。SUBJECT是主题词索 引标识,463是母体文献字段标识,“*”是 “逻辑与”运算符。
5.其他检索技术
三、文献信息资源的检索策略 即在分析检索课题内容实质基础上, 选择检索系统、检索途径、确定 检索词及其相互间的逻辑关系等 的信息检索方案。
检索策略
1
分析课题,明确文献需求
选择检索工具 确定检索途径和检索词,构造检索式 调整检索策略,查找文献线索,获取全文
2
3
4
1.分析课题,明确文献需求
socialist(1W)economy 可能检出的有: socialist commodity economy socialist planned economy socialist national economy等 等。

再如:


如果检索式为“文献(2W)检索”, 则“文献信息检索”、“文献资源检索” 均为命中文献; 如果检索式为“文献(W)检索”,则 “文献信息检索”、“文献资源检索” 均为非命中文献。
一、文献检索的原理
文献检索(Literature Retrieval)
从狭义来讲是指利用检索工具查找文献的 过程,而从广义来讲则包括文献存贮 (Storage)和检索(Search)两个方面, 存贮和检索构成检索系统,检索系统的具 体体现是检索工具。
检索系统
检索系统最终是以检索工具的形式表现出来的。在建立检索工 具时,最关键的是检索语言和检索标识,在检索系统中存贮和 检索都需要它,也是掌握检索工具最关键所在。

课题“改革开放以来我国关于社会结 构变迁的研究”
中国知网CNKI(www.Cnki.net)的期刊论文库、博士硕 士论文库 维普《中文科技期刊数据库》、 国家科技图书文献中心(www.nstl.gov.cn)、 万方公司(www.wanfangdata.com.cn)数据库、 中国国家知识产权局(www.sipo.goV.cn)。 Springerlink外文期刊库 这个课题选择以cnki的“中国期刊全文数据库”为主,同 时互联网也作为主要信息源
四、文献检索的效果评价



检索效果(retrieval effectiveness)是指检索系统 检索的有效程度。 检索效果包括技术效果和经济效果两方面。 技术效果主要指系统的性能和服务质量,它是由 检索系统实现其功能的能力所确定的; 经济效果主要指检索系统服务所花费的成本和时 间,它是由检索系统完成其检索服务的代价所确 定的。
查全率

查全率:是指检出的相关文献量与检索系 统中文献总量的比率。可用下面的公式 表示:
检出的相关文献量 系统中相关文献总量
查全率=
*100%
例如,要利用某个检索系统查某课题。假设在该系统文献库中共 有相关文献为40篇,而只检索出来30篇,那么查全率就等于 75% 。
查准率

查准率:是指检出的相关文献量与检出的文 献总量的比率。可用下面的公式表示: 查准率=
2.截词检索

指在检索式中用专门符号(截词符号)表示 检索词的某一部分,允许有一定的词汇变 化。检索词的不变部分加上由截词符号所 代表的任何变化构成的词汇都是合法检索 词。 截词符一般常采用“?”、“*”等。

截词方式



(1)后截断,前方一致。如:comput?表 示computer,computers,computing等。 (2)前截断,后方一致。如:?computer表 示minicomputer,microcomputers等。 (3)中截断,中间一致。如?comput? 表示minicomputer,microcomputers等。

逻辑“与”—“AND”




也叫逻辑乘,表示它所连 接的两个检索词必须同时 出现在结果中。 可以缩小命中范围,起到 缩检作用。 检索式可写为:A AND B。含义为A与B的重合部 分。 还有些数据库中用“*” 或其他符号表示逻辑
逻辑“与”—“AND”举例:
逻辑“或” —“OR”



也叫逻辑和,表示它所连接 的两个检索词中任意一个出 现在结果中就满足检索条件。 检索式可写为:A OR B。 它表示概念并列关系的一种 组配,用来扩大检索范围和 保证查全率。 还有些数据库中用“+” 表示 逻辑“或”。
检出相关文献量 检出文献总量
*100%
影响检索效果的因素

查全率与查准率是评价检索效果的两项 重要指标,查全率和查准率与文献的存 储与信息检索两个方面是直接相关的, 也就是说,与系统的收录范围、索引语 言、标引工作和检索工作等有着非常密 切的关系。
(1) 影响查全率的因素


影响查全率的因素从文献存储来看,主要有: 文献库收录文献不全;索引词汇缺乏控制和专指 性;词表结构不完整;词间关系模糊或不正确; 标引不详;标引前后不一致;标引人员遗漏了原 文的重要概念或用词不当等。 从检索来看,主要有:检索策略过于简单;选 词和进行逻辑组配不当;检索途径和方法太少; 检索人员业务不熟练和缺乏耐心;检索系统不具 备截词功能和反馈功能,检索时不能全面地描述 检索要求等。

(W)、( nW) (N)、(nN)



(W)算符是 “With”的缩写,表示连 接的两个检索词相邻,并且先后顺序不 能颠倒。检索表达式为: A(W)B。 N(W)表示连接的两个检索词之间最多 可以插入n个词(在中文方式下表示n个 字),而且前后顺序不能颠倒。检索式 可表达为:A(nW)B。
例如:
逻辑“或” —“OR”举例:
逻辑“非” —“NOT”



也叫逻辑差表示它所连接的 两个检索词中应从第一个概 念中排除第二个概念。 检索式可写为:A NOT B。 表示具有不包含某种概念关 系的一组组配,用来缩小检 索范围。 还有些数据库中用“-” 表 示逻辑“非”。
逻辑“非” —“NOT”举例:
(N)

表示连接的两个检索词相邻,先后顺序可以 颠倒.
4.字段限定检索

限制检索,也称字段检索。

限制检索表达式指用限制符限定检
索词出现范围的检索式。 常用的字段限定代码有:标题(TI, title)、作者(AU,author)、主题词 (SU, subject)、年代(PY, publication year)、关键词 (keyword)等。

分析检索课题所属学科范围. 确定检索的年代范围 分析所需文献类型
进行文献检索,首先必须对检索课题进行分析,明确检索目标,确定 检索范围,制定检索策略。分析检索课题在整个检索过程中是准备阶 段,课题分析得越准确,检索的效果便越好。

百度文库



例:如何具体分析课题“改革开放以来我国 关于社会结构变迁的研究” 参考答案: 本课题研究的是改革开放带来的中国社会 现象,旨在为研究中国社会结构变化的理 论、起因、现状和影响提供资料,因此基 本检索式是:我国and社会结构and社会变 迁
相关文档
最新文档