文献检索技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

注意:不同的数据库所用的截词符不一样,使用应先查
一下各数据库的帮助加以确认。
1 后方截词(前方一致或右截断)

含义:将截词符放在一串字符的后面,用以表示以 相同字符串开头,而结尾不同的所有词。
相同字符串后可能变化一个字符时,则在其后使用一个“?”、 空格、再加一个“?”,常用来表示检索词的单复数变化。 相同字符串后可能变化两个以上字符时,则在其后连续使用 若干个“?”代替可能变化的字符。

processing of Egyptian cotton
5)“(F)” ——同字段检索 含义:“(F)”算符中F的含义为“Field”。这 个算符表示其两侧的检索词必须在同一个词段中 出现,(例如;同在题目字段或文摘字段)词序不 限,中间可插任意检索词项。 例如: POLLUTION (F) CONTRON 可命中 Contron and management of industrial pollution 同在题目中 (F)邻近算符与AND布尔逻辑主要区别在于:(F)使 两个检索项在同一字段,AND布尔逻辑中两个检索 词会发生在不同字段中。
注意
(1)有限截断比较精确,只检索出用户需要的词汇; (2)使用时无限截断必须注意:词干不要太短,否 则会检出许多无关的文献; (3)应尽量选用不会引起误检的截断词。
2 中间截词(中间屏蔽)

将提问字符串中间的字符用符号代替,主要用于英式美式不同拼法的英文 单词,或单复数不同的单词。 截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索 词的时间,节约了机时。
6)“(s)”——同句检索

含义: “(s)”算符中的S含义为“Sentence”。 这个算符表示其两侧的检索词必须在同一自然句 子(子字段)中出现,两词的词序可以颠倒。 放宽了词位置检索的要求,使表达同一概念但不 满足词位置条件的文献也可以被检索出来,从而 提高了查全率。

以上介绍的各种位置算符,按照限制程度的大小, (W)、(nW)最强,(N)、(nN)次之,(S)再次之。 当(nN)的n ≥10时,其作用已经相当于(S)。
computing,computation,computerisation 等。
(3)后截词主要使用在如下4个方面

词的单复数,如book?,potato??; 年代,如198?(80年代),19??(20世纪); 作者,如用Lancaster*可检出所有姓Lancaster的作 者; 同根词,如用biolog*,可检出biological、 biologist、biology等同根词。
三、 截词检索技术

含义:用截断的词(词的片段)的一个局部进行
的检索,并认为凡满足这个词局部中的所有字符 (串)的文献,都为命中的文献。

检索者将检索词在合适的地方截断,然后截出的 片断进行检索。
原因:

由于西文的构词特性,在检索中经常会遇到名词 的单复数形式不一致;同一个意思的词,英美拼 法不一致;词干加上不同性质的前缀和后缀就可 以派生出许多意义相近的词等等。
6 小结

检索中逻辑算符使用是最频繁的,对逻辑算符使 用的技巧决定检索结果的满意程度。 用布尔逻辑表达检索要求,除要掌握检索课题的 相关因素外,还应在布尔算符对检索结果的影响 方面引起注意。


另外,对同一个布尔逻辑提问式来说,不同的运 算次序会有不同的检索结果。布尔算符使用正确 但不能达到应有检索效果的事情是很多的。
例如:在含有概念A 的文献集合中,排除同时含有
概念B 的文献,可表示为:“A NOT B”或
“A-B”。
4 运算优先级

运算优选级顺序为(),NOT,OR ,AND ; 可以用括号改变它们之间的运算顺序。通常在有 括号的情况下,括号内的逻辑运算先执行,有多 层括号时,先执行最内层的括号。
例如:(A OR D) AND B,表示先执行“A OR D”的
1)“(W)” 含义: “(W)”算符中的W含义为“With”。表示 其两侧的检索词必须紧密相连,除开空格和标点 号外,不得插入其他词或字母,两词的词序不可 颠倒。其简略形式为()。 例如: communication (W) satellite communication () satellite 两者相同
3)“(N)”

含义:“(N)”中的N含义为“Near”。表示其两侧 的检索词必须紧密相连,除开空格和标点符号外, 不得插入其他词或字母,两词的词序可以颠倒。
4)“(nN)”

含义:“(nN)”是“(N)”算符的变形,不同之处为 允许两词间插入最多为n个其他词,包括实词和系 统禁用词。
例如: COTTON (2N) PROCESSING 则命中: Cotton processing; processing of cotton;
示例:使用布尔逻辑运算符
Intelligent robot and control(intelligent robot*control) 表明查询结果中必须同时包含intelligent robot和control Intelligent robot or control(intelligent robot+control) 表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或 control Intelligent robot not control(intelligent robot-control) 表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容
2)“(nw)” “(nW)”中的“W”的含义为“Word”,它允许两词间 插入最多为n个其他词,包括实词和系统禁用词, 词序不变。 例如: communication (2W) satellite 则会检出 communication satellite communication though satellite communication on the satellite
3 前截断(后方一致或左截断)

前截断检索常用于复合词。 例如:?computer表示minicomputer, microcomputers等。

前截断与后截断也可以组合起来使用。
例如: *chemi* 可以检出下列词汇 chemical、chemistry、chemist、
eletrochemical、electrochemistry、
第3讲 文献检索技术
2005.7
一、布尔逻辑检索技术

在检索实际中,检索提问涉及的概念往往不 止一个,而同一个概念又往往涉及多个同义 词或相关词。 为了正确地表达检索提问,系统中采用布尔 逻辑运算符将不同的检索词组配起来,使一 些具有简单概念的检索单元通过组配成为一 个具有复杂概念的检索式,用以表达用户的 信息检索要求。
2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因 素外,还应在布尔算符对检索结果的影响方面引起注意。 布尔算符使用正确但却不能达到应有检索效果的例子很多。 OR逻辑 有些检索词表达的概念,存在整体与部分的关系。在检索 中,这类关系如果处理不好,就不能得到满意的检索效果。 对此,一般原则是,如果检索词涉及到表达整体的概念, 就要针对具体情况分别列出每一个表达部分概念的检索词, 否则将出现漏检。 NOT逻辑 在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的 文献,协助检索出更准确的文献。但是,使用NOT必须慎 重。因为, 如果两个关系紧密的检索词同在一个检索逻 辑中,对其中一个使用NOT逻辑会导致含另一个词的文献 也被排除。
为了保证查全,就得在检索式中加上这些具有各 种变化形式的相关意义的检索词,这样就会出现 检索式过于冗长,输入检索词的时间太久,同时 也占太多机时。

截词的方式
(1)按截断的字符数量来分:有限截断和无限截断 有限截断:有具体截去的字符数。 无限截断:不指明具体截去的字符数。 (2)按截断的位置区分:后截断、前截断以及中间截断。 (3)截断常使用截断符号,各检索系统所使用的截断符号 有所不同,常用的符号有 “?”,“$”,“#”以及 “ *” 。以下举例中用“?”来表示有限截断,用“*” 表示无限截断。
检索,再与B进行AND运算。
5 注意事项 1)有的检索工具以符号形象地表达布尔检索的功能, 如“+”表示逻辑与,“-”表示逻辑非。有的检索 工具直接把布尔逻辑隐含在菜单中,例如,Lycos以 “match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索工具的高级检索 完全用表格和文字来表达布尔关系,如,Excite以 “必须包括(MUST contain)”表示逻辑与,用 “一定不含”(MUST NOT contain)表示逻辑非。 有的检索工具部分支持布尔关系,如Yahoo!尚不支 持逻辑非。
注:英文数据库通常用字母,中文数据库要用符号。
二、位置检索(邻近检索)技术


百度文库

表明两或多个检索词之间关系的符号。 适用于两个检索词以指定间隔距离或者指定的顺序出现的场 合。可以看成特殊功能的AND算符。AND算符不限制两个检索 词的位置和出现顺序。 例如:communication AND satellite 命中的文献可能有 communication satellite; satellite communication; communicaticn devices for satellites; communicaticn links without satellites; 位置算符可以改进AND算符的这种不足,它是特殊功能的AND 算符。按照两个检索词出现的顺序和距离,可以有多种位置 算符,而且对同一位置算符,检索系统不同,规定的位置算 符也不同。

例如:检索含有检索项A 或检索项B 的文献,可表
3 逻辑“非” 含义:排除含有某些词的记录的,即检出的记录 中只能含有NOT算符前的检索词,但不能同时含 有其后的词。


基本作用:用于从某一检索范围中排除不需要的 概念。这种组配可以缩小检索范围。
用“NOT”或“-”表示,但在检索时建议使用NOT, 以避免与词间的分隔符“-”混淆。

1 逻辑“与”

含义:检出的记录必须同时含有所有的检索词。 基本作用:一种用于交叉概念或限定关系的组配, 可以缩小检索范围,有利于提高检索的专指性。 用and 或*表示 示为:“A and B”或“A*B”

例如:查找同时含有概念A 和概念B 的文献,可表
2 逻辑“或”

含义:检出的记录中,至少含有两个检索词中的 一个。 基本作用:用于具有并列概念关系的组配。这种 组配可以扩大检索范围,提高查全率。可以避免 了命中文献的重复出现。 用OR 或“+”表示 示为:“A OR B”或“A+B”
(1)词尾的有限截断

例如:用system??可以查出sytem 和systems 的文献。

例如:??表示两个字符,???表示三个字符,以此类推。
(2)词尾的无限截断

相同字符串后可能变化任何字符串时,则在其后 使用一个“?”。这种方法可以查找出含有相同字 符串的所有检索词。
例如: comput? 可查出compute , computer ,

例如:“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 检索时为防止漏检可用中间屏蔽的检索方法: m?n wom?n organi?ation defen?e 当然使用中间屏蔽的方法也要注意是否可能误检其它词汇的 文献。
physicochemistry、thermochemistry等。
四、字段限定检索

含义:限定检索词在数据库记录中的一个或几个字段范围 内查找的一种检索方法。(规定的字段范围内出现的信息 方为命中信息的一种检索方法。)

适用于在已有一定数量输出记录的基础上,通过指定字段 的方法,减少输出篇数,提高检索结果的查准率。由于字 段限制采用前缀和后缀的形式,又可称为前缀限制和后缀
相关文档
最新文档