网络信息检索技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络信息检索技术
网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。
一、布尔逻辑检索
逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。
(一)逻辑“与”
逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。
例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education”。运算的结果是同时含有检索词children和检索词education的文献才被检索出来。
(二)逻辑“或”
逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”运算可用于扩大检索范围。
例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。
(三)逻辑“非”
逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。检索词A、B 若以NOT(或“-”)相连,即A NOT B(或A-B),表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。
例如,要查找有关“energy(能源)”,但又不涉及“nuclear(核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是含有energy,但不含有nuclear的文献将被检索出来。
这三种逻辑式的文氏图如下:
图3-1布尔逻辑文氏图
上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。
布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此,在计算机信息检索系统中得到广泛使用。但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索结果不能按照用户定义的重要性排序输出。
使用布尔逻辑运算符的注意事项:
布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用,但是不同的检索工具的布尔逻辑检索技术存在一定的差异,因此,使用布尔逻辑检索需要注意以下问题:
1、布尔逻辑检索的执行顺序。三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR。有括号时,先执行括号内的逻辑运算。
2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。首先,不同检索工具表示布尔逻辑关系的符号不同,有的用“+”、“-”表示AND、NOT,
有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求运算符必须大写,有的则要求为小写形式;其次,不同检索工具的检索词之间的默认布尔逻辑关系不同,有的检索工具检索词之间的默认关系是AND,有的检索工具的检索词之
间的默认关系是OR;此外,不同检索工具支持布尔逻辑的方式不同,有的检索工具使用符号来实现布尔逻辑关系,一些检索工具则完全省略了任何符号,直接用文字和表格来体现不同的逻辑关系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。
二、截词检索
截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。在实际检索的
过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。
截词的方式有多种。按截断的位置来分,可分为后截断、中截断和前截断;按截断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常
用“x”表示。
(一)后截断
后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。
例如,输入“inform x”,则前6个字符为inform的所有词均满足条件,因而能检索出含有informant、informal、information、informative、informed、informer 等词的文献。而输入“inform??”,可检索出含有inform、informal、informed、informer 的文献。
(二)前截断
前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索,是一种后方一致的检索。这种检索方法在各种词头有变化的复合词的检索中应用比较多,有助于提高查全率。
例如,输入“x magnetic”,可以检索出含magnetic、electro-magnetic等词的
文献。
(三)中截断
中截断是把截断符号放置在一个检索词的中间。一般地,中截断只允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。
例如,输入“c?t”,可以检索出含有词cat、cut的文献;输入“mod?????ation”可以检索出含有词moderation、modernization、modification的文献。
利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高查全率。但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统一的标准,如Dialog系统用“?”,BRS系统用“$”,ORBIT系统用“#”等。
三、位置检索
位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。这里我们只介绍位置检索中的词位置检索。
词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。