第二章信息检索原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.1.1 传统的信息资源检索技术
3. 位臵检索
紧密相连,且所连接的词之间不允许插入任何其他单词或字母,但次 序可以颠倒
(1)词位臵检索 ② (N)算符与(nN)算符--表示运算符两侧的检索词需
例如,“control(1N)system”不仅可以检出含有 “control system”、“control of system”和“control in system”的文献,还可以检出含有“system of control”、 “system without control”等的文献。 ③ (X)算符与(nX)算符--要求运算符两侧的检索词不
10
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
3. 位臵检索
位臵检索,也称临近检索,主要是通过位臵运算符来 规定和限制检索词之间的相对位臵或者检索词在记录中的 特定位臵来实施检索的技术。位臵检索主要有以下几个级
别。
11
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
17
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
4. 限制检索
(1)字段检索 例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找 2006年出版的关于信息检索或数字图书馆方面的文献,并 要求“information retrieval”一词在命中文献的“TI” (篇名)字段中出现,“digital library”一词在“DE” (叙词)字段中出现。
4
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
1. 布尔逻辑检索
(2)逻辑“与” 逻辑“与”是用于表示交叉关系或限定关系的一种组 配,用AND或“*”算符表示。例如检索式A AND B,表 示检索的文献记录中必须同时含有A和B才算命中。这种 组配可用于对检索词进行限定,从而缩小检索范围,有利 于提高检索结果的查准率。 (3)逻辑“非” 逻辑“非”是用于在检索范围中排除不需要的概念或 排除影响检索结果的概念,用NOT或“-”算符表示。例 如检索式A NOT B,表示检索记录中凡含有A不含B的记 录被检出。这种组配能够缩小命中文献的范围,增强检索 的准确性。
第2章 信息检索原理
1
信息资源检索基础知识
返回目录
2.1 信息资源检索技术
信息检索技术主要是指计算机检索采用
的技术。
传统的信息检索技术主要有布尔逻辑检
索、位臵检索、截词检索、限制检索和加
权检索等,随着网络检索的发展,还出现
了许多新型的计算机信息检索技术。
2
信息资源检索基础知识
返回目录
2.1 信息资源检索技术
3. 位臵检索
(1)词位臵检索 词位臵检索主要是利用位臵逻辑算符限定检索词之间 的位臵,来反映要检索的信息概念。常用的词位臵算符有 (W)与(nW)、(N)与(nN)以及(X)与(nX)3 类。 ① (W)算符与(nW)算符---表示运算符两侧的检索词
次序不能改变,且所连词之间只能有一个空格或一个标点,不能加其 他任何单词或只字母
15
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
3. 位臵检索
除了上述介绍的词位臵检索、同句检索和同字段检索 3个级别的位臵检索外,还有一级位臵检索叫做同记录检 索,它所用的位臵算符为(C),(C)要求它两侧的检 索词同在一条数据库记录中出现。
各种位臵算符可以混合于一个检索式中,它们都隐含 有AND功能,由于不同的位臵算符对两个词相对位臵的要 求不同,在同一个检索式中若有两种以上的位臵算符时, 应把要求严格的放在前面,从而提高查准率,节省查找时 间。运算符按照检索精度排序为:(W)>(nW)>(N) >(nN)>(L)>(S)>(F)>(C)。位臵检索对提高 检索的查全和查准率有重要作用,但网络检索中基本只支 持(W)和(N)。
仅完全一致,且以指定的顺序相邻,中间可以插入n个单词
例如,“side(1X)side”可以检索到含有“side by side”的文献。
13
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
3. 位臵检索
(2)同句检索 同句检索要求参加检索运算的2个词必须在同一自然 句或者全文数据库的一个段落中出现,检索词的先后顺序 和插入词的个数不受限制。同句检索中用到的位臵算符主 要是(S),是“Sentence”或“subfield”的缩写。 例如,“electronic(S)optical”,可以检索到题名 为“Cutting and Polishing Optical and Electronic Materials”的文献。
9
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
2. 截词检索
(3)中截断 中截断是把截断符号放臵在一个检索词的中间。一般 地,中截断只允许有限截断。中截断主要解决一些英文单 词拼写不同,单复数形式不同的词的输入。如,wom?n 例如,输入“c?t”,可以检索出含有词“cat”、 “cut”的文献;输入“mod?????ation”可以检索出含有 词“moderation”、“modernization”、“modification” 的文献。
2.1.1 传统的信息资源检索技术
2.1.2 新型的网络资源检索技术
3
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
1. 布尔逻辑检索
布尔逻辑检索是一种开发较早、比较成熟、在信息检 索系统中广泛应用的技术。它是采用布尔代数中的布尔关 系运算符来表达检索词与检索词之间的逻辑关系的检索方 法。常用的布尔逻辑运算符有3种,分别是逻辑“或” (OR)、逻辑“与”(AND)、逻辑“非”(NOT)。 (1)逻辑“或” 逻辑“或”是用于表示并列关系的一种组配,用来表 示相同概念的词之间的关系,用OR或“+”算符表示。例 如检索式A OR B,表示检索的文献记录中只要含有A或者 B中的任何一个即算命中。这种组配可用于扩大检索范围, 增加命中文献数量,有利于提高检索结果的查全率。
19
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
5. 加权检索
加权检索就是在检索时赋给每个检索词一个表示其重 要程度的数值,即所谓的“权值”,在检索过程中,对含 有这些检索词的文献进行加权计算,权值之和在规定的数 值(称为阀值)之上者才会作为检索结果输出,权值的大 小可以反映出被检出文献的切题程度。 加权检索目前在信息系统中的应用还不很完善,不是 所有的系统都提供这种检索技术,即使能提供加权检索的 系统,对权的定义、加权方式、权值计算和检索结果的判 定也都有不同的技术规范。目前存在词加权检索和词频加 权检索2种基本的加权检索方法。
6
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
2. 截词检索
截词检索是指在检索式中使用专门的符号(截词符号) 表示检索词的某一部分允许有一定的词形变化,用检索词 的词干或不完整的词形查找信息的一种检索方法。并认为 凡满足这个词局部中的所有字符的文献,都为命中的文献。 在实际检索的过程中,为了减少检索词的输入量,同时又 扩大检索范围,保证查全率,可以使用截词检索。 截词的方式有多种。按截断的位臵来分,可分为后截 断、中截断和前截断;按截断的字符数量来分,可分为有 限截断和无限截断。有限截断是指说明具体截去字符的数 量,通常用“?”表示;而无限截断是指不说明具体截去 字符的数量,通常用“*”表示。
16
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
4. 限制检索
(1)字段检索
数据库记录是由若干个字段组成的,字段检索是把检索 词限定在数据库记录的特定字段中的检索方法,如果记录的 相应字段中含有输入的检索词则为命中记录。 数据库中提供的可供检索的字段通常分为基本索引字段 和辅助索引字段2大类。 基本索引字段表示文献的内容特征,有TI(篇名、题 目)、AB(摘要)、DE(叙词)、ID(自由标引词)等; 辅助索引字段表示文献的外部特征,有AU(作者)、 CS(作者单位)、JN(刊物名称)、PY(出版年份)、 LA(语言)等。
14
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
3. 位臵检索
(3)同字段检索 同字段检索是对同句检索条件的进一步放宽,表示在 此运算符两侧的检索词必须同时出现在文献记录的同一字 段内,其运算符有两种。 ① (F)算符 例如,“information(F)retrieval/DE,TI”表示 “information”和“retrieval”两个词必须同时出现在叙 词字段或篇名字段内。 ② (L)算符 例如,“information system(L)system design”, 表示“system design”是“information system”ቤተ መጻሕፍቲ ባይዱ下一 级主题词。
5
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
1. 布尔逻辑检索
(4)使用布尔逻辑运算符的注意事项 布尔逻辑检索在联机检索、光盘检索和网络检索中都 有广泛的应用,但是不同的检索工具的布尔逻辑检索技术 存在一定的差异,因此,使用布尔逻辑检索需要注意以下 问题: ① 布尔逻辑检索的执行顺序。3种布尔逻辑检索运算 符之间的运算顺序为NOT、AND、OR。有括号时,先执 行括号内的逻辑运算。 ② 不同检索工具的布尔逻辑检索有不同的表现形式 和使用规则。首先,不同检索工具表示布尔逻辑关系的符 号不同;此外,不同检索工具支持布尔逻辑的方式不同。
如:physic* 可检出的词汇有:physic、physical、physician、physicist、 physics等。 不难看出,截词检索具有隐含的OR运算特性。 归纳起来,后截词主要使用在如下4个方面: (1)词的单复数,如book?,potato??; (2)年代,如198?(80年代),19??(20世纪); (3)作者,如用Lancaster*可检出所有姓Lancaster的作者; (4)同根词,如用biolog*,可检出biological、biologist、 8 biology等同根词。
12
例如, “VISUAL(W)FOXPRO”可以检出 “VISUALFOXPRO”或“VISUAL FOXPRO”; “control(1W)system”可以检出含有“control system”、“control of system”和“control in system” 文献。
12
返回目录
18
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
4. 限制检索
(2)限制符检索 限制符检索是使用AU(作者)、CS(作者单位)、 JN(刊物名称)、PY(出版年份)、LA(语言)等限制 符号从文献的外部特征方面限制检索范围和检索结果的一 种方法。限制符的用法与后缀符相同,而它的作用则与前 缀符相同。 例如,“aircraft/TI,PAT”表示的检索结果只要 “aircraft”这一主题的专利文献。 限制符还可以与前、后缀符同时使用,这时字段代码 与限制符之间的关系是逻辑“与”,即最终的检索结果应 同时满足字段检索和限制符检索两方面的要求。
信息资源检索基础知识
返回目录
2.1.1 传统的信息资源检索技术
2. 截词检索
(2)前截断 前截断是将截词符号放臵在一个字符串左方,以表示 其左方的有限或无限个字符不影响该字符串检索,是一种 后方一致的检索。这种检索方法在各种词头有变化的复合 词的检索中应用比较多,有助于提高查全率。 例如,输入“*magnetic”,可以检索出含 “magnetic”、“electro-magnetic”等词的文献。
7
信息资源检索基础知识
返回目录
2. 截词检索 (1)后截断
2.1.1 传统的信息资源检索技术
后截断是最常用的截词检索技术,是将截词符号放臵在一个字符串右方, 以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一 致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助 于提高查全率。