第二章 信息检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (4)复合截断:是指同时采用两种以上的截断方式。 例如?chemi?可以检出chemical、chemist、 chemistry、electrochemistry、 electrochemical、physicochemical、 thermochemistry等。
2021/3/30
7
5) 有限截断:是指允许截去有限个字符。例如
• 而wear(1w)materials可检出
– wear materials、 – wear of materials
2021/3/30
14
• 采用位置算符检索时,通常最严谨的算符 放在最左面,例如:
• european(w)economic(w)communit y(f)patio
• 注意:不同的机检系统,位置检索的功能 及算符不同,应参看机检系统的说明,上 述为DIALOG系统的位置算符。
2021/3/30
3
逻辑“非”:
2021/3/30
4
截词检索
2021/3/30
5
• 截词的方式有多种,按截断部位可分为右 截断、左截断、中间截断、复合截断等; 按截断长度可以分为有限截断和无限截断。
• 1) 右截断:截去某个词的尾部,是词的前 方一致比较,也称前方一致检索。
• 例如:输入geolog?(?为截断符号),将会 把含有geological、geologic、 geologist、geologize、geology等词 的记录检索出来。若输入PY=199?,会把 90年代的记录全部查出来。
comput??? ?可检出compute、computer、 computers 、 computing 等 词 , 不 能 检 出 computable 、 computation 、 computerize等词。注意:词干后面连续的 数个问号是截断符,表示允许截去字符的个 数,最后一个问号是终止符,它与截断符之 间要有一个空格,输入时一定要注意。
第二章 信息检索技术
下面介绍几种在光盘检索、联机检索和网络检索 等各类机检系统中常用的检索技术。但由于不同的机 检系统使用不同的检索软件,所支持的检索技术不同, 采用的检索算符也不同,因此实际检索时,应注意查 看所用检索系统的说明。
• 布尔逻辑检索 • 截词检索 • 位置检索 • 限制检索 • 加权检索
2021/3/30
1
逻辑“与”:
• 运算符为 And 或 * 。检索词A和检索词B 用“与”组配,检索式为:A And B或者 A * B 它表示检出同时含有A、B两个检索 词的记录。逻辑与检索能增强检索的专指性, 使检索范围缩小。
• 此算符适于连接有限定关系或交叉关系的词。
2021/3/30
2
逻辑“或”:
2021/3/30
10
位置检索
• 位置检索(Proximate)是在检索词之间使用位 置算符(也称邻近算符Adjacent Operators), 来规定算符两边的检索词出现在记录中的位置, 从而获得不仅包含有指定检索词而且这些词在 记录中的位置也符合特定要求的记录。这种方 法能够提高检索的准确性,当检索的概念要用 词组表达,或者要求两个词在记录中位置相邻 /相连时,可使用位置算符。机检系统中常用 的位置算符(按限制强度递增顺序排列)如下:
2021/3/30
6
• 2) 左截断:截去某个词的前部,是词的后方一致比 较,也称后方一致检索。例如:输入?magnetic 能 够 检 出 含 有 magnetic 、 electromagnetic 、 paramagnetic、thermo-magnetic等词的记录 。
• (3) 中间截断:截去某个词的中间部分,是词的两 边一致比较,也称两边一致检索。例如:输入 organi?ation 可 以 检 出 organization 、 organisation;输入f??t可查出foot、feet。
(6) 无限截断:是指允许截去的字符数量不限, 也称开放式截断。上面右截断、左截断所举 的例子均属此类型。
2021/3/30
8
2021/3/30
9
• 由上述可见:任何一种截词检索,都隐含 着布尔逻辑检索的“或”运算。采用截词 检索时,既要灵活、又要谨慎,截词的部 位要适当,如果截得太短(输入的字符不得 少于3个),将增加检索噪声,影响查准率。 另外,不同的机检系统使用的截词符不同、 各数据库所支持的截断类型也不同,例如 DIALOG系统和STN系统用?、ORBIT系统 用:、BRS系统用$、ESA-IRS系统用+等。
– information retrieval – retrieval information
• 又如econom ?? ?(2n) recovery 可以检 出
– economic recovery、 – recovery of the economy 、 – recovery from economic troubles
2021/3/30
13
• (4)(w)算符With:(w)要求检索词必须 按指定顺序紧密相连,词序不可变,词之 间除允许有空格、标点、连字符外,不得 夹单词或字母;
• (Nw)表示连接的两个词之间最多可夹入 N个词(N为自然数),词序不得颠倒。
• 例如 input(w)output可检出
– input output
• 例如 machine(s)plant
2021/3/30
12
• (3)(n)算符near:(n)要求被连接的检索 词必须紧密相连,词之间除允许有空格、 标点、连字符外,不得夹单词或字母,词 序不限;(Nn)表示两个检索词之间最多可 以夹N个词(N为自然数1、2、3…),且词 序任意。
• 例如:information(n)retrieval 可以检出
2021/3/30
11来自百度文库
• (1)(f)算符Field:要求被连接的检索词 出现在同一字段中,字段类型和词序均不 限。
• 例如 happiness(f)sadness and crying
• (2)(s)算符Sub-field/Sentence:要求 被连接的检索词出现在同一句子(同一子字 段)中,词序不限。
2021/3/30
7
5) 有限截断:是指允许截去有限个字符。例如
• 而wear(1w)materials可检出
– wear materials、 – wear of materials
2021/3/30
14
• 采用位置算符检索时,通常最严谨的算符 放在最左面,例如:
• european(w)economic(w)communit y(f)patio
• 注意:不同的机检系统,位置检索的功能 及算符不同,应参看机检系统的说明,上 述为DIALOG系统的位置算符。
2021/3/30
3
逻辑“非”:
2021/3/30
4
截词检索
2021/3/30
5
• 截词的方式有多种,按截断部位可分为右 截断、左截断、中间截断、复合截断等; 按截断长度可以分为有限截断和无限截断。
• 1) 右截断:截去某个词的尾部,是词的前 方一致比较,也称前方一致检索。
• 例如:输入geolog?(?为截断符号),将会 把含有geological、geologic、 geologist、geologize、geology等词 的记录检索出来。若输入PY=199?,会把 90年代的记录全部查出来。
comput??? ?可检出compute、computer、 computers 、 computing 等 词 , 不 能 检 出 computable 、 computation 、 computerize等词。注意:词干后面连续的 数个问号是截断符,表示允许截去字符的个 数,最后一个问号是终止符,它与截断符之 间要有一个空格,输入时一定要注意。
第二章 信息检索技术
下面介绍几种在光盘检索、联机检索和网络检索 等各类机检系统中常用的检索技术。但由于不同的机 检系统使用不同的检索软件,所支持的检索技术不同, 采用的检索算符也不同,因此实际检索时,应注意查 看所用检索系统的说明。
• 布尔逻辑检索 • 截词检索 • 位置检索 • 限制检索 • 加权检索
2021/3/30
1
逻辑“与”:
• 运算符为 And 或 * 。检索词A和检索词B 用“与”组配,检索式为:A And B或者 A * B 它表示检出同时含有A、B两个检索 词的记录。逻辑与检索能增强检索的专指性, 使检索范围缩小。
• 此算符适于连接有限定关系或交叉关系的词。
2021/3/30
2
逻辑“或”:
2021/3/30
10
位置检索
• 位置检索(Proximate)是在检索词之间使用位 置算符(也称邻近算符Adjacent Operators), 来规定算符两边的检索词出现在记录中的位置, 从而获得不仅包含有指定检索词而且这些词在 记录中的位置也符合特定要求的记录。这种方 法能够提高检索的准确性,当检索的概念要用 词组表达,或者要求两个词在记录中位置相邻 /相连时,可使用位置算符。机检系统中常用 的位置算符(按限制强度递增顺序排列)如下:
2021/3/30
6
• 2) 左截断:截去某个词的前部,是词的后方一致比 较,也称后方一致检索。例如:输入?magnetic 能 够 检 出 含 有 magnetic 、 electromagnetic 、 paramagnetic、thermo-magnetic等词的记录 。
• (3) 中间截断:截去某个词的中间部分,是词的两 边一致比较,也称两边一致检索。例如:输入 organi?ation 可 以 检 出 organization 、 organisation;输入f??t可查出foot、feet。
(6) 无限截断:是指允许截去的字符数量不限, 也称开放式截断。上面右截断、左截断所举 的例子均属此类型。
2021/3/30
8
2021/3/30
9
• 由上述可见:任何一种截词检索,都隐含 着布尔逻辑检索的“或”运算。采用截词 检索时,既要灵活、又要谨慎,截词的部 位要适当,如果截得太短(输入的字符不得 少于3个),将增加检索噪声,影响查准率。 另外,不同的机检系统使用的截词符不同、 各数据库所支持的截断类型也不同,例如 DIALOG系统和STN系统用?、ORBIT系统 用:、BRS系统用$、ESA-IRS系统用+等。
– information retrieval – retrieval information
• 又如econom ?? ?(2n) recovery 可以检 出
– economic recovery、 – recovery of the economy 、 – recovery from economic troubles
2021/3/30
13
• (4)(w)算符With:(w)要求检索词必须 按指定顺序紧密相连,词序不可变,词之 间除允许有空格、标点、连字符外,不得 夹单词或字母;
• (Nw)表示连接的两个词之间最多可夹入 N个词(N为自然数),词序不得颠倒。
• 例如 input(w)output可检出
– input output
• 例如 machine(s)plant
2021/3/30
12
• (3)(n)算符near:(n)要求被连接的检索 词必须紧密相连,词之间除允许有空格、 标点、连字符外,不得夹单词或字母,词 序不限;(Nn)表示两个检索词之间最多可 以夹N个词(N为自然数1、2、3…),且词 序任意。
• 例如:information(n)retrieval 可以检出
2021/3/30
11来自百度文库
• (1)(f)算符Field:要求被连接的检索词 出现在同一字段中,字段类型和词序均不 限。
• 例如 happiness(f)sadness and crying
• (2)(s)算符Sub-field/Sentence:要求 被连接的检索词出现在同一句子(同一子字 段)中,词序不限。