文献检索(信息检索技术)课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

先进行括号内的检索,
然后再将其检索结果与
A C
B
制备方法组配,目的是
检索激光器或者调制器 的制备方法。
(A OR B) AND C
6 /29
2.2 位置检索(Position Search) 第 二 部 分 计 算 机 信 息 检 索 技 术 ——也叫邻近检索(Proximity Search) 定义:位置算符检索是用一些特定的算符 (位置算符)来表达检索词与检索 词之间的邻近关系。 目的:用于确定词语的相对次序或位置。 间隔 computer aided design 顺序
12 /29
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 部 (6) (F)——Field (F)表示其两侧的检索词必须是在文献记录的 分 同一字段中,而它们在该字段中的相对次序 计 和相对位置的距离不限。 算 机 例如:water ( ) pollution (F) control 信 表示在同一个字段中(如篇名、文摘、叙词 息 检 等)同时含有 索 water pollution 和 control 技 的文献记录均可检索出来。 术
11 /29
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 部 (5) (S)——Subfield (S)表示其两侧的检索词必须是在文献记录的 分 同一子字段中,而不限定它们在该子字段中 计 的相对次序和相对位置的距离。在文摘字段 算 中,一个句子就是一个子字段。 机 信 检 索 式:computer ( ) control (S) system 息 检 检索结果:“This paper is concerned with an application of the computer control technique 索 技 in a intelligent system for testing inner walls of 术 pipes.”
15 /29
2.2 位置检索(Position Search) 第 IEL检索系统中的位置算符: 二 ① < paragraph>,表示算符两边的检索词必须出 部 现在同一段落内,两个检索词的顺序可以前后 分 颠倒; 计 ② <sentence>,表示算符两边的检索词必须出 算 现在同一句子内,两个检索词的顺序可以前后 机 颠倒; 信 ③ <phrase>,表示算符两边的检索词必须出现在 息 同一短语内,两个检索词的顺序可以前后颠倒; 检 索 ④ <near/n>,表示两个检索词相邻,中间相隔最 多n个词,两个检索词的顺序可以前后颠倒。 技 术
《文献检索》
——检索技术部分 电子科学与工程学院 高福斌
第二部分 计算机信息检索技术
2.1 布尔逻辑检索(Boolean Logic)
2.2 位置检索(Position Search)
2.3 截词检索(Truncation)
2.4 字段限定检索(Field Limiting)
2.5 短语检索(Phrase Search)
(3) 逻辑‚非‛ 算符:用 NOT 或 - 表示; A概念和B概念的‚非‛关系表示为: A NOT B A not B A-B
A
B
A NOT B
5 /29
2.1 布尔逻辑检索(Boolean Logic) 第 (4)运算符的优先级运算 二 顺序如下:( )>NOT>AND>OR。 部 分 例如:(激光器 OR 调制 计 算 机 信 息 检 索 技 术 器) AND 制备方法,
8 /29
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 部 (2) (nW)——nWords 分 (nW) 表示在此算符两侧的检索词之间最多允 许间隔n个词(实词或虚词),且两者的相对 计 位置不能颠倒。 算 机 信 检 索 式:laser (1W) printer 息 检索结果: 检 laser printer 索 laser color printer 技 术
2.6 自然语言检索(Natural Language Search)
2 /29
2.1 布尔逻辑检索(Boolean Logic) 第 二 部 分 计 算 机 信 息 检 索 技 术
(1) 逻辑‚与‛ 算符:用 AND 或 * 表示; A概念和B概念的‚与‛关系表示为: A AND B A and B A*B
21 /29
2.3 截词检索(Truncation) 第 (2)中间截词 中间截词又称中间屏蔽,是一种用截词符屏蔽 二 部 词中不同字符的方法。例如‚woman‛和 分 ‚women‛,可用‚wom? n‛代替;‚defence‛ 计 和‚defense‛可用‚defen ? e"代替。 算 截词符具有‚OR‛运算符的功能,能够扩大检 机 索范围,而且减少了输入检索词的时间,节约了机 信 时。 息 常用的截词符有.’‘?‛、‚*‛,、‚#‛、 检 索 ‚$‛等多种表示形式,不同的检索系统其截词符 技 的表示形式和截词检索的方式是不同的, 术
A
B
A AND B
3 /29
2.1 布尔逻辑检索(Boolean Logic) 第 二 部 分 计 算 机 信 息 检 索 技 术
(2) 逻辑‚或‛ 算符:用 OR 或 + 表示; A概念和B概念的‚或‛关系表示为: A OR B A or B A+B
A
A OR B
B
4 /29
2.1 布尔逻辑检索(Boolean Logic) 第 二 部 分 计 算 机 信 息 检 索 技 术
14 /29
2.2 位置检索(Position Search) 第 CSA Illumina检索系统中的位置算符: 二 部 ① 词间无算符,即表示将检索词作为一个词组来 检索; 分 ② WITHIN “x”,表示在指定的半径内(x个词)查找 计 输入词,词序不限; 算 机 ③ NEAR, 设定在相距不大于10个词的范围内查 信 找输入词,相当于within 10; 息 检 ④ BEFORE, 按照输入检索词相应的顺序查找; 索 ⑤ AFTER, 按照第1个词在第2个词之后的相应顺 技 序查找。 术
17 /29
2.3 截词检索(Truncation) 第 二 部 分 计 算 机 信 息 检 索 技 术
截词检索就是为了解决这个问题而设计的, 它既可保证不漏检,又可节约输入检索式的时间。
所谓截词,就是指在检索词的适当位置截断, 保留相同的部分,用相应的截词符代替可变化部 分,计算机会将所有含有相同字符部分词的记录 全部检索出来。
16 /29
2.3 截词检索(Truncation) 第 二 部 分 计 算 机 信 息 检 索 技 术
截词检索是计算机检索系统中应用非常普遍 的一种技术。由于西文的构词特性,在检索中经 常会遇到名词的单复数形式不一致;同一个意思 的词,英美拼法不一致;词干加上不同性质的前 缀和后缀就可以派生出许多意义相近的词等。为 了保证查全,就得在检索式中加上这些具有各种 变化形式的相关意义的检索词,这样就会出现检 索式过于冗长,输入检索词的时间太久,同时也 占太多机时。
22 /29
2.3 截词检索(Truncation) 第 二 部 分 Ei Village中的截词符为: ‚*‛——用于词中或词后表示可以代替多个字符, 检索出相同词干的任意多个变化的词: 例如:输入optic *,可检索出optic, optics, optical等;
计 算 机 ‚?‛——用于词中表示可以代替一个字符, 信 息 检 例如,输入wom?n可检索出woman, women. 索 技 术
19 /29
2.3 截词检索(Truncation) 第 二 部 分 计 算 机 信 息 检 索 技 术 美国Dialog系统用‚?‛表示截词符,有以 下几种截词方式。
(1)后方截词 ①词尾的有限截断相同字符串后可能变化一个 字符时,则在其后使用一个‚?‛、空格、再加一 个‚?‛,常用来表示检索词的单复数变化。例如 用system? ?可以查出system和systems的文献。 相同字符串后可能变化两个以上字符时,则在 其后连续使用若干个‚?‛代替可能变化的字符。 例如,??表示两个字符,???表示三个字符, 以此类推。
23 /29
2.4 字段限定检索(Field Limiting) 第 二 部 分 计 算 机 信 息 检 索 技 术 字段限定检索——是指限定检索词在数据库记 录中的一个或几个字段范围内查找的一种检索方法。 在检索系统中,数据库设置的可供检索的字段 通常有两种:表达文献主题内容特征的基本索引字 段和表达文献外部特征的辅助索引字段。 基本索引字段包括篇名、文摘、叙词、自由标 引词四个字段; 辅助索引字段包括除基本索引字段以外的所有 字段,像著者字段、著者机构字段、文献类型字段、 语种字段等。 百度文库个字段都有用2个字母表示的字段标识符(或 称字段代码)。
18 /29
2.3 截词检索(Truncation) 第 二 部 分 计 算 机 信 息 检 索 技 术
美国Dialog系统用‚?‛表示截词符,有以 下几种截词方式。 (1)后方截词 后方截词,也称前方一致。它是将截词符放 在一串字符的后面,用以表示以相同字符串开头, 而结尾不同的所有词。 后方截词又分为词尾的有限截断和词尾的无 限截断两种情况。
13 /29
2.2 位置检索(Position Search) 第 Ei Village检索系统中的位置算符(只有一种): 二 (N)——Near 部 (N)表示两个检索词彼此接近且两词之间最 分 多不超过5个词,前后顺序不限。 计 算 机 例如:water ( ) pollution (F) control 信 息 表示在同一个字段中(如篇名、文摘、叙词等) 同时含有 检 water pollution 和 control 索 技 的文献记录均可检索出来。 术
9 /29
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 部 (3) (N)——Near 分 (N)表示该算符两侧的检索词相邻,但两者的 相对位置可以颠倒。 计 算 机 检 索 式: computer (N) network 信 检索结果: 息 computer network 检 索 network computer 技 术
10 /29
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 部 (4) (nN)——nNear (nN)表示此算符两侧的检索词之间允许间隔 分 最多n个词,且两者的顺序可以颠倒。 计 算 检 索 式:computer (2N) system 机 检索结果: 信 computer system 息 检 computer code system 索 computer aided design system 技 术 system using modern computer
7 /29
举例:
2.2 位置检索(Position Search) 第 美国DIALOG检索系统的位置算符的用法: 二 (1) (W)——With 部 (W) 表示该算符两侧的检索词相邻,且两者 分 之间只允许有一个空格或标点符号,不允许 有任何字母或词,顺序不能颠倒。 计 算 (W) 也可以简写为 ( )。 机 信 检 索 式:information()retrieval 息 检索结果:information retrieval 检 索 技 检 索 式: computer()aided()design 术 检索结果: computer aided design
20 /29
2.3 截词检索(Truncation) 第 ② 词尾的无限截断相同字符串后可能变化任何字符 二 串时,则在其后使用一个‚?‛。这种方法可以查 部 分 找出含有相同字符串的所有检索词。例如,comput? 可查出 compute, computer, computing, 计 computation,computerisation等。 算 机 信 息 检 索 技 术
相关文档
最新文档