计算机检索基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
.OCLC:联机计算机图书馆中心,是世界上最大 的为读者提供文献信息机构。有60个数据库, 提供会议录、工业通告、图书评论等信息。
DIALOG有900多个数据库,其中广泛使用的 有600多个,内容涉及多个学科领域,文献存 储量超过3亿篇。
8
4、光盘数据库检索
光盘 是80年代发展起来的激光存储载体,继纸 张感光材料、磁性载体之后问世的又一种新型 的信息存储介质。能存储数据、文字、图形、 图像、声音、动画等各种信息。
21
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
计算机检索基础知识
东北大学图书馆
1
一、计算机检索的概念
计算机检索就是指人们在计算机检索网络或终端上,使用特定的 检索指令、检索词和检索策略,从计算机检索系统的数据库中检 索出所需要的信息,然后再由终端设备显示、下载和打印的过程。 广义的计算机信息检索包括两个过程。 (1)对原始信息加工处理并存贮在各种信息载体上 一是对待加工的信息进行著录,即按一定的规则进行描述,如文献 信息的名称、责任者、语种、提要等,以便用户识别信息。二是 对待加工的信息进行标引,利用主题词表、分类表等工具,标识 出文献信息的内容特征,形成从内容角度查找文献信息的检索点。 (2)信息查询过程 就是用户对检索需求加以分析,明确检索范围,弄清主题概念, 然后用系统语言或自然语言表示主题概念,形成检索标识及检索 策略,输入计算机进行查找。这个过程实际上是计算机自动将用 户的检索表达与数据库中信息标识进行比较匹配的过程。
(2)(nW)算符——含义为“Word” 它允许两词间插入最多为n个其他词,包 括实词和系统禁用词,词序不可颠倒。 如:“COMMUNICATION(2W) SATELLITE”时,系统将只检索含有 communication satellite,communication though satellite,communication in the satellite
35
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
来自百度文库
3
2.根据检索方式分:
(1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)网络检索
4
1、脱机检索
是六十年代发展起来的批次检索,用户 不与检索系统发生直接联系,只需把检 索要求送往检索中心,由检索人员在计 算机主机旁进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索 费用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误, 委托性检索。
37
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer??/de,ti,ab OR personal computer/ti,ab
2
二、计算机信息检索的分类
1、按内容和功能划分
参考型数据库 以文档的形式组织起来,提供文献的 题录、文摘等书目信息。如:OCLC、CSA、EI 全文型数据库 存储文献全文或其中的主要部分的源 数据库。KLUWER、ACM、中国学术期刊网 事实型数据库 供查询某一客体的基本事实或简况, 包括名录、传记等数据库 数值型数据库 提供各类数值型数据 图象数据库 以图形、图象为记录单位
例如:energy
NOT nuclear
27
()
用布尔逻辑算符组配检索词构成的检索表达式,逻辑
算符AND、OR、NOT的运算次序,在有括号的情况下, 括号内的逻辑运算先执行,在无括号的情况下,不同 的检索系统中有不同的规定。用户需要事先了解检索 系统的规定,避免逻辑运算次序处理不当而造成错误 的检索结果,因为对同一个布尔逻辑提问式,不同的 运算次序会有不同的检索结果。
12
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
13
14
15
16
17
18
19
20
36
使用截词应注意的几个问题
一是截词符要紧接在词干后面,截词符
和词干之间不能有空格。 二是避免将检索词的词干截得过短,一 般应在三个字母以上。 三是截词应该使用得合理。一般不可能 出现词尾变化的单词,其后不必再使用 截词。 四是从希望出现的单词中取尽可能多的 公共字母作为词干,以提高查准率
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
检索、人机对话和联机订购等服务方式。 1、回溯检索(Retrospective Searching,RS) 回溯检索服务是指追溯查找过去的信息,帮助信息用 户查找过去几年甚至几十年的文献信息,使用户一次 检索就可以全面了解某一课题在某一段时间中的发展 情况。回溯检索服务适合申请专利、科研课题立项、 科研成果鉴定时的查新,以及撰写综述性论文和编写 教材时信息的收集等。
10
光盘检索的系统组成
单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
11
5、网络检索
NFSnet(美国国家科学基金会网)于1990年彻底取代
1、布尔逻辑算符
布尔逻辑算符的作用是把检索词连接起来, 构成一个检索式的基本框架。常用的有3 种。 (1)逻辑与 :用 AND 或 * 表示
24
例:air
pollution AND control
25
(2)逻辑或 :用OR 或 + 表示
例如:
Solar OR sun
26
(3)逻辑非 :用NOT或 — 表示,
5
联机检索
联机检索是用户利用终端设备,通过通 信网络或通信线路与检索系统联机,进 行“人机对话”,从检索中心的数据库 查找所需要的文献信息过程。 特点:检索的速度快,检索结果可以得 到及时修改。 缺点:检索费用高。
6
3、国际联机检索
该系统是70年代出现的一门现代化情报检索手 段,目前已发展到相当高的水平,计算机联机 网络和检索终端已遍及世界所有主要国家和地 区。 特点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。
如:检索策略:POLLUTION(F)CONTROL 可查出control and management of industrial
pollution一检索词在同一题目字段中。
33
(6)(S)算符——含义为“Sentence”
这个算符表示其两侧的检索词必须在同一句子
(子字段)中出现,两词的词序可以颠倒。 如:检索策略:COMMUNICATION(S) SATELLITE 将检出含有communication satellite和satellite communication词组的记录。
30
(3)(N)算符——含义为“Near” 表示两个检索词必须紧密相连,除开空 格和标点符号外,不得插入其他词或字 母,两词的词序可以颠倒。 (4)(nN)算符——是(N)算符的变形不 同之处为允许两词间插入最多为n个其他 词包括实词和系统禁用词,且两词的词 序可以颠倒
31
举例说明
检索策略为:
了美国国防部的计算机实验网ARPANET而成为internet 的主干网,标志互联网时代的真正到来。进入互联网 时代,不但计算机及软件技术、数字化技术、信息存 贮技术、卫星通信和网络通信技术有了惊人的发展, 而且超文本技术、WWW技术、网络浏览等技术为信 息的存贮、传播、检索提供了极大的便利。各类文献 信息数据库纷纷进入通信网络,众多的局域网、城域 网、广域网通过万维网互联,网络上的任何一个终端 都可联机检索所有数据库的数据,使信息资源共享得 以实现。
9
光盘检索数据库的定义和分类
定义:光盘数据库是文献信息内容记录在光盘上(一 般为只读光盘),由于光盘容量大、成本低,越来越 多的数据库以光盘的形式存储、制作和销售。图书馆 通常使用光盘柜、光盘库、光盘塔、光盘镜像服务器 等将数十、上百张光盘放在局域网上供特定的用户共 享使用。 根据使用权限光盘数据库可分为单机版和网络版 单机版光盘数据库:适用于配备一台光盘驱动器的单 个计算机。 网络版光盘数据库:适用于共享光盘塔(库)数据的 局域网。
“COTTON(2N)PROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文 献记录都算命中。
32
(5)(F)算符——含义为“Field”
这个算符表示其两侧的检索词必须在同一字段(文献 著录的基本单元,反映文献外部特征或内容特征的某 一个项目,如同在题目字段或文摘字段)中出现,词 序不限,中间可插任意检索词项。
表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、 字母或代码,但允许有空格或标点符号,也可用()表示
例如:communication(W)satellite
或“communication()satellite” 系统将只检索含有communication satellite 词组的记录。
29
22
4、联机订购
用户通过联机检索得到的结果一般都是二次文献,如
果需要一次文献,可以通过终端联机订购原始文献的 复印件或原文。现在多数大型检索系统都提供这项服 务。如:OCLC
23
四、计算机检索表达式
检索表达式,是计算机检索中用来表达用户提问的一种 逻辑运算式。它由检索词和各种布尔逻辑算符、位置算 符、截词符、限制符等系统允许使用的各种符号组合而 成。
34
3、截词算符
它是使计算机保留检索词的相同词干部分,允 许检索词可有一定范围的变化。 截词符一般有“?”、“ * ”(不同数据库有不 同的截词符) (1)按截断的字符数划分: 有限截词——截词符“?”代表一个字符。 如:base?可检索出含有 based,bases等词的文献。 无限截词——截词符“ * ”代表任意个字符。 如:adsor* 可检索出含有 adsorb ,adsorption,adsorbate等词的文献。
cake not( strawberry and apple) Cake not strawberry and apple
28
2、位置算符
位置逻辑符的作用是对复合检索词进行加工修饰,限定 词与词之间位置关系,可弥补布尔逻辑算符只是规定 检索词的范围,使检索结果的查准率提高。位置算符 常用的有6种。 (1)(W)算符——含义为“with”
.OCLC:联机计算机图书馆中心,是世界上最大 的为读者提供文献信息机构。有60个数据库, 提供会议录、工业通告、图书评论等信息。
DIALOG有900多个数据库,其中广泛使用的 有600多个,内容涉及多个学科领域,文献存 储量超过3亿篇。
8
4、光盘数据库检索
光盘 是80年代发展起来的激光存储载体,继纸 张感光材料、磁性载体之后问世的又一种新型 的信息存储介质。能存储数据、文字、图形、 图像、声音、动画等各种信息。
21
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
计算机检索基础知识
东北大学图书馆
1
一、计算机检索的概念
计算机检索就是指人们在计算机检索网络或终端上,使用特定的 检索指令、检索词和检索策略,从计算机检索系统的数据库中检 索出所需要的信息,然后再由终端设备显示、下载和打印的过程。 广义的计算机信息检索包括两个过程。 (1)对原始信息加工处理并存贮在各种信息载体上 一是对待加工的信息进行著录,即按一定的规则进行描述,如文献 信息的名称、责任者、语种、提要等,以便用户识别信息。二是 对待加工的信息进行标引,利用主题词表、分类表等工具,标识 出文献信息的内容特征,形成从内容角度查找文献信息的检索点。 (2)信息查询过程 就是用户对检索需求加以分析,明确检索范围,弄清主题概念, 然后用系统语言或自然语言表示主题概念,形成检索标识及检索 策略,输入计算机进行查找。这个过程实际上是计算机自动将用 户的检索表达与数据库中信息标识进行比较匹配的过程。
(2)(nW)算符——含义为“Word” 它允许两词间插入最多为n个其他词,包 括实词和系统禁用词,词序不可颠倒。 如:“COMMUNICATION(2W) SATELLITE”时,系统将只检索含有 communication satellite,communication though satellite,communication in the satellite
35
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
来自百度文库
3
2.根据检索方式分:
(1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)网络检索
4
1、脱机检索
是六十年代发展起来的批次检索,用户 不与检索系统发生直接联系,只需把检 索要求送往检索中心,由检索人员在计 算机主机旁进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索 费用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误, 委托性检索。
37
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer??/de,ti,ab OR personal computer/ti,ab
2
二、计算机信息检索的分类
1、按内容和功能划分
参考型数据库 以文档的形式组织起来,提供文献的 题录、文摘等书目信息。如:OCLC、CSA、EI 全文型数据库 存储文献全文或其中的主要部分的源 数据库。KLUWER、ACM、中国学术期刊网 事实型数据库 供查询某一客体的基本事实或简况, 包括名录、传记等数据库 数值型数据库 提供各类数值型数据 图象数据库 以图形、图象为记录单位
例如:energy
NOT nuclear
27
()
用布尔逻辑算符组配检索词构成的检索表达式,逻辑
算符AND、OR、NOT的运算次序,在有括号的情况下, 括号内的逻辑运算先执行,在无括号的情况下,不同 的检索系统中有不同的规定。用户需要事先了解检索 系统的规定,避免逻辑运算次序处理不当而造成错误 的检索结果,因为对同一个布尔逻辑提问式,不同的 运算次序会有不同的检索结果。
12
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
13
14
15
16
17
18
19
20
36
使用截词应注意的几个问题
一是截词符要紧接在词干后面,截词符
和词干之间不能有空格。 二是避免将检索词的词干截得过短,一 般应在三个字母以上。 三是截词应该使用得合理。一般不可能 出现词尾变化的单词,其后不必再使用 截词。 四是从希望出现的单词中取尽可能多的 公共字母作为词干,以提高查准率
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
检索、人机对话和联机订购等服务方式。 1、回溯检索(Retrospective Searching,RS) 回溯检索服务是指追溯查找过去的信息,帮助信息用 户查找过去几年甚至几十年的文献信息,使用户一次 检索就可以全面了解某一课题在某一段时间中的发展 情况。回溯检索服务适合申请专利、科研课题立项、 科研成果鉴定时的查新,以及撰写综述性论文和编写 教材时信息的收集等。
10
光盘检索的系统组成
单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
11
5、网络检索
NFSnet(美国国家科学基金会网)于1990年彻底取代
1、布尔逻辑算符
布尔逻辑算符的作用是把检索词连接起来, 构成一个检索式的基本框架。常用的有3 种。 (1)逻辑与 :用 AND 或 * 表示
24
例:air
pollution AND control
25
(2)逻辑或 :用OR 或 + 表示
例如:
Solar OR sun
26
(3)逻辑非 :用NOT或 — 表示,
5
联机检索
联机检索是用户利用终端设备,通过通 信网络或通信线路与检索系统联机,进 行“人机对话”,从检索中心的数据库 查找所需要的文献信息过程。 特点:检索的速度快,检索结果可以得 到及时修改。 缺点:检索费用高。
6
3、国际联机检索
该系统是70年代出现的一门现代化情报检索手 段,目前已发展到相当高的水平,计算机联机 网络和检索终端已遍及世界所有主要国家和地 区。 特点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。
如:检索策略:POLLUTION(F)CONTROL 可查出control and management of industrial
pollution一检索词在同一题目字段中。
33
(6)(S)算符——含义为“Sentence”
这个算符表示其两侧的检索词必须在同一句子
(子字段)中出现,两词的词序可以颠倒。 如:检索策略:COMMUNICATION(S) SATELLITE 将检出含有communication satellite和satellite communication词组的记录。
30
(3)(N)算符——含义为“Near” 表示两个检索词必须紧密相连,除开空 格和标点符号外,不得插入其他词或字 母,两词的词序可以颠倒。 (4)(nN)算符——是(N)算符的变形不 同之处为允许两词间插入最多为n个其他 词包括实词和系统禁用词,且两词的词 序可以颠倒
31
举例说明
检索策略为:
了美国国防部的计算机实验网ARPANET而成为internet 的主干网,标志互联网时代的真正到来。进入互联网 时代,不但计算机及软件技术、数字化技术、信息存 贮技术、卫星通信和网络通信技术有了惊人的发展, 而且超文本技术、WWW技术、网络浏览等技术为信 息的存贮、传播、检索提供了极大的便利。各类文献 信息数据库纷纷进入通信网络,众多的局域网、城域 网、广域网通过万维网互联,网络上的任何一个终端 都可联机检索所有数据库的数据,使信息资源共享得 以实现。
9
光盘检索数据库的定义和分类
定义:光盘数据库是文献信息内容记录在光盘上(一 般为只读光盘),由于光盘容量大、成本低,越来越 多的数据库以光盘的形式存储、制作和销售。图书馆 通常使用光盘柜、光盘库、光盘塔、光盘镜像服务器 等将数十、上百张光盘放在局域网上供特定的用户共 享使用。 根据使用权限光盘数据库可分为单机版和网络版 单机版光盘数据库:适用于配备一台光盘驱动器的单 个计算机。 网络版光盘数据库:适用于共享光盘塔(库)数据的 局域网。
“COTTON(2N)PROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文 献记录都算命中。
32
(5)(F)算符——含义为“Field”
这个算符表示其两侧的检索词必须在同一字段(文献 著录的基本单元,反映文献外部特征或内容特征的某 一个项目,如同在题目字段或文摘字段)中出现,词 序不限,中间可插任意检索词项。
表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、 字母或代码,但允许有空格或标点符号,也可用()表示
例如:communication(W)satellite
或“communication()satellite” 系统将只检索含有communication satellite 词组的记录。
29
22
4、联机订购
用户通过联机检索得到的结果一般都是二次文献,如
果需要一次文献,可以通过终端联机订购原始文献的 复印件或原文。现在多数大型检索系统都提供这项服 务。如:OCLC
23
四、计算机检索表达式
检索表达式,是计算机检索中用来表达用户提问的一种 逻辑运算式。它由检索词和各种布尔逻辑算符、位置算 符、截词符、限制符等系统允许使用的各种符号组合而 成。
34
3、截词算符
它是使计算机保留检索词的相同词干部分,允 许检索词可有一定范围的变化。 截词符一般有“?”、“ * ”(不同数据库有不 同的截词符) (1)按截断的字符数划分: 有限截词——截词符“?”代表一个字符。 如:base?可检索出含有 based,bases等词的文献。 无限截词——截词符“ * ”代表任意个字符。 如:adsor* 可检索出含有 adsorb ,adsorption,adsorbate等词的文献。
cake not( strawberry and apple) Cake not strawberry and apple
28
2、位置算符
位置逻辑符的作用是对复合检索词进行加工修饰,限定 词与词之间位置关系,可弥补布尔逻辑算符只是规定 检索词的范围,使检索结果的查准率提高。位置算符 常用的有6种。 (1)(W)算符——含义为“with”