第三章 计算机检索基础知识

合集下载

第三章 计算机检索基础知识

第三章 计算机检索基础知识
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。

第三章计算机检索原理自动化

第三章计算机检索原理自动化

4.4.3 (S),意思是subfield或sentence, 它表示连结的两个检索词要在同一个子 字段或同一句话中出现。如:S computer (s) library是要求computer 和 library在同一个句子中出现S cs=wuhan (s)university 是要求wuhan和 university在cs字段中的 同一个子字段出现。 4.4.4(F),意思是field,表示连结的两个 词要在同一个字段中出现。如:S fieldbus (f)multimedia是要求fieldbus 和 multimedia在同一个字段中出现。
以上是计算机中常用的位置算符,但并非 所有的系统都可用,不同的检索系统有其自己 的规定。
5.计算机检索策略的制定及调整
1. 概念的选取 (1)核心概念的选取:
变温条件下煤层损伤与瓦斯运移的热流固 耦合模型
(2)发掘隐含概念: 并购—剥离、拍卖;石质文物的保护 (3)考虑同义词:保护conservation, preservation,protection (4)使用规范的用语:行业术语,用词表来规范:单车-自行车 (5)排除不必要的概念:使用专业数据库或通用词 (6)使用准确的代码:标准号、专利号、产品代码


4.4 位置算符
位置算符是用来规定检索词之间的位置 关系的算符: 4.4.1.(w), (nW), 意思是with, 表示它连 结的两个词前后位置确定,中间插词不 能超过0-n个。 (w)也写作(),实际上 是 (0W),表示连接的两个词必须紧密相 连,中间不能插词,但是中间可以加连 字符。如:S motor (W)lorry, 可以检出 motor-lorry和motor lorry。
第三章 计算机检索原理

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

第三章 计算机检索基础

第三章 计算机检索基础

扩大检索范围,提高查全率
逻辑“或”运算
示例

政治、经济、宗教与伦理学的关系
政治 经济 宗教
A B
伦理学
C D
(A OR B OR C) AND D (政治+经济+宗教)*伦理学
逻辑“非”(NOT或—)
“NOT”算符是排除含有某些词的记录,其逻辑提 问表达式为“A NOT B”或“A-B”,即检出的记录 中只能含有“NOT”算符前的检索词 A,而不能同时 含有“NOT”后的检索词 B。 “NOT”的作用是缩小检索范围,提高检准率。 在联机检索中可降低检索费用。 例如:“皮鞋 NOT 高跟鞋” A B 由于“NOT”算符有排除掉相 关文献的可能,在实际检索 A not B 中应慎重使用。
主要的截词算符
2、 前截断:表示检索词前可变化有限或无限个字符 。 ?WEAR 可同时检索含有SLEEPWEAR 和 NIGHTWEAR 3、前后同时截断:表示词干两侧允许有限或无限个 字符变化。如 ? WAVE?,可检索 waves,wavelet,microwave,wavelength…. 4、中间截断:如FIB? ?S,相当于查找FIBERS, FIBRES
存储描述如目录、题录、文摘等书目线索的数 据库,又称二次文献信息数据库。如各种图书馆目 录数据库、题录数据库和文摘数据库等属于此类, 它的作用是为用户指出了获取原始信息的线索。 如:馆藏书目,SCI,EI,CPCI等
全文数据库
存储原始信息全文或主要部分的一种源数据库。
如期刊全文数据库、专利全文数据库、百科全书全
计算机信息检索:用户利用数据库获取所需 信息的过程。 即:计算机将输入机检系统的用户提问标识 (检索词)与已存贮在系统中数据库内的文献 特征标识(标引词)进行匹配比较,凡符合给 定的比较原则和逻辑运算条件者即为命中文献。

计算机检索基础知识

计算机检索基础知识

14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献

C计算机检索基础知识

C计算机检索基础知识

Membrane/ab,ti,su and Dutta,D/au
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三:查找作者是 赵永孟 关 于 数控加工 的 文献
(1)书目数据库 存储描述如目录、题录、 文摘等书目线索的数据库,又称二次文献信息 数据库。 如各种图书馆目录数据库、题录数据库和 文摘数据库等属于此类,它的作用是为用户指 出了获取原始信息的线索。
(2)指南数据库 存储描述关于机构、 人物、产品、活动等对象的数据库。 与其它数据库相比,指南数据库为用户 提供的不仅仅是有关信息,还包括各种类型 的实体,多采用名称进行检索。如存储生产 与经营活动信息的机构名录数据库、存储人 物信息的人物传记数据库、存储产品或商品 信息的产品指南数据库、存储基金信息的基 金数据库等属于此类,它的作用指引用户从 其它有关信息源获取更详细的信息。
► 作用:减少检索词的输入量,扩大检索范围

提高检索效率。
► 注意:使用截词检索必须慎重,词干不要太
短,以免检出许多与原来检索词不相关的文 献记录
截词的形式可以有前截断、中间截断和后截断。 前截断:将截词符放在词根前边,后方一致,表 示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、 ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表 示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、 metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方 一致。 如colo*r,能够检出含有colour、color的记录。

计算机检索基础知识

计算机检索基础知识

“COTTON(2N)PROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文 献记录都算命中。
28
(5)(F)算符——含义为“Field”
这个算符表示其两侧的检索词必须在同一字段(文献著 录的基本单元,反映文献外部特征或内容特征的某一 个项目,如同在题目字段或文摘字段)中出现,词序 不限,中间可插任意检索词项。
34
又如:查找wang wei写的文章,可以输入检索式: au=wang wei(有时检索词须放在双引号内) /TI—篇名;如:S control(w)pollution/ti /DE—叙词;如:S aluminum compounds/de /ID—标引词;如:S soap/id /AB—文摘词;如:S computer/ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab

文献信息检索 第三章

文献信息检索 第三章

The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。

第三章计算机检索基本知识

第三章计算机检索基本知识

第三章计算机检索基本知识第一节计算机检索概论一、计算机信息检索的含义:计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程手工检索:人查找书本式检索工具(文献条目)计算机检索:人检索指令计算机查找数据库(文献条目)相同点:均需经过标引,提炼出文献标识不同点:前者按主题词、分类、著者等进行编排;后者按文档号编排(检索时自动生成索引文档)手工检索的特点(和计算机检索相比较):优点:1.发展早,可检索的时间范围广2.所有内容都呈现在读者面前,容易对比并发现新的线索缺点:1.查找繁琐,效率低下2.只能查找原文的线索,无法直接获取全文3.检索途径相对较少,且无法灵活地编制检索策略计算机检索系统:检索者,检索终端(PC机,同时也是输出端),网络(或通信电缆),数据库存储服务器检索终端服务器(数据库终端通信网INTERNET结果返回结果输出计算机检索系统的类型脱机信息检索系统----单台计算机;定期(一个或半个月)检索一次;专职检索人员统一处理,用户接触不到计算机;用作大批量的定题信息检索联机信息检索系统----一台主机带多个终端,相互独立的终端可同时进行检索;对用户的提问能及时处理,用户可随时修改提问;通过专用信息网,可跨国家进行检索光盘信息检索系统:数据存储在光盘(一种用激光记录和读取信息的盘片),通过检索软件,利用计算机和光盘驱动器进行检索。

可形成光盘检索网络。

网络化(internet)信息检索系统:同联机检索系统的主机和用户终端的主从关系不同,客户机和服务器是对等的关系计算机检索的发展脱机批处理检索时期Off-lineBatchProcessing(1954---1964)联机实时检索时期On-line Real Time(1965--- 1975)联机网络化与多元化检索时期 (1976---1990)Internet 网络化检索时期 (1990---至今) 二、数据库字段(field)在前面的课中讲过电子型信息资源,包括机读数据库(网络数据库、光盘数据库)和网络信息资源等。

第三章 计算机检索基础知识

第三章 计算机检索基础知识

1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
②前截词检索:也叫后方一致检索,前截断检索。 前截词与后截词相反,即把借词符号置于需截词的 左方,表示其左边截去有限或无限个词,数据库中 只要有与截词符后面部分一致的文献,即为命中文 献。 例如:?physics ③中截词检索:又称“内嵌字符检索”、中截断。 即把截词符号置于检索词的中间,检索到的是词首 和词尾部分与检索词一致的文献。中截词检索一般 只允许有限截断。。 例如: analy?er
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
是运用位置运算符进行检索的一种方法。 位置运算符是用于指名检索词在记录中的位 置关系的符号,使用位置运算符可用于规定 检索词在检索结果中的相对位置,以提高查 全率和查准率。 不同的数据库使用的位置算符有所不同, 主要是(W)与(nW)、(N)与(nN)。
①(W)算符: “With”的缩写表示在此运算符两侧的检索词 按前后衔接的顺序排列,次序不许颠倒,而且 两词之间不许有其他的词或者字母出现,但允 许有一个空格、一个标点符号或一个连接号。 例: CD(W)ROM 检出 CD ROM 或 CD-ROM 例:solar ( ) energy 检出 solar energy 例:communication (W) satellite 检出 communication satellite

03 计算机信息检索基础知识

03 计算机信息检索基础知识


科学论文在直接相关专业杂志上发表的文献只占50%

文献半衰期缩短 80%-90%科技文献的有计算机检索的特点

速度快,效率高:几分钟可从大量记录中找出所需信息

检索范围广:可迅速浏览相关学科或主题的记录
数据新:网络数据更新快,能及时获取最新信息


功能全:检索界面友好,检索功能完善,输出方式丰富


前方一致:

将截词符放在词根后面,词根*,右截断。是最常用的截
词方式。

Smith, A* = Smith, A. OR Smith, A. J. OR Smith, Alan J. Social* = social, socialist, socialistic, sociality Computer* = computer, computers
使用方便:检索不受时空限制,只要具备相应的网络条 件,随时可以查询信息

二、数据库
1.数据库概念
由至少一种文档组成,能满足特定目的或特定 数据处理系统需要的数据集合,是目前电子信息源 的主体。
2. 数据库的类型
(1)参考型数据库
定义:指包含各种资料、信息和知识原始来源和属性的 数据库。
主要包括:书目数据库、文摘数据库、索引数据库
3. 检索技术
(1)布尔检索
用布尔逻辑算符来表达检索词间的逻辑组配关系






“与”—逐步减少检出文献的数量,提高检出文献与检索要求 的相关性,提高查准率。(A and B) (A * B) “或”—扩大检索的范围,提高文献的检出数量,防止漏检, 提高查全率。(A or B) (A + B) “非”—使用较少,减少文献输出量,提高检索 词的准确性。 (A not B) (A - B)

计算机检索基础

计算机检索基础

ISI Web of Knowledge 提供:
• 一个世纪的科学发展 owledge 包含:
• 230多个学科 深度的主题索引
EBSCOhost 2.0
A Smarter Search Experience. Beginning in July 2008.
• 例三,注意分析隐性概念
查“多元共渗”方面的英文资料。
由于汉英词典上没有对应的词,因此必须进 行概念分析,进而选择主题词。 多元共渗是指多种元素在一定温度、压力、浓 度条件下自金属表面扩散的能力有所提高,利用 的是扩散涂层原理,因此,通过Diffusion Coati ng就可以找到有关文献。
• 例四:提炼关键的、核心的词为检索词,少用
选择数据库的4C标准
• Content, 指数据库的内容,涉及它的学科范围、科技 含量、数据库类型、数据来源等。 • Coverage, 指数据库的规模,涉及它的时间和地理范 围、机构来源、文献量等。 • Currency,指数据库的更新的及时性,更新的频率、 周期。 • Cost,指数据库的费用,各种数据库、各种检索输出 方式和格式的收费是不一样的。

《中国图书馆图书分类法》
分类号由字母和数字组成,采用等级列举表达 从属关系。上位类目一定包含各个下位类目,分类 号越长,表示的学科范围越窄。 为了清楚醒目, 通常分类号的第三位数字后, 隔以.,如:
F279.712,TQ032.4
美国企业 经济管理 催化 反应
例 sewage + sewerage + wastewater userface or interface 污水处理 或 废水处理
• 非、NOT、- A NOT B :A必须存在,同时不允许B的存 在。 从原检索范围中剔除一部分不需要的内容,提 高检准率。

计算机检索基本知识(一)

计算机检索基本知识(一)

特点:检索精确 适用:熟悉学科发展,熟悉检索方法
多个检索项,支持逻辑组配
【技术】逻辑组配 逻辑匹配又称布尔逻辑检索,是通过布尔 逻辑算符来实现的,这些运算符能把一些 具有简单概念的检索词(或检索项)组配 成为一个具有复杂概念的检索式,用以表 达用户的检索要求。是当今检索理论中最 成熟的理论之一,也是构造检索表达式最 基本、最简单的匹配模式。 逻辑运算符有三种:与、或、非
选择数据库
【技术】跨库检索
跨库检索,在几个数据库之间进行的检索。 优势:跨库检索使用方便,一次检索可在多个子 数据库查询 劣势:为了实现跨库检索,只能在数据库间寻找 共性,牺牲各个数据库的特色。
《中国学术期刊全文数据库》为我们提供了“跨 库检索”和“单库检索”两种模式
跨库检索的默认检索界面与跨 库初级检索界面基本相同
时间:1999年-博士论文
12月31日,累积硕士 学位论文全文文献37 硕士论文 万多篇。 时间:1999年--
学位论文的重要性 学位论文是高等院校或研究机构的学生为 取得各级学位、在导师指导下完成的科学 研究、科学试验成果的书面报告。 重要的内部文献,保存在各大学中。内容 专深,有一定的新颖性、独创性。 是一种非常有参考价值的文献信息源。 学位论文的整体水平要高于期刊论文 学文论文为内部文献,获取比较困难
登陆注意事项: 1、“中国知识资源总库”实行IP控制,校 园网以外不能使用
2、有并发用户限制400人
出现“最大并发用户数已满”的提示时,请耐心等待
了解一个数据库应该从以下三个方面入手
数据库内容: 可以从这个数据库中得到什么 数据库检索: 如何利用这个数据库 结果处理: 如何处理得到的结果
中文数据库

计算机检索基础

计算机检索基础

计算机信息检索基础知识一、布尔逻辑与检索功能当人们使用计算机在数据库检索系统或互联网中进行检索时,常常需要用多个概念所对应的多个关键词的组合进行检索,仅用一个概念对应的关键词很难完成复杂内容关系的检索要求。

通常,一个检索要求中涉及到的多个概念之间与布尔逻辑的“与”、“或”、“非”都可以通过分析找到明确的对应关系。

即使用关键词和反应关键词之间关系的布尔逻辑运算符、通配符等相关组配符号(含逻辑算符、优先符即括号、位置算符以及英文检索时常用的截词符或通配符),我们就可以将现实中需要检索的内容或翻译成计算机、网络能够认识的形式或语言,输入到计算机中进行检索,得到我们所要的信息资料,完成检索。

下面简单介绍布尔逻辑中的三个基本运算“与”、“或”、“非”。

1、逻辑“与”计算机检索中“与”逻辑关系的常见表示有:“与”、“AND”、“and”、“*”等。

逻辑“与”关系的含义:表示概念A和概念B之间的相交关系,经过“与”运算处理后的表达式:“概念A”AND“概念B”表示一种同时含有概念A和概念B成份的内容,它已经既不是概念A,也不是单纯的概念B了,该操作使关注的范围缩小了。

如下图所示公共的阴影部分。

例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“AND”逻辑表达式:“概念A”AND“概念B”也即“艺术”AND “舞蹈”则表示要检索那些既讲艺术同时又提到舞蹈的信息资源,或者主要讲舞蹈同时又提到艺术的文献信息资源。

2、逻辑“或”计算机检索中“或”逻辑关系的常见表示有:“或”、“OR”、“or”、“+”等。

逻辑“或”关系的含义:表示概念A或概念B本身或者两者之间的叠加关系。

经过“或”运算处理后的表达式:“概念A”OR“概念B”表示含有“概念A”或含有“概念B”或两个概念都包含,该操作使关注的范围扩大了。

如下图所示所有的阴影部分。

例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“OR”逻辑表达式:“概念A”OR“概念B”也即“艺术”OR “舞蹈”则表示要检索那些含有艺术,或者含有舞蹈,或者两者都涉及的文献信息资源。

计算机检索基础知识

计算机检索基础知识
2. 计算机信息检索的基本技术
①布尔逻辑检索(Boolean searching):是利用布尔逻辑符进行检索的方法,布尔逻辑符有三种,即逻辑"与"(AND)、逻辑"或"(OR)和逻辑"非"(NOT)。在一个检索式中如果含有两个以上的布尔逻辑符就要注意运算次序:()>NOT>AND>OR,即先算括号内的逻辑关系,再依次算"非"、"与"、"或"关系。
中国生物医学文献数据库
中国生物医学文献数据库 (CBMdisc) 收录了1978年至2002年1000多种中国生物医学期刊,以及汇编、会议论文的文献题录。
2002年中国生物医学文献数据库分为以下文档:
CBMdisc02 收录 2001-2002 年的文献题录。
检索途径多:除手工检索工具提供的分类、主题、著者等检索途径外,还能提供更多的检索途径,如题名途径等。
更新快:尤其是国外的计算机检索工具,光盘多为月更新、周更新,网络信息甚至为日更新。
资源共享:通过网络,用户可以不受时空限制,共享服务器上的检索数据库。
检索更方便灵活:可以用逻辑组配符将多个检索词组配起来进行检索,也可以用通配符、截词符等进行模糊检索。
检索结果可以直接输出:可以选择性打印、存盘或E-Mail甚至可以直接检索出全文。
在了解计算机信息检索服务的知识前,首先应了解计算机信息检索的相关知识。
1. 计算机信息检索系统的构成
计算机信息检索系统从物理构成上说,包括计算机硬件、软件和数据库、通讯线路和检索终端五个部分。一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求都不需要检索者多加考虑。对检索者来说,他们必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。

信息检索 第三章 计算机检索基础知识

信息检索 第三章 计算机检索基础知识

Web版数据库检索大量采用超文本。 超文本 (hypertext)的内容排列是非线性的,它按 知识(信息)单元及其关系建立起知识结构网络, 具有图形、画面的信息称超媒体(hypermedia)。 超文本( 媒体)的检索是通过超文本链接 (hyperlink) 来实现的。 其形式有的在网页的文字处有下划线,或以图标方 式标志,用户点击(point-and-click)这些标志便能 进入到与此信息相关的下一页,在该页面上通过超 文本链接进入再一个页面。 超文本起信息导向作用。这样,用户从一个页面转 向另户一个页面的控制过程中获取自己所需要的信 息。
以特定的组织方式将计算机中的相互关联的 数据集合存储的总汇,将各种数据中的信息单元 经过有序处理、组织,可以按通常的方法进行检 索。
包括:参考数据库、源数据库、混合 型数据库
4、通信网络
计算机信息传输网络,各网络 节点之间通过电信线路、通信卫星 或光缆电视技术等进行连接,构成 庞大的信息检索网络,保证信息之 间的畅通传输。
数据库定义 数据库是“至少由一个文档组成,并能 满足某一特定目的或某一特定数据处理 系统需要的一种数据集合”。 通俗地说,数据库就是在计算机存储设 备上按一定方式存储的相互关联的数据 集合。 数据库是计算机技术与信息检索技术相 结合的产物,是现代重要的信息资源, 也是信息检索的重要资料来源。
光盘检索光盘检索通常采用菜单方式 (menu search), 根据菜单提示、指引, 通过选择、确定或键入填写以及一些功 能键的使用,一步一步地执行检索,修 改检索提问,直至完成全过程。 光盘检索界面友好,允许人机对话,不 需要专门的学习和培训,只要认真遵循 界面的指示做下去,总能达到检索目的
时间:20世纪80年代以来
4、网络化检索阶段又叫互联网检索

计算机检索基础知识

计算机检索基础知识

•核心检索系统
能够系统、全面地获取检索课题相 关的重要学术文献信息,并能链向全 文数据库。
【例】NCBI-PubMed
Web of Knowledge
中国生物医学文献数据库
2019/11/19
22
PubMed
• PubMed 是由美国国立医学图书馆( NLM)下属美国生物技术信息中心(NCBI)研制的 基于Web的文摘数据库,是NCBI整合检索系统 Entrez中数据库之一。
文章A 著者用词 renal failure 规范词: kidney failure
文章B 著者用词 kidney failure 规范词: kidney failure
词表中:renal failure see kidney failure
2019/11/19
14
2019/11/19
主题词一般出现 在控制词字段
2019/11/19
复旦大学图书馆文献检索教研室
39
• 引文检索:是指通过被引用文献,来检索文献的相互引证 关系的情况,包括:
•某一著者的文献被什么人、什么文章 引用?引用的频率?
•某些期刊被文献引用的频率?
•某些文献的主题被引用的频率等。
•常见限制字段:引文,Reference cited
2019/11/19
33
组配副主题词例
课题:序列分析研究工具和方法的相关文献 检索标识:主题词
序列分析 sequence analysis [MH] 方法,工具 methods , instrumentation [SubHeading]
2019/11/19
34
(3)著者途径——某人发表的文章
• 检索标识:著者姓名
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
(4)同一事物名词的单复数、不同词性、英美语的不 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 colour fibre 美拼 color fiber (5)隐含概念扩展 隐含概念是显见主题的更确切的表达。 “一个取代高残杀菌剂的理想品种” 隐含了“高效低毒杀菌剂”或“高效低毒农药”
下位词: 下位概念扩展法:概念分析的树形展开法 如:汽车 卡车 轿车 货车等
所有图书馆用户能够在校外使用天津高校文献信息 中心的电子资源,比如超星电子图书、维普期刊全文数据 库、EBSCO电子期刊等。 IP通远程访问系统已开通 IP通用户登录方法: 首先要确保您使用的网络是非教育网。 WEB方式用户请登录 / 客户端软件用户请登录
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
截词检索
邻近检索 限制检索 加权检索 检索词的确定

检索式的制定

(Boolean searching)
AND:A Aபைடு நூலகம்D B 检出记录中同时含有检索词A和检索词B
OR:A OR B 检出记录中含有检索词A或检索词B的文献
NOT:A NOT B 在含检索词A的记录中, 去掉含检索词B的记录
优先级运算 ()>NOT>AND>OR
第三章 计算机检索基础知识
中国民航大学图书馆
狭义
以计算机为检索手段,从计算机信 息系统中查检所需信息的过程。 广义 计算机检索应该包括信息的存储和 检索两个方面 。
(1)构成 从整体上将,计算机检索系统由硬件、 软件和数据库三部分构成。 硬件设备 :服务器、检索终端、网络通信 设备、辅助设备等 软件设备 :系统软件、应用软件 数据库 :由一系列信息记录组成
上位词: 白炽灯 谷氨酸
上位概念:电灯 上位概念:氨基酸
相关词: (1)同一事物的学名、俗名、商品名 学名 俗名 商品名 NaCl 盐 计算机 电脑 聚二甲基硅氧烷 硅油 乙醇 酒精
(2)同一事物的简称、全称、音译和意译 简称 全称 音译 意译 www world wide web CAD computer aided design internet 因特网 互联网 motor 马达 电动机 laser 镭射 激光器 (3)同一事物名称的反义词 污水处理与水净化 光洁度与粗糙度
(Child or children) and lung cancer
(2)截词检索
用给定的词干做检索词,查找含有该词干的全部 检索词的记录,也称词干检索或字符屏蔽检索。 在不同的检索系统中,对截词符号有不同的表示, 有的使用“?”,有的使用“*”,还有使用“$”、 “!”、“#”等。
从本质上说,截词算符是一种逻辑“或”的关系。
(nW)算符: “n words”的缩写,表示在此运算符两侧的检索词 之间允许插入不多于n个的单词(或汉字),两个 检索词的次序不允许改变。 例:anticorrosion (1W) paint 可检出
anticorrosion paint 和 anticorrosion of paint
例:communication (2W) satellite 可检出
(Polycarbafil OR fiberglass OR glass(W)fib*) AND (oulopholite OR maria(W)glass OR gyp*) AND mechani*
S1 Polycarbafil OR fiberglass OR glass(W)fib* S2 oulopholite OR maria(W)glass OR gyp* S3 mechani* S4 S1 AND S2 S5 S4 AND S3 当检索结果为0时,可发现每步检索策略所得 记录数,以便进一步调整检索策略。
检索式的制定
数据库由大量的纪录组成。每一条纪录 由若干个字段组成。字段有篇名(ti)、作 者(au)、文献来源(so)、文摘(ab)、主题 词(su)、文种(la)、专利号(pn)、分类号 (cl)等。
在用数据库检索时,检索式的制定是一个 关键。应考虑检索词在哪个字段中出现。比如, 查找D. Dutta关于膜技术发表的论文时,则 “D.Dutta ”应在“作者”字段中出现,“膜 (membrane)”应在“主题词”或“文摘”或 “篇名”中出现。然后再确定各个检索词之间 的逻辑关系。如本例中, D. Dutta与膜的关 系为逻辑与。则该例的检索策略为: Membrane/ab,ti,su and Dutta,D/au
②(N)算符:是near 的缩写,表示在此运算符(N)两 侧的检索词彼此相邻,两个检索词之间允许有一 个空格、一个标点符号或一个连接号,两检索词 次序可以颠倒。
例: cross (N) section 检出 cross section 和 section cross
(nN)算符:是从(N)算符引伸出来,表示在此运算 符两侧的检索词之间允许插n个单词(或汉字), 两个检索词的次序可以改变。 例:computer (2N) system 检出 computer system, computer code system, computer aided design system, system using modern computer
是运用位置运算符进行检索的一种方法。 位置运算符是用于指名检索词在记录中的位 置关系的符号,使用位置运算符可用于规定 检索词在检索结果中的相对位置,以提高查 全率和查准率。 不同的数据库使用的位置算符有所不同, 主要是(W)与(nW)、(N)与(nN)。
①(W)算符: “With”的缩写表示在此运算符两侧的检索词 按前后衔接的顺序排列,次序不许颠倒,而且 两词之间不许有其他的词或者字母出现,但允 许有一个空格、一个标点符号或一个连接号。 例: CD(W)ROM 检出 CD ROM 或 CD-ROM 例:solar ( ) energy 检出 solar energy 例:communication (W) satellite 检出 communication satellite
①后截词检索:也叫前方一致检索、后截断检索。 即把截词符号置于截词的右方,表示其右边截 去有限或无限个词,数据中只要有与截词符前 边部分一致的文献,即为命中文献。 例如:comput?
例如:comput???
例如:防火纤维 防火(fireproof或fireproofing) 纤维(fiber或fibers或fibre或fibres)
练习:玻璃纤维增强石膏制品的力学性能研究 主要概念: 概念组面1:玻璃纤维 polycarbafil, fiberglass, glass-fiber, glass-fibre 概念组面2:石膏 oulopholite, maria glass, gyp, gypsum 概念组面3:力学 mechanism, mechanical
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三: 查找作者是蒋立辉关于激光的文献 检索式: 蒋立辉/作者 and 激光/ 题目
4.检索策略及构造 检索时所用到的词称为检索词。选择检 索词时应注意以下问题:
1、选择能代表本课题技术特征的、具有实 质意义的词。这些词应为专业通用词、惯用 词和术语。
2、注意同义词(包括缩写)、词的英美式 不同拼写及不同词性的词。这些词之间的关 系均为“或”。如上部分所举的例子。
3、限定检索条件,如年份、语种、文献类 型等。 4、限定检索字段,如著者 、文摘、篇名、 主题词、机构名称、分类号、刊名等。
②前截词检索:也叫后方一致检索,前截断检索。 前截词与后截词相反,即把借词符号置于需截词的 左方,表示其左边截去有限或无限个词,数据库中 只要有与截词符后面部分一致的文献,即为命中文 献。 例如:?physics ③中截词检索:又称“内嵌字符检索”、中截断。 即把截词符号置于检索词的中间,检索到的是词首 和词尾部分与检索词一致的文献。中截词检索一般 只允许有限截断。。 例如: analy?er
(2)类型 ①按系统存储的信息内容划分 1. 文献检索系统 2. 事实型检索系统 3. 数值型检索系统 4. 图像检索系统 5. 多媒体检索系统
(2)类型 ②按照检索系统的工作方式划分 1. 脱机检索系统 2. 联机检索系统 3. 光盘检索系统 4. 网络检索系统

布尔逻辑检索


communication satellite, communication though satellite, communication on the satellite
例:检索“材料磨损”(WEAR OF MATERIALS)方 面的文献 检索式表达为: WEAR (1W) MATERIALS
③希望查找两个或两个以上带有专业术语或者名词 性质、词序位置固定词组的场合可以使用(W)、双 引号“ ”、{ } 等。 例如:glass(W)fiber 表示glassfiber “William, B”(人名) “optical telecommunication”(术语) “Institute of Theoretical Physics”(机构名) {shanghai university}表示上海大学
相关文档
最新文档