第三章 计算机检索基础

合集下载

第三章 计算机检索基础知识

第三章 计算机检索基础知识
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。

第三章计算机检索原理自动化

第三章计算机检索原理自动化

4.4.3 (S),意思是subfield或sentence, 它表示连结的两个检索词要在同一个子 字段或同一句话中出现。如:S computer (s) library是要求computer 和 library在同一个句子中出现S cs=wuhan (s)university 是要求wuhan和 university在cs字段中的 同一个子字段出现。 4.4.4(F),意思是field,表示连结的两个 词要在同一个字段中出现。如:S fieldbus (f)multimedia是要求fieldbus 和 multimedia在同一个字段中出现。
以上是计算机中常用的位置算符,但并非 所有的系统都可用,不同的检索系统有其自己 的规定。
5.计算机检索策略的制定及调整
1. 概念的选取 (1)核心概念的选取:
变温条件下煤层损伤与瓦斯运移的热流固 耦合模型
(2)发掘隐含概念: 并购—剥离、拍卖;石质文物的保护 (3)考虑同义词:保护conservation, preservation,protection (4)使用规范的用语:行业术语,用词表来规范:单车-自行车 (5)排除不必要的概念:使用专业数据库或通用词 (6)使用准确的代码:标准号、专利号、产品代码


4.4 位置算符
位置算符是用来规定检索词之间的位置 关系的算符: 4.4.1.(w), (nW), 意思是with, 表示它连 结的两个词前后位置确定,中间插词不 能超过0-n个。 (w)也写作(),实际上 是 (0W),表示连接的两个词必须紧密相 连,中间不能插词,但是中间可以加连 字符。如:S motor (W)lorry, 可以检出 motor-lorry和motor lorry。
第三章 计算机检索原理

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

计算机检索基础知识

计算机检索基础知识

14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献

计算机检索理论基础

计算机检索理论基础

3
进入21世纪,随着大数据、人工智能等技术的不 断发展,计算机检索在数据挖掘、个性化推荐等 方面取得了重要突破。
计算机检索的应用领域
学术研究
信息服务
在学术领域,计算机检索被广泛应用于科 研选题、文献调研、学术评价等方面,为 科研人员提供全面的学术信息。
在信息服务领域,计算机检索被用于图书 馆、档案馆、博物馆等机构的信息查询和 检索服务。
计算机检索理论基础
• 计算机检索概述 • 信息检索基础 • 计算机检索技术 • 计算机检索评价 • 未来计算机检索的发展趋势
01
计算机检索概述
计算机检索的定义
计算机检索是指利用计算机技术对信息进行收集、处理、组织和存储,并通过特 定的检索算法和工具,从海量数据中快速、准确地获取所需信息的过程。
信息检索原理
信息检索基于一定的规则和技术,通 过分析信息的内容和特征,以及用户 的需求和查询条件,来匹配和提供相 关的信息。
信息检索语言
分类语言
01
分类语言是一种层次结构的信息组织方式,通过将信息按照主
题进行分类,形成树状的层次结构。
关键词语言
02
关键词语言是一种基于词汇的信息组织方式,通过将信息的关
语义网与智能检索的结合将使计算机能够更好地理解自然语言,提高信息检索的准 确性和效率,为用户提供更加智能化的信息检索服务。
大数据与云计算在信息检索中的应用
大数据是指海量、复杂的数据集,大数据技术的应用将为信息检索带来巨大的变革。云计算则为大数 据处理提供了强大的计算能力和存储空间。
大数据技术可以通过分析大量数据,挖掘出有价值的信息和知识,为信息检索提供更加丰富的内容和更 准确的推荐。
自然语言处理
分词技术

第三章计算机检索基本知识

第三章计算机检索基本知识

第三章计算机检索基本知识第一节计算机检索概论一、计算机信息检索的含义:计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程手工检索:人查找书本式检索工具(文献条目)计算机检索:人检索指令计算机查找数据库(文献条目)相同点:均需经过标引,提炼出文献标识不同点:前者按主题词、分类、著者等进行编排;后者按文档号编排(检索时自动生成索引文档)手工检索的特点(和计算机检索相比较):优点:1.发展早,可检索的时间范围广2.所有内容都呈现在读者面前,容易对比并发现新的线索缺点:1.查找繁琐,效率低下2.只能查找原文的线索,无法直接获取全文3.检索途径相对较少,且无法灵活地编制检索策略计算机检索系统:检索者,检索终端(PC机,同时也是输出端),网络(或通信电缆),数据库存储服务器检索终端服务器(数据库终端通信网INTERNET结果返回结果输出计算机检索系统的类型脱机信息检索系统----单台计算机;定期(一个或半个月)检索一次;专职检索人员统一处理,用户接触不到计算机;用作大批量的定题信息检索联机信息检索系统----一台主机带多个终端,相互独立的终端可同时进行检索;对用户的提问能及时处理,用户可随时修改提问;通过专用信息网,可跨国家进行检索光盘信息检索系统:数据存储在光盘(一种用激光记录和读取信息的盘片),通过检索软件,利用计算机和光盘驱动器进行检索。

可形成光盘检索网络。

网络化(internet)信息检索系统:同联机检索系统的主机和用户终端的主从关系不同,客户机和服务器是对等的关系计算机检索的发展脱机批处理检索时期Off-lineBatchProcessing(1954---1964)联机实时检索时期On-line Real Time(1965--- 1975)联机网络化与多元化检索时期 (1976---1990)Internet 网络化检索时期 (1990---至今) 二、数据库字段(field)在前面的课中讲过电子型信息资源,包括机读数据库(网络数据库、光盘数据库)和网络信息资源等。

计算机检索基础知识

计算机检索基础知识

1. 计算机检索的概述 2. 计算机检索基础知识 3. 计算机检索的特点
4. 数据库结构
5. 数据库类型 6. 计算机检索服务的类型
计算机检索的产生
计算机技术
外部条件
通信技术 数据传输ຫໍສະໝຸດ 术 文献数量庞大 用户检索需求内部需求
计算机检索含义
所谓计算机文献检索,简单来说就是利用电子计算机对信息 和数据的高速处理能力来存贮数据并从中查找、取出数据这样一 个过程。 检索系统的构成 硬 件 系 统 软 件 软 件 应 用 系 统 软 件 数 据 库
第四代计算机的出现,卫星通讯技术和光纤通讯技术 的实用化,使得计算机情报检索冲破时间和空间的限 制,为快速全面地获取全球性科技情报资料和经济信 息提供了非常方便的条件,从而极大地提高了情报资 料的可获得性和利用价值,充分实现了人类情报资源
的共享。
联机检索阶段(1965-1972)
国际联机检索 (1973-
计算机检索基础知识
逻辑算符
截断算符
检索词的确定 检索式的制定
布尔逻辑运算符
(Boolean
searching)
逻辑与 计算机运算符为:A and B 或A*B 检出记录中同时含有检索词A和检索词B
逻辑或 计算机运算符为:A or B 或A+B 检出记录中含有检索词A或检索词B的文献
截词的形式可以有前截断、中间截断和后截断。
中间截断:“?”出现在词中,“?”或“??”分别表示 该处可填入1个或2个任意字符,以此类推。例如: analy?er 可表示“analyzer”和“analyser”等词汇。
后截断:检索词后加上“?”或“*”时,表示该词后 可添加一个或任意个字符,即为前方一致。比如:防火纤 维

第3章 知识检索基础

第3章 知识检索基础

数据库与文档
数据库的定义:“至少由一种文档组成, 数据库 并能满足某一特定目的或某一特定数据 处理系统需要的一种数据集合。数据库 就是在计算机存储设备上按一定方式存 储的相互关联的数据集合,是信息检索 的基础。”
数据库≥ 数据库≥文档
检索语言
分类语言:
中国图书馆图书 分类法 国际十进制图书 分类法 国际专利分类法 等等 标题词 关键词 叙词 等等
NNNas
机械工程、电机 叙词 9667 工程、仪器仪表 非叙词 1533 各个学科 叙词 91158 非叙词 17410
物 理 学 、 电 工 叙词 4400 学、控制工程、 非叙词 3000 计算机 航空、宇宙飞行 叙词 14632 非叙词 3187
检索工具及其类型
概念: 2.按文献的收录范围 检索工具是用来存 划分: 储、报道和检索文 综合性、专业性和 献线索的工具。 单一性的检索工具。 类型: 1.按出版形式分:
第二篇 知识检索篇
第三章 第四章 第五章 第六章 知识检索基础 中国知识检索系统 国外知识检索系统 国际联机检索系统
信息资源检索示意图
知识检索概念 知识检索系统及工作原理 检索语言及检索工具 检索系统的功能 检索策略
知识检索的概念
知识检索是从文献 检索、信息检索发 展而来的一个概念, 通常定义为:“将信 息一定的方式组织 和存储起来,并根 据信息用户的需要 找出相关信息的过 程和技术”。
P61
主题语言:
代码语言 引文语言
中国图书馆图书分类法
A 马克思主义、列宁主 义、毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、 体育 H 语言、文字 I 文学 J 艺术 N 自然科学总论 O 数理科学与化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学 Z 综合性图书

计算机检索基础

计算机检索基础

ISI Web of Knowledge 提供:
• 一个世纪的科学发展 owledge 包含:
• 230多个学科 深度的主题索引
EBSCOhost 2.0
A Smarter Search Experience. Beginning in July 2008.
• 例三,注意分析隐性概念
查“多元共渗”方面的英文资料。
由于汉英词典上没有对应的词,因此必须进 行概念分析,进而选择主题词。 多元共渗是指多种元素在一定温度、压力、浓 度条件下自金属表面扩散的能力有所提高,利用 的是扩散涂层原理,因此,通过Diffusion Coati ng就可以找到有关文献。
• 例四:提炼关键的、核心的词为检索词,少用
选择数据库的4C标准
• Content, 指数据库的内容,涉及它的学科范围、科技 含量、数据库类型、数据来源等。 • Coverage, 指数据库的规模,涉及它的时间和地理范 围、机构来源、文献量等。 • Currency,指数据库的更新的及时性,更新的频率、 周期。 • Cost,指数据库的费用,各种数据库、各种检索输出 方式和格式的收费是不一样的。

《中国图书馆图书分类法》
分类号由字母和数字组成,采用等级列举表达 从属关系。上位类目一定包含各个下位类目,分类 号越长,表示的学科范围越窄。 为了清楚醒目, 通常分类号的第三位数字后, 隔以.,如:
F279.712,TQ032.4
美国企业 经济管理 催化 反应
例 sewage + sewerage + wastewater userface or interface 污水处理 或 废水处理
• 非、NOT、- A NOT B :A必须存在,同时不允许B的存 在。 从原检索范围中剔除一部分不需要的内容,提 高检准率。

计算机检索基本知识(一)

计算机检索基本知识(一)

特点:检索精确 适用:熟悉学科发展,熟悉检索方法
多个检索项,支持逻辑组配
【技术】逻辑组配 逻辑匹配又称布尔逻辑检索,是通过布尔 逻辑算符来实现的,这些运算符能把一些 具有简单概念的检索词(或检索项)组配 成为一个具有复杂概念的检索式,用以表 达用户的检索要求。是当今检索理论中最 成熟的理论之一,也是构造检索表达式最 基本、最简单的匹配模式。 逻辑运算符有三种:与、或、非
选择数据库
【技术】跨库检索
跨库检索,在几个数据库之间进行的检索。 优势:跨库检索使用方便,一次检索可在多个子 数据库查询 劣势:为了实现跨库检索,只能在数据库间寻找 共性,牺牲各个数据库的特色。
《中国学术期刊全文数据库》为我们提供了“跨 库检索”和“单库检索”两种模式
跨库检索的默认检索界面与跨 库初级检索界面基本相同
时间:1999年-博士论文
12月31日,累积硕士 学位论文全文文献37 硕士论文 万多篇。 时间:1999年--
学位论文的重要性 学位论文是高等院校或研究机构的学生为 取得各级学位、在导师指导下完成的科学 研究、科学试验成果的书面报告。 重要的内部文献,保存在各大学中。内容 专深,有一定的新颖性、独创性。 是一种非常有参考价值的文献信息源。 学位论文的整体水平要高于期刊论文 学文论文为内部文献,获取比较困难
登陆注意事项: 1、“中国知识资源总库”实行IP控制,校 园网以外不能使用
2、有并发用户限制400人
出现“最大并发用户数已满”的提示时,请耐心等待
了解一个数据库应该从以下三个方面入手
数据库内容: 可以从这个数据库中得到什么 数据库检索: 如何利用这个数据库 结果处理: 如何处理得到的结果
中文数据库

第三章信息检索的基本理论

第三章信息检索的基本理论

第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。

掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。

第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。

简单地说,信息检索系统即信息的存贮和检索的系统。

广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。

狭义:信息技术系统就是用户检索信息时所使用的检索工具。

信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。

根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。

目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。

二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。

期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。

它具有及时性、连续性和稳定性的特点。

例如各种文摘杂志、索引刊物、连续的馆藏目录等。

这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。

因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。

同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。

单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。

它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。

单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。

计算机信息检索

计算机信息检索

二、原生(born-digital)数字资源
例如:《新物理学杂志》New journal of physics /EJ/njp
电子报纸(electronic newspaper)
将电子技术应用到涉及报刊出版、发行、利用的全过 程 重要电子报纸举例 纽约时报() 华盛顿邮报() 泰晤士报() 人民日报() 光明日报() 中国日报() 8点报(/)
示两个词不可以互换顺序,二者之间可插入0-n个词 如:智能机器人(w/3)控制,可检出“智能机器人 控制”,“智能机器人行为控制”等
N/n(near/n):两词相邻,N/n表示两个词可以互换
顺序,二者之间可插入n个词 如:智能机器人(n/3)控制,可检出“智能机器人控 制”,“控制算法对智能机器人的影响”等
脱机信息检索 Off-line Retrieval
定义:又称批式检索,是指用户将检索要求送往检索 中心,由专职操作计算机的人员进行检索,再将检索 结果返回给用户的一种检索方式。 优点:①批处理可同时进行多项检索 ②检索费用低 缺点:①缺乏用户与系统的直接交流,检索要求表达 不清,影响检索质量。②时间上的延迟。
联机数据库检索 Online Retrieval
定义:用户利用计算机终端设备,通过通讯线路或网 络,在联机检索中心的数据库中进行检索并获得信息 的过程。 优点:① “人机对话”方式使检索者能随意更改检索 策略,从而达到很高的检全率和检准率。 ② 消除了时间上的延迟。 ③ 保证检索者获得最新、最及时的文献信息 缺点:①检索费用高:如Dialog系统; ②检索技术较为复杂,难以成为普及型的检索 手段。
光盘数据库检索 CD-ROM Searching
类型:单机检索与联机光盘检索。 定义:联机光盘检索指把单用户系统发展成多用户的 局域网系统,通过网络(如校园网)连接多个用户终 端,用服务器管理多组光盘数据库及其检索系统 优点:储量极大,体积微小,要求设备简单,使用方 便、易于操作,检索费用低。 缺点:①更新周期慢、时差长,文献新颖性不够 ②同一时间只能一人使用,资源浪费较大。光 盘网络可以解决这个问题。

【最新】一章节导论三节计算机检索基础

【最新】一章节导论三节计算机检索基础
左 截 : * ters 可 检 索 到 : computers , testers,等
任 意 截 : ‘ tal’ 可 检 索 到 : costal, talk, metallic
2021/2/2
13
位置算符检索
序列分析更具体的概念词检索: Sequence near3 analysis Near :检索词出现在同一句子中,near3
2021/2/2
4
用户
输入 检索 需求 分析转换 处理需求
2021/2/2
概念词典 控制词表
数据库
匹配运算
检索结果
信息源 筛选 录入
分类索引 文档预处理
5
二.检索语言
1.分类检索语言 中国图书馆分类法
2.主题检索语言 关键词法 主题词法
2021/2/2
6
三、检索途径
1.自由词检索 自由词又称文本词(text word) 2.主题词检索 主题词是一种规范化的检索语言 3.分类检索 分类法(classification)是利用学科、
表示两个检索词中间最多允许插2个词。 Sequence Amino Acid Analysis; Sequence Protein Analysis; Sequence DNA Analysis; Sequence Peptide Analysis; Sequence RNA Analysis;
2021/2/2
9
四、检索步骤
1、分析检索课题
2、选择数据库
3、选择检索途径
4、确定检索词
5、构筑检索提问式并作检索操作
6、调整检索策略
7、输出检索结果
8、获取原始文献
9、创建文献跟踪服务
2021/2/2

C计算机检索基础知识

C计算机检索基础知识
检索式: 压缩技术/ 题目,关键词, 检索式:信息编码 and 压缩技术 题目,关键词,文摘
课题名称三: 课题名称三:查找作者是 赵永孟 关 于 数控加工 的 文献
检索式: 赵永孟 作者 and 数控加工 题目 数控加工/ 检索式: 赵永孟/作者
1、少用或不用对课题检索意义不大的词
► 词义泛指过大的词,如“展望”——趋势、现 词义泛指过大的词, 展望”——趋势 趋势、
在用数据库检索时, 在用数据库检索时,检索式的制定是一个 关键。首先应考虑检索词在哪个字段中出现。 关键。首先应考虑检索词在哪个字段中出现。 比如,查找D. Dutta关于膜技术发表的论 关于膜技术 比如,查找D. Dutta关于膜技术发表的论 文时, 应在“作者” 文时,则“D.Dutta ”应在“作者”字段中出 membrane)”应在 主题词” 应在“ 现,“膜(membrane)”应在“主题词”或 文摘” 篇名”中出现。 “文摘”或“篇名”中出现。 然后再确定各个检索词之间的逻辑关系。 然后再确定各个检索词之间的逻辑关系。 如本例中, Dutta与膜的关系为逻辑与 与膜的关系为逻辑与。 如本例中, D. Dutta与膜的关系为逻辑与。 则该例的检索策略为: 则该例的检索策略为: Membrane/ab,ti,su and Dutta,D/au
► 作用:减少检索词的输入量,扩大检索范围 作用:减少检索词的输入量,

提高检索效率。 提高检索效率。
► 注意:使用截词检索必须慎重,词干不要太 注意:使用截词检索必须慎重,
短,以免检出许多与原来检索词不相关的文 献记录
截词的形式可以有前截断、中间截断和后截断。 截词的形式可以有前截断、中间截断和后截断。 前截断 前截断:将截词符放在词根前边,后方一致, 前截断:将截词符放在词根前边,后方一致,表 示在词根前方有有限个或无限个字符。 示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、 能够检出含有magnetic、 magnetic ctromagnetic、paramagnetic等词的记录 等词的记录。 ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致, 后截断:将截词符放在词根后边,前方一致,表 示在词根后方有有限个或无限个字符。 示在词根后方有有限个或无限个字符。 metal*,能够检出含有metal metals、 metal、 如metal*,能够检出含有metal、metals、 metaled、metalist等词的记录 等词的记录。 metaled、metalist等词的记录。 中间截断:将截词符放在词的中间, 中间截断:将截词符放在词的中间,词的前后方 一致。 一致。 colo*r,能够检出含有colour color的记录 colour、 的记录。 如colo*r,能够检出含有colour、color的记录。

第三章计算机信息检索技术

第三章计算机信息检索技术
计算机信息检索技术
10/17/2019
武汉大学图书馆 理科学科馆员 欧懿
本章主要内容
• 计算机信息检索技术 • 检索策略的制定与检索实施步骤 • 检索结果的评价与检索策略的调整
10/17/2019
计算机信息检索技术
一.计算机信息检索技术
• 在进行计算机检索时,有时有一些比较复杂的课题,如: “计算机信息检索”,既涉及计算机,又涉及信息检索,这 时候就要编制出满足要求的计算机检索式,它是机检的基础。
10/17/2019
计算机信息检索技术
逻辑与(逻辑乘)
• 表示概念的相交、限定,缩小检索范围,提高检准率。 • 用运算符号:AND 或* 连接检索词 • A B A AND B
10/17/2019
计算机信息检索技术
汽车与飞机发动机
A=汽车发动机 A
B
B=飞机发动机
10/17/2019
A and B 逻辑“与”运算
10/17/2019
计算机信息检索技术
4.词组检索
• 将一个确度。 如:“Global Positioning System”, 只检索出规定 字段中包含完整词组的记录。
10/17/2019
计算机信息检索技术
不加“”,命中13815条
计算机信息检索技术
前截断
• 将截词符号放在检索字符串的左方,以表示其左边不管截去 有限或无限个字符,只要数据库中具有与截词符后面部分字 符相同的检索词的文献, 即为命中文献。这种方式也称为后 方一致。 如:*chemistry microchemistry、macrochemistry
• 目前使用较少
计算机信息检索技术
• 人类活动对群落多样性的影响 • 检索概念:

计算机检索基础知识 共72页

计算机检索基础知识 共72页

2019/7/28
24
中国生物医学文献数据库
• 发行:中国医学科学院医学信息研究所 • 收录范围
• 年限:1978年至今 • 学科:基础医学、临床医学、预防医学、药学、中医
中药学等生物医学各领域。 • 数据量:1600多种中国期刊、以及汇编、会议论文的
文献题录530余万篇,全部题录均进行主题标引和分类 标引等规范化加工处理。
信息(如名词解释、统计数据等)或 广泛的信息概况 。 【例】Google
PDQ
2019/7/28
28
3.确定检索途径
(1)分类途径 • 信息需求:
浏览学科、专业信息,了解专业背景 如:了解分子生物学研究的相关文献
2019/7/28
29
中国学术期刊出版总库分类目录
(2)关键词检索途径
常见限制字段:TI,AB,FULL TEXT 无系统规范词表情况下使用:
• 文献来源: MEDLINE数据来源于全世界70多个国家和地区的 近5000种生物医学期刊
2019/7/28
23
Web of Knowledge
Web of Knowledge是由Thomson Scientific, Inc.提供的学术信息资源整合体系。包含
数据库有:Web of Science(收录6300多种世界 领先的科技期刊)以及ISI Proceedings、 Current Contents Connect、Derwent Innovations Index、BIOSIS Previews、 MEDLINE、Inspec,以及Journal Citation Reports和Essential Science Indicators
ultrasonography 治疗: drug therapy, radiotherapy, surgery, therapy 病因: etiology, pathology, chemically induced 药物作用: therapeutic use, adverse effects
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

扩大检索范围,提高查全率
逻辑“或”运算
示例

政治、经济、宗教与伦理学的关系
政治 经济 宗教
A B
伦理学
C D
(A OR B OR C) AND D (政治+经济+宗教)*伦理学
逻辑“非”(NOT或—)
“NOT”算符是排除含有某些词的记录,其逻辑提 问表达式为“A NOT B”或“A-B”,即检出的记录 中只能含有“NOT”算符前的检索词 A,而不能同时 含有“NOT”后的检索词 B。 “NOT”的作用是缩小检索范围,提高检准率。 在联机检索中可降低检索费用。 例如:“皮鞋 NOT 高跟鞋” A B 由于“NOT”算符有排除掉相 关文献的可能,在实际检索 A not B 中应慎重使用。
主要的截词算符
2、 前截断:表示检索词前可变化有限或无限个字符 。 ?WEAR 可同时检索含有SLEEPWEAR 和 NIGHTWEAR 3、前后同时截断:表示词干两侧允许有限或无限个 字符变化。如 ? WAVE?,可检索 waves,wavelet,microwave,wavelength…. 4、中间截断:如FIB? ?S,相当于查找FIBERS, FIBRES
存储描述如目录、题录、文摘等书目线索的数 据库,又称二次文献信息数据库。如各种图书馆目 录数据库、题录数据库和文摘数据库等属于此类, 它的作用是为用户指出了获取原始信息的线索。 如:馆藏书目,SCI,EI,CPCI等
全文数据库
存储原始信息全文或主要部分的一种源数据库。
如期刊全文数据库、专利全文数据库、百科全书全
计算机信息检索:用户利用数据库获取所需 信息的过程。 即:计算机将输入机检系统的用户提问标识 (检索词)与已存贮在系统中数据库内的文献 特征标识(标引词)进行匹配比较,凡符合给 定的比较原则和逻辑运算条件者即为命中文献。
计算机检索的历史
1.脱机检索阶段(1954-1964)
2.联机检索阶段(1965-)
3.网络检索(1972-)
4.光盘检索(1985-) 5.最新发展
脱机检索:定期由专职检索人员把许多用
户课题汇总,批量处理提问要求,并把结果 提供给用户。直接在计算机旁检索,不需要 远程终端设备及通信网络。用户在计算机处 理成批检索课题之后才知道检索结果,不能 直接、及时修改检索策略,查全率和查准率 受到一定限制。
数据库中一部分记录
的集合
综合性数据库 多按学科划分文档
记录(Record)
数据库的基本信息单元,每条记录都描述了原
始信息的各项外表特征和内容特征。
字段(Field)
组成记录的数据项(检索项),一个字段代表一
项特征。
文档
记录
字段
字段名称及代码
基本字段:
文摘(Abstracts) 题目(Title Word) 主题词(Descriptor)
文数据库,用户使用某一词汇或短语,便可直接检 索出含有该词汇或短语的原始信息为主的一种数据 库。如各种统计数据库、科学技术数据库等。 数值数据库除了一般的检索功能外,还具有 准确数据运算功能、数据分析功能、图形处 理功能及对检索输出的数据进行排序和重新 组织等方面的功能。
网络检索:是通过标准通信方式将世界
各地的计算机网络连接起来,形成一个 基于客户机-服务器模式的网络分布数据 库结构。它在全球范围内把科技信息、 商贸信息、经济信息、时事新闻以及日 常生活信息通过互联网络合在一起,向 亿万联网用户提供广泛的信息检索与服 务。它是信息化社会应用最广泛、最活 跃的领域。
1)选择规范词,如叙词。 2)选择自由词时,要能代表本课题技术特征的、具有实 质意义的词。这些词应为专业通用词、惯用词和术语。 3)避免使用低频词或高频词。 不使用禁用词,如a、and、or、not等; 尽量少用或不用不能表达课题实质的高频词,如分析、 研究、应用、方法、设计等。
4)同义词尽量选全 同一概念的几种表达方式; 同一名词的单、复数、动词、动名词、过去分词形式 等,如生产有product, production, producing, produce, productive等,词根相同时,可用截词符解决; 化学物质既用名称也用元素符号,如氮,Nitrogen和N; 植物和动物名,其英文和拉丁名均要选用。
2.选择著者作为检索途径进行检索时
精确检索和模糊检索,以“高洁”为例 精确检索:高洁 模糊检索:高洁如 高洁琳等
检索词选择技巧
(2)注意检索词的全称、简称、俗称和 英文缩写
检索条件限定
如年份、语种、文献类型等。
检索字段
如著者 、文摘、篇名、主题词、机构名称、 分类号、刊名等。
检索字段的确定
计算机检索的最新发展
★全文文本、多媒体、多载体、跨平台等新型
信息检索发展;
★在深度上提高管理和组织信息的能力,如探
索自动抽词、自动索引、自动检索、自动文
摘、自动分类、Web检索智能代理、数据挖掘、
自动翻译等;
★信息资源的网络化存储和分布式存储.
计算机检索特点
检索内容新 数量大
手段灵活 途径多样
逻辑“与”(AND或*)
是一种概念相交和限定关系的组配。例如:“A AND B” “A*B”,其含义:是检出的记录中必须同时含有“A”和“B” 两个检索项。 “AND”算符的作用是对检索词加以限定,逐步缩小检索范围, 提高检索结果的查准率。例如检索“计算机在图书馆中的应用” 方面的文献,其检索式可写成: “计算机 * 图书馆”或 A C B “计算机 AND 图书馆”
主要的截词算符
1、后截断 (1)? ?表示检索词词干后可能变化一个字符时 ,如material? ? 可能同时查出material和materials (2)???表示词干后可能变化两个以上字符时, 则连续使用若干个 “?”代替变化字符。如 jump??? 可查找到 jumpy, jumper, jumpers (3) ?表示无限截断,如 combusti? Combustible , combustion combustibility
逻辑“非”运算
示例

非共产主义人生观 B821.2(人生观、人 生哲学中除共产主义人生观外的那一部份)
A:人生观、人生哲学 B:共产主义人生观
A not B A-B
“优先级”问题
当布尔运算符在一个检索式中连续出现时,
它们的“级别”是不同的。一般的次序是:
“()”最高“-”优先级第二,“*”第三,
检索速度快 效率高
检索方便 实现资源共享
快速 准确地 获得结果
检索软件类型
检索软件即用户与系统对话的界面,可分为以下两种:
指令型
通过直接输
入指令进行 检索
菜单型
通过屏幕菜 单引导完成
检索。
指令检索示例
“Solar energy” wn TI AND
english wn LA
工程索引EI专家检索
“+”最低。
()>NOT>AND>OR
如: 信息OR情报 NOT 经济 (信息OR情报)NOT 经济 检索结果不同。
布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*C=A*(B+C) 然而,在使用布尔逻辑时,必须注 意以下几条交换规则: A*B=B*A A+B=B+A A-B≠B-A
主要的位置算符
1、(W)n算符 (W)或W0------With,表示所要连接的两词之间只能为一空 格或算点符号,且算符两侧的词序不得颠倒。(词组) 2、(nW)或Wn 算符 (nW)-----n Words,在两个检索词之间允许插入0至n 个词 ,其前后两词的位置不能互换。如 X (1W) RAY,可同时查 找 X RAY,X Y RAY; chemical w2 protection,可查到 Chemical and Biological protection和 chemical protection 3、(n N)或Nn-算符 n Near,表示算符两侧的检索词彼此邻近,且词序可变,n是 两个检索词之间允许插入的最大词量.如cotton (2N) processing,凡含cotton processing, processing of cotton 和 processing of Egyptian cotton的文献记录都算命中.
辅助字段:
作者 (Authors) 作者单位(Corporate Source) 刊名(Journal Name) 年代( Publication Year )
数据库类型
文 献 数 据 库
数 值 数 据 库
事 实 数 据 库
多 媒 体 数 据 库
文献数据库
书 目 数 据 库
全 文 数 据 库
书目数据库
计算机信息检索基础
天津工业大学图书馆
“信息爆炸”
知识的门类和数量迅速倍增
知识的载体和传输方式日新月异 每日新增网页近百万张
最新统计:全球网站数量愈突破2.5亿个
文献增速 70年代每7年翻一番 1999年每1年半翻一番 2010年每10小时翻一番
利用计算机对信息和数据的高速处理能 力来实现信息的存储与检索。
菜单检索示例
数据库
数据库定义
数据库结构
数据库类型
数据库定义

相互关联的数据在计算机外存储器上有 序的集合.
数据库结构
数据库 文档 记录
题名字段
作者字段 地址字段 刊名字段 关键词字段 主题词字段
文档 记录 记录
题名字段
作者字段 地址字段 刊名字段 关键词字段 主题词字段
记录
文档(File)
年鉴检索
检索2006年高等学校博士生硕士生授 予学位的人数
事实数据库
存储事实性信息。
中国大百科全书网络版
相关文档
最新文档