第三章计算机检索基本知识

合集下载

第三章 信息检索基本知识

第三章 信息检索基本知识


信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物

第三章 计算机检索基础知识

第三章 计算机检索基础知识
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

第三章 计算机检索基础知识

第三章 计算机检索基础知识

1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
(4)同一事物名词的单复数、不同词性、英美语的不 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 colour fibre 美拼 color fiber (5)隐含概念扩展 隐含概念是显见主题的更确切的表达。 “一个取代高残杀菌剂的理想品种” 隐含了“高效低毒杀菌剂”或“高效低毒农药”
下位词: 下位概念扩展法:概念分析的树形展开法 如:汽车 卡车 轿车 货车等
所有图书馆用户能够在校外使用天津高校文献信息 中心的电子资源,比如超星电子图书、维普期刊全文数据 库、EBSCO电子期刊等。 IP通远程访问系统已开通 IP通用户登录方法: 首先要确保您使用的网络是非教育网。 WEB方式用户请登录 / 客户端软件用户请登录
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
截词检索
邻近检索 限制检索 加权检索 检索词的确定

计算机检索基础知识

计算机检索基础知识

40
引文检索的作用
• 在研究课题早期、经典文献的基础上,获得后人最近的研 究文献。
• 在引文检索的基础上检验文献,评价文献、著者和期刊的 权威性。
2019/11/27
41
加菲尔德(Eugene Garfield 1925-- )的引 文索引检验文献的观点
• 著者的文献被人引用的频率,为评价著者及其文献的质量, 提供参考数据
(计算机,电脑,微机) 查最新的文献时使用:
(禽流感,2019)
2019/11/27
31
主题词检索途径——控制词表检索
副主题词
• 限定规范主题词某一方面内容的规范词: MEDLINE数据库82个() :
如: 诊断:diagnosis, radiography, radionuclide imaging,
2019/11/27
17
体现检索途径的检索项
2019/11/27
复旦大学图书馆文献检索教研室
18
四、信息检索步骤
1. 分析检索课题,明确检索要求 2. 选择检索工具,确定检索途径 3. 确定检索标识,确定检索运算 4. 构筑检索提问,获取初步结果 5. 调整检索策略,获取所需信息
2019/11/27
2019/11/27
9
分类检索语言
中图法--中国图书馆分类法
Q 生物学
R 医药卫生
R1 预防医学与卫生学


R6 外科学

R65 外科学各论
分类名
R651头部及神经外科学
R651.15颅脑损伤
常见字段限制:CL
2019/11/27
10
主题检索语言
• 关键词(keyword):著者表达文献中具有特征意义 的实义词

计算机检索基础知识

计算机检索基础知识

14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献

计算机检索基础知识

计算机检索基础知识

“COTTON(2N)PROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文 献记录都算命中。
28
(5)(F)算符——含义为“Field”
这个算符表示其两侧的检索词必须在同一字段(文献著 录的基本单元,反映文献外部特征或内容特征的某一 个项目,如同在题目字段或文摘字段)中出现,词序 不限,中间可插任意检索词项。
34
又如:查找wang wei写的文章,可以输入检索式: au=wang wei(有时检索词须放在双引号内) /TI—篇名;如:S control(w)pollution/ti /DE—叙词;如:S aluminum compounds/de /ID—标引词;如:S soap/id /AB—文摘词;如:S computer/ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab

计算机网络信息检索基本知识

计算机网络信息检索基本知识

A
B
逻辑或( ): ):A 逻辑或(OR): OR B 要求检出文献中包含概念A或概念 或同 要求检出文献中包含概念 或概念B或同 或概念 时包含概念A和概念 和概念B, 时包含概念 和概念 ,其作用是扩大检索范 增加命中文献数。 围,增加命中文献数。
A
B
逻辑非( ):A 逻辑非(NOT): NOT B ): 要求在检出的包含概念A的文献中去除含 要求在检出的包含概念 的文献中去除含 有概念B的文献 其作用是缩小检索范围。 的文献, 有概念 的文献,其作用是缩小检索范围。
若干个记录构成的信息集 合称为文档。 合称为文档。大型的数据 库分Байду номын сангаас成若干文档。 库分割成若干文档。
记录
字段
组 成 记 录 的 数 据 项 目
记录是构成数据库的完整的信息单 元,每条记录描述了原始信息的外 部特征和内部特征。 部特征和内部特征。
四、网络系统和通讯网络 主要由因特网( )、万维网 主要由因特网(Internet)、万维网 )、 (WWW)、远程登录(telnet)、文件 )、远程登录( )、文件 )、远程登录 )、 传输( 传输(FTP)和电子邮件(E-mail)等组 )和电子邮件( ) 成。
第二章
计算机网络信息检索 基本知识
医学文献检索教研室 阳春 E-mail:gl-yc@ : Tel:2813741 : QQ:42781867 :
第一节 计算机网络信息检索概述
手工检索 基本技能
计算机网络信息检索
计算机信息检索主要经历了四个阶段: 计算机信息检索主要经历了四个阶段: 脱机检索阶段( 世纪 世纪50~60年代中期) 年代中期) 脱机检索阶段(20世纪 年代中期 联机检索阶段( 世纪 世纪60~70年代中期) 年代中期) 联机检索阶段(20世纪 年代中期 光盘检索阶段( 世纪 年代中期) 世纪80年代中期 光盘检索阶段(20世纪 年代中期) 网络检索阶段( 世纪 年代中期) 世纪90年代中期 网络检索阶段(20世纪 年代中期)

第三章数据与事实检索

第三章数据与事实检索

年鉴 3、世界经济年鉴 4、世界年鉴 5、中国工程机械工业年鉴 ……
年鉴
5、举例
– 查询2006年北京人均收入可选择北京年鉴、中国统 计年鉴。 – 查询2006年中国煤炭销售量可选择中国统计年鉴。 – 查询2006年中国的国民生产总值或外汇储备情况,
首选年鉴或统计资料。
字、词典
1、定义:以“说文解字”为目的,提供文字或词语拼写、 读音、意义、用法等相关知识供人们查考。
数据与事实检索的基本知识
二、事实与数据检索工具的特点
* 具有检索目的的唯一性。 * 具有检索结果的准确性。 * 具有检索手段的特殊性。 三、常用的事实与数据类检索工具 辞典、年鉴、百科全书、手册、人名录、地名录、机构 名录、
百科全书
1、定义:是人类知识的总汇,是记录人类知识最全面、最系统的大型
综合工具书。 2、内容:包括各学科或专业的定义、原理、方法、基本概念、历史及
2、特点:下定义,是什么。
3、种类:专业字词典、综合字词典,科学技术术语词典、 电子科技词典等。电气工程词典,计算机、数据处理 和电信词典,国际电工词典。
手册
1、定义:一种以数据、表格或简要叙述为主的专门著作,大都是为
了方便科技人员在实验室和现场使用,可以从中迅速简便地查出 可靠的事实和数据。
2、特点:往往代表该手册出版以前某方面的科技水平。
年鉴
1-3、国民经济核算:国内生产总值、第三产业增加值、居民消费 水平、
三次产业贡献率……。
1-4、人口:人口数及构成、人口出生率. 死亡率和自然增长率、各地区人 口平均预期寿命、各地区人口年龄构成和抚养比、各地区按性别和受 教育程度分的人口…… 。 1-5、就业人员和职工工资:各地区按行业分城镇单位就业人员数、按行业 分职工平均工资、各地区按行业分职工平均工资…… 1-6、固定资产投资:城镇固定资产投资在建总规模、房地产开发企业的资

计算机检索基本知识

计算机检索基本知识

3、私营公司 例如:英国Derwent Derwent公司 例如:英国Derwent公司 美国Knight Ridder公司 Knight美国Knight-Ridder公司 Mead Data Contral OVID公司 OVID公司 Information, Silver Platter Information,Inc. 传统新闻/ 4、传统新闻/出版机构 例如: 德国Springer Springer出版社 例如: 德国Springer出版社 美国Join Wiley电子出版公司 美国Join Wiley电子出版公司 荷兰Elsevier Elsevier科学出版社 荷兰Elsevier科学出版社
数据库类型: 数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、 按存储数据的类型分:数值型、事实型、词典型、书目型、 全文型 按存储的介质分: 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上, 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限, 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大, 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
文章号 001 002 ……
篇名 asd bys vcx
文章号 001 002 ……
作者 Li Wang deng
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
输出端),网络(或通信电缆),数据库存储服务器 输出端),网络(或通信电缆),数据库存储服务器 ),网络 ),
服务器(数据库终端) 服务器(数据库终端)

计算机检索基础知识(3)

计算机检索基础知识(3)
计算机检索步骤(检索策略)
(1)分析检索课题,明确检索需求。 (2)选择信息源(图书馆订购的资 源、网上免费资源)。 (3)确定检索标识,选择检索项。 (4)编写检索提问式。 (5)实施检索并调整检索策略。 (6)输出检索结果。
计算机检索基础知识
1.了解数据库的类型; 2.选择合适的数据库; 3.选择恰当的检索词(检索项); 4.计算机检索中常用的运算符; 5.计算机信息检索策略的制定与调整。
用户行为分析在搜索引擎中的应用
主题字段:用户行为分析 并含 搜索引擎
根据查得的中文文献扩展英文关键词
检索式及检索结果
379 records in Compendex for 19692012 (((Search Engine ) WN All fields) AND ((User Behavior Analysis ) WN All fields))
数据量(记录数) 文种 更新频率 访问模式(口令,IP控制) 其它信息:帮助信息、出版者、发行者、在同行中的地位。
如何了解一个数据库样例:超星数字图书

国内重要的数字图书之一 服务形式:WEB/镜像 涵盖学科或主题范围:所有学科 文献类型(出版形式、内容层次等): 电子图书,全文(一次文献)
1.数据库的类型
记录的收录格式
记录的内容类型
记录的出版类型
书目(Catalogue) 摘要(abstracts) 全文(full text) 文献(Document) 数据(Data) 事实(Fact) 图书、期刊论文、会议论 文、学位论文、标准文献、 专利文献等。
计算机检索基础知识
1.了解数据库的类型; 2.选择合适的数据库; 3.选择恰当的检索词(检索项); 4.计算机检索中常用的运算符; 5.计算机信息检索策略的制定与调整。

计算机检索基础

计算机检索基础
是指对有关的一次文献和二次文献进行广泛深入
的分析研究之后综合概括而成的产物,具体包括 各种述评、综述、或进展性出版物,各种字典、 词典、手册(教科书)、百科全书、年鉴以及文 献指南(或书目指南)等。
1.3 文献的主要类型
印刷型、缩微型、声像型和电子型 文献是以载体的物理形态区分的四种文献类型。
1. 印刷型
2.7 政府出版物
政府出版物是各国政府部门及其所属机构所发表的
文件。可分为行政性文件和科技文件两大类。
政府出版物对了解一个国家的科学技术和经济政策
及其演变情况。有一定的参考价值。
2.8 学位论文
是高等学校学生为获得某种学位而撰写的科学论文。
一般有学士论文、硕士论文和博士论文之分。 学位论文的特点是:理论性、系统性较强,内容专 一,阐述详细,具有一定的独创性,是一种重要的 文献信息源。
零次文献一般是通过口头交谈、参观展览、参加报
告会等途径获取,不仅在内容上有一定的价值,而 且能弥补一般公开文献从信息的客观形成到公开传 播之间费时甚多的弊病。
一次文献(primary document)
是指作者以本人的研究成果为基本素材而创作(或 撰写)的文献,不管创作时是否参考或引用了他人 的著作,也不管该文献是以何种物质形式出现,均 属一次文献。一次文献中所记录的情报,一般比较 具体、详尽和系统化。 习惯上也称一次文献为原始文献。图书、期刊论文、 科技报告、会议论文、专利说明书、技术标准以及 部分学位论文等公开发表的文献都属一次文献。另 外,还包括一些不公开发表的文献。如:日记、内 部报告、技术档案等等。
式的长处。 科技会议是公布新的研究成果的重要场所。又是获 得难得文献的重要途径。另外也是及时全面地了解 有关领域发展情况的重要渠道。

计算机信息检索基础知识

计算机信息检索基础知识

信息检索的步骤
研究课题 用户
主题分析
选择检索系统或 数据库
选择检索途径:主题 词、作者、机构等
检索操作
制定检索策略和 检索方式
初始检索 结果输出 不满意
用户结果评价
满意
检索结果
索取原文
三、网络信息资源及其特点
网络信息资源又称为虚拟资源、数字资源、 电子信息资源、联机信息资源、万维网资源 等,是互联网上电子信息资源的统称,是以 数字化形式记录的,利用计算机技术、通信 技术及多媒体技术在网络上发布、查询与存 取利用的信息资源的总和。
追溯法:这是利用已有的文献后面的参考文 献进行追溯查找的方法,是在没有检索工具 或检索工具不全的情况下使用的一种方法。 但用这种方法查找的文献不全,有片面性, 文章漏检率高,知识陈旧的占多数,目前已 很少有人使用。
分段法(循环法):这是将常用法与追溯法 交替使用的一种方法,即利用工具书检索文 献,又利用文献后面的参考文献进行追溯, 两种方法交替使用,直到满足读者需要为止。 这种方法可根据文献和本单位工具书收藏的 情况分期分段交叉运用不同的查找方法,既 能获得一定时期内的文献,还可节约查找时 间。
(3)专门从事数据库制作和销售的数据库商 如EBSCO公司、ProQuest公司等;自己没有出 版物,但他们买出版公司的产品,然后建立检索 平台供读者检索,例如iGroup公司建立了 Scitation平台,在上面可以看到AIP(美国物理 学会)、ASME(美国机械工程师协会)等几十 个专业学协会的电子期刊。
2信息检索技术
布尔逻辑检索 截词检索 位置检索 字段限定检索
布尔逻辑检索
逻辑与AND(*)。 逻辑或OR(+)。 逻辑非NOT(-)。

计算机检索基本知识(一)

计算机检索基本知识(一)

特点:检索精确 适用:熟悉学科发展,熟悉检索方法
多个检索项,支持逻辑组配
【技术】逻辑组配 逻辑匹配又称布尔逻辑检索,是通过布尔 逻辑算符来实现的,这些运算符能把一些 具有简单概念的检索词(或检索项)组配 成为一个具有复杂概念的检索式,用以表 达用户的检索要求。是当今检索理论中最 成熟的理论之一,也是构造检索表达式最 基本、最简单的匹配模式。 逻辑运算符有三种:与、或、非
选择数据库
【技术】跨库检索
跨库检索,在几个数据库之间进行的检索。 优势:跨库检索使用方便,一次检索可在多个子 数据库查询 劣势:为了实现跨库检索,只能在数据库间寻找 共性,牺牲各个数据库的特色。
《中国学术期刊全文数据库》为我们提供了“跨 库检索”和“单库检索”两种模式
跨库检索的默认检索界面与跨 库初级检索界面基本相同
时间:1999年-博士论文
12月31日,累积硕士 学位论文全文文献37 硕士论文 万多篇。 时间:1999年--
学位论文的重要性 学位论文是高等院校或研究机构的学生为 取得各级学位、在导师指导下完成的科学 研究、科学试验成果的书面报告。 重要的内部文献,保存在各大学中。内容 专深,有一定的新颖性、独创性。 是一种非常有参考价值的文献信息源。 学位论文的整体水平要高于期刊论文 学文论文为内部文献,获取比较困难
登陆注意事项: 1、“中国知识资源总库”实行IP控制,校 园网以外不能使用
2、有并发用户限制400人
出现“最大并发用户数已满”的提示时,请耐心等待
了解一个数据库应该从以下三个方面入手
数据库内容: 可以从这个数据库中得到什么 数据库检索: 如何利用这个数据库 结果处理: 如何处理得到的结果
中文数据库

计算机检索基础知识共55页

计算机检索基础知识共55页

13、遵守纪律的风气的培养,只有领 导者本 身在这 方面以 身作则 才能收 到成效 。—— 马卡连 柯 14、劳动者的组织性、纪律性、坚毅 精神以 及同全 世界劳 动者的 团结一 致,是 取得最 后胜利 的保证 。—— 列宁 摘自名言网
15、机会是不守纪律的。——雨果
31、只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克
计算机检索基础知识
11、战争满足了,或曾经满足过人的 好斗的 本能, 但它同 时还满 足了人 对掠夺 ,破坏 以及残 酷的纪 律和专 制力的 欲望。 ——查·埃利奥 特 12、不应把纪律仅仅看成教育的手段 。纪律 是教育 பைடு நூலகம்程的 结果, 首先是 学生集 体表现 在一切 生活领 域—— 生产、 日常生 活、学 校、文 化等领 域中努 力的结 果。— —马卡 连柯(名 言网)

第三章文献信息检索的基本知识

第三章文献信息检索的基本知识

第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。

为此,首先就必须了解文献信息检索的基本知识。

第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。

广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。

信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。

信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。

这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。

信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。

信息存储是为了检索,信息检索又必须先有信息存储。

如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。

所以说存储是检索的前提和基础,检索是存储的目的。

信息检索系统的工作原理如图3-1所示。

图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。

(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。

1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。

计算机检索基础知识

计算机检索基础知识
2. 计算机信息检索的基本技术
①布尔逻辑检索(Boolean searching):是利用布尔逻辑符进行检索的方法,布尔逻辑符有三种,即逻辑"与"(AND)、逻辑"或"(OR)和逻辑"非"(NOT)。在一个检索式中如果含有两个以上的布尔逻辑符就要注意运算次序:()>NOT>AND>OR,即先算括号内的逻辑关系,再依次算"非"、"与"、"或"关系。
中国生物医学文献数据库
中国生物医学文献数据库 (CBMdisc) 收录了1978年至2002年1000多种中国生物医学期刊,以及汇编、会议论文的文献题录。
2002年中国生物医学文献数据库分为以下文档:
CBMdisc02 收录 2001-2002 年的文献题录。
检索途径多:除手工检索工具提供的分类、主题、著者等检索途径外,还能提供更多的检索途径,如题名途径等。
更新快:尤其是国外的计算机检索工具,光盘多为月更新、周更新,网络信息甚至为日更新。
资源共享:通过网络,用户可以不受时空限制,共享服务器上的检索数据库。
检索更方便灵活:可以用逻辑组配符将多个检索词组配起来进行检索,也可以用通配符、截词符等进行模糊检索。
检索结果可以直接输出:可以选择性打印、存盘或E-Mail甚至可以直接检索出全文。
在了解计算机信息检索服务的知识前,首先应了解计算机信息检索的相关知识。
1. 计算机信息检索系统的构成
计算机信息检索系统从物理构成上说,包括计算机硬件、软件和数据库、通讯线路和检索终端五个部分。一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求都不需要检索者多加考虑。对检索者来说,他们必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据库的相关概念: 通俗地说,数据库就是由多张表构成的
字段(field)
ቤተ መጻሕፍቲ ባይዱ
记录 (record)
文档n 文档2 文档1(file):一张表就是一个文档
数据库结构图
数据库(database)
检索篇名
文章号 001 002 ……
篇名 asd bys vcx
索引文档1: 篇名索引
检索作者
文章号 001 002 ……
检索界面
命令方式:多用于大型联机检索系统,需输入各类复杂 的操作命令和检索表达式,多由专职人员上机。如大型 联机检索系统的Dialog、STN等界面
简易菜单式:多用于光盘检索系统,操作简单易学,有 丰富的提示和帮助功能,用户可自行上机。如光盘数据 库CA等。
超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
联机网络化与多元化检索时期 (1976---1990)
Internet网络化检索时期 (1990---至今)
二、数据库
在前面的课中讲过电子型信息资源,包括机读数据 库(网络数据库、光盘数据库)和网络信息资源等。它 们是计算机化信息检索系统的主要处理和查询对象。
数据库是发展最早、影响最广的一种电子信息源, 并且至今仍是一种主要的信息查询对象。
第三章 计算机检索基本知识
第一节 计算机检索概论
一、计算机信息检索的含义:
计算机检索是指人们在计算机或计算机检索网络的终 端机上,使用特定的检索指令、检索词和检索策略,从计 算机检索系统的数据库中检索出需要的信息,继而再由终 端设备显示或打印的过程
文档数 据库
手工检索:
查找

书本式检索工具
(文献条目)
所有文章
经过一次检索后
在上一次检索结果 的范围内进行再次 检索
使用位置算符
邻接检索:表明两或多个检索词之间关系的符号
常用的位置算符有:W/n(adj/n),N/n(near/n),
W/n表示两个词不可以互换顺序,二者之间可插入0-n个词 如智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机
注:不同的数据库所用的截词符不一样,使用应先查一下各数据库 的帮助加以确认
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等
通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
注:英文数据库通常用字母,中文数据库要用符号
使用截词符(通配符)——提高查全率,防止漏检的有力手段
包括有限截词和无限截词,常用的截词符有:*, #,?,!,$
有限截词——放在词中间或末尾,一个符号表示一个词 如:SDOS:wom*n 可检索出:woman,women(中间截断)
:chip? 可检索出:chips(右截断) 无限截词——放在司的末尾,一个符号表示任意多个词 如:SDOS:comput! 可检出:Computer,computers,computering
Intelligent robot or control(intelligent robot+control) 表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或 control Intelligent robot not control(intelligent robot-control) 表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容
脱机信息检索系统 ----单台计算机;定期(一个或半个月)检索一次;专职
检索人员统一处理,用户接触不到计算机;用作大批量 的定题信息检索 联机信息检索系统 ----一台主机带多个终端,相互独立的终端可同时进行检 索;对用户的提问能及时处理,用户可随时修改提问; 通过专用信息网,可跨国家进行检索
光盘信息检索系统:数据存储在光盘(一种用激光记录 和读取信息的盘片),通过检索软件,利用计算机和光 盘驱动器进行检索。可形成光盘检索网络。
网络化(internet)信息检索系统:同联机检索系统的主 机和用户终端的主从关系不同,客户机和服务器是对等 的关系
计算机检索的发展
脱机批处理检索时期 Off-lineBatchProcessing (1954---1964)
联机实时检索时期 On-line Real Time (1965--- 1975)
3、私营公司 例如:英国Derwent公司 美国Knight-Ridder公司 Mead Data Contral OVID公司 Silver Platter Information,Inc.
4、传统新闻/出版机构 例如: 德国Springer出版社 美国Join Wiley电子出版公司 荷兰Elsevier科学出版社
数据库生产商:
主要包括以下4类成员: 1。传统从事文献及其报道工作的学术团体与学术机构
例如:美国化学文摘社CAS 国际电子电气工程师协会IEEE 美国生物科学情报社BIOSIS 美国科学情报社ISI
2。政府机构 例如:美国技术情报服务处NTIS 美国国家航空航天局NASA 美国专利商标局USPTO
器人行为控制”等 N/n表示两个词可以互换顺序,二者之间可插入n个词
如智能机器人(n/3)控制,可检出“智能机器人控制”,“..控制算 法对智能机器人的影响”等
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。
第二节 检索技术
数据库是具有高度的组织结构性,因此,需要一定 的计算机可以理解的检索方式
使用布尔逻辑运算符
Intelligent robot and control(intelligent robot*control) 表明查询结果中必须同时包含intelligent robot和control
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接) 2、选择较大检索范围的字段如摘要 3、使用截词符 4、使用上位词(如飞行器 航天飞机 载人航天飞机)
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索 5、使用下位词 6、使用精确检索,如对于固定短语来说可用“”引起来
位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词组 来检索的 如:“hypermedia database” ;“profit and loss”将查找 profit and loss
禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with等将被自动忽略
相同点:均需经过标 引,提炼出文献标识
计算机检索:
检 索 指 令


计找 算

不同点:前者按主题 词、分类、著者等进 行编排;后者按文档 号编排(检索时自动 生成索引文档)
数据库(文献条目)
手工检索的特点(和计算机检索相比较):
优点:1.发展早,可检索的时间范围广 2.所有内容都呈现在读者面前,容易对比并发现新 的线索
主文档
全文 …….. …….. ……..
字段:如在数据库中题名、作者、作者单位、期刊名、摘要、 全文等等均是字段;一条记录由多个字段值组成;对计算机检 索来说字段相当于检索入口。如:
字段可分: 基本索引字段:描术文献内容特征的字段如篇名(/TI)、文摘 (/AB) 辅助索引字段:描述文献外部特征的字段如著者(AU=)、著者单 位(AA=)、语种(LA=)、出版年(PY=)等
作者 Li
Wang deng
索引文档2: 作者索引
文章号唯一,且 索引文档与主文 档的文章号一一 对应
当你要在篇名中查找 时,搜索指令将在篇名 索引中进行搜索,然后 将主文档中对应的记录 调出来
文章号 001 002 ……
篇名 asd bys vca
作者 Li
文摘 Xxx
Wang Yyy
deng zzz
数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目 型、全文型
按存储的介质分:
光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
按照国际上通用的分类方法:
参考数据库(reference database):如书目数据库、文摘数 据库,获得的数据为reference 源数据库(source database):如全文数据库,数值型数据 库,可直接获得原如资料或数据 混合数据库(mixed database):兼有以上二者
缺点:1.查找繁琐,效率低下 2.只能查找原文的线索,无法直接获取全文 3.检索途径相对较少,且无法灵活地编制检索策略
计算机检索系统:检索者,检索终端(PC机,同时也是
输出端),网络(或通信电缆),数据库存储服务器
检索终端
通信网
INTERNET
结果返回
服务器(数据库终 端)
结果输出

计算机检索系统的类型
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索 式,如EI数据库的高级检索。
相关文档
最新文档