计算机检索基本原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络资源与信息检索
本章具体内容安排:
2.1 计算机检索基本原理概述
2.2 计算机检索基本原理
2.3 文献信息数据库的基本概念
2.4 计算机检索策略的构建与调整
要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。
第二讲计算机检索基本原理
2.1 计算机检索基本原理概述
2.1.1计算机检索概念
通过计算机进行的文献信息检索称为计算机检索。
随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过渡到了计算机信息检索。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。
2.1 计算机检索基本原理概述
2.1.2计算机检索发展
第一个阶段:脱机检索阶段(50年代至60年代)
脱机检索(Offline Retrieval):即批处理检索
检索要求检索系统检索结果
检索人员→检索策略→成批检索→用户
缺点:
1. 地理上的障碍(远、不便于检索结果的获取)
2. 时间上的迟滞(定期检索,不能及时获取)
3. 封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式)
2.1 计算机检索基本原理概述
第二个阶段:联机检索阶段(Online Retrieval)(60-80年代)
终端设备通讯网络检索系统
用户—> 检索策略—>人机对话———> 获取信息
三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信息—计算机—卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。
2.1.1联机检索阶段优缺点
优点:
1.速度快效率高
2.检索范围广泛全面
3.检索图径多方便灵活
4.检索内容新实时性强
5.检索辅助功能完善
缺点:
1.检索的费用高
2.检索系统及其文档如数据库收录、标引、特点较难了解熟悉
3.检索技术和技巧不宜掌握
2.1.2 国际著名的联机检索系统
著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS 系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。
这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的《医学索引》、荷兰《医学文摘》、美国《生物学文摘》、美国《化学文摘》等。
如今此联机检索系统仍然是世界上最有影响的联机检索系统。
2.1 计算机检索基本原理概述
第三阶段:光盘检索阶段
1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。
Chemical Abstracts Index光盘(1987-1991):由美国化学文摘社与美国剑桥光盘公司联合研制,收录1987-1991年《化学文摘》的全部内容。
2.1 计算机检索基本原理概述
Science Citation Index(SCI)光盘(科学引文索引):由美国费城科学情报研究所编辑出版,收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文。
CAJ(中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。
2.1 计算机检索基本原理概述
第四阶段:网络化检索阶段
进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。
网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。
2.1 计算机检索基本原理概述
INTERNET就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。INTERNET飞速的发展,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。
随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,计算机情报检索将走向办公室化、家庭化。
2.2 计算机检索基本原理
一般地说,计算机检索包括信息的存储和检索两个部分,即对应数据库的建立和查找两个部分。
2.2.1信息存储
就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便是信息的存储。
2.2.1.1.信息的存储主要包括的内容
信息采集:对广泛且分散的信息资源进行有针对性的采集。
信息著录:对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类号、主题词、摘要进行描述,形成一条条款目或记录过程。
信息标引:就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。它的作用是为信息存贮与检索这两环节之间提供某种连接物。
信息的整序:就是将采集到的无序信息进行有序化组织的过程。
2.2 计算机检索基本原理
2.2.2 信息检索
信息检索作为信息存储的逆过程,是将描述特定用户所需信息的提问特征与信息存储的检索标示进行异同的比较,从中找出与用户提问特征一致或基本一致的信息.
1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干主题概念。
2、把这些主题概念转换成计算机信息检索语言,即用数据库检索工具书对各概念选词和进行逻辑组配,编制成检索提问式。
3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配,找到命中文献。
用图表示如下:
计算机检索原理的示意图
2.3 文献信息数据库的基本概念
2. 3.1数据库的定义和类型
一、数据库定义:根据ISO/DIS 5127号标准(文献与情报工作术语),数据库(database)的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。
2.3 文献信息数据库的基本概念
二、数据库类型
按照国际上通用的分类方法,常划分为以下类型:
1.参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数据库。包括书目数据库和指南数据库两种。
(1)书目数据库(bibliographic databases)指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。
(2)指南数据库(reference databases)
指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。