计算机信息检索技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/5/14
9
信息检索过程
v 用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机按 照用户的要求将检索策略转换成一系列提问,在专用 程序的控制下进行逻辑运算,选出符合要求的信息输 出。
v 计算机检索的过程实际上是一个比较、匹配的过程,
检索提问只要与数据库中的信息的特征标识及其逻辑
组配关系相一致,则属“命中”,即找到了符合要求
的信息。
2020/5/14
10Biblioteka Baidu
2 计算机信息检索系统组成
2.1 系统设备
➢ 硬件:运算器、控制器、存储器、输入输出装置等 ➢ 软件:系统操作程序、数据库管理程序、联机控制程序、
应用程序等。
➢ 通讯线路:电话通讯网、数据通讯网、卫星通讯网等。 ➢ 检索终端:信息用户与检索系统主机进行人机对话,实
中必备字段。为识别每一个字段所表达的文献
特征,通常每个字段都有固定的名称和缩写
(或称字段标识符),如,题名字段的标识符
为TI,作者字段的标识符为AU等。
2020/5/14
17
2.3 数据库的类型*(P3-4)
❖ 参考(文献书目型)数据库 ❖ 全文数据库 ❖ 事实数据库 ❖ 数值数据库
2020/5/14
2020/5/14
2
国外计算机信息检索发展阶段(P5)
➢ 脱机检索阶段(20世纪50-60年代) ➢ 联机检索阶段(20世纪60-80年代) ➢ 光盘检索阶段(20世纪80年代中-90年代) ➢ 网络信息检索阶段(1995-)
2020/5/14
3
1.2 计算机信息检索的定义
❖ 计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
13
2020/5/14
14
记录(Record)
❖ 由若干字段组成的文献单元,是数据库中的基本
文献单元,每条记录描述了原始信息的外部和内
部特征。数据库中的一条记录通常代表一篇文献。
❖ 例如:在书目型数据库中,一条记录相当于一条
题录或文摘;在全文型数据库中,一条记录相当
于一篇完整的文献;在其它类型数据库中,一条
❖ 信息存贮是将文献、数值、事实等按一定的格式输入到计 算机中,加工处理成可供检索的数据库。
❖ 信息检索是将检索提问式按一定的要求输入计算机中,经
计算机系统与已存贮在计算机中的数据库进行匹配运算,
然后将符合检索提问的数据按要求的格式输出。
2020/5/14
4
1.3 计算机信息检索特点
❖检索速度快,效益高; ❖检索功能强,数量大; ❖检索途径多,手段灵活; ❖检索范围广; ❖服务方式多。
系统规定的语言(主题词、分类号)
进行标引,形成信息的特征标识,进
行整理与排序,构成可供检索的数据
库,主要包括:信息的采集、著录、
标引和整序等过程。
2020/5/14
7
信息的著录
❖ 对所收集的原始信息的外表特征(如题名、 著者、文献出处等)和内容特征(如分类 号、主题词、摘要等)进行描述,形成一 条条款目或记录的过程。
构成数据库的三大要素: 文档——记录——字段
检索时,计算机按输入检索词的字顺先从指定的倒排文档 中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。
2020/5/14
12
文档(File)
数据库中一部分记录的集合,文档由若干记录构成。
数据库是由一个顺排文档和若干个倒排文档所构成
❖ 在数据库中,其外表特征和内容特征通常
称之为字段,一条记录由若干个不同字段
构成。
2020/5/14
8
信息的标引
❖ 标引:根据一定的规则和程序(主题词典或词 表),对文献的主题内容进行分析,给予每篇文 献主题词、关键词作为存储和检索标识;或者根 据文献的学科归属,采用某种文献资料分类法, 给予分类号作为检索标识。
第1节 计算机检索概述 第2节 计算机信息检索系统组成 第3节 计算机信息检索的分类 第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
2020/5/14
1
1.1 国内外计算机信息检索发展阶段
➢ 1975年,从国外引进数据库开展机检服务; ➢ 1980年,建立国际联机终端开展检索服务; ➢ 20世纪80年代中后期,自建数据库; ➢ 90年代初,发展光盘检索; ➢ 90年代中期,Internet网络化检索阶段。
现联机检索的设备。包括上网设备、调制解调器等。
➢ 数据库:是计算机检索的对象。是由一个或数个文档构
成,并能够满足某一特定目的或某一特定数据处理系统 需要的一种数据集合。
2.2 数据库的构成
一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的
一重定要专组业成部范分围,内是信的息信资息源,记是检录索及对其象。索引的集合体,是计算机 信息检索系统的重要组成部分,是信息资源,是检索对象。
顺排文档是数据库的主体,又称主文档,按每条记
录的顺序号大小排列,检索结果都来自于顺排文档。
倒排文档是从顺排档中抽取有检索意义的检索标识,
如主题词、著者姓名、化学物质名、刊名等,并按
索引词的字顺排列,同时在检索标识后注明入藏顺
序号,这就是常见的数据库中的主题词索引、著者
索引、刊名索引。
2020/5/14
记录则代表一个信息单元。记录越多,数据库的
2020/5/容14 量就越大。
15
2020/5/14
16
字段(Field)
❖ 字段是构成记录的基本单元,是对文献某一方
面的特征(包括外表特征和内容特征)进行描
述的结果。
❖ 例如:题名、作者、作者地址、出版年、来源
(出处)、主题词、文摘等字段是书目数据库
18
参考(文献书目型)数据库
是指包含各种数据、信息或知识的原始来源和属性的数据 库;是机读的目录、索引和文摘检索工具,检索结果是文 献的线索而非原文。 ❖存储的是二次文献,包括文献的外部特征、题录、文摘
1.4 计算机信息检索的原理(P8-11)
信息存储
信息检索
原始信息 主题
著录
信息主题
数据库记录及 信息特征标识
分析
信息需求 主题
分析
检索主题 标引 检索语言(主题词表) 选定
编制
检索提问式及 提问标识
计算机
类比
输出
2020/5/14
6
检索结果
信息存储过程
v 信息存储就是按照一定标准,将收集
到的原始文献进行主题概念分析,用
相关文档
最新文档