计算机检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我国计算机信息检索发展概况
我国开展计算机检索的研究开始于20 世纪70 年代中期。 1981 年底,北方科技情报所在北京与美国DIALOG联机 系统直接联机。自从1994 年中国真正加入了国际 Internet行列起,短短几年内已经建成中国公用数据网 (CHINADDN)、中国公用分组交换网 (CHINAPAC)、中国公用帧中继网(CHINAFRN) 和中国公用电子信箱系统(CHINA -MAIL)四大公用数 据通信网。在此基础上,同时建起了中国公用计算机互联 网(CHI-NANET)、中国教育科研网(CERNET)和 中国科技网(CSTNET)等因特网。目前,我国绝大多数 高校建起了自己的校园网。
期刊代码CODEN
CODEN (Code Number):美国 ASTM (American Society for Testing and Materials, 美国试验材料学 会) 制定的科技期刊代码系统。它是国际公认代码。 CODEN由六位组成。 前四位为基本码;一般为期刊的英文名称每个实词(中文 期刊则采用汉语拼音)词头,不足4个实词时,用其他词补充。 第五位一般为期刊类别等代码。第六位为校验码。例如: 东南大学学报:自然科学版 = Dongnan Daxue Xuebao:Ziran Kexue Ban → DDXZB9; 中国医学科学杂志(英文版)= Chinese Medical Sciences Journal → CMSJEP。 CODEN应当印在期刊封面右上角,ISSN 之下。
计算机检索的基本原理
用户
输入 检索 需求 分析转换 处理需求
信息源
筛选 概念词典 控制词表 录入
分类索引 文档预处理
数据库
概念词相关匹配运算
计算机信息检索特点
1、速度快、效率高 2、检索途径多 3、数据更新频率高 4、不受时空的限制 5、有交互性
计算机信息检索系统组成
1. 计算机 包括服务器、交换机、存储设备、检索终端、数据输出设备。 计算机硬件部分决定了系统的检索速度和存储容量。 2. 检索软件 是检索系统的管理系统,其功能是进行信息的存储、处理、检 索以及整个系统的运行和管理。 3. 数据库 数据库就是在计算机存储设备上按一定方式存储的相互关联的 数据集合。是检索系统的信息源,也是用户检索的对象。 4. 通讯网络 检索网络所用的通信线路,一般是公用电话线或专用线,国际 联机检索系统则是由通信卫星和海底电缆构成的通信网络。
指南数据库
指南(事实)数据库(Fact Database)存储 的是用来描述人物、机构、事物等信息的情 况、过程、现象的事实数据。如名人录、机 构指南、大事记等,均可归入事实数据库。
美国MEDLARS系统的医生咨询数据库 (PDQ),能提供有关癌症治疗和临床实验的 相关病因、诊断标准、治疗方案以及最新研究进 展等信息。
(3)
第四章 文献信息数据库及 计算机检索
扬州职大电子工程系 贾湛
文献数据库
数据库——在计算机存储设备上按一定方式存储的相互关联 的数据集合。 非文献数据库 书目数据库 关系数据库 参考数据库
指南数据库
数据库
网状数据库
层次数据库
全文数据库
文献数据库
源数据库
研究课题
数值数据库 文本数据库 术语数据库
教师 代码 1101 1102 1254
姓名 王一丽 刘 明
职称 教授 副教授 讲师
系 管理系 管理系 投资系
电话 3324 3324 3341
研究课题号 500 800 630
研究课题名 管理信息 金融工程 电子商务 教师代码 姓名 王一丽 刘 明
混合数据库
图像数据库
李爱军
关系数据库是以二维表作为 数据模型的数据库系统。
例如检索:“高分子聚合物”查 询关键词:高分子、聚合物检索 表达式:高分子 AND 聚合物
A
A*B
B
--逻辑非(-,NOT):表达检索词间的排除关 系。可缩小检索范围,提高查准率,但要慎用。 如:A-B,表明结果是A中不包含B的那部分
A
B
布尔逻辑运算符优先级
布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时:NOT > AND > OR 例:检索“明清小说”的有关信息。 关键词:明、清、小说; 检索表达式: (明 OR 清)AND 小说; 明 AND 小说 OR 清 AND 小说; 错误表达式: 明OR 清AND小说; 明 AND 清AND小说; 明 OR 清OR小说; 明AND 清OR小说;
例如医学上使用的化学制剂、药物的各种理化 参数、人体生理上的各种数值,人口统计数据 都可收入数值数据库。 美国国立医学图书馆编制的化学物质毒性数据 库RTECS,包含10万多种化学物质的急、慢 性毒理实验数据。
文献数据库的结构
数据库
文档
记录
字段
组 成 记 录 的 数 据 项 目
一个数据库由 主文档(顺排 文档)和若干 索引文档(倒 记录是构成数据库的完整的信息单 排文档)组成。 元,每条记录描述了原始信息的外 部特征和内部特征。在全文数据库 中主文档中一条记录相当于一篇完 整的文献,在书目数据库里相当于 一条题录或文摘。
辅助字段
中文名称 英文全称 段码
DN AN AU CS JN PY LA TR BN SN DT CO CC SO
记录号 Document No 存取号 Accession Number 作者 Author 作者单位 Corporation Source 期刊名称 Journal 出版年份 Publishing year 语种 Language 文献性质 Treatment code 数据库记录的著录项目(字 国际标准书号 ISBN 国际标准刊号 ISSN 段)往往比手工检索多得多, 这决定了计算机检索能够 文献类型 document type 期刊代码 CODEN 提供比手工检索更丰富的 分类代码 Classification Code 检索途径。 来源出版物Source Publication
计算机检索方法
1 浏览(browse):利用检索系统提 供的树型结构,从“树根”开始,逐 层逐级打开,直到找到所需文献。 2 提问:用户直接对数据库或检索系统 提出了个检索条件表达式,要求系统 执行检索。常分简单检索、高级检索 和专家检索等。
提问式检索
简单检索(basic search):是一种单项检索。 一般只需输入一个检索词,辅以相应的途径即可进 行检索。 高级检索(advanced search):是一种多项 组合检索,一般输入多个检索词进行组配。有的检 索系统也称为复杂检索或扩展检索。 专家检索:用多个检索词与各种运算符组成检索式, 功能与高级检索相似。 二次检索:在原有检索的结果基础上,再进行检索。 可反复使用,不断扩大或缩小检索范围。 Nhomakorabea 检索技术
检索词: 叙词(Descriptors)、标题词(Subject Headings)、 自由标引词(Identifier)、关键词和全文检索自由词 (Free Terms)以及题名、著者等
检索式构造技术
1 布尔逻辑运算: and、or、not、xor 2 位置运算:with、near、w/n、pre 如,invest near3 policy 3 截词检索: *、? 。如,smok* 、Colo?r 4 字段限制检索:solar energy in ti solar energy /ti
职称 教授 副教授 讲师 系 管理系 管理系 投资系 电话 3324 3324 3341 研究课题号 500 800 630 研究课题名 管理信息 金融工程 电子商务
非二维表
1101 1102 1254
李爱军
书目数据库
书目数据库(Bibliographic Database) 存储的是二次文献,包括文献的外部特征、 题录、文摘和主题词等,检索结果是所需 文献的线索而非原文。 许多书目数据库是印刷型文献检索工具的 机读版,如MEDLINE、CBMDISC等
数字对象唯一标识符 DOI
DOI:数字对象唯一标识符(Digital Object Unique Identifier-DOI) 。 美国出版协会(The Association of America Publishers, 简称APP)1998年建立。它主要是针对 因特网环境下如何对知识产权进行有效的保护和管理而产 生的。 DOI 的编码方案(即美国标准ANSI/NISO Z39.842000)规定,一个DOI 有两部分组成:前缀和后缀,中 间用“/”分割。前缀与后缀的字符长度没有限制。前缀由 两部分组成,一个是目录代码,所有DOI 的目录都是 “10.” 另一个是登记机构代码.后缀可以是任何字母数字 码,其编码方案完全由登记机构自己来规定。 如: DOI: 10.1007/978-3-540-69478-6_34
顺排文档与倒排文档配合使用的示意图
检索“反坦克 导弹发展趋势” 的文献,
输入检索式:
反坦克导弹 and 发展趋势
检索结果: 检索结果:
存取号001,003
常见的字段段码
基本字段
中文名称 英文全称 段码 题目 Title TI 文摘 Abstract AB 叙词 Descriptor DE 标识词 Identifier ID 主题词 Subject SU 关键词 keyword KW
布尔逻辑
--逻辑或(+,OR):表达检索词间的并列关系。可扩大检 索范围,提高查全率。如:A+B,表明结果中含有A或B都 为检索命中
A
B
例如检索:“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机
--逻辑与(*,AND):表达检索词间的交叉关系。可缩 小检索范围,提高查准率。如:A*B,表明结果必须同时 含有A和B才为命中
全文数据库
全文数据库(Full Text Database)存 储的是原始文献的全文,如杂志论文、报 纸新闻、法院案例等。 全文检索可直接获取原始资料,而不是 书目检索时的线索,提高了用户的检索 效率。 我国有《中国学术期刊》数据库、万方 数据库、维普数据库等全文数据库。
数值数据库
数值数据库(Numeric Database)主要 包含的是数字数据,如各种统计数据、科 学实验数据、科学测量数据等。
DIALOG 书目数据库Ei Compendex Plus 记录样例 存取号 标题 作者
作者单位
来源 出版年号 语言 文件类型 期刊代码 国际刊号
处理号。 X 实验, T 理论, 等。
文摘
叙词 标识词 分类号
计算机信息检索的发展历史
1.脱机检索阶段(1954-1964)这一阶段的数据存取与 数据通信能力都比较差。 2.联机检索阶段(1965-)这个阶段的特点是联机数据库集 中管理,具有完备的数据库联机检索功能,但其数据通信 能力较差。 3.光盘检索阶段(1980-)是联机检索的支持和补充,在 通信技术不太发达的国家,它有优势。 4.网络检索阶段(1990-) 1991年思维机等公司、明尼 苏达大学、欧洲高能粒子协会分别推出了因特网上的检索 工具WAIS、Gropher和WWW。基于WEB的搜索引 擎已成为最重要的信息检索工具。著名的有Yahoo、 Lycos、Excite等。
布尔逻辑检索注意事项
在不同的数据库中,所使用的逻辑符号可能 是不同的,有的用“and、or、not” 有的用“*、 +、 -” 。 一些检索工具会完全省略任何符号和关系, 直接把布尔逻辑关系隐含在菜单中。 一些网络检索工具如搜索引擎甚至用 “︺、,、-”(即空格、逗号、减号)来表示。
若干个记录构成的 信息集合称为文档。
顺排文档与倒排文档
顺排文档:存入数据库的全部记录,文献记录按照存取号的大 小顺序排列。存取号越大,对应的记录就越新。由于它存储记 录的最完整的信息,所以称之为主文档。如果在顺排文档中进 行检索,计算机就要对每个检索提问式逐一扫描数据库中的每 一条记录,扫描的时间长,检索效率就会很低。 倒排文档:将主文档中的可检字段(如主题词、著者)抽出, 按某种顺序重新排列起来。不同的字段组织成不同的倒排文档 (如主题词倒排文档、著者倒排文档等)。可以字顺排,也可 以按分类号的大小排。 基本索引文档——按主题词排列的文档。 辅助索引文档——按表达文献外部特征排列的文档。 倒排文档只有文献的标识和存取号。因此必须和顺排文档配合, 先在倒排文档中查得存取号,再从顺排文档中调出记录。