文献信息检索技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

检索系统的构成
手工检索系统 计算机(网络)检索系统 篇名字段 文摘字段 基本索引字段 叙词字段 自由标引字段 辅助索引字段

检索系统的构成



记录 有多个字段组成记录,使数据库的信息单元 文档 数据库中一部分记录的集合,也使数据库的结 构。一个数据库至少包括一个顺排文档和一个 倒排文档。 检索语言
生物学文献检索
—文献信息检索技术
常民 changmin@lzu.edu.cn
检索的概念

信息检索是指将信息按一定方式组织和储存起 来,并针对信息用户的特定需求查找出所需信 息内容的过程。 文献检索(Retrieval):就是通过一种科学的 方法 和途径,在一定的文献信息集合中迅速、 全面、准确的获取自己所需要的那部分信息。 数据库:由计算机进行处理的一定数量同 类信息的有序集合,是用来存储和查找文 献的信息的电子化检索工具。
001 002 003 004
001 汽车尾气中的 铅对环境的污染 主题词:汽车 、尾气、 环境污染 汽车 铅、环境污染 002 汽车的维修 主题词:汽车、维修 003 汽车与运输 铅 主题词:汽车、运输 维修 004 汽车噪音对环境的污染 汽车 尾气 主题词 :汽车、 运输 噪音、环境污染
噪音
001 004
文献检索(书目信息检索):即检索结果是关于某主题知识的文 献线索,它是通过二次文献,包括传统的以纸张为存储介质的现 代计算机检索系统,找出所需的一次文献或三次文献。 数据检索:就是满足数据需求的检索过程,如数理化等科学 数据,经济数据,历史数据,地理数据等。
事实检索:就是对特定的事件或事实的检索。事实内容包括 大量的科学事件和社会事件。例如:我国建成最早的高速公 路是哪条?何时建设? 概念检索:就是查找特定概念的含义、作用、原理或使用范 围等解释性内容或说明。最常见的概念检索是查找各种参考 工具书,例如字词典、百科全书、名录、手册、指南等参考 工具书。
光盘检索阶段
1983年,出现了一种新的存储器,CD-ROM光盘。光 盘检索具有储量极大而体积微小,要求设备简单,可 随地安装,使用方便、易于操作,检索费用低(不需 要昂贵的联机检索通讯费用),因可随时修改检索策 略而具有很高的查全率和查准率等优点,因而至今仍 被世界各地广泛应用。
国内外最常用的医学光盘数据库有:
网络化检索阶段
目前,90%的国际联机检索系统都已进入
INTERNET,世界上许多国家(包括中国)都
从INTERNET上获取重要的科技和经济信息资 源,网络传输速度不断提高,已成为人们进行
全球范围的合作、信息交流与资源共享的不可
替代的通讯交流方式。


顺排档:数据库中的记录往往是按时间顺序线 性排列的,每条记录依次编有顺序号,这种文 档称为顺排文档。 例排档:是将顺排文档记录中的可检字段抽出, 按字顺排列而成的字典文档称倒排文档。
MEDLINE光盘 Biological Abstracts光盘 Biological Abstracts/RRM光盘 Excerpta Medica光盘 Chemical Abstracts Index光盘 Life Sciences Collection光盘(生命科学数据库) Science Citation Index(SCI)光盘(科学引文索 引) 全国报刊索引光盘 CAJ(中国学术期刊)
事实数据库

factual databases,指包含大量数据、事实 的数据库,分为数值数据库、指南数据库、术 语数据库等,相当于印刷型文献中的字典、辞 典、手册、年鉴、百科全书、组织机构指南、 人名录、公式与数表、图册(集)等。
电子期刊


electronic journals或简称e-journal,包括: 与纸本期刊并行的电子期刊,如著名的《科学》 (Science)、《自然》(Nature)、中国电 子期刊杂志社的期刊等;纯电子期刊,如《数 字图书馆杂志》(D-Lib Magazine) 周期短,可检索,服务功能多
著名的国际联机检索系统有美国的DIALOG系 统、ORBIT系统、BRS系统以及MEDLARS系 统,还有欧洲的ESA/IRS系统、英国的 BLAESE系统等。这些系统很快发展成为国际 性情报检索系统,数据库种类及其检索存储记 录都在迅速增加,如:美国的Dialog系统, 1984年就有200多个数据库,其中包括美国的 《医学索引》、荷兰《医学文摘》、美国《生 物学文摘》、美国《化学文摘》等,如今此联 机检索系统仍然是世界上最有影响的联机检索 系统。
检索系统的著录
检索系统是有序的信息集合。每个信息都 需要经过加工,把信息的特征著录即描述下 来,成为一个条目,亦称记录。将一个个记 录按一定序列编排起来便组成一个可供检索 的系统。
*按著录方式划分如下: 目录 题录或索引 文摘 全文
目录(Catalogue)
含义: 目录是对文献的外表特征的著录。它通常以完 整出版物(如一本书或一种刊或一个会议录 的名称)作为著录的基本单位来报道和记录 文献。 著录内容: 文献名称、著者、出版项与馆藏信息等内容。
vendor:105 --> 2,454,增长23倍 数据条数:
52 million --> 12.86 billion records,增长242倍 (Martha E. Williams)


电子资源(electronic resources),传统上也 称为电子出版物,指一切以电子方式或机读方式 生产和发行的信息资源。电子资源中的信息,包 括文字、图片、声音、动态图像等,都是以数字 代码方式存储在磁带、磁盘、光盘等介质上,通 过计算机输出设备和网络传送出去,最终显示在 用户的计算机终端上。 网络资源在电子资源中占的比例越来越大。
全文(Full-text)
全文检索是指以文献所含的全部信息作为检索 内容的文献检索。 中文:CNKI数据库、万方数据库、维普数据库 外文:Sciencedirect数据库 wiley数据库 blackwell数据库 EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊
顺排文档
倒排文档(主题)
环境污染 001 004 001 002 003 004 001 002 001 003 004 001 004
001 002 003 004
001 汽车尾气中的 铅对环境的污染 主题词:汽车 、尾气、 环境污染 汽车 铅、环境污染 002 汽车的维修 主题词:汽车、维修 003 汽车与运输 铅 主题词:汽车、运输 维修 004 汽车噪音对环境的污染 汽车 尾气 主题词 :汽车、 运输 噪音、环境污染
目录(Catalogue)
按职能划分目录种类: 出版发行目录 馆藏目录:按检索标目划分为 书名目录(Title Catalogue) 著者目录(Author Catalogue ) 分类目录(Classified Catalogue) 主题目录(Subject Catalogue ) 联合目录 资料来源目录,如IM、CA、BA
联机检索阶段
联机检索(Online Retrieval):(60年代-80年代) 终端设备 通讯网络—>检索系统 运行检索软件 用户—> 检索策略—>“人机对话”—> 获取所需信息 三个时期:60年代对联机信息检索进行了研究开 发试验;70年代末进入了联机检索地区性应用阶段; 80年代以后,随着空间技术和远程通讯技术的发展, 使计算机检索进入信息—计算机—卫星通信三维一体 的新阶段,即以信息、文献不受地区、国家限制而真 正实现全世界资源共享为目的的国际联机信息检索阶 段。
文摘(Abstract,Excerpta,Digest)
含义: 文摘是指对文献内容选择重要部分以简练的 形式作为摘要,并按一定的原则和方法编排 而成的一种检索工具。 著录内容: 同⑵ + 文摘。 如,中国医学文摘,中国药学文摘, 中国生物学 文摘,CA,BA,CBM,CMCC,MEDLINE/PubMed 等。
数据库、文档、记录、字段之间的关系
文档1 (顺排档) 记录1 文档2 (倒排档、 记录2 索引) … 字段1 字段2 … 子字段1 子字段2 … 子字段n 字段n

数据库

记录n
文档n (倒排档)
Internet用户的增长(1994-2003)
万人
用户获取信息的主要途径
会议录 私人收藏 CD-ROM 数据库 图书 书店 非正式 期刊 Internet 图书馆
信息检索类型图:
文献检索 检索性工具书 间接答案(文献线索)
信息 检索
数据检索 事实检索
概念检索
参考性工具书
直接答案(数据、事实)
信息检索的意义
信息与现代科技的发展
现代科技发展特点:高速化、综合化、专业化。 信息量急剧增长。 信息的使用寿命缩短。
信息检索意义
充分利用信息资源,避免重复劳动。 为人们更新知识、实现终身学习提供门径。
文摘(Abstract,Excerpta,Digest)
根据摘要详简程度,文摘可分为: 指示性文摘(简介,Indicative Abstract) 是以最简短的语言,概略指示原文的研究 对象、内容范围、研究目的及方法,一般 在50-150个字。 报道性文摘(Informative Abstract)内容详 细,反映文献的中心内容、观点、数据及 结论,一般在200~300,500,1000字左 右。

顺排档:数据库中的记录往往是按时间顺序线 性排列的,每条记录依次编有顺序号,这种文 档称为顺排文档。

例排档:是将顺排文档记录中的可检字段抽出, 按字顺排列而成的字典文档称倒排文档。
顺排文档
倒排文档(主题)
环境污染 001 004 001 002 003 004 001 002 001 003 004 001 004

信息检索示意图:
信息检索的实质
信息检索的实质是信息用户的需求和一定的信 息集合的比较和选择的过程,即匹配的过程。也 既是用户需求的主题概念和提问表达式同一定信 息系统的系统语言相适应的过程,如果两者相适
应取得一致,则所需信息被检中,否则,检索失
败。 文献检索重要的一种信息检索。
信息检索的类型
电子图书与报纸
Electronic book 或e-book Electronic newspaper

电子资源的产生与发展
计算机检索主要经历了以下四个阶段: 脱机检索阶段
联机检索阶段
光盘检索阶段 网络化检索阶段
脱机检索阶段
脱机检索(Offline Retrieval):即批处理检索(50年 代-60年代) 检索要求 检Байду номын сангаас系统 检索结果 检索人员——〉检索策略——〉成批检索——〉用户 三点不足: 1. 地理上的障碍,指用户与检索人员距离较远时,不便 于检索要求的表达,也不便于检索结果的获取。 2. 时间上的迟滞,指检索人员定期检索,用户不能及时 获取所需信息。 3. 封闭式的检索,指检索策略一经检索人员输入系统就 不能更改,更不能依据机检应答来修改检索式
电子资源的概念与类型




参考数据库 全文数据库 事实数据库 电子期刊 电子图书 电子报纸 其它:FTP,新闻组、搜索引擎、各种网站
全文数据库


full-text database,即收录有原始文献全文的 数据库,以期刊论文、会议论文、政府出版物、 各类统计报告、法律条文和案例、商业信息等 为主 按学科收录,综合性强,范围广
387 392 396 459 510 512 837 898 1050 1267 0 200 400 600 800 1000 1200 1400

电子资源的产生与发展:数据库增长情况, 1975-1999

数据库:301 --> 11,681,增长39倍

– –
数据库生产者:200 --> 3,674,增长18倍
题录(Title)或索引(Index)
概念: 其一,是指检索工具,它揭示文献的外表特征和内 容特征,即著录文献是以一个完整出版物的某一 部分(如书的章节或刊中一篇论文题目)为著录 单位。 其二,是指检索途径(附录式索引),如,分类索 引、主题索引、生物体索引、著者索引等。 著录内容: 论文题目、著者、文献出处(刊名、发表年月、卷、 期、页码)及文种等。如,《中目》、《IM》、 《CNKI》免费题录等。
相关文档
最新文档