第2章计算机信息检索技术

合集下载

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

第二章_信息检索基础之二

第二章_信息检索基础之二

检索表达式示例
字段代码与字段 名称对照
位臵检索
位臵检索又称邻近检索,主要是通过 检索式中的特定符号来规定检索词在结果 中出现的顺序和词间距。
例如检索“生物防治”的文献,若用 检索式“biological*control”检索,则 会将“抑制生物”(control biological) 的文献也查出来,这显然不是所需文献。

字段代码方式
在进行检索时,通常在检索式中加入字段代 码来限定检索字段。字段代码与检索词之间可用 后缀符“/”或前缀符连“=”接起来。各个系统的 字段代码和前缀后缀符号可能各有不同。有的系 统不分前缀后缀限定。 例如,美国专利局数据库的高级检索界面便使 用了字段限制代码,用户需用这些字段限制代码 构造检索式,在检索框中输入检索命令来进行检 索。
字段限制检索主要有两种方式:

菜单选择方式
在检索系统的界面上设臵的字段下拉菜单中 进行选择,在相应的检索框中输入检索词,就可 完成字段限制检索。目前大多数检索系统都设臵 了此种检索方式。 例如,在中国期刊全文数据库检索界面中, 可在其提供的字段下拉菜单中选择合适的字段名 称进行检索。
字段限制检索主要有两种方式:
字段限制检索
字段检索是限定检索词在记录中出现的字段范围, 检索时,计算机只对限定字段进行查找。 这种检索技术可以缩小检索范围,提高检索的准 确率。 一般而言,一条记录中主要用来表达文献内容 特征的字段称为基本索引字段,如题名、文摘、叙词、 自由词等。常用的基本索引字段及其代码如表所示。 表达文献外部特征的字段称为辅助索引字段,如著者、 机构名称、语种、刊名、来源、出版年等。常用的辅 助索引字段及其代码如表所示。
截词检索
有限截断比较精确,只检出用户需要的词汇,而无限 截断作用时必须注意词干不要太短,否则会检出许多无关 文献。 在中文数据库中作用最多的是后截断,即立脚前方一 致检索。例如,金盘书目系统的查询方式。 金

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

计算机检索基础知识

计算机检索基础知识

第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。

计算机信息检索2

计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统

第二章 信息检索的基本知识

第二章 信息检索的基本知识

应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7

第二章 信息检索原理

第二章 信息检索原理
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4

信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9

计算机检索基础知识

计算机检索基础知识

(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。

信息检索技术第2章中国知网简明教程PPT课件

信息检索技术第2章中国知网简明教程PPT课件

第2章 中国知网(CNKI)
图2.12 CNKI跨库高级检索
第2章 中国知网(CNKI)
检索结果分析:
分析检索命中文献,数量偏多(114篇),不宜逐个阅读,若要得到更合 适的文献,即可以通过增加检索控制条件进行二次检索,还可通过分组浏 览的方式,有重点地查阅命中文献。 (1) 按照来源数据库浏览,可以在选定的数据库中查阅命中文献,如中 国博士学位论文全文数据库中命中文献有3篇,见图2.13-A。 (2) 按照学科浏览,可以根据检索者的研究学科需求,选择指定学科的 命中文献浏览,如交通运输经济学科的命中文献有15篇,见图2.13-B。 (3) 按照机构浏览,可以根据文献作者的所在机构,选择文献浏览,如 北京交通大学有命中文献9篇,见图2.13-C。 (4) 按照基金浏览,根据文献的支持基金情况,选择文献浏览,如国家 自然科学基金支持的命中文献有1篇,见图2.13-D。
第2章 中国知网(CNKI)
2.4.2 中国知网出版物检索 CNKI知识发现网络平台(简称KDN平台)的特 色之一就是统一了出版物导航检索,包括期刊导 航、博士学位授予单位导航、硕士学位授予单位 导航、会议论文集导航、报纸导航、年鉴导航和 工具书导航。统一导航页面中有字母导航和分类 导航,左侧文献分类目录帮助用户快速定位导航 的分类。分类导航检索可以采取鼠标滑动展现的 方式实现导航操作,读者可直接按照分类浏览基 本信息,按期查找出版物,见图。
检索控制 件
图2.11 CNKI 跨库高级检索
第2章 中国知网(CNKI)
【检索示例2.4】利用CNKI跨库高级检索模式,检索2013年发表的“城市交 通枢纽换乘客流预测”方面的文献。 检索步骤: (1) 检索分析,检索内容可以设定为:城市交通、交通枢纽、客运枢纽、 交通换乘、乘客换乘、客流预测、换乘客流等。 (2) “跨库选择”,选定期刊、特色期刊、博士学位论文、硕士学位论文 、国内会议论文、国际会议论文、学术辑刊、硕士_2013增刊和成果9种数据 库。 (3) 选择检索项为“主题”。 (4) 选择检索词:交通枢纽、客流预测、交通换乘、城市交通;设定“交 通枢纽”和“交通换乘”为“或含”关系;“客流预测”和“城市交通”为“ 或含”关系。 (5) 时间范围控制:2013年到2013年,或2013年1月1日到2013年12月31 日。 (6) 命中文献114篇。如图2.12所示。

第二章 信息检索基本方法与基本技术

第二章  信息检索基本方法与基本技术

2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

第二章 信息检索基础知识

第二章 信息检索基础知识

全文检索
图像检索 超文本检索
文献检索
使用以二次文献为存储对象的信息系统,如目录
型、题录型、文摘型数据库,是一种相关性检索。特 点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 例如:查找有关“食品安全与人类健康 ”方面的
国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获 得所需要的确切数据,是一种确定性检索。它一般以
的方式记录在相应的信息载体上,组织成系统
化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组
成,并能满足某一特定目的或某一特定数据处
理系统需要的一种数据集合。 通俗地说,数据
库就是在计算机存储设备上,按一定方式存储的 相互关联的数据集合,是信息检索的基础。
1. 数据库及其构成
一、信息检索的效果评价指标 二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信 息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率 a 查全率(R )= —— ×100% a+c 查全率是对所需信息被检出程度的信息量指标。 2. 查准率 a 查准率(P )= ——×100% a+b 查准率是衡量拒绝非相关信息的指标。
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站 按事物的性质分类 --- 功能(使用方向)主题: 国际专
利分类法(IPC)
2.主题描述及信息检索语言

第2章信息检索的基本知识

第2章信息检索的基本知识
2.1.1 信息的存储与检索 6、间接检索 通过检索工具指引来获取所需信息。
10
2.1 信息存储与检索原理
2.1.1 信息的存储与检索
7、信息检索通常包括4种类型 一是关于文献的检索; 二是关于某事实或事项的知识检索; 三是关于数值或数据的情报检索; 四是关于图象信息的信息检索。
11
2.1 信息存储与检索原理
第2章 信息存储与检索基础
2.1 2.2 2.3
信息储存与检索原理 信息检索与检索类型 索引款目的结构与类型
1
2.1 信息存储与检索原理
2.1.1 信息存储与检索概念 1、广义信息检索: 指将信息按有序的方式组织和贮存,并根 据用户的需求查找出有关信息的过程。包括存 入和输出两个方面。
2
2.1 信息存储与检索原理
1 信息检索模型
(1)基于文档内容的检索模型 布尔逻辑模型:采用布尔代数中的逻辑“与”“ 或”“非”等算符,来制定检索词中必需存在的 条件或不能出现的条件
缺点:精确匹配导致的结果文档过多或丢失
22
2.1.3 信息存取模型
1 信息检索模型
(1)基于文档内容的检索模型 概率统计模型:利用概率论的原理,通过赋予标 引词概率值来表示该词在相关文档集合或无关文 档集合中出现的概率。
1 脱机存取 早期计算机检索没有终端设备,利用磁带检索,利 用穿孔卡片或纸袋输入数据或命令。Biblioteka 492.2 信息存储与检索类型
2.2.3 按检索系统的工作方式划分
2 联机存取 用户可以使用终端设备直接与计算机进行“人机对 话”,计算机能对用户的提问及时处理并显示结果 的查询。
50
2.2 信息存储与检索类型
27
2.2 信息存储与检索类型

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第二章信息检索基础1

第二章信息检索基础1

化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。

第二章 计算机检索基础1

第二章 计算机检索基础1

广义上包括存储和检索两个过程
狭义仅指检索过程
计算机检索发展简史
脱机
1954年
联机
国际联机
网络检索
光盘
80年代中期
1.脱机检索(50年代末~60年代中期 )
• 计算机检索的原始时期,计算机由电子管组成,主要存储介质是磁带、 磁鼓,只能进行简单的检索。 • 专业检索人员定期批量处理用户的情报要求 • 用户不能立刻获得检索结果
• 检索结果为题名,作者,文摘等。
• 在脱机检索阶段,计算机主要进行文献目录、索引、文摘等前处理工作。
2.联机检索(60年代末~70年代初)
• 1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了” 人-机“对话的联机情报检索系统(DIALOG的前身),此后在60年代末 到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、 ORBIT系统、MEDLINE系统都是从这个时期发展起来的。 • 多个检索终端,通过通讯线路与联机检索系统中央计算机(主机)联接 • 利用分时技术,使多个用户可同时与主机以“对话”方式进行检索 • 用户可随时浏览检索结果
检索系统中央计算机直接进行“ 人-机对话”,查找世界各国的情报
文献资料。 • 联机检索系统进入发展的黄金时期。
4.光盘网络检索(90年代-)
• 以太网技术的出现推动了网络版光盘数据库的出现。 • 光盘网络是一种计算机网络,如图书馆局域网 • 实现多用户光盘资源共享 例如:美国“化学文摘”(CA)从1987-1991年的五年累积索引(含文摘)
面使网络信息资源的内容从单一的书目到图文并茂的多媒体,更富有吸 引力和使用价值;另一方面,超文本的广泛利用改变传统的信息组织的
线性方法,使电子资源的组织更接近于“自然”,大大方便了用户的使

第二章信息检索基础知识

第二章信息检索基础知识

属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/11/25
第2章计算机信息检索技术
信息的著录
n 对所收集的原始信息的外表特征(如题名、 著者、文献出处等)和内容特征(如分类 号、主题词、摘要等)进行描述,形成一 条条款目或记录的过程。
n 在数据库中,其外表特征和内容特征通常 称之为字段,一条记录由若干个不同字段 构成。
2020/11/25
n 信息存贮是将文献、数值、事实等按一定的格式输入到计 算机中,加工处理成可供检索的数据库。
n 信息检索是将检索提问式按一定的要求输入计算机中,经 计算机系统与已存贮在计算机中的数据库进行匹配运算, 然后将符合检索提问的数据按要求的格式输出。
2020/11/25
第2章计算机信息检索技术
1.3 计算机信息检索特点
第2章计算机信息检索技 术
2020/11/25
第2章计算机信息检索技术
•第1节 计算机检索概述 •第2节 计算机信息检索系统组成 •第3节 计算机信息检索的分类 •第4节 计算机信息检索技术 •第5节 信息检索的方法* •第6节 信息检索的策略*
2020/11/25
第2章计算机信息检索技术
1.1 国内外计算机信息检索发展阶段
•分 析
•编制
• 数据库记录及
• 检索提问式及
• 信息特征标识
• 提问标识
• 计算机
•类 比

2020/11/25
检索结果
•输出
第2章计算机信息检索技术
信息存储过程
信息存储就是按照一定标准,将收集 到的原始文献进行主题概念分析,用 系统规定的语言(主题词、分类号) 进行标引,形成信息的特征标识,进 行整理与排序,构成可供检索的数据 库,主要包括:信息的采集、著录、 标引和整序等过程。
容量就越大。
2020/11/25
第2章计算机信息检索技术
2020/11/25
第2章计算机信息检索技术
字段(Field)
n 字段是构成记录的基本单元,是对文献某一方 面的特征(包括外表特征和内容特征)进行描 述的结果。
n 例如:题名、作者、作者地址、出版年、来源 (出处)、主题词、文摘等字段是书目数据库 中必备字段。为识别每一个字段所表达的文献 特征,通常每个字段都有固定的名称和缩写 (或称字段标识符),如,题名字段的标识符 为TI,作者字段的标识符为AU等。
2020/11/25
第2章计算机信息检索技术
文档(File)
数据库中一部分记录的集合,文档由若干记录构成。 数据库是由一个顺排文档和若干个倒排文档所构成
顺排文档是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识,
如主题词、著者姓名、化学物质名、刊名等,并按 索引词的字顺排列,同时在检索标识后注明入藏顺 序号,这就是常见的数据库中的主题词索引、著者 索引、刊名索引。
➢ 脱机检索阶段(20世纪50-60年代) ➢ 联机检索阶段(20世纪60-80年代) ➢ 光盘检索阶段(20世纪80年代中-90年代) ➢ 网络信息检索阶段(1995-)
2020/11/25
第2章计算机信息检索技术
1.2 计算机信息检索的定义
n 计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
一重一要定定组专专成业业部范分范围,围内是的内信信息的息资信记源录息,是及记检其索录索对引及象的其。集索合体引,的是集计算合机体信,息检是索计系算统的机 信息检索系统的重要组成部分,是信息资源,是检索对象。
构成数据库的三大要素: 文档——记录——字段
•检索时,计算机按输入检索词的字顺先从指定的倒排文档 中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。
2020/11/25
第2章计算机信息检索技术
3 计算机信息检索的分类
1 按信息资源的存储形式分 2 按信息访问模式分
3.1 按信息资源的存储形式分* (P7-8)
(1)全文检索。
n 以全文数据库存储为基础的检索方式,所谓全文数据库是将 一个完整的信息源的全部内容转化为计算机可以识别、处理 的信息单元而形成的数据集合。
2020/11/25
第2章计算机信息检索技术
(1) 脱机信息检索
是六十年代发展起来的批次检索,用户不与检索系 统发生直接联系,只需把检索要求送往检索中心, 由检索人员在计算机主机进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费
用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委
托性检索。
(2) 联机信息检索
联机检索是用户利用终端设备,通过通信 网络或通信线路与检索系统联机,进行 “人机对话”,从检索中心的数据库查找 所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到
n 全文检索系统对全文数据库进行词(字)、句、段落等深层 次的编辑、加工,同时允许用户采用自然语言表达,借助逻 辑组配、截词、邻词匹配等检索手段直接查阅文献原文信息。
n 全文检索的应用范围包括:各种科技期刊、专利文献、新闻 报纸、年鉴、百科、手册、图书等全文数据库,例如:我国 引进的OCLC的first search、IEL、Springer Link、EBSCO 等全文数据库以及我国CNKI的中国期刊全文数据库、重庆维 普的中文科技期刊数据库、超星数字图书馆、万方资源系统 的数字化期刊、学位论文、会议论文等。
n 例如:COMPENDEX、INSPEC、SCI等国外数据库; 万方数据的学位论文、会议论文数据库、全国报刊索 引、Calis西文期刊目次数据库等
2020/11/25
第2章计算机信息检索技术
(3)多媒体检索
n 就是把文字、声音、图像(形)等多种信息的传播载体 通过计算机进行数字化加工、处理而形成的一种综合存 储技术。
n 计算机信息检索在经历了传统信息检索、全文文本检索之后,随 着多媒体技术的发展和应用,出现目前这种超文本检索方式。可 用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文 物、生物等内容广泛的各种信息。
2020/11/25
第2章计算机信息检索技术
3.2 按信息访问模式分(P5)
根据检索方式分: (1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)镜像检索 (6)网络检索
应用程序等。
➢ 通讯线路:电话通讯网、数据通讯网、卫星通讯网等。 ➢ 检索终端:信息用户与检索系统主机进行人机对话,实
现联机检索的设备。包括上网设备、调制解调器等。
➢ 数据库:是计算机检索的对象。是由一个或数个文档构
成,并能够满足某一特定目的或某一特定数据处理系统 需要的一种数据集合。
2.2 数据库的构成
2020/11/25
第2章计算机信息检索技术
(2)二次文献检索*
n 是针对全文检索而言,也就是分别将文献的内部特征 (题名、分类等)和外部特征(作者、出处、年代、 ISSN、语言等)作为存储和检索的匹配标识而形成 的数据集合,利用检索系统的检索结果是文献信息的 题录及文摘。
n 学科领域覆盖面广,信息量大,可以利用文献线索获 取到一次文献。
n 检索速度快,效益高; n 检索功能强,数量大; n 检索途径多,手段灵活; n 检索范围广; n 服务方式多。
1.4 计算机信息检索的原理(P8-11)
• 信息存储
• 信息检索
• 原始信息 • 主题
• 信息主题 •著录
•分析
• 信息需求 •主题
• 检索主题 •标引 •检索语言(主题词表)•选定
和主题词等。 这类数据库占用很大的比例,其代表性的数据库有 《EI Compendex Plus》(工程索引)、《INSPEC》(科学
文摘)和《全国报刊索引》等。 图书馆提供的基于网络的联机公共检索目录(OPAC)系统
2020/11/25
第2章计算机信息检索技术
事实数据库
存储的是用来描述人物、机构、事物等信息 的情况、过程、现象的事实数据。
¨ 如名人录、机构指南、大事记、百科全书、手 册、地图集、企事业名录、计算机程序、音乐 等,均可归入事实数据库。
¨ 例如:中国咨询行、国研网、万方数据(中国 企业、公司及产品、中国科技名人、中国科研 机构等等)
2020/11/25
第2章计算机信息检索技术
数值数据库
主要包含的是数字数据,如各种统计数据、 科学实验数据、科学测量数据等。 ➢ 气像数据、地质资料、化学或物理化合物
计算机检索的过程实际上是一个比较、匹配的过程, 检索提问只要与数据库中的信息的特征标识及其逻辑 组配关系相一致,则属“命中”,即找到了符合要求 的信息。
2020/11/25
第2章计算机信息检索技术
2 计算机信息检索系统组成
2.1 系统设备
➢ 硬件:运算器、控制器、存储器、输入输出装置等 ➢ 软件:系统操作程序、数据库管理程序、联机控制程序、
2020/11/25
第2章计算机信息检索技术
2020/11/25
第2章计算机信息检索技术
•记录(Record)
n 由若干字段组成的文献单元,是数据库中的基本 文献单元,每条记录描述了原始信息的外部和内
部特征。数据库中的一条记录通常代表一篇文献。 n 例如:在书目型数据库中,一条记录相当于一条
题录或文摘;在全文型数据库中,一条记录相当 于一篇完整的文献;在其它类型数据库中,一条 记录则代表一个信息单元。记录越多,数据库的
2020/11/25
第2章计算机信息检索技术
(4)超文本检索
n 超文本(Hyper text) 是利用计算机将多介质信息按照一定的逻辑 联接关系加工、贮存起来,构成可任意连接的、有层次的网状结 构数据库,是一种联想式的综合信息管理系统。
相关文档
最新文档