第2章 计算机信息检索技术

合集下载

第二章 信息检索原理及技术

第二章  信息检索原理及技术

• ②词族表 computer applications .administrative data processing ..distributive data processing .computerized signal processing ..computerized pattern recognition ..computerized picture processing ...computer-generated holography
3、检索途径 、
• 检索途径又称检索入口,指信息用户在检索时,把所需信息的某 种特征标识转换为检索标识,以此为入口进行检索
信息内部特征 检索途径 题名途径 著者途径 机构途径 代码/序号途径 信息源类型途径 其它途径 分类途径 主题途径 关键词途径
信息外部特征
信息检索途径及其选择
内容特征检索途径
作用: 、保证不同标引人员表征文献信息的一致性。 作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。 、使内容相同及相关的文献集中化。 3)、保证检索提问与文献信息标引的一致性。 、保证检索提问与文献信息标引的一致性。 4)、保证检索者按不同需求检索文献信息时, 、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。 都能获得最高的查全率和查准率。

纯自然语言
指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。 它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。 它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。 使用纯自然语言中检索中最大的问题是误检率极高。 使用纯自然语言中检索中最大的问题是误检率极高。

同济大学文献检索课件

同济大学文献检索课件
第二章 计算机信息检索概论
第一节 计算机信息检索的发展

计算机信息检索是利用计算机查找出符合读者所需信 息的过程。 计算机信息检索的发展史 脱机信息检索阶段(20世纪50年代中期到60年代中 期) 联机信息检索阶段(20世纪60年代中期到70年代初 期) 跨国联机信息检索阶段(20世纪70年代中期至今) 光盘信息检索阶段(20世纪80年代中期至今) 网络信息检索阶段(20世纪90年代至今)
第二节 计算机信息检索的基础知识
一、计算机信息检索系统的构成

物理构成 :计算机硬件、软件、数据库 数据库构成:文档(File) 、记录(Record) 、字段(Field)
数据库
文档1
文档2
文档3

记录1
记录2
记录3

字段1
字段2
字段3


逻辑构成 :信息采集与建立数据库子系统、标准化子系 统、用户子系统

(SO)European Journal of Human Genetics advance online publication, 27 September 2006; doi:10.1038/sj.ejhg.5201711. PMID: 17003842 [PubMed - as supplied by publisher]
(AB)Pulmonary arterial hypertension is a progressive disease, characterised by increased proliferation of
pulmonary artery smooth muscle cells, vasoconstriction and remodelling of the vascular wall leading to right heart failure and death. The idiopathic form is rare (idiopathic arterial primary hypertension (IPAH); formerly PPH, MIM#. untranslated region in exon 7 (g.8129T>C) was observed in five patients. It appeared in 46% of the control group. The frequency of this alteration in the coding region of the VIP gene could therefore not be correlated with the appearance of IPAH. Apart from the importance of VIP signalling, genetic and/or environmental modifiers might therefore contribute to the development and perpetuation of the disease.

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

第二章_信息检索基础之二

第二章_信息检索基础之二

检索表达式示例
字段代码与字段 名称对照
位臵检索
位臵检索又称邻近检索,主要是通过 检索式中的特定符号来规定检索词在结果 中出现的顺序和词间距。
例如检索“生物防治”的文献,若用 检索式“biological*control”检索,则 会将“抑制生物”(control biological) 的文献也查出来,这显然不是所需文献。

字段代码方式
在进行检索时,通常在检索式中加入字段代 码来限定检索字段。字段代码与检索词之间可用 后缀符“/”或前缀符连“=”接起来。各个系统的 字段代码和前缀后缀符号可能各有不同。有的系 统不分前缀后缀限定。 例如,美国专利局数据库的高级检索界面便使 用了字段限制代码,用户需用这些字段限制代码 构造检索式,在检索框中输入检索命令来进行检 索。
字段限制检索主要有两种方式:

菜单选择方式
在检索系统的界面上设臵的字段下拉菜单中 进行选择,在相应的检索框中输入检索词,就可 完成字段限制检索。目前大多数检索系统都设臵 了此种检索方式。 例如,在中国期刊全文数据库检索界面中, 可在其提供的字段下拉菜单中选择合适的字段名 称进行检索。
字段限制检索主要有两种方式:
字段限制检索
字段检索是限定检索词在记录中出现的字段范围, 检索时,计算机只对限定字段进行查找。 这种检索技术可以缩小检索范围,提高检索的准 确率。 一般而言,一条记录中主要用来表达文献内容 特征的字段称为基本索引字段,如题名、文摘、叙词、 自由词等。常用的基本索引字段及其代码如表所示。 表达文献外部特征的字段称为辅助索引字段,如著者、 机构名称、语种、刊名、来源、出版年等。常用的辅 助索引字段及其代码如表所示。
截词检索
有限截断比较精确,只检出用户需要的词汇,而无限 截断作用时必须注意词干不要太短,否则会检出许多无关 文献。 在中文数据库中作用最多的是后截断,即立脚前方一 致检索。例如,金盘书目系统的查询方式。 金

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

计算机信息检索2

计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

第二章:信息检索基础

第二章:信息检索基础
文献检索是信息检索的核心部分。
从性质上说: 文献检索是一种相关性检索,检索的结果 是与课题相关的文献或文献线索,而不直 接解答用户所提出的技术问题本身; 事实检索与数据检索则是确定性检索,检 索的结果是用户所需的确切的数据或事实。
2.1.3 信息检索的发展简要历程
手工检索阶段
世界四大检索工具(SCI\EI\ISTP\ISR),1665年《学者周刊》
补充
补充同义词或相关词 补充原词或缩略语
例:基于DSP芯片的虹膜识别系统
补充DSP的全称:数字信号处理(digital signal processing)
毫米波,补充MMW
补充
补充同一词的不同拼写
例1:虹膜识别:iris recognition 或 iris
identification 例2:3维、3D
一定要彻底,必Leabharlann 到词为止,同时也要适度,不能因 切分而改变语义。
例:基于DSP芯片TMS320DM642开发的虹 膜识别系统
基于| DSP |芯片| TMS320DM642 |开发|的|虹 膜|识别|系统
删除
删除虚词 删除过分宽泛和过分具体的限定词 删除存在蕴涵关系的可合并词
例:基于DSP芯片TMS320DM642开发的虹膜识别 系统 DSP |芯片| 虹膜|识别|
题名途径 著者途径 机构途径 代码/序号途径 其他途径
信息外部特征
检索途径
信息内部特征
分类途径 主题途径 关键词途径
分类途径
以学科性质和内容的相应类目、类号为 特征标识的检索方法。分类途经检索与分 类法是相对应的。
目前,我国通用的分类法主要有三种: A《中国图书馆图书分类法》(简称《中图 法》) B《中国科学院图书馆图书分类法》(简称 《科图法》) C《中国人民大学图书馆图书分类法》(简 称《人大法》)

计算机信息检索技术

计算机信息检索技术

2.1 检索系统的功能模块
词表管理子系统——主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。
01
用户接口子系统——一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural language)。
F27 企业经济
F29 城市与市政经济
F3 农业经济
F4 工业经济
F7 贸易经济
F72 中国国内贸易经济
F73 世界各国国内贸易经济
F74 国际贸易
F75 各国对外贸易
F8 财政、金融
F81 财政、国家财政
F82 货币
F83 金融、银行
F84 保险
T 工业技术
(2)数据检索Data Retrieval
是指查找用户所需特定数据的检索。
例:我国第五次人口普查中全国汉民族的人数。
利用各种词典、手册、百科全书、年鉴、等参考工具书进行检索,也可以利用专门的数据库进行检索。
熔点、电阻系数,计算公式、数据图表,化学分子式等。
(3)事实检索Fact Retrieval 是将存储于检索系统中的关于某一事件发生的时间、地点、经过等信息查找出来的检索。它回答的问题诸如:“有哪些海外华人得过诺贝尔奖?” 工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual, yearbook, almanac)手册(handbook, manual)名录(biography)和书目指南(directory) 例:第三届全国ITAT教育工程就业职能大赛项目瑞萨超级MCU模型车大赛的比赛,福建工程学院学生的获奖情况。某同类汽车产品中,哪种牌号的销量

第2章信息检索原理与技术

第2章信息检索原理与技术

2.4.4
限制检索
为了确定检索词在数据库记录中 出现的字段位置,可采用字段限制 查找的范围。常用的字段代码有标 题(TI)、文摘(AB)、作者 (AU)、 语种(LA)、刊名(JN) 等。 限制检索在光盘数据库中一般用 前、后缀表示,在网络数据库中一 般使用下拉菜单进行选择限制。
2.4.5信息检索方法及技术应用实例 检索课题:相变储能纤维的制备
数据信息检索
以具有数量性质并以数值形式表示的 数据为检索对象,是一种确定性检索。 检索的结果是经过测试和评价过的各种 数据,可用于比较分析和定量分析。它 一般以数据大全、手册、年鉴等为检索 工具。
示例
2008年申请中国发明专利和 获得授权发明专利的国家有哪些? 检索工具 中国统计年鉴
事实信息检索
信息检索语言
检索语言又称标引语言, 是系统存储和检索时共同 使用的一种约定语言,以 达到信息存储和检索的一 致性,提高检索效率。
检索语言的类型
分类语言
主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
体系分类语言
体系分类语言是按学科逻辑分类的
原理,运用概念划分的方法,按知 识门类从总到分,从上到下,层层 划分,逐级展开组成分类表,并以 分类表来标引、存储信息和检索信 息。特点是体现学科的系统性,反 映事物的平行、隶属和派生关系, 有利于从学科的角度进行族性检索, 达到较高的查全率。
信息检索效率是评价一个检 索系统性能优劣的质量标准,它 贯穿于信息的存储和检索的全过 程。其评价指标主要是:
查全率 查准率
2.2.2 信息检索系统
信息检索系统是拥有一定 的存储、检索技术装备、存 储有各种信息,并能为用户 检索所需信息的服务工作系 统。目前常用的是手工检索 系统和计算机检索系统。

第2章网络信息检索

第2章网络信息检索

3.按组配方式划分 (1)先组式语言(Pre-coordination) (2)后组式语言(Post-coordination)
2.5.3分类语言
1.分类语言的概念 分类语言(Classification language)是 用分类号和类目来表达各种主题概念的检索语言。 它以学科体系为基础,将各种概念按学科性质和 逻辑层次结构进行分类和系统排列。分类语言的 具体表现形式主要是分类表。常见的分类法有 《中国图书馆分类法》、《中国科学院图书馆分 类法》(科图法)、《杜威十进分类法》(DDC)、 《美国国会图书馆分类法》(LC)。
基本部类
马克思主义、列宁主义、毛泽东思想、邓小平理论 哲学 社会科学
基本大类
A马克思主义、列宁主义、毛泽东思想、邓小平理论 B哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理
自然科学
N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书
2.3.1数据库的含义
简单地说,数据库是依照某种数据模型组 织起来并存放于计算机存储设备中要的信息资源,也是信息检索的重要 资料来源。
2.3.2数据库的类型
1.按照数据库的内容与功能划分 (1)参考数据库(Reference Database) 指为用户提供信息线索的数据库,它可以指引用户获 取原始信息,有时又称为二次文献数据库,包括书目数据 库、文摘数据库和索引数据库。 (2)源数据库(Source Database) 指能直接提供原始资料或具体数据的数据库,包括数 值数据库、文本一数值数据库、全文数据库、术语数据库、 图像数据库和多媒体数据库等。 (3)混合数据库 指同时存储参考数据库和源数据库的数据库。

信息检索 第二章

信息检索 第二章
如:A not B可表示为A-B和-B*A, 逻辑非运算是一种排 除性运算,-B就是排除了B以外的其他所有项。因此, 谨慎使用逻辑非运算符,否则会造成漏检现象。在实 际检索中,往往在一个检索结果中使用逻辑非运算, 用来排除指定的某类信息,以达到提高查准率的目的。
2.编制布尔逻辑表达式时应遵循的原则 (1)当用逻辑与“*”连接检索项时,尽可能把出现 频率 低的词放在“*”号之前,目的是为了使否定的回答尽 早 出现,从而缩短检索时间。 (2)采用逻辑或“+”连接检索项时,应将出现频率高 的词放在“+”号之前,确保命中回答尽早出现。 (3)表达式中同时出现“*”与“+”号时,需要做到 (1) 和(2)以外,还应遵循:①把检索词和“*”关系运 算较 少的部分放在“+”号前面;②尽量把“+”关系较少的
2.字段(field) 字段是记录的下级数据单位,用来描述实体的某一属 性。在文献数据库的记录中,字段的划分与文献著录 事项的划分相一致。一个字段与一个著录项目相对应。 所以,一个记录中通常含有文献号字段、题名字段、 作者字段、出版字段、语种字段、文摘字段、主题词 字段、分类号字段等各种必要的字段。 每个字段的具体内容称为字段值(field value)或属性 值(attribute value)。字段的设计决定了检索点的数 量。
(2)后截断检索:是指检索词与被检索词实现词间的 前部相同的检索。如:“computer?”可检索出含有 “computer”和“computers”的记录。
(3)前后截断检索:是检索词与被检索词实现词间只 需任意部分相一致即可。 (4)屏蔽检索:是指在一个字符串中插入一个或多个 的屏蔽符号“?”,表示在问号的相应位置上可置换 数目 相当的字符。采用屏蔽检索可避免漏检,提高查全率。 如:“orgni? ation”,可检出含“orgnisation 和 orgnization”的文献。

第二章 计算机检索基础1

第二章 计算机检索基础1

广义上包括存储和检索两个过程
狭义仅指检索过程
计算机检索发展简史
脱机
1954年
联机
国际联机
网络检索
光盘
80年代中期
1.脱机检索(50年代末~60年代中期 )
• 计算机检索的原始时期,计算机由电子管组成,主要存储介质是磁带、 磁鼓,只能进行简单的检索。 • 专业检索人员定期批量处理用户的情报要求 • 用户不能立刻获得检索结果
• 检索结果为题名,作者,文摘等。
• 在脱机检索阶段,计算机主要进行文献目录、索引、文摘等前处理工作。
2.联机检索(60年代末~70年代初)
• 1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了” 人-机“对话的联机情报检索系统(DIALOG的前身),此后在60年代末 到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、 ORBIT系统、MEDLINE系统都是从这个时期发展起来的。 • 多个检索终端,通过通讯线路与联机检索系统中央计算机(主机)联接 • 利用分时技术,使多个用户可同时与主机以“对话”方式进行检索 • 用户可随时浏览检索结果
检索系统中央计算机直接进行“ 人-机对话”,查找世界各国的情报
文献资料。 • 联机检索系统进入发展的黄金时期。
4.光盘网络检索(90年代-)
• 以太网技术的出现推动了网络版光盘数据库的出现。 • 光盘网络是一种计算机网络,如图书馆局域网 • 实现多用户光盘资源共享 例如:美国“化学文摘”(CA)从1987-1991年的五年累积索引(含文摘)
面使网络信息资源的内容从单一的书目到图文并茂的多媒体,更富有吸 引力和使用价值;另一方面,超文本的广泛利用改变传统的信息组织的
线性方法,使电子资源的组织更接近于“自然”,大大方便了用户的使

第二章 信息检索的基本原理

第二章  信息检索的基本原理

常用文献类型用单字母标识,具体如下:
(1)期刊[J](journal)
(2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
主要用途
①系统学习知识; ②了解关于领域知识概要; ③查找某一问题的具体答案 ①了解与自己的课题相关的 研究状况,查找必要的参考 文献; ②了解某学科水平动态; ③学习专业知识
[J]
会议论 文
[C]
会议名称、会址、会 期、主办单位、会议录 的出版单位
水平高、针对性强、发 ①做学术研究时,了解与自 表快,观点可能不成熟, 己的课题相关的研究状况, 但内容新 查找必要的参考文献; ②了解某学科水平动态 数据图表详尽、参考文 献丰富、可得到课题研 究综述、课跟踪导师的 科研进程 ①科研开题前的文献调查; ②博硕士撰写开题报告; ③学习学位论文的写作方法; ④追踪学科发展、研究过程
零次信息
未正式发表的口头、书面或电子形式的 文献,也称为“半文献”。 如私人笔记、文章草稿、会议记录、书
信文稿及各种内部档案等。
网上零次信息
对应于网上信息资源,属于零次 信息范畴的有: E-mail、BBS、QQ、NEWSgroup以 及非专业权威网站上发布的信 息等等。
零次信息的特点
①数量多,内容新,更具有启发性;
筛选
计算 机检 索
计算机设备、 终端、通信设 施、数据库和 检索应用软件 等
光盘检索 利用计算 系统、联机 机存储和 系统和互联 检索信息 网信息检索 系统

2第二章 计算机检索基础知识

2第二章 计算机检索基础知识
数值数据库 图像数据库 源数据库 术语数据库 (一次文献) 文本- 数值数据库 全文数据库 混合数据库


按文献类型划分:

文献类数据库
书目数据库(二次文献) 全文数据库(一次文献)

库 数值数据库 非文献类数据库 图像数据库 术语数据库
按载体形式分为 :
单机版光盘数据库 数 据 联机数据库 光盘数据库 络版光盘数据库

网络数据库
镜像站数据库
三、数据库的文档结构
1. 顺排文档(linear file):是按记录的编号
顺序排列的文档。为主文档。顺排文档结构简 单,管理方便,节省储存空间,但检索速度较 慢。
2. 倒排文档(inverted file):是将数
据库中具有某些特征的字段值和具有该 字段值的记录号按顺序排列构成的文档, 也称为索引文档。
4.数据结构具有通用性、开放性、动态性 5.信息资源体积小,数量巨大
一座拥有百万册图书的图书馆,经过数字化处理后,只需 3400张光盘就可以全部存储下来。
6.传播方式的无限性
电子信息资源不受时间、空间的限制,实现跨时空、跨行业 的传播。
7.交互性
电子信息资源不是传统信息资源的复制,而是对传统信息 资源和信息交流渠道的补充。
2.2
数据库
一、 定义
数据库是可以共享的某些具有共同存取方 式的相关数据,以一定的组织方式的集合。 数据库本质的三个要素:相关数据、共同 存取方式和一定的组织方式、共享。 通俗地说,数据库是以某一特定方式组织 和存放的数据的仓库。
数据库与其他数据集合的主 要区别在于数据库中的各项 数据可以通过同一种方式进 行储存与查找,因此同一个 数据库中的记录格式都是一 样的。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/10/16
25
(2)二次文献检索*
是针对全文检索而言,也就是分别将文献的内部特征 (题名、分类等)和外部特征(作者、出处、年代、 ISSN、语言等)作为存储和检索的匹配标识而形成 的数据集合,利用检索系统的检索结果是文献信息的 题录及文摘。
学科领域覆盖面广,信息量大,可以利用文献线索获 取到一次文献。
其中的某些字、符号或短语、图形和图像起着“热链路” (Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下 横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上, 并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文 件的另一处或另一个文件。
计算机信息检索在经历了传统信息检索、全文文本检索之后,随 着多媒体技术的发展和应用,出现目前这种超文本检索方式。可 用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文 物、生物等内容广泛的各种信息。
用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委
托性检索。
(2) 联机信息检索
联机检索是用户利用终端设备,通过通信 网络或通信线路与检索系统联机,进行 “人机对话”,从检索中心的数据库查找 所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到
及时修改。 缺点:检索费用高。
(3)国际联机检索*
各大网站均可进规模 的多媒体、多文种新闻信息综合性数据库。
2020/10/16
27
(4)超文本检索
超文本(Hyper text) 是利用计算机将多介质信息按照一定的逻辑 联接关系加工、贮存起来,构成可任意连接的、有层次的网状结 构数据库,是一种联想式的综合信息管理系统。
2020/10/16
3
国外计算机信息检索发展阶段(P5)
➢ 脱机检索阶段(20世纪50-60年代) ➢ 联机检索阶段(20世纪60-80年代) ➢ 光盘检索阶段(20世纪80年代中-90年代) ➢ 网络信息检索阶段(1995-)
2020/10/16
4
1.2 计算机信息检索的定义
计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
第二章 计算机信息检索技术
郑州大学信息检索教研室
2020/10/16
1
第1节 计算机检索概述 第2节 计算机信息检索系统组成 第3节 计算机信息检索的分类 第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
2020/10/16
2
1.1 国内外计算机信息检索发展阶段
➢ 1975年,从国外引进数据库开展机检服务; ➢ 1980年,建立国际联机终端开展检索服务; ➢ 20世纪80年代中后期,自建数据库; ➢ 90年代初,发展光盘检索; ➢ 90年代中期,Internet网络化检索阶段。
信息存贮是将文献、数值、事实等按一定的格式输入到计 算机中,加工处理成可供检索的数据库。
信息检索是将检索提问式按一定的要求输入计算机中,经 计算机系统与已存贮在计算机中的数据库进行匹配运算, 然后将符合检索提问的数据按要求的格式输出。
2020/10/16
5Hale Waihona Puke 1.3 计算机信息检索特点
检索速度快,效益高; 检索功能强,数量大; 检索途径多,手段灵活; 检索范围广; 服务方式多。
2020/10/16
8
信息的著录
对所收集的原始信息的外表特征(如题名、 著者、文献出处等)和内容特征(如分类 号、主题词、摘要等)进行描述,形成一 条条款目或记录的过程。
在数据库中,其外表特征和内容特征通常 称之为字段,一条记录由若干个不同字段 构成。
2020/10/16
9
信息的标引
标引:根据一定的规则和程序(主题词典或词 表),对文献的主题内容进行分析,给予每篇文 献主题词、关键词作为存储和检索标识;或者根 据文献的学科归属,采用某种文献资料分类法, 给予分类号作为检索标识。
2020/10/16
10
信息检索过程
用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机按 照用户的要求将检索策略转换成一系列提问,在专用 程序的控制下进行逻辑运算,选出符合要求的信息输 出。
计算机检索的过程实际上是一个比较、匹配的过程, 检索提问只要与数据库中的信息的特征标识及其逻辑 组配关系相一致,则属“命中”,即找到了符合要求 的信息。
标引、特点等问题较难了解、熟悉; ➢检索技术和技巧不易掌握
2020/10/16
33
世界上最著名的国际联机检索系统
1、DIALOG系统*
是世界最大的国际联机检索系统 1963年,原属美国洛克希德公司,系统设在加洲Palo
Alto市,1988年转让给美国Knight-Ridder公司。2000年 又转入DIALOG公司经营。目前,该系统的联机服务网遍 布世界70多个国家和地区的200多个城市,共设有联机检 索终端25000余台。 系统中各类型数据库数量的发展速度相当快, 拥有数据库约900多个,占全世界机存总量的60%,内容 涉及自然科学、社会科学、经济、商业等各个领域。
和主题词等。 这类数据库占用很大的比例,其代表性的数据库有 《EI Compendex Plus》(工程索引)、《INSPEC》(科学
文摘)和《全国报刊索引》等。 图书馆提供的基于网络的联机公共检索目录(OPAC)系统
2020/10/16
20
事实数据库
存储的是用来描述人物、机构、事物等信息 的情况、过程、现象的事实数据。
例如:COMPENDEX、INSPEC、SCI等国外数据库; 万方数据的学位论文、会议论文数据库、全国报刊索 引、Calis西文期刊目次数据库等
2020/10/16
26
(3)多媒体检索
就是把文字、声音、图像(形)等多种信息的传播载体 通过计算机进行数字化加工、处理而形成的一种综合存 储技术。
利用多媒体检索系统可分别进行视频检索、声音检索、 图像检索。多媒体信息检索系统有着广阔的应用前景, 它将广泛用于电子会议、远程教学、远程医疗、电子图 书馆、艺术收藏和地球资源管理、天气预报、时装设计、 智能群体决策、计算机支持协同工作、金融市场、军事 指挥系统、防汛指挥系统等方面。
构成数据库的三大要素: 文档——记录——字段
检索时,计算机按输入检索词的字顺先从指定的倒排文档 中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。
2020/10/16
13
文档(File)
数据库中一部分记录的集合,文档由若干记录构成。 数据库是由一个顺排文档和若干个倒排文档所构成
特性 的文献数据、人口统计资料、市场调 研数据等。
2020/10/16
22
全文数据库
存储的是原始文献的全文,如杂志论文、报纸 新闻、法院案例等。
全文检索可直接获取原始资料,而不是书目检 索时的线索,提高了用户的检索效率。 如:中国知网(CNKI)、万方、维普、 Elsevier等全文数据库。
2020/10/16
2020/10/16
28
3.2 按信息访问模式分(P5)
根据检索方式分: (1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)镜像检索 (6)网络检索
2020/10/16
29
(1) 脱机信息检索
是六十年代发展起来的批次检索,用户不与检索系 统发生直接联系,只需把检索要求送往检索中心, 由检索人员在计算机主机进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费
14
2020/10/16
15
记录(Record)
由若干字段组成的文献单元,是数据库中的基本
文献单元,每条记录描述了原始信息的外部和内
部特征。数据库中的一条记录通常代表一篇文献。
例如:在书目型数据库中,一条记录相当于一条
题录或文摘;在全文型数据库中,一条记录相当
于一篇完整的文献;在其它类型数据库中,一条
记录则代表一个信息单元。记录越多,数据库的
容量就越大。
2020/10/16
16
2020/10/16
17
字段(Field)
字段是构成记录的基本单元,是对文献某一方 面的特征(包括外表特征和内容特征)进行描 述的结果。
例如:题名、作者、作者地址、出版年、来源 (出处)、主题词、文摘等字段是书目数据库 中必备字段。为识别每一个字段所表达的文献 特征,通常每个字段都有固定的名称和缩写 (或称字段标识符),如,题名字段的标识符 为TI,作者字段的标识符为AU等。
1.4 计算机信息检索的原理(P8-11)
信息存储
信息检索
原始信息 主题
著录
信息主题
数据库记录及 信息特征标识
分析
信息需求 主题
分析
检索主题 标引 检索语言(主题词表) 选定
编制
检索提问式及 提问标识
计算机
类比
输出
检索结果
2020/10/16
7
信息存储过程
信息存储就是按照一定标准,将收集 到的原始文献进行主题概念分析,用 系统规定的语言(主题词、分类号) 进行标引,形成信息的特征标识,进 行整理与排序,构成可供检索的数据 库,主要包括:信息的采集、著录、 标引和整序等过程。
2020/10/16
18
2.3 数据库的类型*(P3-4)
参考(文献书目型)数据库 全文数据库 事实数据库 数值数据库
2020/10/16
19
参考(文献书目型)数据库
是指包含各种数据、信息或知识的原始来源和属性的数据 库;是机读的目录、索引和文摘检索工具,检索结果是文 献的线索而非原文。 存储的是二次文献,包括文献的外部特征、题录、文摘
相关文档
最新文档