第2章 计算机信息检索技术1

合集下载

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

2 信息检索原理(课件PPT)

2 信息检索原理(课件PPT)
因此,分类法通常是指一种从总到分、从 一般到具体、层层划分、逐级展开并具有某种 符号代码体系的知识体系表。
如:中图法的符号代码体系是拼音字母加数字1。4
第2章 信息检索原理
国内通用分类法有: 《中国图书馆图书分类法》(简称中图法) 《中国图书资料分类法》(简称资料法) 《中国科学院图书分类法》(简称科图法)
具体类号、类目展开情况如图所示:
检索标识即分类号,由拼音字母和数字组成
采用等级列举表达从属关系
上位类目与下位类目的关系:
上位类目一定包含各个下位类目,
下位类目一定带有上位类目的属性。
分类号越长,表示的学科范围越窄。
为了清楚醒目, 通常分类号的第三位数字后,隔以
. “ ” ,如F279.712,TQ032.4
16
马哲 列学
社会科学
自然科学


AB C D E F G H IJ K NO P QR S TUV X Z
马 哲社 政军 经文 语文艺 历
列 学会 治事 济教 言学术 史
主 科、
、、

义 学法
两个部分,两者又往往合并称为“信息存贮与检
索” 。
3
第2章 信息检索原理
2. 信息检索的一般原理 信息检索包括存储和检索两个过程。 信息检索过程的实质是将检索提问标
识与存储在检索系统(检索工具)中的检索
标识(标引标识)进行比较,含有两者一 致或信息存储的标识包含着检索提问标
识的信息就是检索命中的信息。这就是信 息检索原理。
2
1.信息检索的定义
狭义:是指根据特定课题的需要,运用科学的 方法,在大量信息(文献)集合中查获所需信息 (文献)的过程。
是指从任何信息集合中查找所需信息的活 动、过程与方法。

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

信息检索技术(第二版)习题答案

信息检索技术(第二版)习题答案

《信息检索技术》(第二版)书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。

2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。

3.用规范化词语来表达文献信息__________的词汇叫主题词。

主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。

4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。

5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。

检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。

6.检索工具按信息加工的手段可以分文__________、____________、___________。

7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。

8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。

答案1.零次,一次,二次,三次2.参考文献,引文3.内容特征4.检索提问词,文献记录标引词5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6.手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。

()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。

()3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。

计算机检索基础知识

计算机检索基础知识

第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。

第二章 信息检索基础

第二章 信息检索基础

2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。

科技信息检索(第5版)教学课件第2章精讲

科技信息检索(第5版)教学课件第2章精讲

检索工具:中文科技期刊数据库、EI、SCI等。
全文信息检索
以论文或专利说明书的全文为检索对象,也是相关性检 索。 特点:书目信息检索基础上更深层次的内容检索。
例如:检索由陆小龙,赵世平,廖俊必,曹志华撰写的,发 表在四川大学学报(工程科学版),2010,(6)“电力铁塔攀 爬机器人夹持机构设计与分析”一文 检索工具:中国期刊全文数据库
2.1.5 信息检索的原理


信息检索效率 信息检索系统 信息检索语言
信息检索效率
信息检索效率是评价一个检索系统性 能优劣的质量标准,它贯穿于信息的 存储和检索的全过程。其评价指标主 要是:
查全率 查准率
信息检索系统
信息检索系统是拥有一定的存储、检 索技术装备、存储有各种信息,并能 为用户检索所需信息的服务工作系统。 目前常用的是手工检索系统和计算机 检索系统。 手工检索系统现在已经不在使用了!
2.1.3 信息检索的意义与作用

充分利用信息资源,避免重复劳动
为人们更新知识,实现终生学习提供门径

2.1.4 信息检索的类型和特点


书目信息检索 全文信息检索 数据信息检索 事实信息检索
书目信息检索
以标题、作者、原文来源、摘要及收藏地点为检索对象, 是一种相关性检索。
特点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 一般以目录、索引、文摘为检索工具。 例如:查找有关“复杂环境下机器人研究”方面的国内 外信息有哪些?
逻辑与
逻辑或
1.概念:逻辑或是一种具有概念相同或 概念相关关系的组配 2.算符:“+”或“OR”或“或者” 3.特点:扩大检索范围,提高查全率 4.举例:废水 OR 污水,表示这两个相 关概念分别在一条记录中出现或同时 在一条记录中出现

第二章 信息检索基本方法与基本技术

第二章  信息检索基本方法与基本技术

2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

信息检索教程 第2章 信息检索系统

信息检索教程 第2章  信息检索系统

连续 出版物
学位论文
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 释 义 标准文献 是指对工农业产品、卫生教育、行政机关和工程建设的质量、规格、检验方法及 管理等所做的技术规定,是人们从事管理、设计、生产和检验的一个共同技术依 据。标准作为一种规章性的技术文献,具有一定的法律约束力。 会议文献 一般是指国内外各个科学技术学会、协会及有关主管部门召开的学术会议或专业 会议上提交、宣读或交流的论文或报告。因此会议文献代表着一门学科或专业的 最新研究成果,反映着当时的发展水平或动态。会议文献通常有会前预印本,会 后会议录、论文集、期刊等出版形式。 专利文献 主要指专利说明书,也包括各种专利检索工具、专利公报及专利法律文件等。专 利文献具有新颖性、创造性和实用性的特点,并具有垄断性、地域性、时间性、 公开性和法定性的特征,因此专利文献是一种集技术与法律于一体的实用性很强 的文献信息媒体,但重复出版率很高。
2.1 信息源与信息媒体
2.1.2 信息媒体
2. 电子文献信息媒体 电子文献信息媒体是指以数字编码的形式,把文字、 图像、动画、声音、视频等信息存储在磁光等介质 上,通过计算机和其他辅助设备阅读使用的一种新
型文献信息媒体,实质是一种机读型信息媒体。电
子文献信息媒体是信息技术发展的产物,它的产生、 发展和应用给人们展示了一个全新的虚拟世界。电 子文献信息媒体种类繁多、划分多样。
二次文献
三次文献
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 图书 释 义 是用于全面而系统地阐述某一方面或学科的科学理论或发展,传授科学技术以及 查阅某些知识的文献形式。一般来说,图书的内容比较系统、全面、成熟、可靠, 缺点是出版周期长、新颖性欠佳。图书按使用功能可分为以下两类。 阅读型图书:教科书、专著、科普读物 查阅型图书:参考工具书、检索工具书 采用统一名称定期或不定期连续性发行的出版物,主要指报纸、期刊和年度出 版物。连续出版物一般有连续的卷期或年月日顺序号,出版周期短、报道文献 快、内容新颖、信息量大,特别是报纸、期刊现已成为广大民众和科研人员阅 读量最大的信息媒体。 这是高等学校或研究机构的毕业生作为评定各级学位而撰写的论文。目前多数国 家的学位分为学士、硕士和博士三级。学位论文质量参差不齐,但带有一定的独 创性和新颖性,特别是博士论文具有较高的专业水准、参考价值较大。

信息检索学习笔记

信息检索学习笔记

信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。

世界三大基本要素:信息物质能量(二)信息的特征1.客观性①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。

②信息业来源于精神世界,但又不限于精神的领域。

③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。

2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性(三)信息的功能1.经济功能①运用信息可以使非资源转化为资源创造财富。

②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。

③直接让信息作为商品在市场流通中创造财富。

④通过信息进行科学决策,减少失误,创造财富。

2.管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:①传递整个组织的运行目的,有效管理5M资源。

②调节和控制物质流和能源流的数量、方向和速度。

③传递外界对系统的作用,保持组织的内部环境稳定。

3.选择和决策功能4.研究与开发功能二、知识1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。

2.知识的类型①显性知识和隐性知识。

②实体知识和过程知识。

③核心知识和非核心知识。

三、情报1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。

2.情报的特征①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性3.情报的类型零次情报:私人笔记、手稿、设计草图、会议记录、口头言论等。

一次情报:调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。

二次情报:书目、索引、文摘等三次情报:综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。

第二章 信息检索基础知识

第二章 信息检索基础知识

全文检索
图像检索 超文本检索
文献检索
使用以二次文献为存储对象的信息系统,如目录
型、题录型、文摘型数据库,是一种相关性检索。特 点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 例如:查找有关“食品安全与人类健康 ”方面的
国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获 得所需要的确切数据,是一种确定性检索。它一般以
的方式记录在相应的信息载体上,组织成系统
化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组
成,并能满足某一特定目的或某一特定数据处
理系统需要的一种数据集合。 通俗地说,数据
库就是在计算机存储设备上,按一定方式存储的 相互关联的数据集合,是信息检索的基础。
1. 数据库及其构成
一、信息检索的效果评价指标 二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信 息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率 a 查全率(R )= —— ×100% a+c 查全率是对所需信息被检出程度的信息量指标。 2. 查准率 a 查准率(P )= ——×100% a+b 查准率是衡量拒绝非相关信息的指标。
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站 按事物的性质分类 --- 功能(使用方向)主题: 国际专
利分类法(IPC)
2.主题描述及信息检索语言

第2章信息检索的基本知识

第2章信息检索的基本知识
2.1.1 信息的存储与检索 6、间接检索 通过检索工具指引来获取所需信息。
10
2.1 信息存储与检索原理
2.1.1 信息的存储与检索
7、信息检索通常包括4种类型 一是关于文献的检索; 二是关于某事实或事项的知识检索; 三是关于数值或数据的情报检索; 四是关于图象信息的信息检索。
11
2.1 信息存储与检索原理
第2章 信息存储与检索基础
2.1 2.2 2.3
信息储存与检索原理 信息检索与检索类型 索引款目的结构与类型
1
2.1 信息存储与检索原理
2.1.1 信息存储与检索概念 1、广义信息检索: 指将信息按有序的方式组织和贮存,并根 据用户的需求查找出有关信息的过程。包括存 入和输出两个方面。
2
2.1 信息存储与检索原理
1 信息检索模型
(1)基于文档内容的检索模型 布尔逻辑模型:采用布尔代数中的逻辑“与”“ 或”“非”等算符,来制定检索词中必需存在的 条件或不能出现的条件
缺点:精确匹配导致的结果文档过多或丢失
22
2.1.3 信息存取模型
1 信息检索模型
(1)基于文档内容的检索模型 概率统计模型:利用概率论的原理,通过赋予标 引词概率值来表示该词在相关文档集合或无关文 档集合中出现的概率。
1 脱机存取 早期计算机检索没有终端设备,利用磁带检索,利 用穿孔卡片或纸袋输入数据或命令。Biblioteka 492.2 信息存储与检索类型
2.2.3 按检索系统的工作方式划分
2 联机存取 用户可以使用终端设备直接与计算机进行“人机对 话”,计算机能对用户的提问及时处理并显示结果 的查询。
50
2.2 信息存储与检索类型
27
2.2 信息存储与检索类型

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第二章信息检索基础1

第二章信息检索基础1

化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。

第二章 计算机检索基础1

第二章 计算机检索基础1

广义上包括存储和检索两个过程
狭义仅指检索过程
计算机检索发展简史
脱机
1954年
联机
国际联机
网络检索
光盘
80年代中期
1.脱机检索(50年代末~60年代中期 )
• 计算机检索的原始时期,计算机由电子管组成,主要存储介质是磁带、 磁鼓,只能进行简单的检索。 • 专业检索人员定期批量处理用户的情报要求 • 用户不能立刻获得检索结果
• 检索结果为题名,作者,文摘等。
• 在脱机检索阶段,计算机主要进行文献目录、索引、文摘等前处理工作。
2.联机检索(60年代末~70年代初)
• 1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了” 人-机“对话的联机情报检索系统(DIALOG的前身),此后在60年代末 到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、 ORBIT系统、MEDLINE系统都是从这个时期发展起来的。 • 多个检索终端,通过通讯线路与联机检索系统中央计算机(主机)联接 • 利用分时技术,使多个用户可同时与主机以“对话”方式进行检索 • 用户可随时浏览检索结果
检索系统中央计算机直接进行“ 人-机对话”,查找世界各国的情报
文献资料。 • 联机检索系统进入发展的黄金时期。
4.光盘网络检索(90年代-)
• 以太网技术的出现推动了网络版光盘数据库的出现。 • 光盘网络是一种计算机网络,如图书馆局域网 • 实现多用户光盘资源共享 例如:美国“化学文摘”(CA)从1987-1991年的五年累积索引(含文摘)
面使网络信息资源的内容从单一的书目到图文并茂的多媒体,更富有吸 引力和使用价值;另一方面,超文本的广泛利用改变传统的信息组织的
线性方法,使电子资源的组织更接近于“自然”,大大方便了用户的使

第二章信息检索基础知识

第二章信息检索基础知识

属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这类数据库占用很大的比例,其代表性的数据库有
《EI Compendex Plus》(工程索引)、《INSPEC》(科学
文摘)和《全国报刊索引》等。
图书馆提供的基于网络的联机公共检索目录(OPAC)系统
2013-5-17
19
事实数据库
存储的是用来描述人物、机构、事物等信息 的情况、过程、现象的事实数据。
数据库中一部分记录的集合,文档由若干记录构成。
数据库是由一个顺排文档和若干个倒排文档所构成
顺排文档是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识, 如主题词、著者姓名、化学物质名、刊名等,并按 索引词的字顺排列,同时在检索标识后注明入藏顺 序号,这就是常见的数据库中的主题词索引、著者 索引、刊名索引。
26
2013-5-17
(4)超文本检索

超文本(Hyper text) 是利用计算机将多介质信息按照一定的逻辑 联接关系加工、贮存起来,构成可任意连接的、有层次的网状结 构数据库,是一种联想式的综合信息管理系统。

其中的某些字、符号或短语、图形和图像起着“热链路” (Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下 横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上, 并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文 件的另一处或另一个文件。
2013-5-17
14
记录列表
2013-5-17
15
内部特征 外部特征
2013-5-17
16
字段(Field)



字段是构成记录的基本单元,是对文献某一方面的 特征(包括外表特征和内容特征)进行描述的结果。 例如:题名、主题词、分类号、文摘、作者、作者 地址、出版年、来源(出处)等字段是书目数据库 中必备字段。 为识别每一个字段所表达的文献特征,通常每个字 段都有固定的名称和缩写(或称字段标识符),如, 题名字段的标识符为TI,作者字段的标识符为AU等。
光盘:80年代发展起来的激光存储载体,继
纸张感光材料、磁性载体之后问世的又一种新 型的信息存储介质。能存储数据、文字、图形、 图像、声音、动画等各种信息。一张普通的光 盘、信息存储量约为650兆。
光盘的分类:按存储方式分为
(1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM
信息主题
著录 数据库记录及 信息特征标识 标引
检索主题
选定 检索提问式及 提问标识 编制
计算机 类比
2013-5-17
输出 检索结果
6
信息存储过程
信息存储就是按照一定标准,将收集
到的原始文献进行主题概念分析,用 系统规定的语言(主题词、分类号) 进行标引,形成信息的特征标识,进 行整理与排序,构成可供检索的数据 库,主要包括:信息的采集、著录、 标引和整序等过程。
1975年,从国外引进数据库开展机检服务;
1980年,建立国际联机终端开展检索服务;
20世纪80年代中后期,自建数据库;
90年代初,发展光盘检索; 90年代中期,Internet网络化检索阶段。
2013-5-17 3
国外计算机信息检索发展阶段(P5)
脱机检索阶段(20世纪50-60年代)
17
2013-5-17
2.3 数据库的类型*(P3-4)
参考(文献书目型)数据库 全文数据库 事实数据库 数值数据库

2013-5-17
18
参考(文献书目型)数据库
是指包含各种数据、信息或知识的原始来源和属性的数据 库;是机读的目录、索引和文摘检索工具,检索结果是文 献的线索而非原文。 存储的是二次文献,包括文献的外部特征、题录、文摘 和主题词等。
联机检索阶段(20世纪60-80年代)
光盘检索阶段(20世纪80年代中-90年代)
网络信息检索阶段(1995-)
2013-5-17
4
1.2 计算机信息检索的原理

计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,主要包括2个部分: 信息存储是将文献、数值、事实等信息按一定的格式输入 到计算机中,构成可供检索的数据库。主要包括信息的采
光盘检索的定义和特点
定义:是一种用激光技术在特制圆盘上
记录信息的检索方式。 特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。
8

2013-5-17
1.3
计算机信息检索特点
检索速度快,效益高; 检索功能强,数量大; 检索途径多,手段灵活; 检索范围广; 服务方式多。
2 计算机信息检索系统组成
2.1 系统设备 硬件:运算器、控制器、存储器、输入输出装置等 软件:系统操作程序、数据库管理程序、联机控制程序、 应用程序等。 通讯线路:电话通讯网、数据通讯网、卫星通讯网等。 检索终端:信息用户与检索系统主机进行人机对话,实 现联机检索的设备。包括上网设备、调制解调器等。 数据库:是计算机检索的对象。是由一个或数个文档构 成,并能够满足某一特定目的或某一特定数据处理系统 需要的一种数据集合。
2013-5-17 12
2013-5-17
13
记录(Record)

由若干字段组成的文献单元,是数据库中的基本文献
单元,每条记录描述了原始信息的外部和内部特征。
数据库中的一条记录通常代表一篇文献。

例如:在书目型数据库中,一条记录相当于一条题录 或文摘;在全文型数据库中,一条记录相当于一篇完 整的文献;在其它类型数据库中,一条记录则代表一 个信息单元。记录越多,数据库的容量就越大。
2013-5-17 7
信息检索过程

用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机 按照用户的要求将检索策略转换成一系列提问,在专 用程序的控制下进行逻辑运算,选出符合要求的信息 输出。 计算机检索的过程实际上是一个比较、匹配的过程, 检索提问只要与数据库中的信息的特征标识及其逻辑 组配关系相一致,则属“命中”,即找到了符合要求 的信息。
数据库、《Elsevier数据库》等等全文数据库。
2013-5-17
22
3 计算机信息检索的分类
1 按信息资源的存储形式分 2 按信息访问模式分
3.1 按信息资源的存储形式分* (P7-8)
(1)全文检索。 以全文数据库存储为基础的检索方式,所谓全文数据库是 将一个完整的信息源的全部内容转化为计算机可以识别、 处理的信息单元而形成的数据集合。 全文检索系统对全文数据库进行词(字)、句、段落等深 层次的编辑、加工,同时允许用户采用自然语言表达,借 助逻辑组配、截词、邻词匹配等检索手段直接查阅文献原 文信息。 全文检索的应用范围包括:各种科技期刊、专利文献、新 闻报纸、年鉴、百科、手册、图书等全文数据库,例如: 我国引进的OCLC的first search、IEL、Springer Link、 EBSCO等全文数据库以及我国CNKI的中国期刊全文数据库、 重庆维普的中文科技期刊数据库、超星数字图书馆、万方 资源系统的数字化期刊据、地质资料、化学或物理化合物 特性 的文献数据、人口统计资料、市场调 研数据等。
2013-5-17
21
全文数据库

存储的是原始文献的全文,如杂志论文、 报纸新闻、法院案例等。

全文检索可直接获取原始资料,而不是书
目检索时的线索,提高了用户的检索效率。
如:中国知网(CNKI)、万方数据库、维普

系统中各类型数据库数量的发展速度相当快,
拥有数据库约900多个,占全世界机存总量的60%,内容 涉及自然科学、社会科学、经济、商业等各个领域。
DIALOG系统主页(/)
2013-5-17
34
DIALOG WEB系统检索平台
2013-5-17
35
(4) 光盘数据库检索
检索费用高; 对检索系统及其文档(数据库)的收录、 标引、特点等问题较难了解、熟悉; 检索技术和技巧不易掌握
2013-5-17
32
世界上最著名的国际联机检索系统
1、DIALOG系统*

是世界最大的国际联机检索系统 1963年,原属美国洛克希德公司,系统设在加洲Palo Alto市,1988年转让给美国Knight-Ridder公司。2000年 又转入DIALOG公司经营。目前,该系统的联机服务网 遍布世界70多个国家和地区的200多个城市,共设有联 机检索终端25000余台。
2.2 数据库的构成
一定专业范围内的信息记录及其索引的集合
体,是计算机信息检索系统的重要组成部分, 是信息资源,是检索对象。
构成数据库的三大要素:
文档——记录——字段
一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的 重要组成部分,是信息资源,是检索对象。
2013-5-17
11
文档(File)
2013-5-17 28
(3)国际联机检索*
该系统是70年代出现的一门现代化情报检 索手段,目前已发展到相当高的水平,计 算机联机网络和检索终端已遍及世界所有 主要国家和地区。 优点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。
国际联机检索的缺点
第二章 计算机信息检索技术
郑州大学信息检索教研室
2013-5-17 1
第1节 计算机检索概述 第2节 计算机信息检索系统组成
第3节 计算机信息检索的分类
第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
相关文档
最新文档