第二章 计算机信息检索概述

合集下载

计算机复习信息检索

计算机复习信息检索

计算机复习信息检索信息检索是指通过计算机技术,根据用户的需求,在大规模的信息资源中准确、快速地找到相关的信息。

在当今信息爆炸的时代,信息检索的重要性不言而喻。

本文将介绍信息检索的基本概念、技术和应用,并附带答案和解析。

一、信息检索概述信息检索是指通过计算机对大规模信息资源进行全文检索、关键词检索等方式,根据用户需求提供相关信息的过程。

其目标是提高检索准确性和检索效率,帮助用户快速获取所需信息。

信息检索系统由信息资源、检索模型、检索方法和用户界面等组成。

其中,信息资源包括数据库、文档集合等;检索模型包括向量空间模型、布尔模型等;检索方法包括倒排索引、词频统计等;用户界面提供检索接口供用户输入查询词,并显示检索结果。

信息检索的基本流程包括:用户输入查询词->检索系统进行查询处理->检索系统返回相关文档。

二、信息检索技术1. 关键词检索关键词检索是最常见的信息检索方式,用户通过输入关键词,检索系统根据关键词在信息资源中进行匹配,并返回相关文档。

关键词检索常用的算法有向量空间模型、TF-IDF算法等。

全文检索是指对文档集合中的全部文本进行检索,而不仅仅是关键词。

全文检索主要通过分词、建立倒排索引等技术来实现。

用户输入的查询词可以是一个短语或一句话。

3. 自然语言查询自然语言查询是指用户使用自然语言进行查询,而不是像关键词查询那样只输入几个词。

自然语言查询需要将用户的自然语言转化为计算机可处理的查询语言,如SQL语句。

4. 语义检索语义检索是一种基于语义理解的检索方法,通过对查询词的语义进行分析,实现更精准、准确的检索。

语义检索常用的技术有词义消歧、词向量模型等。

三、信息检索应用1. 搜索引擎搜索引擎是信息检索的最常见应用之一,在互联网上广泛使用。

搜索引擎通过爬虫程序对互联网进行爬取,建立庞大的索引库,并通过用户输入的查询词返回相关页面。

2. 文献检索在学术界和科研领域,文献检索是非常重要的工作。

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

信息检索课件第2章

信息检索课件第2章
学术评价与评估
信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。

第二章 信息检索基础

第二章 信息检索基础

2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。

第二章 信息检索的基本知识

第二章 信息检索的基本知识

应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7

第二章 信息检索原理

第二章 信息检索原理
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4

信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

信息检索基础知识

信息检索基础知识

46
计算机信息检索系统工作流程

输入子系统——选择收集特定范围的信息资源、按系统 指定款式输入系统 处理子系统——处理加工经过鉴定、选择好的数据和信 息,使其成为易于存储和检索的形式。 存储子系统——将加工处理后的信息按某种规定有序聚 积在存储载体上以构成可检文档。 传输子系统——通过计算机与通信线路的连接,完成信 息编码的传递、转接、处理与接受。 输出子系统——根据用户需求有效输出各类最终信息产 品。 控制子系统——根据系统内外环境变化,适时调控,保 障系统的有效输入、有效存储、有效输出等环节的协调 运行。
16
三、计算机信息检索系统 2、计算机信息检索系统的类型
计算机单机信息检索系统(20世纪50年代 初——60年代中期) 计算机联机信息检索系统( 20世纪60年 代中——70年代中期) 计算机光盘信息检索系统( 20世纪70年 代中——80年代中期) 计算机网络信息检索系统( 20世纪80年
(期).页码
10
二、手工信息检索系统
5、几种常用的手工信息检索工具 《中国农业文摘》: 81年创刊、85年起分7个分册 刊期、类型:双月刊、文摘型 检索途径:分类、主题、著者 著录格式:分类号 顺序号 题目 /作者
// 刊名, -年,卷(期). -页码 文摘正 文…… 图x 表x 参x (文摘员)
23
一、信息检索语言概述
信息检索语言是人们在加工、存储
及检索信息时所使用的标识符号; 信息检索语言是索引款目所使用的 标识系统; 信息检索语言可以是对自然语言作 规范化处理后的词汇与技术语言, 也可以是某类事物及其某方面特征 的代码。
24
二、信息检索语言的基本类型
1、按构成原理分:

书目型数据库及参考工具书

书目型数据库及参考工具书

语种。
在线 帮助
(4)专家检索(Expert)
•命令式检索,可构建复杂的检索式 •适合熟悉系统命令的有经验的检索人员 •使用布尔算符、位置符、括号和字段标识符
(例如ab=或 ti=)
2.确定检索途径
author, title, keywords, journal title
subject, descriptor (主题词) All fields
912 (Industrial Engineering & Management); 913 (Production Planning & Control;
Manufacturing) 这条记录由若干个字段(著录项目)组成
字段 (field) 记录由若干个字段(著录项目)组成。每个字段标出字 段名称,字段文献特征的记录,题名(title)、作者
system,the architecture for the integrated model of the enterprise information system was proposed, which was derived from CIMOSA (computer integrated
systems Industry; Information management; Manufacturing data processi ng
/ID
Identifiers: Business activity; Business process; Enterpriseinformation
system; Object oriented model; Workflow technology CC= EI Classification Codes: 912.2 (Management); 913.4(Manufacturing)

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第二章信息检索基础1

第二章信息检索基础1

化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。

信息检索概述

信息检索概述

目前,我国各大文献数据库《中国 科学引文数据库》、《中国学术期刊 综合评价数据库》以及数字化图书馆、 中国期刊网等都要求学术论文按《中 图法》标注中图分类号。
(2) 主题语言
主题语言是指以自然语言的字符为字 符,以名词术语为基本词汇,用一组名 词术语作为检索标识的一类检索语言。 主题语言表达的概念比较准确,具有较 好的直观性、灵活性和专指性,满足用 户从主题概念角度检索新兴专业学科、 交叉学科文献信息的要求。
本校图书馆主页——可查中图分类号
TM 电工技术 TM0 一般性问题 TM1 电工基础理论 TM2 电工材料 TM3 电机 TM4 变压器、变流器及电抗器 TM5 电器
TM6 发电、发电厂 TM7 输配电工程、电力网及电力 系统 TM8 高电压技术 TM91 独立电源技术(直接发电) TM92 电气化、电能应用 TM93 电气测量技术及仪器
第二章信息检索概述
2.1信息检索的涵义
信息检索的概念有狭义和广义之分。
狭义的信息检索(Information Retrieval) 是指依据一定的方法,从已经组织好的大量有关文 献集合中,查找并获取特定的相关文献的过程。这 里的文献集合,不是通常所指的文献本身,而是关 于文献的信息或文献的线索。如果真正要获取文献 中所记录的信息,那么还要依据检索所取得的文献 线索索取原文。
以知识属性来描述和表达信息内容的信 息处理方法称为分类法。《国际专利分 类表》、《中国图书馆分类法》等。
中国图书馆分类法简表(第四版)
A
马克思主义、列宁主义、 毛泽东思想、邓小平理论
B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 TB 一般工业技术

计算机信息检索技术

计算机信息检索技术

2.1 检索系统的功能模块
词表管理子系统——主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。
01
用户接口子系统——一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural language)。
F27 企业经济
F29 城市与市政经济
F3 农业经济
F4 工业经济
F7 贸易经济
F72 中国国内贸易经济
F73 世界各国国内贸易经济
F74 国际贸易
F75 各国对外贸易
F8 财政、金融
F81 财政、国家财政
F82 货币
F83 金融、银行
F84 保险
T 工业技术
(2)数据检索Data Retrieval
是指查找用户所需特定数据的检索。
例:我国第五次人口普查中全国汉民族的人数。
利用各种词典、手册、百科全书、年鉴、等参考工具书进行检索,也可以利用专门的数据库进行检索。
熔点、电阻系数,计算公式、数据图表,化学分子式等。
(3)事实检索Fact Retrieval 是将存储于检索系统中的关于某一事件发生的时间、地点、经过等信息查找出来的检索。它回答的问题诸如:“有哪些海外华人得过诺贝尔奖?” 工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual, yearbook, almanac)手册(handbook, manual)名录(biography)和书目指南(directory) 例:第三届全国ITAT教育工程就业职能大赛项目瑞萨超级MCU模型车大赛的比赛,福建工程学院学生的获奖情况。某同类汽车产品中,哪种牌号的销量

计算机信息检索概述

计算机信息检索概述

可编辑ppt
27
终端系统
终端系统是人与系统的接口设备。它能 将字符、声音以及人类的信息表现形式转换 成系统的机器代码。反之,将系统的结果还 原成字符、声音等形式,传送给终端用户。
可编辑ppt
28
国际联机检索
• 70年代中后期。(联机检索基础上的扩充到 国际)
可编辑ppt
29
• 优点:这种方式可以边检索边修改检索策 略,而且检索速度快,多用户可同时检索, 检索不受地理位置限制,检索功能多样化, 打印输出灵活,检索结果可进行多种分析 处理,大大方便检索用户和提高检索质量。
可编辑ppt
19
混合数据库
这类数据库兼有源数据库和参考数据库的特点, 按载体形式它又可分为以下四种类型:
• 磁媒体数据库
• 光盘数据库
• 多媒体数据库:是一种能够对文字、数值、声音 和图像等不同性质的媒体进行一体化处理和管理的 新型数据库
• 超媒体数据库。通过外部树形的链接将多种类型 的媒体连成一个集合,该集合称为超媒体数据库。
可编辑ppt
33
• 局限:数据更新有一定的周期,时效性、 灵活性比不上联机检索;目前光盘数据库 容量有限,一般是按专业和领域建库,收 录范围不够广泛;适用对象的局限性,因 为一次性购买费用高,对使用频率不高的 单位或个人来说成本较高;设备和软件的 兼容性较差,各种光盘数据库检索系统目 前还难以实现标准化和统一化。
可编辑ppt
47
位置算符检索就是利用一些特定的位置 算符来表达检索词之间的位置关系,并且可 以不用叙词表而直接使用自由词进行检索的 方法。有的书上还把这种检索称为原文检索。 这种检索在利用TI和AB途径检索时,对检索 质量影响很大。
常用的位置算符有:W、W/N、WITH、 WITHIN、nW、PRE、N、NEAR、ADJ、nN、 F、SAME

第2章 计算机信息检索技术

第2章 计算机信息检索技术
顺排文档是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识, 如主题词、著者姓名、化学物质名、刊名等,并 按索引词的字顺排列,同时在检索标识后注明入 藏顺序号,这就是常见的数据库中的主题词索引、 著者索引、刊名索引。
2019/11/29
利用多媒体检索系统可分别进行视频检索、声音检索、 图像检索。多媒体信息检索系统有着广阔的应用前景, 它将广泛用于电子会议、远程教学、远程医疗、电子图 书馆、艺术收藏和地球资源管理、天气预报、时装设计、 智能群体决策、计算机支持协同工作、金融市场、军事 指挥系统、防汛指挥系统等方面。
各大网站均可进行多媒体信息的检索,如:GOOGLE、百 度等搜索引擎、新华社多媒体数据库是国内最大规模的 多媒体、多文种新闻信息综合性数据库。
2019/11/29
25
(2)二次文献检索*
是针对全文检索而言,也就是分别将文献的内部特征 (题名、分类等)和外部特征(作者、出处、年代、 ISSN、语言等)作为存储和检索的匹配标识而形成 的数据集合,利用检索系统的检索结果是文献信息的 题录及文摘。
学科领域覆盖面广,信息量大,可以利用文献线索获 取到一次文献。
全文检索系统对全文数据库进行词(字)、句、段落等深层 次的编辑、加工,同时允许用户采用自然语言表达,借助逻 辑组配、截词、邻词匹配等检索手段直接查阅文献原文信息。
全文检索的应用范围包括:各种科技期刊、专利文献、新闻 报纸、年鉴、百科、手册、图书等全文数据库,例如:我国 引进的OCLC的first search、IEL、Springer Link、EBSCO等 全文数据库以及我国CNKI的中国期刊全文数据库、重庆维普 的中文科技期刊数据库、超星数字图书馆、万方资源系统的 数字化期刊、学位论文、会议论文等。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机信息检索概述
1.分析研究课题;2.选择检索系统 3.确定检索途径;4.制定、调整检索 策略 2.3.2 检索效果的评价指标 1.查全率和查准率 2. 两者的局限性 3. 影响查全率和查准率的主要因素 4. 提高检索效果的措施和方法 2.3.3 检索策略 1. 信息需要的分析 2. 检索课题的分析 3. 选择数据库 4. 编制检索提问式
G 文化、科学、体育、教育
H 语言、文字 I 文学
下页: 继续
J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学.安全科学 Z 综合性图书
下页: T类又可分为以下几类
• 信息检索的类型(根据不同的检索对象): • 数据检索:检索的结果是数据。如某种材料的电阻;某变 压器的参数;化学分子式、数据图表等<手册> • 事实检索:检索的结果是事实结论。查询某一事物(事件)
的性质、定义、原理以及发生的时间、地点过程等。如某
产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星 是什么时候升空的<年鉴>
它是检索信息所使用的人工语言,是从自然语言中精 选出来并加以规范化的一套词汇符号,用以对信息内容进 行概括其内容或外在特征的概念及其相互关系的概念标识 体系。检索语言由词汇和语法两部分组成。
2.2.1 检索语言基础知识
1.等同关系 2.从属关系 3.相关关系
第2章
计算机信息检索概述
2.主题语言 3.关键词
TP 自动化技术 计算机技术
TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网
第2章
计算机信息检索概述
2.主题语言
主题语言是使用词语标识的一类信息检索语言,又称主题 法。它是一种描述语言,即用自然语言中的名词、名词性词 组描述事物概念的中心语义。以反映特定事物为中心,不论 学科分野和科学技术的逻辑序列,直接借助于自然语言的形 式,作为信息内容的标识和检索依据的一种以主题字顺体系 为基本结构的检索语言。它给人们以直观的感觉。
《中图法》从大类到小类,层层展开,不断细分,形 成完整的知识体系。例如: 关于红楼梦研究资料的分类为 I207.411 I 文学 I2 中国文学
I207 文学评论和研究
I207.4 小说研究 I207.41 古代小说研究 I207.411 《红楼梦》研究与评论
下页:又 例
有关互联网的知识分类为TP393.4 T 工业技术
1.功能:报道/存储/检索 2.评估标准:收录范围/标识详略/时效/检索手段 3.类型: 参考数据库/源数据库/混合数据库 4.构成模式:信息数据的选择、处理、录入、维护子 系统/词表和标引子系统/检索子系统/用户接口子系统 5.组织模式:(1)传统方式 (2)现代方式
第2章
计算机信息检索概述
2.2 计算机信息检索语言
下页:中国图书馆分类法 图
中国图书馆分类法
社会科学
A马列 主义, B哲学 毛泽东 思想
自然科学
Z综合 性图书
C、D、E、F、G、 H、I、J、K
O、P、Q、 R、S、T、 U、V、 X
下页:层层展开 例
TB、TD、TE、TF、TG、TH、 TJ、TK、TL、TM、TN、TP、 TQ、TS、TU、TV
第2章
计算机信息检索概述
2.1 计算机信息检索基本概念
2.1.1 发展、条件和类型
1. 计算机信息检索的发展历史
(1)脱机批处理阶段
(3)光盘检索阶段
(2)联机检索阶段
(4)网络化检索阶段
2.计算机信息检索的条件
(1)物质条件 (2)人员素质条件
3.计算机信息检索的类型
(1)文献检索 (2)数据检索 (3)事实检索
下页: 《中图法》介绍
《中图法》介绍
《中图法》——《中国图书馆分类法》,以学科 来组织知识,将全部知识领域划分为5个基本部 类,22大类。 五大部类分别为: • 马列主义、毛泽东思想;
• 哲学;
• 社会科学; • 自然科学; • 综合性图书。
下页: 22大类分别为:
22大类分别为:
A 马列主义 .毛泽东思想.邓小平理论 B 哲学.宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济
3.关键词
关键词是表达用户信息需求和检索课题内容的基本元素, 也是计算机检索系统进行匹配的基本单元。务必要在分析课 题的主题概念中掌握课题的内容实质,概括出能最恰当地代 表主题概念的关键词。
第2章
计算机信息检索概述
2.3 计算机信息检索原理、步骤和检索效果 2.3.1 计算机信息检索的步骤
第2章
下页:描述文献内容特征的检索语言 __文献分类法与文献主题法
分类法
世界上有代表性的分类法: 1 《杜威十进制分类法》(Dewey Decimal Classification and Relative Index 简称DDC) 2 《国际十进制法》(Universal Decimal Classification,简称UDC)(被 广泛应用于科学论文的分类 ) 3 《中国图书馆分类法》(后面详述) 4 《美国国会图书馆图书分类法》(Library of Congress Classification,简称《国会法》或LC)(目前广泛应用于北美大中型图书馆, 特别是大学等学术性图书馆 )
2.2.2 检索语言的类型
1.分类语言
题名语言:一般按题名字顺逐字排检
描述文献外部 特征的语言
著者语言:一般按姓前名后的字顺逐字排检 号码语言:如专利号、标准号、ISBN号、ISSN号
描述文献内容 特征的语言
分类语言:如图书分类法—— 中图法、科图法 (规范化的语言)、国际十进分类法(UDC)
主题语言:自然语言 人工语言
返回目录
查全率:(Recall Ratio) 指系统在实施某一检索
作 业时,检/系统数据库中的相关文献总量
查准率:(Precision Ratio)指系统在实施某一检 索作业时,拒绝不相关文献的能力。公式表示为:
P=检出的相关文献量/检出文献总量
• 文献检索:检索的结果是文献资料。查找相关文献的内容、
出处、收藏单位等。如系统地查找C程序设计方面的相关 文献<论文、书籍等>
2.1.2 计算机信息检索的原理(见下图)
第2章
计算机信息检索概述
2.1.3 计算机信息检索系统
指按某种方式、方法建立起来的供读用户检索信息的一 种有层次的信息体系。它对所收录的信息的外部特征和内 容特征都按需要有着详略不同的描述,按一定序列编排成 一个有机的整体,同时应具有多种必要的检索手段。其中 二次信息或三次信息是信息检索系统的核心和概括。
T类又可分为以下几类
TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TD 矿业技术 TF 冶金工业 TH 机械、仪表工艺 TK 动力工程 TM 电工技术
TN 无线电电子学,电信技术
TP
TQ TU
自动化技术,计算机技术
化学工业 建筑科学 TS TV 轻工业、手工业 水利工程
相关文档
最新文档