信息检索第六章计算机信息检索概
第六章__事实数据信息检索.
第二节 印刷型参考工具书简介
• 一、类型和作用
• (一)词、字典 • 词、字典是字、词或词语的某些成分、根据 一定编纂目的加以处理和编排,供人们查考的工 具书。就广义而言,词典分为语文词典和知识词 典(学科词典)两大类,前者词语的语言方面的 知识或本身的意义,后者提供词语的学科方面的 知识、即解释在专科领域内词语所代表的事物和 概念,作一定广度和深度的叙述。
• (四)手册
• 手册(Handbook, Manual)是一种便捷式参考书 (Ready Reference Book), 它的信息、知识密集,是些经常要查阅、 参考的资料和数据。手册内容及时修订,编排合理,使用 方便。科技手册是参考工具书中的一大门类,其内容广泛、 种类各异,。它有综合性手册和专业性手册之分,以专业 性为主。专业性手册包括:数据型手册、知识型手册、设 计手册以及产品手册等。数据型手册提供各种常数、参数、 计算公式、曲线、图表、图示、线路图等,是一种简明、 实用的检索工具。知识型手册以文字叙述为主, 阐述科学原 理、专业技术、物化性能等学科知识,也配有适当公式和 图表,它们既可检索,也可阅读。设计手册为科技人员、 专业设计人员提供所需知识和数据,是他们在工作中经常 使用的工具。产品手册具有产品说明书作用,介绍产品名 称 、 技 术 指 标 、 标 准 、 生 产 厂 商 等 。
• 类书与百科全书的区别
• 将类书视为古代百科全书未尝不可,但不能与现代百科全书相提 并论,正如西方现代百科全书与古代百科全书也远不是一回事了。 类书与百科全书相比,不同之处具体表现在下列方面: 一是编纂方式不同。类书是辑录原始资料,重在资料性,是原始 资料的汇集。百科全书是根据已有的资料进行加工整理,是对已有知 识的加工、整理和浓缩,反映了编纂者本人的知识水平。 二是编排方式不同。类书是根据原始资料分类进行编排,通过分 类编排反映原始资料之间的内部联系。百科全书则是以条目的字顺进 行编排,条目之间通过索引反映内部之间的联系。 三是内容有别。类书一般侧重于文史资料,而百科全书以反映人 类全部知识为己任,对自然科学方面的知识更为重视。 四是后期工作不同。类书编纂完成以后,一般很少进行补充或修 订。而百科全书有连续修订制度,一般每隔5到10年要进行一次全面 修订,保证知识的准确性。 此外,百科全书有完备的索引体系、部分条目有参考书目指引读 者进一步阅读等,也是类书不具备的。因此从根本上讲,类书与百科 全书不是同一种工具书。
计算机信息检索
中国科技信息研究所
中国科技信息研究所(ISTIC) 其网址是: 。 ISTIC是我国最大的一个科技信息服务 中心,向全国联机终端提供检索服务。
开发应用的数据库:
· 中国科技文献数据库(光盘) · 中国学位论文目录数据库(软盘、光盘) · 中国学术会议论文数据库(软盘、磁带、光盘、 联机检索) · 中国学术会议论文数据库(软盘、磁带、光盘、 联机检索) · 中国科技信息机构数据库(光盘、联机检索) · 西文文献目录数据库(联机检索) · 科技动态数据库(联机检索) · 科技声像资料联合目录数据库(软盘)
2.3国际互联网检索
2.3.1互联网检索特点 也称因特网,它具有全球性的分布结构、开放性的信 息环境及跨国界的信息流。互联网的检索可同时使用 网上多个主机,甚至所有主机的某种资源而并不需要 用户预先知道它们的具体地址。这就极大扩宽了其检 索的空间和信息量,包括各种文献信息资源及其指向 的网络页面。而传统的联机检索、光盘检索只局限在 对一台或几台主机上的特定数据库的检索。但在另一 方面,互联网信息庞杂,正式与非正式信息及其交流 渠道共存,信息缺乏有效的组织管理,因此很难用一 般意义上的查全、查准这些概念来衡量其检索。目还 没有一个对所有在线服务行之有效的简单检索模式。
2.1.2联机数据库的结构
数据库主要由“文档——记录——
字段”三个层次构成。
文档(File)
文档是数据库内容的基本组成形式。是由若干 个记录构成的信息集合。分顺排和倒排。 顺排:将数据库记录按记录号大小排列而成。 倒排:以记录的特征标识为排列依据,在后面列 出含此标识的记录号。 一个数据库一般含有一个顺排文档及数个倒排文 档。
中文数据库:
第六章 计算机信息检索基础知识
25
�
2
二,计算机信息检索的基本概念
利用计算机,根据用户的提问, 利用计算机,根据用户的提问,在一 定时间内, 定时间内,从经过加工处理并已存储在计 算机存储介质内的信息集合中查出所需信 息的一种方式. 息的一种方式.
3
三,计算机信息检索系统构成
1,硬件 , 2,软件 , 系统软件和应用软件. 系统软件和应用软件. 3,数据库 , 数据库是至少由一种文档组成, 数据库是至少由一种文档组成, 能满足特定目的或特定数据处理系统 需要的数据集合. 需要的数据集合.
19
第二节 DIALOG联机检索命令 联机检索命令
一,BEGIN(或B)选库命令 ( )
?BEGIN 文挡名 ?B 文挡名 ?BEGIN 文挡号 ?B 文挡号
20
二,sf调文档命令 sf调文档命令
只在打开411 库时有效 只在打开 ? 8,12,63,72…… , , ,
21
三,SELECT(或S)选词命令 ( )
23
六,DISPLAY SETS (或DS)联 或 联 机显示命令
用于显示相应的检索结果, 用于显示相应的检索结果,具体指令格 式与TYPE相同 式与 相同
七,LOGOFF结束检索过程命令 结束检索过程命令
24
第三节 联机检索的一般步骤
1,分析信息需求; 2,选择系统及数据库; 3,确定检索途径; 4,选择检索项; 5,编制检索式; 6,上机检索; 7,输出检索结果; 8,退出联机检索系统
22
STEPS( SS) 四, SELECT STEPS(或SS)命令
SS computer? and image? S1 597 computer? S2 176 image? S3 105 computer? and image?
《计算机信息检索》课件
文本分类和聚类是信息检索的重要分支,可以应用 于新闻分类、情感分析、用户画像等领域。
总结与展望
信息检索技术在互联网时代得到了迅速发展,带来了巨大的社会效益。未来, 我们期待信息检索技术能够更好地服务于人类,推动人类文明的进步和发展。
PageRank算法
基于网页之间的链接关系,计算每个网页的重 要性。在搜索引擎中得到了广泛应用。
信息检索系统的评价和改进
1
评价指标
包括准确性、召回率、F1值等。不同的应用场景,评价指标也不尽相同。
2
用户反馈和系统优化
通过分析用户的搜索行为和反馈信息,改进系统的查询策略、排序算法等,提高 用户的满意度。
包括词汇歧义、查询扩展、语义匹配等 问题。如何解决这些问题是信息检索领 域的重要研究方向之一。
常用的信息检索模型和算法
向量空间模型
将文本表示为向量,通过计算向量之间的相关 度来匹配查询和文档。
倒排索引
通过维护词项和文档之间的映射关系,加速查 询过程,是大规模文本数据检索的核心技术。
布尔模型
将查询和文档表示为布尔表达式,通过逻辑运 算来判断文档是否满足查询条件。
计算机信息检索
通过信息检索,我们可以在海量数据中找到准确、可靠、有用的信息。让我 们一起探索这个令人兴奋的领域吧!
课程介绍
1 课程目标
了解信息检索的基本概念和技术,掌握信息检索的方法和实现。
2 课程大纲
从基本概念出发,逐步介绍信息检索的原理、模型和算法。最后,展示信息检索在实际 应用中的价值和意义。
3 教学方法
讲授理论知识,并通过案例分析和实验练习,加深学生对信息检索的理解和掌ቤተ መጻሕፍቲ ባይዱ。
相关概念和技术
1
2019信息检索课件第6章
? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告(2019.1 )显示,绝大多数网络信息 来自商业网站,来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价 (IT)
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主,辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章 网络信息的选 择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3
计算机信息检索基本原理及检索技术
局限性
处理复杂语言现象的能 力有限,对某些专业领 域和特定语言的处理效 果有待提高。
机器学习与信息检索
概念
机器学习是人工智能的一个分支,通过训练让计算机自动学习并改进 检索算法。
应用
利用机器学习算法对大量数据进行训练和学习,自动提取特征并分类, 提高信息检索的准确性和效率。
优点
能够自动优化和改进信息检索算法,提高检索效果。
结果评价是对检索结果进行评估,判 断其是否满足用户的信息需求。
信息检索系统
信息检索系统是实现信息检索 的工具或平台,它能够从各种 信息源中获取、存储、组织和
检索信息。
常见的信息检索系统包括图 书馆信息系统、搜索引擎系 统、学术论文数据库等。
信息检索系统的性能和效果取 决于其信息组织方式、索引技 术、检索算法等多个因素。
信息检索过程
信息检索过程包括信息需求分析、信息源选择、 信息检索策略制定、信息检索实施和结果评价 等步骤。
信息需求分析是信息检索的前提,需 要明确用户的信息需求和信息类型。
信息源选择是根据信息需求选择合适 的检索工具或数据库。
信息检索策略制定是根据信息源的特 点和信息需求制定相应的检索策略。
信息检索实施是执行检索策略,从信 息源中获取相关信息。
解决信息隐私保护的方法包括立法保护、技术手 段如加密和匿名化等。
信息检索技术的未来发展
01
信息检索技术的发展趋势包括智能化、语义化、移动化和社交化等。
02
智能化技术如机器学习和人工智能动信息检索向更深层次的知识层面发展。
04
移动化和社交化的趋势将使信息检索更加个性化和社交化,提高用户 参与度和满意度。
语义鸿沟问题
01 语义鸿沟是指用户与信息之间的理解差距,导致 用户难以找到所需内容。
计算机检索基础
3、事实型数据库: 事实型数据库是以事物发展过程中产 生的事实性信息为存贮内容的数据库。如 自然资源数据库、人口数据库、名人数据 库和机构名录数据库等。
这类数据库除存贮基本事实数据外, 也存贮数学运算和逻辑运算规则,能同时 提供文本信息和数值数据。用户只要通过 人物、机构或事物名称及有关事项进行检 索,就可获得特定的事实或数值信息。
(心脏瓣膜疾病OR心力衰竭)AND手术并发症
(2)位置算符检索
位置算符 是指表示词与词之间位置关系的算 符,又称邻近度算符。常用位置算符有 near、 with、(nW)、(W)等 。 作用:是限制词与词之间的位置关系,弥补 布尔逻辑算符只是定性规定检索词的范围,更加 明确检索词之间的逻辑关系,缩小检索范围,提 高检索的查准率。
(二)计算机信息检索系统的构成
计算机信息检索系统通常由计算 机硬件、检索软件、数据库和通信网 络等组成。其中数据库是计算机信息 检索系统的核心。数据库的质量直接 影响计算机信息检索系统的功能和效 率。对数据库的了解是掌握计算机信 息检索技术的前提。
(三)数据库的概念与结构
数据库是指在计算机存贮设备上 按一定方式存贮的相互关联的文献 信息集合,它可以由一个或多个文 档(File)组成。 文献信息数据库主要由文档、记 录、字段三个层次构成。
三、检索策略的编制与调整
检索策略 是指为实现检索目标而制定的全 盘计划和方案,是对整个检索过程的谋划和指导。 由于计算机信息检索是由计算机程序来控制和执 行检索匹配操作,检索者与具体的检索过程是分 离的,因此,事前制定适宜的检索策略,是成功 检索的关键。 广义的检索策略包括信息需求分析、选择数 据库、确定检索途径和标识、编制检索表达式并 准备多种检索方案和步骤等。 狭义的检索策略包括确定检索词和根据需要 运用各种运算符编制检索表达式的构思过程。
信息检索考试学习资料
第二章信息与信息资源第一节信息、知识、情报和文献一、信息、知识、情报和文献的1、信息信息是客观存在的事物现象,是生物体或具有一定功能的机器可以感知的客观事物发出的一切有意义的信号和信息。
2、知识知识就是人类认识的成果或结晶,知识也就是信息,是信息的高级形式。
3、情报情报是指用不同的方法和手段,在有效的时间内所获得的有针对性和有价值的知识。
4、文献人们用文字、图形、符号、声频和视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或设置在感光胶片上,或录制在胶片上,或存储在磁带、磁盘上。
这种附着在各种载体上的知识,统称为文献。
文献就是记录有知识的一切载体。
5、信息社会建立在以知识生产、分配、加工和利用基础的新型社会。
第二节信息资源的类型一、按出版形式分1、图书2、期刊3、科技报告4、会议文献5、学位论文6、专利文献7、标准文献8、技术档案9、产品资料10、政府出版物二、按加工内容的深度分1、零次文献未经公开发表或未交流的文献2、一次文献是指以作者本人的研究成果为依据而创作的原始文献。
如学术报告、报刊论文、科研报告、学位论文、档案资料、会议论文等。
3、二次文献二次文献是对具有信息检索价值的一次文献进行搜集、整理、加工、提炼,按一定顺序组织起来的文献。
主要包括书目、索引、文摘、题录等。
是用来报道和检索一次文献的检索工具或检索系统。
4、三次文献是指利用二次文献,搜集大量一次文献进行研究,经过系统整理综合分析而撰写出来的文献。
主要包括综述、年鉴、词典、手册等。
第三章信息检索第一节信息检索概述一、信息检索的定义广义的讲,信息检索就是将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
它包括信息存储和检索两个过程。
狭义的讲,信息检索是从信息集合中找出所需要的过程,即信息的检索过程。
二、信息检索原理信息检索的基本原理就是将信息存储和检索两个过程中的存储特征标识和检索提问标识进行对比,二者匹配达到一致,即可获取符合条件的信息。
计算机信息检索
计算机信息检索的发展趋势
4. 信息聚合和分析系统的智能化发展
随着大数据技术的不断发展,越来越多的数 据被收集和分析。因此,信息聚合和分析系 统的智能化发展成为了一个重要的研究方向 。智能化发展可以通过自动化的数据处理和 分析技术,提取有用的信息和知识,为用户 提供更加智能化的决策支持和服务。同时, 智能化发展还可以结合深度学习等技术,进 一步提高数据处理和分析的准确性和效率
4. 个性化推荐系统
个性化推荐系统是通过对用户历 史行为和兴趣进行分析,为用户 推荐相关的信息和产品。常见的 个性化推荐系统有电商推荐系统 、音乐推荐系统等。这些系统在 功能和性能上各有特点,需要根 据具体应用场景进行索的发展趋势
1. 深度学习在信息检索 中的应用
20XX
计算机信息检
索
-
第一部分 第二部分 第三部分 第四部分 第五部分
计算机信息检索的基本概念 计算机信息检索的研究内容 计算机信息检索的应用领域 计算机信息检索的发展趋势
结论与展望
计算机信息检索
A
计算机信息检索是一门研究如何有
效地利用计算机技术从数字化信息
中获取、处理、组织和检索信息的
科学
B
1. 搜索引擎
搜索引擎是计算机信息检索的重要应用领域 之一,它通过爬取互联网上的网页和其他资 源,建立索引功能和性能上各有特点,需要 根据具体应用场景进行选择和优化
计算机信息检索的应用领域
2. 学术搜索引擎
学术搜索引擎是专门针对学术领 域的信息检索工具,它通过爬取 学术论文、专利、会议论文等资 源,建立索引并为用户提供搜索 服务。常见的学术搜索引擎有 Google Scholar、CNKI等。这些 学术搜索引擎在功能和性能上各 有特点,需要根据具体应用场景 进行选择和优化
文献检索 第六章 网络资源检索
维普资讯、主要大学发表的学术期刊、公开的学术期刊、
中国大学的论文以及网上可以搜索到的各类文章。
Goolge学术搜索进入
点击“更多”
Goolge学术搜索进入
进入“学术搜索”
Goolge学术搜索页面
快速检索输入框
Google Scholar搜索举例
33
学术高级搜索
下载全文
可精炼检索
全文下载
全文下载
通过ZADL联合目录检索时,所检索到的文献,本馆 如有馆藏则可直接获取全文。如果没有全文,可通过两 种途径获取,一是使用云图书馆传递全文,通过邮箱接 收全文。二是通过文献传递系统获取全文。
41
ZADL资源
二、文献传递新系统注册及使用
系统与统一身份认证绑定,所有读者都必须进行“新用 户注册”。
42
1.打开图书馆主页,点击ZADL门户网站,链接 至ZADL省中心主页,点击“统一身份认源定位器)中含有某个词的检索 语法 语法3:inurl:xxx(网址含有xxx) yyy(网页标题中 含yyy) 【例】查找网址中含有sina、网页标题中含网络安全的 网页(检索结果见下页) 语法式:inurl:sina 网络安全在线首页
免费资源
37
初级检索
高级检索
38
初级检索结果
点击篇名 下载全文
39
全文下载
下载全文
40
ZADL资源与文献传递
ZADL简介及服务内容
是浙江省高校数字图书馆(Zhejiang Academic DigitalLibrary)的简称,是由全省高校共同参与建成 ,面向全省高等院校的数字化文献信息保障服务体系。 ZADL门户网站于2011年1词或多个词的检索语法 检索语法1:intitle:检索词 检索语法2:allintitle:检索词A 检索词B 检索语法3(网页标题里含有A、网页文本中含有B): 检索词B intite:电力市场 返回网页标题里含有“电力市场” 的结果
ch6_信息检索1
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
计算机信息检索系统的构成 硬件设备 :主机、检索终端、通信设备、
输入输出设备
软件设备 :系统软件、应用软件、数据库
27
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
数据库:至少由一种文档组成,并能
满足某一特定目的或某一特定数据处 理系统需要的一种数据集合。
存储:原始文献 --- 文献标识.存储 --- 检索工具 19
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
广义的信息检索系统就是信息的存贮和 检索的系统 狭义的信息检索系统就是信息检索工具
20
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
分类: 手工信息检索系统和计算机信息检索系统 发展: 手工信息检索系统
43
2013-9-10
第二节 信息检索的类型程序与方法
二、信息检索的基本程序
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
手工信息检索工具的著录对象 单位出版物: 目录:单位出版物 以文献独自名称作为一个完整出版单位的 题录:单位出版物中的单篇文献 出版物 文摘:单位出版物中的单篇文献 一本书《现代信息检索》 索引:单位出版物或单篇文献中的知识单元 一种刊《四川农业大学学报》 24
31
2013-9-10
第一节 信息存储的基本程序与方法
五、信息的存储
辅助索引字段
表达文献外表特征的字段
文献信息检索第六章网络信息资源检索利用
选择搜索引擎 检索对话框
高级检索
设置页面 显示方式
yahoo
搜索引擎之王,是www上最早最著名的网络目录搜 索引擎。也是目前最重要的搜索服务网站,在全 部互联网搜索应用中所占份额高达36%左右。提 供20多万个Web站点的目录信息检索服务,12种 语言版本。
Yahoo除主站(Mother Yahoo)外,还设有美国 都会城市分站(Yahoo Cities),如芝加哥分站)、 国别分站(如雅虎中国)和国际地区分站(如 Yahoo Asia)。由于Yahoo靠人工操作甄选网站, 且评判标准十分严格,其数据库中的注册网站无 论是在形式上还是内容上质量都非常高。
制作收藏夹。打开IE 找到需要制作收藏夹的特 定网页 点击收藏菜单 点击添加到收藏夹 点击 确定。
代理服务器的使用。IE设置使用代理服务器的方 法:打开IE点击菜单上的工具栏 点击Internet 选项 选择连接标签 点击局域网设置 选择自动 配置或自动配置脚本(需网络支持),在知道代 理服务器地址的情况下,可以直接在地址和端口 输入框中输入正确的地址 点击确定。
检索网页数量达80亿,搜索引擎中排名第一; 支持多达132种语言,包括简体中文和繁体中文; 网站只提供搜索引擎功能,没有花里胡哨的累赘; 速度极快,年初时据说有10000多台服务器,200多条T3级
(每秒能传输1400页文本信息)宽带; Google的专利网页级别技术PageRank能够提供准确率极
搜索引擎的使用技巧
给要查询的关键词加上双引号,可以实现
简单查询
在词关必键须词出的现精确前在确匹面搜地配使索查,用结询不加果,包号中这括,的种演也网查变就页询形等上方式于。法。告要诉求搜结索果引要擎精该单
计算机信息检索02139自考资料
计算机信息检索02139自考资料第一章信息检索概述1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.根据检索手段的不同,信息检索能够分为手工检索、光盘检索、联机检索和网络检索。
3.信息检索的基本原理经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4.信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三者统称为计算机信息检索。
6.与手工检索相比,计算机信息检索的特点表现在:(1)速度快、效率高,仅几分钟就能够从成千上万条记录中找到所需信息;(2)检索范围广,能够迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都能够成为信息源;(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就能够在任何地方借助光盘和通信网络查询所需信息。
7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。
信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。
8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。
10.数据库由字段、记录和文档构成。
11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。
12.信息检索系统评价的核心是检索性能评价。
13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。
信息检索教程PPT课件
第30页/共34页
第6章 计算机检索概述
1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息
检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达第3式1页的/共构34成页 可以采用哪几种方法?
第6章 计算机检索概述
8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。
第6章 计算机检索概述
基于内容的图像检索技术
第26页/共34页
第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例
如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中 选择某个作为检索图样。
(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分 布、形状或纹理相似的结果。
第8页/共34页
第6章 计算机检索概述
6.2.2 检索表达式
检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索 词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置 关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行 的命令形式。检索式构造的优劣关系到检索策略的成败。
根据所检索媒体对象的不同,基于内容的多媒体检索 技术又可分为基于内容的图像检索技术、基于内容的视 频检索技术和基于内容的音频检索技术等。
第24页/共34页
第6章 计算机检索概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章计算机信息检索概述6.1计算机信息检索的含义和特点一、计算机信息检索的含义计算机信息检索:人们根据特定的信息需要,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。
包括信息存储过程和信息检索过程。
二、计算机信息检索发展简史1、脱机批处理检索:20世纪五六十年代是脱机批处理检索的试验和实用化阶段。
这一时期,计算机尚未连接通信网和远程终端装置,主要利用计算机进行现刊文献的定题检索和回溯检索。
当时的信息检索是脱机批处理检索,即用户向计算机操作人员提问,操作人员对提问内容进行主题分析,编写提问式输入计算机建立用户提问档,按提问档定期对新到的文献进行批量检索,并及时通知用户。
同时这一阶段开始利用计算机编辑出版检索性刊物。
2、联机检索阶段:20世纪60-80年代是联机检索的试验和实用化阶段。
第三代集成电路计算机,存储介质,存储容量,数据库管理,通信技术的发展为联机检索提供了技术支持。
随着国际联机检索系统的发展,信息检索在这一阶段实现了远程实时检索。
3、光盘检索阶段:20世纪80年代以来,新型信息载体激光光盘在信息检索领域得到广泛应用。
光盘检索操作方便,不受通信线路影响。
早期是单机驱动器和单用户,为解决多用户同时检索的要求,出现了复合式驱动器,自动换盘机,光盘网络技术。
4、网络化联机检索阶段:20世纪80年代以来,随着TCP/IP协议的普遍采用,美国国家科学基金会的接入,计算机检索发展到了今天的网络化联机检索阶段。
互联网具有广泛性方便性的特点,使许多联机检索系统纷纷上网,除保留原来服务项目和内容外,还增加了许多新的动态信息服务。
同时以搜索引擎为核心的网上搜索技术也日益发展,成为当前最具有普遍意义的信息检索形式。
三、计算机信息检索的分类(不同标准不同类型)1、根据所检索数据库的形式:①书目检索:查出某一主题的文献条目的检索,包括题录检索,文摘检索等②数据检索:查出有关数据的检索,以求得某一问题量化的准确数值,包括统计数据和科学数据③事实检索:查出有关事件或实在情报,以求得对某一问题的解答。
④全文检索:直接利用原始文献建库进行的检索。
2、根据计算机检索服务方式:①定题检索:根据用户检索课题内容,定期从新到资料库中为用户提问进行计算机检索的服务方式。
特点:定期性新颖性批处理性②回溯检索:指追索过去的信息,也可用于查找最新信息,能适应多数用户的查询需要。
可用于申请专利的新颖性,科研立项的查新,撰写论文和编写教材的信息收集。
③日常检索:用户根据自己的信息需求,直接利用终端检索,检索系统即使提供用户所需的信息。
3、根据检索方式:①脱机检索:成批处理检索提问的计算机检索方式,计算机检索的初期类型②联机检索:利用检索终端和通信线路,直接查询检索系统数据库的计算机检索方式③光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索④网络检索:利用检索工具在互联网上进行信息存取的行为,目前主要利用的信息检索系统是搜索引擎。
四、计算机信息检索的特点手工检索:人们长期以来采用的文献信息检索的传统方法,人们借助简单的机械工具,直接凭头脑进行判断,对记录在普通载体上的资料进行相应的检索。
优点:①直观性强②灵活性高③费用比较低缺点:①检索速度慢②时空限制强③更新周期长④新颖性时效性低⑤检索途径少1、检索范围大:由于计算机的运算速度高和数据库存储量大,计算机信息检索系统收录了数量巨大内容全面的信息。
仅联机检索系统就能提供成百上千个数据库的检索,搜索引擎更是收录了庞大的网路信息资源。
2、检索速度快:计算机的快速检索能力保证了计算机检索系统的检索速度,手工检索需要数日数周的课题,计算机检索几分钟甚至几秒钟就可以完成检索。
3、检索功能强,组配灵活:①布尔检索词组检索限定检索截词检索字段检索等②提供多途径检索4、检索途径多:①除手工检索的途径外,还能满足多途径交叉检索的需要,尤其适用于综合性课题的检索②大部分检索系统还能提供题名作者关键词等等检索途径。
5、数据更新及时,时效性强:光盘多为每月更新一次,网络则为每天更新一次6、检索结果输出形式多样:①检索结果可选择直接浏览,存盘,打印,E-mail传输检索结果等②部分检索系统还提供不同字段输出形式③或者选择简单格式和详细格式两种检索结果显示形式缺点:①计算机信息检索系统所收录的数据回溯时间有限,不能满足所有的信息查询需要②计算机检索需要有一定的计算机知识,需要一定的计算机环境,不适合每一个信息需求者。
当前,计算机检索成为人们检索信息的主要途径,但手工检索和计算机检索还将在长时间内共存。
6.2计算机信息检索策略一、检索策略的含义和作用检索策略:在分析检索课题内容实质基础上,选择检索系统检索途径,确定检索词及相关的逻辑关系等的信息检索方案。
实质是对检索过程的科学规划。
关键是构造确切表达信息需求的检索表达式。
作用:①优化检索过程②有助于提高查全率查准率③节约检索时间费用④取得最佳检索效果(正确的检索策略的作用)二、检索表达式检索表达式:是检索策略的具体体现,简称检索式。
一般由检索词和各种逻辑运算符组成,将检索词之间的逻辑关系位置关系等用检索系统规定的各种逻辑算符连接起来,成为计算机可以识别和执行的命令形式。
(一)逻辑表达式:逻辑表达式:利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。
布尔算符是19世纪英国数学家乔治.布尔发明的,以集合论和布尔逻辑为理论基础,是目前计算机检索最简单最基本的匹配模式。
有逻辑与“and”逻辑或“or”逻辑非“not”逻辑与“AND”表示它所连接的两个检索词必须同时出现在结果中,检索式可写为:A AND B,含义为A与B重合部分。
有些数据库中用“*”表示。
可用来提高查全率。
逻辑或“OR”表示它所连接的两个检索词任意一个出现在检索结果中就满足检索条件,检索式可写为:A OR B,含义为A与B的并列关系,用来表达概念的同义词近义词相关词等扩大检索范围保证查全率。
有些数据库中用“+”表示。
逻辑非“NOT”表示它所连接的两个检索词要从第一个概念中排除第二个概念,检索式可写为:A NOT B。
表示具有不包含某种概念关系的一组组配,用来缩小检索范围,在实际检索中要慎用。
一些中文数据库中用“-”来表示。
优点:①可表达与用户思维习惯相一致的查询要求②与计算机逻辑运算功能一致③表达意义比较直观明显缺点:①不能反映检索式中检索词的重要性②不能实现检索结果的相关性排序③若用户的检索课题中涉及的检索词较多可能要写出一个相当复杂的检索式。
(二)加权表达式:加权检索:在检索提问中,根据每个检索词在检索式中的重要程度,分别给予一个数值加以区别,这个数值就为权值;然后对含有这些检索词的文献进行加权计算,其和在规定阀值以上的即为命中文献。
采用这种方法表达信息需求的成为加权表达式。
采用此方法,要对比检索词和标引词,还要统计检索词的权重。
还有一种加权检索的形式,就是不直接对检索词进行赋值,而是对文献重点内容的检索词做加权标识,这样就可以将重点反映该主题的文献查出来。
如目前网络搜索引擎采用“+”“—”表示检索词在检索提问中的分量,“+”表示检索词必定要在检索结果中出现,“—”表示检索词一定不能出现在检索结果中。
优点:①明确各检索词在检索中的重要程度②检索结果按切题顺序排列③在提高查全率和查准率方面均有一定作用。
缺点:具体应用不如布尔逻辑表达式广泛。
(三)位置检索表达式:位置检索表达式:邻近检索,通过位置算符来表示两个检索词之间的距离和位置关系。
不同检索系统可能采用不同的位置算符,目前常用的主要是“(W)”、“(nW)”、“(N)”、“(nN)”(W)表示两个检索词相邻,前后顺序不能颠倒,W是with的缩写,检索式表示为:A(W)B。
(nW)表示连个检索词之间最多可插入n个词(中文状态下表示n个字)而且前后顺序不能颠倒,检索式表示为:A(nW)B(N)表示两个检索词相邻,前后顺序可以颠倒,N是near的缩写,检索式表示为:A (N)B。
(nN)表示两个检索词之间最多可插入n个词(中文状态下表示n个字)而且前后顺序可以颠倒,检索式表示为:A(nN)B。
(四)截词检索表达式:截词检索表达式:在检索式中用专门符号(截词符号)表示检索词的某一部分允许有一定的词汇变化,即检索词的不变部分加上由检索符号所代表的任何检索形式所构成的词汇都是合法检索词。
在西文检索中应用广泛。
优点:①防止漏检②节省机时③提高检索效率。
不同检索系统采用的截词符号不同,一般采用“?”“*”类型:①按截断的位置来分:可分为前截断,中间截断,后截断②按截断的字符数量来分:可分为有限截断和无限截断。
后截词:又称右截词前方一致,允许检索词的尾部有若干变化。
Comput?可检索出computer,computing等中间截词:允许检索词中间有若干变化。
Wom*n可检索出woman,women前截词:又称左截词后方一致,允许检索词的前端有若干变化。
*physics可检索出physics,astrophysics等注意:合理使用截断部分要适当不要截的太短以免增加检索噪音查出许多无关的文献(五)限制检索表达式:限制检索表达式:用限制符限定检索词出现范围的检索式,如将检索词限制在标题作者中等。
不同的检索系统限制符的表示方法不同,一般字段限制代码有:标题(TI,title)、作者(AU,author)、主题词(SU,subject)、年代(PY,publication year)等一些网络检索工具也允许使用限制检索,可将检索范围限制在标题,统一资源定位地址,超链接等部分。
三、检索策略的构造步骤1、分析信息需求(检索课题),明确检索要求:①不同类型的检索课题,信息需求的学科范围和程度不同,要明确检索课题涉及的学科范围信息类型相关概念,对检索需求做出全面认识。
②应尽可能掌握检索课题的研究背景,利用工具书获得相关文献,增加检索途径。
2、选择检索系统:在计算机检索中检索系统主要是数据库包括搜索引擎。
应选择与检索课题相符合的收录信息质量较高的检索功能比较完善的检索系统。
3、选择检索途径和检索方法,确定检索词或检索式:①大多数检索系统都提供篇名作者主题词关键词以及全文检索等检索途径,还可通过组配进行交叉检索②经过对检索课题的概念分析后确定检索词,若检索课题包含较复杂的主题,应明确其直接概念和相关概念,通过一定的逻辑组配或其他方式形成复杂概念表达信息需求。
4、处理检索结果:①根据检索结果的实际情况,可调整检索词检索式检索途径检索方法等,或利用缩检和扩检功能完善检索结果,以达到最满意的结果。
②对检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,输出检索结果。