信息检索基本理论
第一章 信息检索理论基础
信息检索原理—信息检索模型
(6)相关反馈模型:用户在使用信息系统时,需要将自己的信息需求按 照系统所使用的概念和表达方式输入到系统中,由于用户表达问题的方式各有 不同,在将信息需求表达为提问式时会与原意有一定的出入,这样,就难以保 证检索到的文献能非常好地满足用户的需求。因此,一般的信息检索系统中都 需要有一种反馈装置,使用户可以通过反馈修改自己的提问式,从而达到较圆 满的检索目的。
(8)问答系统技术:问题回答输入的查询是问题,要求从给定语料库中 返回文本。问题回答系统可由三个模块组成:问题分析、候选窗口查找和答 案抽取。
(9)概念空间技术:概念空间技术是为迎合信息检索的智能化而设计的, 主要针对网络信息资源。与词表不同的是,概念空间直接从目标文档构建而 来,通过对目标文档进行概念选取、概念聚类而形成,是一个概念网络。概 念空间实际上是一个智能化索引,每个索引项(概念)通过一层或多层的概念 与原文档建立联系。当用户用自然语言检索时,系统会自动地在概念语义空 间联想搜寻相似性最高的概念,并根据相似性递减规律列出检索结果。
第一章 信息检索理论基础
主要知识点
(一)信息检索原理 (二)信息检索技术 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (—信息检索及其发展
(1)信息检索(Information Retrieval)是“一种时间性的通讯形 式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可 能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是 一种延时性的通讯形式。
信息检索原理—信息检索模型
与采用布尔模型的普通检索系统相比,该系统有以下几个特色: ① 采用自动标引技术为文献提供标引词; ② 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程 度可在[0,1]闭区间中取值; ③ 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与 否,从而使检索更趋于合理; ④ 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术 修正提问,控制检索量; ⑤ 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。 向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法, 不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库 中的每一篇文献,计算量大、算法复杂性较高;由于标引加权和检索加权是分 离的,随意性较大,难以保证质量。
信息检索
中文书本式的检索工具
《国内总书目》--《全国新书目》《科技新 书目》:查找国内出版的图书目录 《外文新书通报》:查找国外新书目录 《全国报刊索引》:查找国内期刊论文的工 具 科技 文献书目型数据库检索系统 事实型数据库检索系统 数值型数据库检索系统 全文数据库检索系统
“逻辑或”的组配种类
同义词 同一个人多个姓名 通用的英文缩写 化学物名称 Eg:CAD
逻辑非
用于排除含有不需要概念的信息,可缩小所 检索信息的范围。 逻辑运算符:“NOT”、“-” 逻辑表达式:“A NOT B ”“A-B” 语义表示:被检索文献中含有A而不含有B
4字段(限制)检索
在检索系统中,数据库设置的可供检索的字 段通常有两种: 表达文献主体内容特征的基本字段 表达文献外部特征的辅助字段 基本字段包括篇目(TI)、文摘 (AB)…… 辅助字段包括作者(AU)、语种 (LA)……
4字段(限制)检索
为了缩小检索范围,可利用字段代码来限制检索词 出现的字段,以提高检索速度和命中率。 如: economic models in ti(表示只在题 目字段中查找文献) economic models in de(只在主题词中 查找) economic models in ab(只在文摘中查 找) au = Smith,J.C (查作者为Smith,J.C 的 文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)
位置算符检索即运用位置算符表示两个检索 词间的位置。 如果说布尔逻辑算符是表示两个概念之间的 逻辑关系的话,位置算符表示的是两个概念 在信息中实际物理位置关系。
检索时会经常遇到这样的问题?
《计算机基础》信息检索资料
组
纸质书刊、资料 件、信息存储数据库、 检索软件、联机数据库、 端、通讯网络、网络数
成
通讯网络
通讯网络
据库
检索方法较简单,检索
设备简单,检索费用 检索范围广泛,检索速度
优 直观,信息存储
较灵活、方便,及时性
低,检索技术容 易掌 快,检索功能强,及时性
点 与检索费用低
好,检索费用和速度均
握
好
低
缺 检索入口少、速 点 度慢、效率较低
天网除提供WWW主页检索外,还提供FTP站点搜索(“天网文件”),为 高级用户查找特定文件提供方便。同时,天网将FTP文件分为电影和动画片、 MP3音乐、程序下载及文档资源共4大类,用户可以像目录导航式搜索引擎那样 层层深入、查找自己需要的FTP文件。
8.5 常用搜索引擎使用介绍
2.使用方法
(1) 启动方法
更新不够及时
检索技术复杂,设备要求 高、检索费用昂贵。
8.3 网络检索系统
1. 用户如何在网络上找到信息?
解决之道:搜索引擎
2. 搜索引擎的分类:
目录(Directory,或 Catalog); 基于Robot的搜索引擎; 元搜索引擎 (用得较少)。
8.3.1 目录
目录:目录方式所使用的数据库是依靠专职编辑或志愿人员建立起来的。 目录的用户界面基本上都是分级结构。有两种使用方式:
当用户只知道需要检索的大致内容,而没有明确的关键词时,可以使用分类检 索。
【例8.1】:查找西 安交通大学的网页。
方法: • 从“网站分类”逐步查找
8.5 常用搜索引擎使用介绍
• 找到目的网页, 双击打开。其中 名称后面的@号 表示还有下一级 目录。
启动IE浏览器,在地址栏输入:
高级信息检索
网络化检索阶段
智能化检索阶段
随着互联网技术的普及,信息检索进入网 络化时代,用户可以通过搜索引擎轻松访 问海量信息。
近年来,人工智能、自然语言处理等技术的 发展为信息检索带来了新的变革,推动了智 能化检索的发展。
高级信息检索的定义与特点
定义
高效性
准确性
智能化
可视化
高级信息检索是指利用 先进的计算机技术和智 能化方法,对大规模、 非结构化数据进行高效 、准确的信息提取和知 识挖掘的过程。
确保搜索引擎的பைடு நூலகம்全性,实现不同用户角色的权 限控制和数据隔离。
案例三:垂直领域搜索引擎的创新点分析
1 2
领域知识图谱
构建垂直领域的知识图谱,实现实体识别、关系 抽取和知识推理等功能,提高搜索结果的语义化 程度。
个性化搜索体验
针对垂直领域用户的特点和需求,提供个性化的 搜索界面和结果排序方式,提升用户体验。
个性化搜索结果排序
根据用户兴趣和需求,对搜索结果进行个性化排序,提高用户满 意度。
隐私保护问题
在个性化信息检索过程中,需要平衡用户隐私保护和信息推荐准 确性之间的关系。
跨语言信息检索
语言障碍问题
不同语言之间的信息检索存在语言障碍,影响用户获取全球范围内 的信息。
跨语言翻译技术
利用机器翻译和自然语言处理等技术,实现跨语言信息的自动翻译 和检索。
语义理解
通过对文本中实体、概念、属性等 信息的抽取和理解,实现更精准的 检索。
机器学习在信息检索中的应用
01
02
03
特征提取
利用机器学习算法对文本 进行特征提取,提高检索 效率和准确性。
分类与聚类
通过对文本进行分类和聚 类处理,将相似或相关的 文档聚集在一起,提高检 索结果的质量。
计算机信息检索基本概念及理论
3.信息检索发展的历史
–手工检索阶段
• 西汉,刘向《别录》、刘歆《七略》 • 梁启超《西学书目表》 • 1949年,《全国总书目》创刊
–计算机检索阶段
• 机编文献目录阶段——起源
20世纪60年代中期,美国国立图书馆利用计算机出版 了MEDLARS ( Medical Literature Analysis and Retreived System ) 数据库
《中国图书馆分类法》22大类
主题语言
主题语言是一种选自自然(规范化)的直接性的检索语
言,包括两个内容:一是指表达文献内容特征的、经过规范 化了的名词术语(包括词组和短语);二是指把这些名词术 语按字顺排列成主体记号表或标题词表,以此作为规范化词 标引和检索文献的工具。 根据选词原则、组配方式、规范方法等, 主题语言可分为标题词语言、关键词语言、 单元词语言和叙词语言。
•
代码语言 代码语言一般只是就事物的某一方面的特征,用某种代 码系统来加以标引和排列。例如,化合物的分子式索引系统、 环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行 标注法代码系统。
引文语言 引文语言是利用文献之间的相互引证关 系而建立的一种自然语言,其标引词来自文 献的主要著录项目。这种方法提供了从被引 论文来检索引用它的全部论文的途径,从而 顺着一种科学思想的发展过程线索找到有关 信息。可以讲引文语言看作检索语言的一种 特殊类型。
信息检索基本理论(可编辑)
信息检索基本理论信息检索基本理论信息、知识、文献及其之间的关系信息源信息检索及分类信息检索原理信息检索语言信息检索技巧信息检索方法信息检索的策略与步骤源于拉丁字informatio 。
港台地区又译为资讯。
辞海1989 年版的解释为音讯、消息。
信息论创始人香农(non ): 信息是用于消除信宿对信源发出何种消息的不确定性的东西. 控制论的创始人维纳(N.Wiener ):信息是人们同外部世界进行交换的内容的名称。
信息既不是物质也不是能量国家标准对信息的定义:物质存在的一种方式,一般指数据、消息中所包含的意义,可以使消息中所描述的事件的不定性减少。
狭义:主体通过各种认知方法获得并经过收集、记录、处理后以某种形式存储起来的事实或数据。
信息的特性:物质性、传递性、可扩充性、共享性、价值不定性。
知识(knowledge )概念:是人类社会实践的总结,是人的主观世界对客观世界的如实反映。
分类:按载体分:隐性知识和显性知识。
按领域分:哲学知识,社会科学和自然科学。
按用途分:科学知识,技术知识和文化知识。
同信息的关系:将反映自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识。
文献(document) 国际标准化组织《文献情报术语国际标准》对文献的描述是:“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,摄制在感光片上,或录到唱片上,或存贮在磁盘上,这种附着在各种载体上的记录统称为文献”我国颁布的《中华人民共和国国家标准??文献著录总则》对文献定义为:“文献是记录有知识和信息的一切载体。
”三者的关系信息源(information sources )信息源概念源:“水流起头的地方”(《现代汉语词典》)信息源:信息的来源、出处。
广义的信息广义的信息源的概念“万物皆是信息源”狭义的信息狭义的信息源的概念信息源的类型按信息源产生的时间顺序来划分:先导信息源、即时信息源、滞后信息源。
信息检索
2.按信息的加工级别划分
• 零次文献(实验记录、手稿、原始录音、谈话记录等) • 一次文献(图书、期刊论文、会议论文、科技报告、专
利、标准等)
• 二次文献 (目录、题录、文摘等) • 三次文献 (文献综述、年鉴、词典)
三次文献之相互关系
读者查找
一次文献
二次文献
三次文献
作者发表
三、 信息检索的技术与方法
信息检索的技术
• 布尔逻辑检索 • 截词检索 • 限制检索
(一) 布尔逻辑检索
• 布尔逻辑组配运算是采用布尔代数中的逻辑 “与”、逻辑“或”、逻辑“非”等算符,将 检索提问式转换成逻辑表达式,限定检索词在 记录中必须存在的条件或不能出现的条件。
• 凡符合布尔逻辑所规定的条件的文献,即为命中文献。
以事实作为检索对象,查找用户所需的描述性 事实,其检索对象为机构、企业、人物的基本 情况、历史变迁等。 百科全书、工具书
(二)信息检索的意义
1.节约研究人员的时间,避免重复劳动 科学研究具有继承和创造两重性,科学 研究的两重性要求科研人员在探索未知或 从事研究工作之前,应该尽可能地占有与 之相关的信息。信息检索是研究工作的基 础和必要环节,成功的信息检索无疑会节 省研究人员的大量时间,使其能用更多的 时间和精力进行科学研究。
1. 逻辑“与”(并且)
• 符号:“and” 或“*”表示 • 表达式:A*B 或者 A and B
• 意义:检索记录中必须同时含有检索词AB的 文献,才算命中文献 • 作用:增加限制条件,即增加检索的专指性, 以缩小提问范围,减少文献输出量,提高查 准率。
2. 逻辑“或”(或者)
• 符号:“or” 或 “+”表示 • 表达式:A OR B 或 A+B • 意义:检索记录中凡含有检索词A或含有检索 词B,或同时含有检索词A、B的,均为命中文 献文章。 • 作用:放宽提问范围,增加检索结果,起扩 检作用,提高查全率。
信息检索的基本理论
随着互联网和大数据技术的快速发展,信息检索已经成为人 们获取信息、解决问题、辅助决策的重要手段。通过信息检 索,用户可以快速、准确地获取所需信息,提高工作和学习 效率。
信息检索的发展历程
手工检索阶段
计算机化检索阶段
早期的信息检索主要依赖手工方式,如图 书馆目录、卡片式索引等。
随着计算机技术的发展,信息检索开始采 用计算机进行自动化处理,如关键词匹配 、布尔逻辑运算等。
信息组织与存储原理
信息组织
01
按照信息的内容、形式、读者需求等特征,采用逻辑方法将信
息分门别类,组成有序的、优化的信息集合体。
信息存储
02
将经过加工整理的信息,按照一定的格式与顺序,存储在特定
的载体上,以便检索和利用。
信息组织与存储的关系
03
信息组织是信息存储的基础,只有经过良好组织的信息才能有
效地存储和检索。
关键词权重
根据关键词在文档中的重要性,赋予不同的权重,提高检索结果的排 序准确性。
布尔逻辑检索
逻辑运算符
使用布尔逻辑运算符(AND、OR、NOT)连接关键 词,实现更精确的检索。
检索式构建
根据查询需求,构建复杂的布尔逻辑检索式,提高检 索效率和准确性。
逻辑运算顺序
遵循布尔逻辑运算的优先级和结合性,确保检索式的 正确执行。
信息检索的基本理论
目 录
• 信息检索概述 • 信息检索的基本原理 • 信息检索的核心技术 • 信息检索的常用方法 • 信息检索的发展趋势与挑战
01 信息检索概述
信息检索的定义与意义
定义
信息检索是指从大量的、无序的、模糊的信息集合中,根据 用户的信息需求,采用一定的方法和技术,查找出满足用户 需求的相关信息,并按照一定的方式组织和呈现给用户的过 程。
信息检索学习笔记
信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
世界三大基本要素:信息物质能量(二)信息的特征1.客观性①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。
②信息业来源于精神世界,但又不限于精神的领域。
③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。
2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性(三)信息的功能1.经济功能①运用信息可以使非资源转化为资源创造财富。
②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。
③直接让信息作为商品在市场流通中创造财富。
④通过信息进行科学决策,减少失误,创造财富。
2.管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:①传递整个组织的运行目的,有效管理5M资源。
②调节和控制物质流和能源流的数量、方向和速度。
③传递外界对系统的作用,保持组织的内部环境稳定。
3.选择和决策功能4.研究与开发功能二、知识1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。
2.知识的类型①显性知识和隐性知识。
②实体知识和过程知识。
③核心知识和非核心知识。
三、情报1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。
2.情报的特征①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性3.情报的类型零次情报:私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报:书目、索引、文摘等三次情报:综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。
信息检索的基本原理
分类号和索书号
读者实际利用图书馆时,往往需要知道书刊的分类号和索书
号(又称索取号)。 索书号是图书馆赋予每一种馆藏图书的号码,是读者查 找图书非常必要的代码信息。它的第一部分是分类号, 第二部分是书次号。索书号的两部分之间有一个空格或 一条斜线“/”。书次号或者是按照图书作者姓名所编排 的著者号码,或者是按照图书进入馆藏时间的先后所取 用的顺序号码。 ——不同的索书号确定排列先后顺序的步骤是,先比 较分类号码;如分类号码相同再比较著者号码或顺序号 码。分类号比较:先英文字母排,后阿拉伯数字按小数 制排。分类号中“-”排在0之前,例如:先排F-43再排 F0。分类号的数字排列比较采用对位比较法,字符序列 以ASCII字符集为依据。比如:B11、B111、B112、 B12,书次号的数字排列比较采用自然顺序排列方法, 即1,2,3,...,9,10,11,...,99,100,101,…。
科学分类语言
学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系 来组织资 源,类目排序以字顺为标准。 优势:类目容量大,内容针对性、学术性更强,符合族性检索的要求。
图书分类语言
目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国 国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法) 专利分类表
图书馆的藏书都是按分类号排架的。分类号的排列 采用由左至右逐位对比的方法进行排列,先比较字 母部分,再比较数字部分。
——字母部分按英文字母固有的次序排列。例:
B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 TM92电气化、电能应用 TU201建筑设计原理
第二章文献信息检索基本理论与方法
4.
《中图法》将学科划分为5个基本部类,22个基 本大类,再进行层层划分,逐级分开。
16
《中图法》五大部类、二十二个基本大类
A、马克思主义、列宁主义 毛泽东思想、邓小平理论 B、哲学、宗教 C、社会科学总论 D、政治、法律 E、军事 F、经济 G、文化、科学、教育、体育 H、语言、文字 I、 文学 J、 艺术 K、历史、地理 N、自然科学总论 O、数理科学和化学 P、天文学、地球科学 Q、生物科学 R、医药、卫生 S、农业科学 T、工业技术 U、交通运输 V、航空、航天 X、环境科学、安全科学 Z、综合性图书
12
分类语言 描述文献内 关键词语言 标题词语言 单元词语言 叙词语言
容特征的语言
检索语言
主题语言
代码语言 书/刊/篇名 描述文献外 表特征的语言 著者姓名
引文 代码/序号
13
(1) 分类语言:是按文献的学科性质给予相应的分 类号,用分类号表达文献主题概念的检索语言, 根据分类表中的顺序编排成分类索引,提供分类 途经供检索文献使用。 它运用概念划分与概括的方法,按照知识门 类的逻辑次序从抽象到具体,从一般到特殊,从 简单到复杂,对知识进行科学划分,从而产生不 同级别且存在隶属关系和体现知识登记体系的类 目一个类目以不同的符号(分类号)作标识,从 而形成了以分类号为标记的体系分类语言。
29
索引分两种: 一种是作为工具书的主体,如文献题名(篇 目)索引。 另一种是作为工具书的一部分,一种检索 途径,内容索引如:主题索引、著者索引 等。 3. 题录是对单篇文献外表特征所作的著录。 著录项目包括文献题目、著者及其所在单 位、出处及文种等。
信息检索基本理论
章节:第二章信息检索基本理论学时:2学时教学目的:1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点:1 简述信息检索工具的类型。
2 论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程:1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分)5 小结(5分)。
思考题:1简述信息检索工具的种类。
2简述分类语言与主题语言的含义及其特点。
3简述信息检索的步骤、方法。
4简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料:1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注:第二章信息检索基本理论1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。
在文献检索里面就是我们前面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。
只有先进行了存储我们才能进行查找。
这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。
在有限时间内提高了工作效率。
2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。
既然是检索工具集必然具有检索的作用。
3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。
第三章信息检索的基本理论
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
1.1信息检索理论框架
如何具备信息素质
第三层次:信息选取与综合利用 (信息增值)
第二层次:从检索系统中检索出信息 (检索技术)
第一层次:知道什么信息在什么地方 (熟悉了解信息源)
如何判断自己已具备了信息素质?
• 1、能够独立决定所需信息种类和程度。 • 2、能够高效地获取所需信息。 • 3、能够根据现有的知识背景和评价标准对信息 及其
对照辞典 ,缩略语辞典。还有大量的专门性辞典。 年 表——查找一些历史大事记录
Company
LOGO
七、计算机检索
1、机检包括以下几个主要过程:
• 1、识别用户:帐号密码、IP地址 • 2、接收提问:接收输入的检索词 • 3、提问校验:语法检查(布尔逻辑组配)及用
词检索 • 4、转化提问式:将用户的原始提问式
Company
LOGO
信息检索
Company
LOGO
一、信息素质
信息素质
• 信息素质(Information Literacy 简称IL),又
称信息素养,简单地讲,信息素养是指个人“能认 识到何时需要信息,和有效地搜索、评估和使用 所需信息的能力”。 • 它包含了三个层面:
信息意识、信息能力、信息道德。
文摘型检索工具
文摘的定义
我国国家标准GB 3468-1983; 《检索期刊编辑总则》说明定 义:“除题录部分外还对文献内容作实质性描述的文献条目 称之为文摘”。
文摘是文献原文浓缩后的产物,是忠实于原文内容的简要记 录单元。揭示文献的内容特征,在文摘的编写中不能加入编 写人员的主观见解和任何解释性说明,也不能对原文作任何 修改。
信息素质的内涵:
信息意识——对各种信息自觉的心理反映
信息能力——信息技术的应用能力
信息检索与利用(1)
信息资源的类型
2、按信息加工层次分类(续2)
以上三级信息资源的关系: 零次信息是一次信息的素材; 一次信息是二次、三次信息的来源和基础; 二次、三次信息是对一次信息进行组织、加工、综合后形成的
标准的主要特点
(1)标准的制订、审批程序有专门规定,并有固定 的代 号,格式整齐划一; (2)一个标准一般只能解决一个问题; (3)时效性强; (4)不同种类、不同级别的标准在不同范围内执行; (5)有一定的法律效力和约束力; (6)有自身的检索系统。
中国标准概况
* 1957年中国成立了国家标准局,并于1958年颁布了第一批国家标准; * 1978年成立国家标准总局,1979年颁布“中华人民共和国标准管理条例” * 1978年中国标准化协会(CAS)加入了国际标准化组织(ISO) * 中国标准的等级:国家标准、行业标准、地方标准、企业标准 * 中国标准的分类:按《中国标准文献分类法》
会议信息
会议信息是指国内外各种学术会议上宣读或交流 的论文、报告、会议记录等信息资料
价值 会议信息是公布新研究成果的重要场所,大 约30%的科技成果首次公布在科技会议上 对本领域重大事件的首次报道率最高,一些 新的理论、方案和重要发现、发明等往往首 先在会议上发布并交流 及时全面了解有关领域发展情况的重要渠道
所谓“信息检索”主要是对二、三次信息的检索。
信息资源的类型 以信息的逻辑意义和利害关系划分
有益信息:对社会发展有积极作用的、能够消除人们对未知事物不 确定性的信息,它是人类社会的资源和财富。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
章节:第二章信息检索基本理论学时:2学时教学目的:1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点: 1 简述信息检索工具的类型。
2 论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程: 1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分) 5 小结(5分)。
思考题:1 简述信息检索工具的种类。
2 简述分类语言与主题语言的含义及其特点。
3 简述信息检索的步骤、方法。
4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。
在文献检索里面就是我们前面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。
只有先进行了存储我们才能进行查找。
这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。
在有限时间内提高了工作效率。
2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。
既然是检索工具集必然具有检索的作用。
3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。
它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。
例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。
他也是一个检索工具。
检索工具类型: 1.1 目录目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。
他以“本”为单位报道文献。
目录的种类主要有:书名目录:如《全国总书目》、《全国新书目》;著者目录:;分类目录:;主题目录:。
1.2 题录题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。
内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。
文献深度比目录大,是用来查找最新文献的重要工具。
1.3 文摘 2文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。
我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。
因此其检索功能强于题录,是检索工具的主体性类型。
1.4 索引索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。
如主题索引、著者索引。
索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。
有的本身全由索引构成,如美国《科学引文索引》(SCI),美国工程索引EI。
索引的组成主要有索引款目和参照系统两部分。
索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。
标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。
作者姓名、主题词等都可作为标目。
采用不同形式标识,就构成不同类型索引。
如关键词索引、分类号索引、作者索引。
说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。
文献题名、自编的短语或短句都可作为说明语。
材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。
一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。
5、搜索引擎他是以网页为著录单元,在Web 中自动搜索信息并将其自动所引到Web服务器。
索引信息包括文档地址,文档中单字出现的频率、位置等。
网络搜索引擎很多,著名的有Yahoo! Google百度、搜狐、网易、新浪等。
2 信息检索语言 2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。
而代表地址的邮政编码和文字确使这些信件成为有序。
邮政编码使邮件分检速度加快,有序化程度提高。
他不是随意组合的,而是代表了一定的编号。
信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。
信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。
用户可以按一定得条件去检索信息了。
因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。
3检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。
就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。
检索语言由词汇和语法两部分组成。
词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。
在存贮和检索过程中,检索语言起着重要的语言保障作用。
它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。
如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。
2.2 信息检索语言的分类检索语言的种类很多。
按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征的检索语言,见下图。
分类语言关键词语言描述信息内容特征的语言单元词语言主题语言标题词语言叙词语言检索语言书/刊名著者描述信息外表特征的语言出版事项代码/序号图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。
著者语言:是按著者姓名,按姓前名后的字顺逐字排检。
号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。
2.3 分类语言 42.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检索文献信息的一种信息标识系统。
建立体系分类语言的基础是概念的划分。
所谓“类”是指具有某种共同属性的事物或概念的集合。
一类事物可以根据其不同的属性进行层层划分。
一个概念经过一次划分后形成的一系列概念就是种概念(下位类),而被划分的概念被称为种概念(上位类)。
同一属概念划分出来的各个种概念彼此之间相互称为并列概念(同位类)。
分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。
我们只对体系分类语言进行研究。
2.3.2 《中国图书分类法》简介《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而编制的一部大型信息分类法。
《中图法》1973年出版第一版,1980年和1982年相继出版第二版、第三版,现行的第四版1999年正式出版。
《中图法》由分类表、编辑及使用说明和索引三部分组成。
编辑及使用说明为了解和掌握分类表提供指导。
索引则是使用分类表的辅助工具。
分类表是分类法的主体,是类分信息的主要依据。
因此,以下重点介绍分类表的结构。
(1) 基本部类。
它是分类法类目表中最先确定、最概括、最本质的类目。
《中图法》确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书。
(2) 基本大类。
它是在基本部类的基础上进一步展开而形成的。
基本大类构成分类表的第一级类目。
《中图法》的基本大类有22个。
见图2-3。
(3) 简表。
简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来的类目和基本大类构成。
(4) 详表。
是整个分类法的正文,亦称主表,由所有不同级类目组成。
它是类分信息资料的依据。
(5) 辅助表。
也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细分。
基本部类基本大类 5马克思主义.列宁主义、毛泽东思想、邓小平理论―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学――――――――――――――- B 哲学、宗教社会科学――――――――――――― C 社会科学总论 D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字 I 文学 J 艺术 K 历史、地理自然科学―――――――――――― N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学综合性图书――――――――――― Z 综合性图书图2-3 《中国图书分类法》基本大类《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。
用一个字母表示一个大类,用字母的顺序反映大类的顺序,在字母后面用数字反映大类下类目的划分。
分类号码的排列严格按照小数制的排列方法。
数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制的编制原则。
见图2-4。
G 文化、科学、教育、体育 G0 文化理论 G1 世界各国文化与文化事业 G2 信息与知识传播图书馆学、图书馆事业 G25 读者工作G252 文献检索 G252.7 科学、科学研究 G3 教育 G4 体育 G8 图2-4 《中国图书分类法》类目展开示例 62.3.3 体系分类语言的优势: (1) 族性检索效果强。
能较好地体现学科的系统性,便于人们从某一学科或专业角度查找文献。
(2) 便于随时放宽或缩小检索范围。
(3) 分类标识简单明了,易于掌握。