信息检索基础
信息检索基础知识
TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语
信息检索基础知识考点整理
信息检索基础知识考点整理●2.1 信息检索的概念与原理●2.1.1 信息检索的概念(重要)●2.1.2 信息检索的原理●信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出●信息检索的类型●1.文献检索●2.数据检索●3.事实检索●2.1.3 信息检索的意义/作用(重要)●1.信息检索是有效利用信息资源,实现其最大价值的科学方法●2.信息检索是再学习的工具,是获取知识的有效途径●3.信息检索能有效地提高科研工作的效率,节省人力、物力及时间●2.1.4 信息检索的历程●1.手工检索●2.计算机检索●2.2 信息检索系统(重要)●2.2.1 信息检索系统的概念●1.信息检索系统的含义●2.信息检索系统的工作原理●2.2.2 信息检索系统的构成●1.信息选择子系统●2.信息索引子系统●3.词表管理子系统●4.用户接口子系统●5.匹配子系统●2.2.3 信息检索系统的分类●1.手工检索系统●1.书本式的手工检索系统●2.卡片式的手工检索系统●2.计算机检索系统●1.硬件●2.软件●3.数据库●1.参考数据库●1.书目数据库●2.指南数据库●2.源数据库●1.数值数据库●2.文本—数值数据库●3.全文数据库●4.术语数据库●5.图像数据库●6.多媒体数据库●2.3 信息检索方法(重要)●1.直接浏览法●直接查找法●2.常用法●顺查●倒查●抽查●3.追溯法●4.综合法(分段查找法、循环法、交替法)●2.4 信息检索效果(重要)●2.4.1 信息检索效果评价●信息检索效果的概念●1.检索结果有效性评价●2.检索系统实用性的评价●3.检索费用—效率评价●信息检索效果评价对于信息检索系统的建设和发展的意义●信息检索效果评价的核心问题是建立一套切实可行的评价指标●1.查全率和查准率●2.误检率和漏检率●3.响应时间●其他与检索效果相关的指标●2.4.2影响信息检索效果的因素●1.标引的质量●2.检索途径的数量●3.检索策略的优劣●4.检索人员的素质。
信息检索基础
一、单项选择题∙1、未经出版发行的或者没有进入社会交流的最原始的文献称为()∙ A 一次文献 B 二次文献 C 三次文献 D 零次文献∙2、利用文献后面所附的参考文献进行检索的方法称为( )。
∙ A 追溯法 B 直接法 C 抽查法 D 综合法∙3、根据叙词的定义,在下面一组概念中,应将( )选作叙词。
∙ A 脚踏车 B 自行车 C 单车 D 坤车∙4、EBSCO和百度的图片搜索数据库属于( )数据库。
∙ A 文字型 B 数值型 C 文字+数值型 D 多媒体型∙5、若想排除某概念,以缩小检索范围,可使用( )算符。
∙ A 逻辑“与” B 逻辑“非” C 逻辑“或” D 位置∙6、下面不是布尔逻辑算符的是∙ A NOT B 0R C AND D NEAR∙7、下列不是特种文献的有∙ A 专利文献 B 学位论文 C 政府出版物 D 电子图书∙8、以下检索算符中,能够相对实现"扩检”功能的是:∙ A and B (W) C ? D “ ”∙9、利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是:∙ A site: B intitle: C inurl: D info:∙10、已知下列书目信息:“陈享光著.货币经济学导论.北京:经济科学出版社,2000年7月,4-11”通过使用( )可以获取其原文的图书馆收藏信息。
∙ A 中国学术期刊全文数据库 B OPAC书目信息数据库 C 电子图书全文数据库 D 中文期刊目录∙11、当选用泛指的检索词或增加与检索主题概念相关的检索词并用逻辑“或”进行组配时,()就较高。
∙ A 查准率 B 查全率 C 漏检率 D 误检率∙12、布尔逻辑()是用于从某一检索范围中排除不需要的概念。
∙ A 与 B 或 C 非 D∙13、根据布拉德福文献分散定律,阅读( )文献是一种有效的情报获取方法。
∙ A 相关期刊 B 边缘期刊 C 核心期刊 D 以上三项∙14、竞争情报的内容主要有()∙ A 知已、知彼、知环境 B 全面了解本企业 C 充分了解企业的竞争对手情况 D 了解国家各项政策信息二、多项项选择题∙1、概念( )之间属于上下位关系。
第二讲信息检索基础
回 顾
●
本讲主要内容
● ●
信息检索概念 信息检索意义 信息检索原理 信息检索类型 信息检索途径 信息检索方法
●
信息检索技术 信息检索策略 信息检索步骤
●
● ●
●
Hale Waihona Puke 信息检索语言信息检索利用
●
●
●
有一种能力与生俱来
有一种能力终身受用------信息检索
信息检索概念
南航学生事务服务中心:【名家讲坛】4月8 日19:00在一号楼四楼报告厅,延参法师邀 请你一起《快乐看人生》!本次讲座将凭票 入场,但入场券只提供入场资格,现场座位 先到先得!入场券将在本周日(3月31日) 16:00在学生事务服务中心办公室免费领取, 领完为止,同样先到先得哦!邀你的同学一 起聆听大师的教诲吧!
信息检索途径
是由提取信息源的外部与内部特征形成 的,又称为检索点或检索入口
题名 责任者 号码 (专利号、标准号等) 出版信息 丛编 装帧 责任者单位
分类 主题
外部特征 信息(文献)
内部特征
文献外部特征主要检索途径:题名 责任者 号码 文献内部特征主要检索途径:分类 主题
信息检索方法
德国柏林图书馆门前有这样一段话:“这里是知识的宝库, 你若掌握了它的钥匙,这里的全部知识都是属于你的。”
信息检索类型
信息检索类型
按检索对象性质: 文献检索:凡是以文献(包括文献线索、文摘、题录 和 全文)为检索对象的一种检索。检索结果是特定文献线索。 移动通信病毒文献有哪些? 数据检索:凡是以数据(包括计算公式、化学分子式、数 值、图表(参考工具书) )为检索对象的叫数据检索。 检索结果是数值性数据。今日人民币对美元汇率 事实检索:统计资料、百科知识、人物传记、案例等世界 上最长的斜拉桥是哪座,该桥位于什么地方,何时建成? 按检索方式:手工检索 计算机检索
第二章 信息检索基础
2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。
信息检索基础知识
第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。
信息检索基础
A 马克思主义、列宁主义
Q172水生生物细胞学
毛泽东思想、 邓小平理论
Q173水生生物遗传学
B 哲学、宗教
Q174水声生物形态学、解剖学和组织学
C 社会科学总论 D 政治、法律 E 军事
Q10生命的起源 Q11生物演化与发展
Q175水声生物生理学 Q176水生生物化学 Q177水生生物物理学
F 经济
370 植物
430 农业
380 动物
440 工程
390 人类学 450 矿冶
460 化学工业
470 制造
480 商业
490 商学
441 土木工程 442 道路工程 443 水利工程 444 船舶工程 445 市政工程 446 机械工程 447 陆空交通 448 电气工程 449 核子工程
第三章 信息检索基础
文献信息分类 网络信息分类 数据库信息分类
主题 语言
单元词语言 标题词语言 关键词语言 叙词语言
第三章 信息检索基础
2.1 分类语言
• 文献信息分类
国内 《中国图书馆分类法》[中图法] 《中国科学院图书馆图书分类法》[科图法] 《中国人民大学图书馆图书分类法》 [人大法] 《中国图书分类法》台湾赖永祥编订
第三章 信息检索基础
2.1.6《美国国会图书馆分类法》 (LCC)
A 综合性类目
B 哲学、宗教
C 历史-辅助科学
D 历史与地方志(美洲以M外音) 乐
E~F 美洲历史与地方N志 艺术
G 地理学、人类学 P 语言、文字学
H 社会科学 J 政治学 K 法律 L 教育
Q 自然科学 R 医学 S 农业、矿业 T 工业技术
第三章 信息检索基础
1.1 检索与查找的区别
信息检索基础知识
信息检索效果的评价
评价指标: 漏检率
漏检相关文献量 漏检率 100% 系统中相关文献总量
误检率
误检文献量 误检率 100% 检出文献总量
影响检索效果的主要原因
信息系统组织结构、检索系统功能
问题
检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息系统特征
认真分析课题需求 灵活掌握检索方法和提高制定检索
信息检索的步骤
分析研究课题
制定检索需求描述 调整检索策略 索取原始文献
分析研究课题
明确以下问题:
分析客体的主要内容以及所涉及的知识点
明确所需要的文献种类、语种、年代以及
文献量。 明确对查新、查准、查全的指标要求以及 侧重点 确定所需要的文献应该具备的内外部特征。
分析研究课题
课题检索的类型:
查全型:开题报告、综述等 查准型:在具体细微的专业问题方面的研究 动态型:新技术、新理论的研究 查新型:同类研究项目比较
信息检索效果的评价
评价指标: 查全率(检全率)
检出相关文献量 检全率 100% 系统中相关文献总量
查准率(检准率)
检出相关文献量 检准率 100% 检出文献总量
策略的能力
第一部分 信息检索基础知识
主讲:戴 锋展
信息检索定义与分类
主要检索系统类型 信息检索效果评价
信息检索的作用
有利于减少课题的重复研究、提高
科研成功率
有助于节约时间、提高科研效率
切忌用来拼凑论文
信息检索的发展
信息检索基础.ppt
27
2.3 信息检索类型
1.文献检索
以索引、文摘或其他文献特征为主要检索对象 ,目的是运用检索系统查检出与某课题相关文献 检索,从而获取原始文献。
2.数据检索
以数据为检索对象,可直接选择专门的数据性 工具进行查检,从而得到数值性数据、图表、化 学结构式、计算公式等。
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
20
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
母)
如:Willian Henry Harrison →Harrison W H
Ren Shu Min → Ren SM
计算机检索系统
3
二、信息检索的原理
是将描述特定用户所需信息的提问特征,与 信息存储的检索标识进行异同的比较,从中找 出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
4
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
18
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
对应关系,具有专指性。
19
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
信息检索基础知识
46
计算机信息检索系统工作流程
输入子系统——选择收集特定范围的信息资源、按系统 指定款式输入系统 处理子系统——处理加工经过鉴定、选择好的数据和信 息,使其成为易于存储和检索的形式。 存储子系统——将加工处理后的信息按某种规定有序聚 积在存储载体上以构成可检文档。 传输子系统——通过计算机与通信线路的连接,完成信 息编码的传递、转接、处理与接受。 输出子系统——根据用户需求有效输出各类最终信息产 品。 控制子系统——根据系统内外环境变化,适时调控,保 障系统的有效输入、有效存储、有效输出等环节的协调 运行。
16
三、计算机信息检索系统 2、计算机信息检索系统的类型
计算机单机信息检索系统(20世纪50年代 初——60年代中期) 计算机联机信息检索系统( 20世纪60年 代中——70年代中期) 计算机光盘信息检索系统( 20世纪70年 代中——80年代中期) 计算机网络信息检索系统( 20世纪80年
(期).页码
10
二、手工信息检索系统
5、几种常用的手工信息检索工具 《中国农业文摘》: 81年创刊、85年起分7个分册 刊期、类型:双月刊、文摘型 检索途径:分类、主题、著者 著录格式:分类号 顺序号 题目 /作者
// 刊名, -年,卷(期). -页码 文摘正 文…… 图x 表x 参x (文摘员)
23
一、信息检索语言概述
信息检索语言是人们在加工、存储
及检索信息时所使用的标识符号; 信息检索语言是索引款目所使用的 标识系统; 信息检索语言可以是对自然语言作 规范化处理后的词汇与技术语言, 也可以是某类事物及其某方面特征 的代码。
24
二、信息检索语言的基本类型
1、按构成原理分:
新第二章 信息检索基础知识
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索
信息检索基础必备知识点
1、信息检索的定义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关的信息的过程和技术。
信息检索的作用:a:节省查找文献的时间。
b:有利于文献专题查找。
c:克服语言障碍。
2、信息:所有事物的存在方式和运动状态以及关于所有事物的存在方式和运动状态的陈述。
信息的特征:普遍性、客观性、抽象性、依附性、可加工性、传递性、共享性。
信息的作用:(1)信息是人类社会生存的条件,信息是人类社会发展的资源(2)信息是主客体的中介,信息是思维的材料(3)信息是组织的保证,信息的管理的基础(4)信息是决策的依据,信息是控制灵魂文献的特点:(1)数量急剧增长(2)内容交叉重复(3)专业文献出版分散(4)文献老化加快(5)文献语种繁多(6)文献载体形态增加文献类型:(一)按照载体的形式不同,文献可分为:1、印刷型2、缩微型3、声像型4、电子型(二)按照内容、性质和加工深度的不同,文献可分为:1、一次文献2、二次文献3、三次文献4、零次文献(三)根据性质、特点和出版形式的不同,文献可分为:1、科技图书2、科技期刊3、科技报告4、政府出版物5、会议文献6、专利文献7、学位论文8、标准文献9、科技档案 10、产品样本a、主题语言主题检索语言是用语词来表达文献主题概念,它不管各语词之间相互关系如何,一律按字顺排列成主题词表,故称主题检索语言。
分为标题词语言、关键词语言和叙词型语言三种。
关键词语言:由于关键词语言能适应使用计算机的需要,因而大大加速了文献标引过程,缩短了检索工具出版的时间,便于用来检索最新文献,大大增加了检索点,使用灵活方便。
查准率和查全率较低。
叙词型语言:用途较广,既适合于手工检索,又适合计算机检索语言。
6、信息检索的途径:书名途径,著者途径,序号途径,分类途径,主题途径。
7、信息检索方法:(一)常用法所谓常用法,顾名思义是检索中最为常用的方法,指利用成套的检索工具检索文献信息的方法,也称之为工具法。