信息检索基础
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺点:检索质量难以保证。
2019/6/22
16
信息检索
四、 信息检索途径
1. 分类检索
根据文献内容在学科分类体系中的位置作为文献 信息的检索途径,它的检索标识是分类号,是一 种族性检索。
我国按《中国图书馆分类法》进行分类。如,C 社会科学总论,C93管理学,C933领导学,C933.1 领导体制
2019/6/22
24
信息检索
索取原文的方法:
(1)检索网上全文数据库 (2)利用网上出版社、杂志 (3)利用图书馆馆藏目录(馆藏联合目录) (4)利用“网上全文传递服务” (5)向著者索取
2019/6/22
25
信息检索
2.3.2 检索效果评价
检索要领是为实现检索结果的全和准: 因为检索结果主要通过查全率、查准率两个
2019/6/22
信息检索
2. 脱机信息检索
以批处理方式进行的脱机检索,即检索只能在检索系统所 在地进行,由检索人员定期将用户课题汇总,批量输入计 算机,用户不能参与检索过程,不能即时浏览检索结果, 修改检索方案,即不能人机对话。
脱机检索所存在的几点不足表现在: (1)地理上的障碍,指用户与检索人员距离较远时,不 便于检索要求的表达,也不便于检索结果的获取。 (2)时间上的迟滞,指检索人员定期检索,用户不能及 时获取所需信息。 (3)封闭式的检索,指检索策略一经检索人员输入系统 就不能更改,更不能依据机检应答来修改检索式。
2019/6/22
4
信息检索
主题
信息 文献的 分析 存贮 信息内容
主题
信息 检索者的 分析 检索 信息需要
主题 标引 概念
信
息
检
索
语
言ห้องสมุดไป่ตู้
主题 标引 概念
输入
标识
检索 输出 检索
系统
结果
检索
标识
2019/6/22
5
信息检索
三、检索语言
是检索信息所使用的语言。是信息检索 系统存储和检索信息时共同使用的一种约定性 语言,它是专门用来描述文献的内容特征、外 表特征和表达情报提问的一种人工语言。以达 到信息存储和检索的一致性,提高检索效率。 又称标引语言、索引语言、概念标识系统等。
要求。 准:要解决研究中的具体问题,要求检出的
文献有针对性,对查准要求较高。 全:要全面了解某一特定领域的发生、发展
和现状,是一种回溯性检索,对查全有较高 要求。
信息检索
2.选择合适的检索工具 根据课题的学科专业范围、主题内容,选择
合适的数据库。 3.选择检索途径,确定检索标识。
确定检索途径,根据数据库的词表,把主题 内容转换成检索系统采用的检索标识和检索词。 4.查找文献线索。 5.浏览检索结果,获取原始文献。
有关信息搜集、加工、存储和检索的服务 系统。 可分为 手工检索系统
计算机检索系统
2019/6/22
3
信息检索
二、信息检索的原理
是将描述特定用户所需信息的提问特征, 与信息存储的检索标识进行异同的比较,从中 找出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。
2019/6/22
查全率 80% 查准率 88.9%
27
信息检索
2.3 信息检索类型
1.文献检索 以索引、文摘或其他文献特征为主要检索对
象,目的是运用检索系统查检出与某课题相关文 献检索,从而获取原始文献。 2.数据检索
以数据为检索对象,可直接选择专门的数据 性工具进行查检,从而得到数值性数据、图表、 化学结构式、计算公式等。 3.事实检索
2019/6/22
17
信息检索
2. 关键词途径
关键词:来自于文献的标题、文摘或正文,是一 种没有规范化的自然语言。如:医学词汇的简称 (乙肝、心衰),生活常用语(打摆子、拉肚 子)。
特点:没有严格的语法规范,个人使用的爱好不 同自由词选择不同(非典、非典型性肺炎、SARS、 严重急性呼吸系统综合症等)
指标来进行评价。
查全率:系统进行检索时,检出的相关文献量与 系统文献库中相关文献总量的比率。 查准率:系统中检出的相关文献量与检出的文献 总量的比率。
2019/6/22
26
信息检索
思考:如某数据库中共有 探讨“企 业管理”的相关文章1000篇,而你 在这个数据库中只检索出900篇,而 且其检索出的结果中还有100篇是不 相关的,那么你这次检索的查全率 和查准率各是多少?
2019/6/22
6
信息检索
1.分类语言
方 技 略
数 术 略
兵 书 略
诗 赋 略
诸 子 略
六 艺 略
辑 略
我国古代第一部成型的图书分类法是西汉刘向、
刘歆父子编制的《七略》。
西晋,荀勖创立了四部分类法,即甲、乙、丙、
丁四大部。
从隋唐起,图书的四部分类法已经基本定型。
皇家图书馆及秘书省、翰林院等重要典藏图书 之所,都是按照经、史、子、集分四库贮藏图 书的,名为"四库书"。
是指从记录信息的文献题名、摘要和正文中提取 出来的具有实际意义、能够表达信息主题内容的、 未经规范化的自然语言。
特点:
①一般不建立关键词表,通常使用禁用词表来淘汰 不具有检索意义的词。
②在标引阶段只进行少量控制或不作控制,尤其
适用于电子计算机处理和自动标引,能及时反映 新事物概念。
③在检索阶段通过对同义控制和相关词推荐等方式 提供帮助。
13
信息检索
2. 主题语言
是用自然语言中具有高度概括性的名词、名词 性词组描述事物概念,用参照系统等表达概念 之间的相互关系的一种检索语言。
特 点:直观性强,专指度高。 根据抽词原则、编制方法及使用规则不同,可
分为标题词语言、元词语言、叙词语言、关键 词语言。
2019/6/22
14
信息检索
母)
如:Willian Henry Harrison →Harrison W H Ren Shu Min → Ren SM
2019/6/22
21
信息检索
5. 机构检索
以机构名称为检索词,来查该机构学者发表的文 献。(排除同名同姓)
6. 题名检索
按书名、刊名或文章篇名的字顺进行检索。检索 限定刊物上发表的文献。
7. 号码途径
利用文献代码、序号编排成的号码索引检索文献。 如ISBN、ISSN等。
8、引文检索
是以被引用文献为检索起点来查找引用文献的过 程。
2019/6/22
22
2.2 信息检索步骤及检索效果评价
2.2.1 检索步骤
1.分析检索课题,明确目的和要求
用户的检索需求大致分为3类: 新:及时获得最新的内容,对查全没有过高
(1)叙词语言
所谓叙词,是指从自然语言中优选出来并经过规 范化处理的术语,又称主题词。
叙词语言是采用表示单元概念的规范化词语的组 合来对信息主题或内容进行描述的标识系统。
特 点:专指性、直观性、多维检索等。 如《汉语主题词表》(1980出版)
2019/6/22
15
信息检索
(2)关键词语言
对应关系,具有专指性。
2019/6/22
19
信息检索
检索举例:冠心病的治疗
自由词
冠心病
冠状动脉粥样硬化性心脏病 治疗
冠状动脉疾病 冠状动脉心脏病
主题词 冠状动脉疾病
治疗
文献
2019/6/22
20
信息检索
4. 著者检索
用文献的著者、编者、译者的姓名或机构团体名 称编制而成的索引。
按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字
信息检索
第二章 信息检索基础
2019/6/22
1
信息检索
本章要求
1.理解信息检索的基本原理; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别; 4.掌握信息检索的基本步骤; 5.理解并掌握查全率、查准率的概念与利用
2019/6/22
2
信息检索
第一节 信息检索系统及检索语言
一、信息检索系统 是根据特定的信息需求而建立起来的一种
以特定的事实为检索对象,先选择合适的工 具,按一定标识,直接从中检出事实性、知识性 的答案,其检索结果是描述性事实。
2019/6/22
信息检索
2.4信息检索系统的类型及特点
1. 手工信息检索 以人工方式查找和提供情报的系统。其特点
是人直接参与检索过程。所使用的情报检索工具 包括书本式目录、文摘、索引以及各种卡片(穿 孔卡片、元词卡片)。手工信息检索具有操作简 单、费用低廉、查准率高等优点,但耗时较多效 率低。随着计算机的普及,手工信息已逐渐被计 算机信息检索所代替。
Z 综合性图书
9
信息检索
C 社会科学总论
C0 社会科学理论与方法论 1 社会科学现状及发展 2 社会科学机构、团体、会
议 3 社会科学研究方法 4 社会科学教育与普及 5 社会科学丛书、文集、连续
性出版物 6 社会科学参考工具书
C 8 统计学 91 社会学 92 人口学 93 管理学 94 系统科学 95 民族学 96 人才学 97 劳动科学
7 社会科学文献检索工具书
2019/6/22
10
信息检索
C97 劳动科学
C970 C971 C972 C973 C974 C975
劳动科学基础理论 劳动经济学 劳动法学 劳动关系学 劳动管理学 职业培训
2019/6/22
11
信息检索
优势:
特点是能集中体现学科的系统性,反映事物的 从属、派生关系,便于按学科门类进行族性检 索。 将概念逐级划分,具有等级结构,便于扩大和 缩小检索范围。 以分类号作为检索标识,不存在文种限制。 标记简明,适用于分类排架,也可用于组织分 类检索工具。
缺点:要查出所有的有关非典的文献,需要把各 种可能的用词都列出来分别查询。
2019/6/22
18
信息检索
3. 主题途径
主题词:是以自然语言为基础,以概念组配为 基本原理,并经过规范化处理,表达主题的最 小概念单元,作为信息存储和检索依据的一种 检索语言。
特 点: 词义、词类、词形规范保证词语与概念的唯一
2019/6/22
7
信息检索
分类语言
是建立在科学分类的基础上,以学科体系为基 础,将各种概念按学科性质进行分类,进行层 层划分,每次划分,就产生若干类目。逐级划 分,就产生了不同级别的类目,这些类目层层 隶属,形成一个严格有序的等级体系。
常用分类号或分类词表示。 分类检索语言通过分类表来体现。一部完整的
备简单,可随地安装,使用方便、易于操作,检 索费用低(不需要昂贵的联机检索通讯费用), 因可随时修改检索策略而具有很高的查全率和查 准率等优点。
2019/6/22
信息检索
5. 网络信息检索 (1)交互式作业方式 (2)用户透明度 (3)信息检索空间的拓宽 (4)友好的用户界面
2019/6/22
信息检索
2019/6/22
12
信息检索
不足:
不能充分揭示信息资源中大量存在的细小专深 主题。 分类表中的类目不能随时更改,因而不能及时 反映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能 标引在一门学科的类目之下,检索时可能漏检。 大型类表一般篇幅较大,对类表管理的要求较 高。
2019/6/22
2.5 信息检索方法
信息检索的效率与具体的信息检索方法有很 大的关系,运用有效的信息检索方法能够使用户 以最少的时间获得最满意的检索结果。信息检索 方法的运用离不开各种信息检索系统,总的来说 ,检索方法有直接浏览法、常用法、追溯法和综 合法。
2019/6/22
信息检索
1. 直接浏览法
直接浏览法也称直接查找法,指检索者不依靠任何检 索工具或检索系统,从本专业最新核心期刊或其他文献中 直接阅读原文或浏览最新目次而获取文献的方法。这是一 种最常见的信息资源的获取方式。因为编制检索工具需要 时间,有的半年,甚至长达一年之久,直接浏览可以及时 获得最新文献。但利用这种方法查找的信息不全面、不系 统、且局限性较大,不能作为查找文献的主要方法。
分类表,大体可由:编制说明、大纲、简表、 详表、辅助表、索引、附录等组成。
2019/6/22
8
信息检索
马克思主义、列宁主义、毛 A 马克思主义、列宁主义、
泽东思想、邓小平理论
毛泽东思想、邓小平理论
中
哲学、宗教
图
法
社会科学
体
系
结 自然科学
构
2019/6/22
综合性图书
B 哲学、宗教
C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学
2019/6/22
信息检索
3. 联机信息检索 建立在计算机联机处理方式上的信息检索,
即检索者通过检索终端和通信线路直接查寻检索 系统数据库的计算机检索方式。用户采用终端并 通过通信线路,以与检索系统对话的方式直接访 问数据库,进行存储、检索、打印、修改数据等 处理。
2019/6/22
信息检索
4. 光盘信息检索 光盘检索具有储量极大而体积微小,要求设