信息检索基本知识及技巧

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

内容特征语言
加标志的叙词 组面词(如:组面分类法)
句法语言
短 语
文献全文的自然语言
2016/6/21
20
2. 2 按应用功能划分的检索语言
分类语言
主题语言
2016/6/21
21
2.21 分类语言
是用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科 体系的逻辑次序将信息资源系统地加以划分和组织的语言。 分类语言能反映事物的从属派生关系,便于按学科门类进行族检索。
1.1 信息检索的定义 信息检索(Information Retrieval):,是指将信息按一定的方式组织和 存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称 又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的 信息检索。 狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所 需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
2016/6/21
29
中国科学院图书馆图书分类法 中国科学院图书馆图书分类法简称科图法。1958年由中国科学院图书馆编写,1974年、1979年、 1994年分别进行了修订。分为25大类。
2016/6/21
30
国际专利分类法—— International Patent Classification , IPC 《关于国际专利分类斯特拉斯堡协定》与1975年10月7日生效,它为发明专利, 包括出版的专利申请书、发明证书说明书、实用新型说明书(一下简称为“专利文 献”) 提供了一种共同的分类。 分类表示使各国专利文献获得统一分类的一种工具。它的基本目的是作为各 专利局以及其他使用者在确定专利申请的新颖性、创造性(包括对技术先进性和 实用价值作出评价)而进行的专利文献检索是的一种有效检索工具。
2016/6/21
3
1.2 信息检索的手段 (1)手工检索 eg:美国工程索引 (2)光盘检索 eg:medline (3)网络检索 eg:springerlink
2016/6/21
4
1.3 信息检索的对象
(1) 文献检索(Document Retrieval) : 是以文献(包括题录、文摘和全文)
::关系符(例:178.1:33 酒精主义对国民经济的影响)
附加
/ :包含符(例:592/599 系统动物学,从592到599)
= :语言符(例:=71 拉丁语)
(0...) :书类符(例:(042)演讲,讲义) (...):地域符(例:(234.3) 阿尔卑司)
2016/6/21
25
美国国会图书馆图书分类法 —— Library of Congress Classification
2016/6/21
31
2016/6/21
32
2016/6/21
33
2016/6/21
34
2016/6/21
35
2016/6/21
36
2016/6/21
37
2016/6/21
38
2016/6/21
39
2016/6/21
40
2016/6/21
41
2016/6/21
42
2016/6/21
43
技术主体的分析
2016/6/21
44
2.22 主题语言
2016/6/21
45
2016/6/21
46
INSPEC 叙词表举例:
Locomotive
1、下位叙词 2、上位叙词 3、族首词 4、相关词
NT ①
BT ② TT ③ RT ④ CC ⑤
diesel-electric locomotive
二 信息检索的要素
(1)前提——信息意识/信息素养 information literacy
信息素养这一概念是信息产业协会主席保罗·泽 考斯基于1974年在美国提出的。简单的定义来自1989 年美国图书馆学会(American Library Association ,ALA ), 它包括: 能够判断什么时候需要信息,并且懂得如何去获 取信息,如何去评价和有效利用所需的信息。
vehicles vehicles rail traffic B8520-n railways C3360D traction
5、INSPEC数据库 使用的分类号 6、输入到INSPEC 数据库使用的 分类号 7、该叙词的启用日期
FC ⑥
DI ⑦
b8520-n
c3360De
January 1973
2016/6/21
信息检索基本知识及技巧
The principles and skills on information retrieval 主讲人 :
2016/6/21
1
目录 outline
一 信息检索的定义、分类及其作用 二 检索语言 三 检索的效率、手段和方法
2016/6/21
2
一 信息检索的定义、分类及其作用
2016/6/21 16
自引率与被引率 自引率是指一种期刊中引用本刊的参考文献对全部参考文献之比;被 自引率是一种期刊被本刊中文章引用的次数与该刊被引用的总次数之比。
自引率
=
某刊自引的引文量
该刊全部引文量
某刊自引的引文量 被引率 = 某刊被引用的总次数
2016/6/21
17
二 检索语言
2.1 按表现形式划分的检索语言
2016/6/21
26
第一层
2016/6/21
27
末层
2016/6/21
28
中国图书馆图书分类法——Chinese Library Classification, CLC 中国图书馆分类法,简称《中图法》。包括“马列主义、毛泽东思想,哲学,社会科学,自然科学, 综合性图书五大部类,22个基本大类,具体如下:
外表特征语言
内容特征语言
2016/6/21
18
外表特征:就是文献上记明的、显而易见的特征。
题名(书名、篇名)
著者姓名
外表特征语言 (书目引文语言)
文献序号(如:ISBN、ISSN、专利号、报告号等)
书目引文
出版事项
文献类型
2016/6/21
19
等级制体系分类法 标题词
非句法语言
关键词 叙 词 单元词
英国电气工程学会(Institute of Electric Engineering 简称 IEE)下设的国际物理和工程信息服务部 (International Information Services for the Physics and Engineering Communities,简称 INSPEC )
图书的检索途径主要用到:
书名
作者
出版社
ISBN 关键词
期刊的检索途径主要用到: 刊名 篇名 作者 关键词 ISSN
2016/6/21
11
会议论文的检索途径主要用到:
会议名称 主办单位 会议地点 关键词 作者 会议文章篇名
学位论文的检索途径主要用到:
作者 学位授予单位 导师姓名 关键词 论文篇名
2016/6/21
2016/6/21
49
(2)词的关联法 索引词的关联,最普通的形式是等级上的关联。
例如:A、由专指词到较泛指的词,使用符号 BT (broader term),或者 S (属) B、由泛指词到较专指的词,使用符号 NT (narrower term),或者 F (分) C、由指向近义的词,使用符号 RT (related term),或者 C (参),或 see also (参见)
2016/6/21
14
(3)核心——信息利用能力
掌握各种信息源
掌握检索语言 熟练使用检索工具 对检索结果的评价,判断
2016/6/21
15
附:期刊的指数计算
影响因素是一种期刊中论文的平均被引率 (1)影响因素 特定年度的影响因素 = 该年引用该刊前两年文章的总次数 前两年该刊所发表文章的总数
即年指标 用于测度一种期刊被利用的速度,也是测度期刊重要性的依据 一特定年度对该刊当年发表文章的引用次数 即年指标 = 当年该刊所发表文章的总数
12
专利资料的检索途径主要用到:
关键词 专利权人 发明人 国际专利分类号 公开号
标准资料的检索途径主要用到: 标准编号 标准名称 发布单位 发布日期 关键词
2016/6/21
13
报告资料的检索途径主要用到: 报告号 关键词 作者 报告单位 合同户报告代码
百科全书、类书资料的检索途径主要用到: 音 形 义
2016/6/21
52
(4)聚类法
在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多 的文献,从而改善查全性。 例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。
47
三 检索的效率、手段和方法
3.1 检索效率评价
2016/6/21
48
3.2 索引语言中改善查全率的措施
(1)同义词控制法
是指当一个概念具有多个同义词的时候,为了保证标引与检索的一致性, 避免文献的分散和漏检,指引词汇的使用者从其他的同义词找到一个被专门选 择作为正式主题词的词的用法。 例如: 用符号 USE、SEE、Y (用) 从正式词引见非正式的词,则用 USE FOR、D(代)
2016/6/21
50
《汉语主题词表》词的关联举列
交流发电机 F S 同步发电机 异步发电机 发电机
交流换向电机 D 交流整离子电机 S 交流电机
Z 电机
C 调速电动机 异步电动机
2016/6/21
51
(3)字形的控制法 即把具有同一词根的字组合在一起。当然这不是提供标引的措施,而是 提供检索用的辅助手段。 在计算机检索中,是采用截词实现的: 例如: “反射”、“反射波”、“反射性”、“反射望远镜” 等。 都有 reflect,用 reflect 进行截词检索,就能检索出与“反射”有关的 所有文献。
为检索对象的检索。可分为全文检索 和书目检索两种。
(2) 事实检索 (Fact Retrieval) :是以某一客观事实为检索对象,查找某一事物
发生的时间、地点及过程的检索。
(3) 数据检索(Data Retrieval) :是以数值或数据(包括数据、图表、公式等)
为对象的检索。
2016/6/21
5
2016/6/21
6
美国高等教育信息素养能力五大标准
主动 获取 具有信息素养能力的学生能决定所需要的信息种类和程度 具有信息素养能力的学生能有效而又高效地获取所需信息 分析 能力 具有信息素养能力的学生能评价信息及其来源,并能把所 遴选出的信息与原有的知识背景和评价系统结合起来 具有信息素养能力的学生无论是个体还是团体的一员,能 有效地利用信息达到某一特定的目的 具有信息素养能力的学生懂得有关信息技术的使用所产生的经 济、法律和社会问题,并能在获取和使用信息中遵守公告法律 创新 能力 检索 能力
总分类
3 社会学,政治,经济,法律,教育,人类学 4 暂无(由图书馆具体添加) 5 自然学科,数学 6 实用学科,医学,科技,企业经济学,计算机 7 艺术,手工艺品,音乐,竞技,体育 8 语言学,文学 9 地理,生物,历史
2016/6/21
wenku.baidu.com24
+ :并列符(例:178.1+33 酒精主义者 和 国民经济)
个人 修养
2016/6/21
7
(2)基础——信息源
A、信息的载体: 印刷型
缩微型
机读型+ 声像型
2016/6/21
8
B、信息的内容和加工级次:
一次文献
二次文献 三次文献
2016/6/21
9
C、信息的出版形式: 图书 期刊 会议资料 学位论文 专利 标准 报告 百科全书、类书
10
2016/6/21
2016/6/21
22
杜威十进分类法 —— Dewey Decimal Classification ,DC/DDC 美国M.杜威编制的综合性等级列举式分类法。分为详、简两种版本,详本于1876年问世, 取名为《图书馆图书小册子排架及编目适用的分类法和主题索引》,1951年的第15版 改名《杜威十进分类法》 000 总论 100 哲学
200 宗教
300 社会科学
第一层
400 语言
500 自然科学和数学
600 技术(应用科学) 700 艺术、美术和装饰艺术
630 农业
展开层
631 农业经营 631.5 作物栽培
800 文学
900 地理、历史及辅助学科
2016/6/21 23
通用十进制图书分类法 —— Universal Decimal Classification UDC 十进制图书分类法由两位比利时书目专家(Paul Otlet、Henri la Fontaine)19世纪末在杜威 十进制图书分类法的基础上继续研发的分类方法。此种分类方法由数字和特殊符号组成,把 涉及各种知识体系及学科的书籍予以分类。介于数字和符号无语言障碍的特性,该分类法在 世界各地的图书馆中被广泛应用。 0 总汇 1 哲学,心理学 2 宗教,神学
相关文档
最新文档