信息检索教程 第二章 检索语言

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

17
【例题】检索英语会话类辞典,例如《美国语会话百科》、 《英语会话大全》、《现代英汉生活用语图解词典》,请 选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61
C.用书名“英语会话”和“大全”
D.用书名“英语会话”和“词典” 【答案】B
2.1.3.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言
2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言
3
第2章 检索语言
2.2.1 概念逻辑
2.2 检索语言 的理论基础
2.2.1.1 概念间的关系 不相容 关系
相容关系
同一 属种
整体与 全面与 不相排斥 交叉 部分 某一方面 的并列
10
第2章 检索语言
2.3.2.3 主要体系分类法介绍 国内常见的体系分类法有:
《中国人民大学图书馆图书分类法》,简称《人大法》 《中国图书馆分类法》,简称《中图法》 《中国科学院图书馆图书分类法》,简称《科图法》 《中国档案分类法》
国外常见的体系分类法有:
《杜威十进分类法》(Dewey Decimal Classification)简称DC或DDC 《美国国会图书馆分类法》(Library of Congress Classification)简称LC 《国际十进制分类法》(Universal Decimal Classification)简称UDC
11
《中国图书馆分类法》 第2 章 检索语言
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国 家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特 性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义 列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,由 5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条 类目组成了一个完善的分类体系。 标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一 个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数 字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本 上遵从层累制的原则。
互相排斥 的并列
矛盾
对立
4
第2章 检索语言
2.2.1.2 概念逻辑方法 1. 概念的划分与概括(分类) 建立概念等级体系,用以显示客观世界千差万别的事 物之间的内在联系。这种结构具有很好的系统性。例如, 体系分类法就是应用此种逻辑方法的典型。 2. 概念的分析与综合(组配) 建立概念组配体系,提供从多种途径来进行信息检索 的功能,而且可以任意选择检索标识的专指度,根据实际 需要扩大、缩小或改变检索的范围。例如,叙词语言与组 配分类法便是应用概念分析与综合的典型。
(1)类目的划分 (2)引用次序 (3)类目的排列 (4)类名的确定 (5)类目之间相互关系 的处理
宏观结构 按功能分,体系分 类法的宏观结构一般由 以下四部分组成:
(1)类目体系 (2)标记系统 (3)说明与注释 (4)类目索引
9
第2章 检索语言
2.3.2.2 体系分类法的特点 体系分类法在实际工作中,主要被用来组织分类排架 和统计藏书和建立分类检索系统。 体系分类法的主要特点是:
16
结果如下: F23会计 F230 会计学(簿记学、会计核算理论入此) F231 会计簿记方法 F231.1 资产负债表 F231.2 复式记帐和帐户 F231.3 会计凭证和财产清查 F231.4 帐簿和记帐技术 F231.5 会计报表 F231.6 会计检查和监督 确认 “会计检查和监督”的分类号是“F231.6”。 (6)检索 在分类号字段输入“F231.6”就能检索出期刊论文。
叙词语言是以表示单元概念的规范化语词为基础,以概念组配为 基本原理,对文献主题进行描述的后组式检索语言。 叙词语言继承和发展了体系分类语言、组配分类语言、标题词语 言、单元词语言、关键词语言等多种检索语言的思想、原理和优点, 使其具有多方面的优势,并且已经成为在当今互联网时代下应用最为 广泛的人工检索语言之一。
0
第2章 检索语言
2.1.1 检索语言的概念 2.1 检索语言 概述
检索语言有广义和狭义之分。 广义的检索语言泛指信息检索过程中涉及 的人工语言和自然语言。人工语言是根据一定 的规则人为编制而成的检索语言,它有着严格 的使用规则,可用于表述文献主要内容,建立 信息检索系统。自然语言是人类交流时使用的 语言,不受任何限制,未经加工和规范。 狭义的检索语言仅指根据信息检索的需要, 按照一定的规则对自然语言进行规范,并专门 用于信息标引和用户检索的人工语言。
第2章 检索语言
情报检索语言是科学
交流中人类自然语言交流 与人机交互均能达到共同 理解的基础。近年来,信 息化浪潮席卷各行各业, 情报检索语言顺应时势, 自然地成为数字化环境里 搏风击浪的有效工具。它 们在愈来愈多的领域展现 出非常广阔的应用前景。
本章要点
●介绍检索语言的概念、功能及类型 ●总结检索语言的主要理论基础 ●阐述分类检索语言的结构与性能 ●分析主题检索语言的原理及性能 ●论述分类主题一体化检索语言的原理、 性能及类型 ●探讨网络环境下检索语言的发展
6
第2章 检索语言
2.2.3 术语学
术语是在特定学科领域用来表示概念的称谓的集合, 或者说,是通过语音或文字来表达或限定科学概念的约定
性语言符号。
术语是分类表、词表的基本组成要素,检索语言其实 就是一个经过精细组织的术语集。 检索语言的创制以术语学的研究成果为基础的。
7
第2章 检索语言
2.3.1 分类检索语言概述
2.4.2.1 标题词语言 标题词是从自然语言中选取的、经过规范化处理的、表示事物概 念的词、词组或短语。标题词按字顺排列,词间语义关系用参照系统 显示,并以标题词表的形式体现。 2.4.2.2 单元词语言 单元词又称元词,是从自然语言中选取,经过规范化处理,表达 主题最小的、最基本的、字面上不能再分的名词术语。
1
第2章 检索语言
2.1.3 检索语言的分类
2.1.3.1 按描述文献的特征,可以分为描述文献外表特征 的检索语言和描述文献内容特征的检索语言
1. 描述文献外表特征 的检索语言 2. 描述文献内容特征 的检索语言
2
第2章 检索语言
2.1.3.2 按结构或原理,可分为分类语言、 主题语言、代码语言和引文语言
28
主题检索注意事项
1.主题词的规范 2.如何提取主题词
29
1.主题词的规范
1)同义词的规范
(1) 对完全等同的同义词的规范 (2) 对近义词的规范 (3) 对学名和俗名的规范 (4) 对不同译名、简称与全称的规范
对不同译名、简称与全称只选择正式的一个词。
30
同义词的规范实例 【实例】“煤炭”与“煤”是同义词,都可以使用,但是只 能用“煤”作为主题词。术语“商品煤”,英文是 Commercial coal/salable coal,含义是作为商品出售 的煤,其同义词“销煤”,现在已经停止使用。术语“精 煤”,英文是cleaned coal,含义是煤经精选(干选或湿 选)后生产出来的、符合质量要求的产品,其同义词“洗 精煤”现在已经停止使用。 【实例】“如“实验”与“试验”、“天然资源”与“自然 资源” 这两组词汇,应该选择“实验”和“自然资源”作为主题词。
22
第2章 检索语言
2.4.1.1 主题检索语言的类型
1
标题词语言
2
3 4
单元词语言
叙词语言 关键词语言
23
第2章 检索语言
2.4.1.2 主题检索语言的特点
主题检索语言与分类检索语言相比,具有明显的优点: 1. 专指性高 2. 直观性好 3. 灵活性强
24
第2章 检索语言
2.4.2 标题词语言和单元词语言
2.3 分类检索语言
分类检索语言也称分类法, 是将许多类目根据一定的原则组 织起来,通过标记符号(分类号 来代表各级类目和固定其先后次 序的分类体系。
体系分类法 组配分类法
分类检索语言
8
第2章 检索语言
2.3.2 体系分类法
2.3.2.1 体系分类法的结构
微观结构 微观结构指分类法 中类目的构成结构。
Hale Waihona Puke 21第2章 检索语言
2.4 主题检索语言
2.4.1 主题检索语言概述
主题检索语言又称主题法。它采用语词直接作为文献 主题标识,按字顺排列主题标识,提供各种检索词语的途 径。它从描述事物的特性角度出发,按文献所论述的事物 (即主题)集中文献,用规范化的名词术语标引和表达文 献的主题概念,用参照系统显示事物概念主题词之间的关 系。
1. 按学科、专业属性构建类目体系,形成按学科、专业集中文 献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出 发检索课题的需求,可以达到较高的查全率; 2. 采用等级列举式的概念标识系统来揭示概念之间的相互关系, 便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专 业的信息,用户也无须事先知道事物或概念的确切名称,就可以在一 定的类目下通过浏览查到该领域的相关信息; 3. 采用分类号作为主题的标识,不受语种的限制。
注:《中图法》的基本部类和大类见教材
12
表2-1《中国图书馆分类法》基本大类表
A 马克思主义、列宁主义、毛泽东思想 B 哲学法律 C 社会科学总论 D 政治 N 自然科学总论 O 数理科学和化学 P 天文学 Q 生物科学
E 军事 F 经济
G 文化、科学、教育、体育 H 语言 I 文学 J 艺术 K 历史地理
R 医药、卫生 S 农业科学
T 工业技术 U 交通运输 V 航空航天 X 环境科学 Z 综合性图书
13
《杜威十进分类法》
《杜威十进分类法》由美国的威尔· 杜威编制,采用纯阿拉伯 数字作为基本标记符号,基本上按照层累制展开,是一部在国际 上出现最早、流行最广、影响最大的图书分类法。1876年出版, 至1996年出版第21版,四卷本。卷一为编制说明和通用复分表, 卷二、卷三为类表,卷四为索引和使用手册。它依据培根的知识 分类思想,将图书分为十大类: • • • • • 000 100 200 300 400 总论 哲学 宗教 社会科学 语言学 500 600 700 800 900 自然科学 技术科学 美术 文学 史地
25
第2章 检索语言
2.4.3 关键词语言
关键词作为信息存储和检索依据的一种检索语言,是直接从原 文的标题、摘要或全文中抽选出来,具有实质意义的,未经规范化处 理的自然语言词汇。
关键词语言的类型: 1. 题内关键词索引 2. 题外关键词索引 3. 词对式关键词索引
26
第2章 检索语言
2.4.4 叙词语言
5
第2章 检索语言
2.2.2 知识分类
知识分类是对千差万别的事物做系统研究的重要方法, 是对各种事物之间的区别和联系从本质上、原理上进行揭 示的重要手段,对信息的系统化具有重要的价值,其实质 是划分知识单元、组织知识体系,包括学科分类和事物分 类。 学科分类是知识分类的主体,事物分类是知识分类的 基础。
27
第2章 检索语言
2.4.5 主要主题词表介绍
《美国国会图书馆主题词表》(Library of Congress
Subject Headings,简称LCSH)
《医学主题词表》(Medical Subject Headings)
《汉语主题词表》 《中国分类主题词表》 《社会科学检索词表》 《中国档案主题词表》
《杜威十进 分类法》
14
• 【例题】 通过分类途径检索“会计检查和监 督”的期刊论文
15
【题解】 (1)分析课题属于经济大类,具体是会计学。 (2)时间要求一般是10年。 (3)选择检索工具维普《中文科技期刊数据库》 (4)确定检索途径 采用分类途径具有纲举目张的族性检索功能。 (5)确定检索标识 此处的检索标识就是准确的分类号。 通过维普《中文科技期刊数据库》的“分类检索”可 以更 快捷地检索分类号。
18
检索练习
• 利用网络资源,检索“格律诗”在中图法 中的分类号
19
检索练习
• 利用网络资源,检索“格律诗”在中图法 中的分类号
中国分类号查询
文学I——中国文学I2——诗歌I22——古代作品I222 ——格律诗(近体诗)I226.7
20
第2章 检索语言
2.3.3 组配分类法
2.3.3.1 组配分类表 组配分类表是由编制说明、基本类表、分面类表和分 面公式以及通用辅表组成。其建立主要采用了分面分析法。 分面分析法是将整个知识领域或某一知识领域按其不 同属性分解为若干个不同的分面,每个分面再分解为若干 个亚面,每个亚面还可分解为若干个更小的子面,面内列 出所属各子目的一种编制分类表的方法。 在组配分类表的编制过程中,需要考虑到分面的引用 次序与排列次序、标记符号与标记制度等方面的问题。
相关文档
最新文档