文献信息组织解读
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.体系分类法 2.主题法 3.分类法与主题法的比较
1.体系分类法
1)构成原理:把具有某种或某些共同属性的事物集合,划 分为一类,用概括该类事物所共有的本质属性的概念作为 类目,并给出相应的标记符号作为类号,在一类事物中, 每一事物除了具有与同类其他事物共同的属性外,还有许 多与同类事物不同的属性。用这些不同属性的一种作为标 准划分该类事物,会得到若干个下位类,再分别给出每个 下位类的类号,各下位类又可按事物的另外一种属性为标 准进行细分,以此类推。 分类法语言使用分类号来标识类目,分类号可反映类目在 分类体系中的位置和排列次序。 2)种类: 《中图法》 《杜威十进分类法》《国际十进分类法》
C2特点:
优点:关键词法不受词表控制,快捷简便, 适于用计算机组织和检索文献信息; 缺点:由于关键词法的词语不规范,影响 了文献信息的查全率和查准率。
d叙词法
d1定义:以叙词做主题词的后组式主题法
叙词:是一种以概念为基础的,经过优选的规 范化名词术语,具有单义性,组配性能好的特 性。
d2叙词表:《汉语主题词表》
a3特点: 优点: • 使检索具有直接性与直观性; • 适合于从事物出发按专题进行特性检索 缺点: • 缺乏按学科进行族性检索的能力; • 缺乏表述专指度较高的复杂概念的能力; • 缺乏多途径检索和自由扩检的能力。
a标题词法
b单元词法
b1定义:以单元词作为文献主题内容的标 识和检索标识的后组式主题法。
《杜威十进分类法》பைடு நூலகம்系结构
000 100 200 300 400 500 600 700 800 900 Generalities Philosophy and related disciplines Religion Social sciences Language Pure sciences Technology(Applied sciences) The arts Literature(belles--lettres) General geography and history
单元词从文献内容中抽出,再经规范,能表达一个独 立的概念。是最基本的、不能再分的词汇,比如“计 算机软件”不是单元词,而“计算机”和“软件”才 是单元词。
b2单元词表:专利工具中的《WPI-规范化 主题词表》
b单元词法
b3特点:
优点:强调词汇的单元化和后期组配,因 此提高了主题法的灵活性; 缺点:由于它过分强调词汇单元化,词汇 处理方法又不甚合理,易发生错误组配, 误检率较高,故实用性不是很好。
C关键词法
C1定义:以关键词作为文献主题内容的标 识和检索标识的主题法。
关键词:直接从文献题名、文摘或全文中抽取出来的有 实际检索意义的信息单元(关键词)。关键词是非规范的, 无需查阅标准词表,或者只编制一个“禁用词表”,它 收录为数不多的禁用词,如助词、连词、介词、冠词以 及一些通用概念的词。
C关键词法
第二章 文献信息组织
1文献检索的基本原理 2文献检索语言 3文献信息组织法
1文献检索的基本原理
1.文献替代
1)定义:对原始文献的外表特征和内容特征进 行描述的过程。 2)著录:将原始文献制成它的替代文献- 二次 文献,著录必须客观准确地反映原文的特征, 项目简洁,醒目易辨。 1983年,我国颁布《检索期刊条目著录格式》 (GB3793-83)
《汉语主题词表》
《汉语主题词表》的结构:
①主表:
• • • • • 全部叙词+部分非叙词 注释 范畴号 参照系统 附表:从主表中分离出来的专用叙词表,包括世界各
国政区名称、自然地理区划名称、组织机构、人物名 称
《汉语主题词表》
词目三: Gao Wen fa 高温阀(温度>4500C)----含义注释 词目四: Fen xi(hua xue) 分析(化学)*-------使用范围注释 Analysis(chemical) F 半微量分析
1.定义:是根据信息检索的需要编制的,供标引 文献和检索文献用的一种人工语言,是标引者 和检索者共同约定使用的语言。 2.特点: 1)表达的概念具有单义行和唯一性 2)可使内容相同和相关的文献集中,使大量分 散的文献存储系统化、组织化,便于进行有规 律的检索。
3.分类表
文献检索语言
3 文献信息组织法
组配的作用
1) 控制词量。组配可以起到控制词表体积的作用。只要 选择了基本的词汇,通过组配,就可以用少量的词表 达和描述尽可能多的概念。组配实际上遵循了数字排 列组合的原理和方法。 2)扩大检索途径。在组配中,每一个词及其组合都可以 作为检索人口参加排序,所以可以扩大检索途径。如 查找教育心理学方面的文献,可有三个人口,教育学、 心理学及教育+心理学,即提供了三条检索途径。 3)可以自由扩大、缩小或改变检索范围。在标引时,可 用许多个词来标识一篇文献,因而可以达到很高的专 指度和标引深度。在检索时,可根据检索中出现的具 体情况,随时增减叙词,以扩大、缩小或改变检索范 围,直到满足检索要求为止。
《国际十进分类法》(Universal Decimal
• 简称 UDC 。由比利时学者鲍威尔 · 奥特勒 (Paul Otlet)和亨利· 拉芳(Henri La)在DDC的基础上补 充而成,初版于 1905 年,现已出第 3 版。它是 一种半组配式的体系分类法,现已有 3 种文本, 从20世纪60年代末期起被称为世界图书信息的 国际交流语言。 • 该分类法由主表、辅助表及辅助符号 3 大部分 组成。主表把知识分为10大门类、大类划分沿 用了《杜威法》的基本大类结构。全表有近20 万个类目,是世界上现有各种分类法中类目设 置最多的一部,科技部分设类尤为详尽。
2.主题法:
1)定义:以自然语言中的词语或规范化的 词语作为揭示文献主题的标识,并以此 标识编排组织和查找文献的排检方法。 主题词:表达主题概念的词语,优选出 的词语必须词义明确,避免其多义性, 并受特定的词表控制。 2)分类:a标题词法、b单元词法、c关键 词法 d叙词法
a标题词法:
a1定义:以标题词(规范的事物名称、名词 术语)作为文献主题内容的标识和检索标 识的先组式主题法。
词目一: 正式叙词与非正式叙词款目结构
shou fa kai guan guan 收发开关管 [56CD]-- -范畴号 Transmit receive tubes D 放电器 收发管 F 放电管 宽频带开关管 窄频带开关管 S 充气管 Z 电子管*----------族首词符号 C 反收发开关管 词目二: shou fa guan 收发管 [56CD] Transmit-receive tubes Y 收发开关管
参照系统:
《汉语主题词表》
②辅助表:
词族索引:等级索引,利用概念成族原理 范畴索引:分类索引,采用三级分类制体系,数字与
字母混合的号码标记制度,把主表中全部叙词按学科
分类排列
英汉对照索引:按英文名称字母顺序排列,提供从英
文名查找叙词的检索途径。
词族索引款目结构:
chu deng shu xue 初等数学 * · 初等代数 · 初等几何 · · 立体几何 · · 平面几何 · 三角 · · 球面三角 · 算术
组配的形式
1)概念相交:即内涵不同、外延部分重合的两个 相同性质概念之间的组配。组配的结果产生一个 新概念,这个概念分别属于这两个概念的下位概 念。
2)概念限定:即两个不同性质概念之间的组配, 其中一个概念反映了另一概念的某一方面、某一 特征或时空中的某一部分。限定的结果也产生一 个新概念,它表示该事物的某一方面或某一特征。
中国专利文献著录格式:
2.文献整序
1)定义:对替代文献进行标引,给出文献标识,将 所有替代文献按其标识进行有规律的组织排列并 编制出各种类型的索引的过程。 2)分类:形式整序 内容整序
3.文献特征标识与检索提问标识的匹配
标引员对文献的表达 检索者对文献需要的表达
匹配
检索语言
文献检索
2 文献检索语言
3)概念概括:即两个或两个以上的同级概念相 加或并列,组配结果形成一个新概念,作为原 来概念的属概念。
4)概念联结:这种组配表示几个概念之间的联 系,并不形成新的概念。 例如:档案学+图书馆学一档案学与图书馆学 的关系。
组配的条件
1)当组配表达会产生意义失真时,不用组配表达。例如, 用“蘑菇”和“战术”两个词来组配表达“蘑菇战术” 这个概念,“蘑菇”一词在检索时独立使用会产生误 检,所以应直接采用专指性词组,即在叙词表中设置 “蘑菇战术”这一叙词。 2)某些专业词汇和专有名词不必用组配,可直接采用专 指性词组。如“收录两用机”。 3)当组配表达不可能得到组配长处时,就采用专指性词 组。例如,“文化水平” 一词就不必分拆成文化+水 平。因为“水平”一词并没有检索意义,不会成为一 条检索途径。
Classification)
《国际十进分类法》体系结构
0 1 2 3 4 5 6 7 8 9 总类 哲学 宗教、科学 社会科学、经济、法律、行政 (语言学)(该类1963年已并入第8类,现为空类) 数学、自然科学 应用数学、医学、工业、农业 艺术 语言学、文学 地理、传记、历史
1.体系分类法
3)特点: 优点:体现了学科的系统性,便于从学科 和专业的角度出发进行族性检索 缺点: • 缺乏进行多概念灵活组配的能力; • 无法反映新学科和新技术的内容; • 不能全面检索有关跨学科专业的某一事 物的所有文献。
规范化处理:同义词(计算机和电脑)、近义词(实 验与试验)、词形(汉字的简体、繁体、异体)、词 组的组合方式(正叙、倒叙、并列)、用注释方式对 标题词的内涵进行限制的规范
a2标题词表:《工程标题词表》(SHE)
《工程标题词表》(SHE)
① INFORMATION SCIENCE ⑥ 903 ②(Before 01/86,use code 901) ③ Abstracting (Beginning01/81) ③ Indexing (Apply code 723 if computerized) ⑥ (723) Information Dissemination ④See INFORMATION DISSEMINATION ③ Information Retrieval (For systems, see INFORMATION RETRIEVAL SYSTEMS) ③ Information Use Language Translation and Linguistics ⑥ (723) (Apply code 723 if computerized. ⑤See also TRANSLATING MACHINES) 说明:①主标题词;②注释项,说明词的使用范围、用法及含义;③副标 题词;④见项,指向规范化的标题词;⑤参见项,指向相关的标题词; ⑥分类号(用于计算机检索)。
文献的特征:
• 外表特征:可以在文献的封面或扉页,即不打 开书本,或不看文献的具体内容就可以确定一 篇文献。如题目、作者、出处、作者工作单位、 专利号、报告号。 • 内容特征:深入文献内容中间获得的特征,如 分类号、主题词、摘要等。
外表特征 文 内容特征 献
《环境科学文摘》著录格式:
《中国药学文摘》著录格式:
《中图法》体系结构
基本大类 简表 详表 复分表
《杜威十进分类法》 (Dewey
Decimal Classification and Relative lndex)
• 简称DC或DDC或杜威法,又名《十进制图书分类法》,是美 国图书馆学家麦—威尔· 杜威(Melvil Dewey)所创制的,初 版于1876年,1971年已出第18版。这是一部在国际上出现 最早、流行最广、影响最大的图书分类法。 • 采用十进制的等级分类体系,即把所有学科分成9大类,分 别标以100—900的数字。9大类表示9个专门的主题范畴, 各类中的类目均按照从一般到特殊,从总论到具体的组织 原则,对不能归人任何一类的综合性资料入第 10类,即总 论类,以下依次逐级分类,形成一个层层展开的等级体系。 从18版起,该分类法采用了一些分面综合手段,增强组配 性能。
1.体系分类法
1)构成原理:把具有某种或某些共同属性的事物集合,划 分为一类,用概括该类事物所共有的本质属性的概念作为 类目,并给出相应的标记符号作为类号,在一类事物中, 每一事物除了具有与同类其他事物共同的属性外,还有许 多与同类事物不同的属性。用这些不同属性的一种作为标 准划分该类事物,会得到若干个下位类,再分别给出每个 下位类的类号,各下位类又可按事物的另外一种属性为标 准进行细分,以此类推。 分类法语言使用分类号来标识类目,分类号可反映类目在 分类体系中的位置和排列次序。 2)种类: 《中图法》 《杜威十进分类法》《国际十进分类法》
C2特点:
优点:关键词法不受词表控制,快捷简便, 适于用计算机组织和检索文献信息; 缺点:由于关键词法的词语不规范,影响 了文献信息的查全率和查准率。
d叙词法
d1定义:以叙词做主题词的后组式主题法
叙词:是一种以概念为基础的,经过优选的规 范化名词术语,具有单义性,组配性能好的特 性。
d2叙词表:《汉语主题词表》
a3特点: 优点: • 使检索具有直接性与直观性; • 适合于从事物出发按专题进行特性检索 缺点: • 缺乏按学科进行族性检索的能力; • 缺乏表述专指度较高的复杂概念的能力; • 缺乏多途径检索和自由扩检的能力。
a标题词法
b单元词法
b1定义:以单元词作为文献主题内容的标 识和检索标识的后组式主题法。
《杜威十进分类法》பைடு நூலகம்系结构
000 100 200 300 400 500 600 700 800 900 Generalities Philosophy and related disciplines Religion Social sciences Language Pure sciences Technology(Applied sciences) The arts Literature(belles--lettres) General geography and history
单元词从文献内容中抽出,再经规范,能表达一个独 立的概念。是最基本的、不能再分的词汇,比如“计 算机软件”不是单元词,而“计算机”和“软件”才 是单元词。
b2单元词表:专利工具中的《WPI-规范化 主题词表》
b单元词法
b3特点:
优点:强调词汇的单元化和后期组配,因 此提高了主题法的灵活性; 缺点:由于它过分强调词汇单元化,词汇 处理方法又不甚合理,易发生错误组配, 误检率较高,故实用性不是很好。
C关键词法
C1定义:以关键词作为文献主题内容的标 识和检索标识的主题法。
关键词:直接从文献题名、文摘或全文中抽取出来的有 实际检索意义的信息单元(关键词)。关键词是非规范的, 无需查阅标准词表,或者只编制一个“禁用词表”,它 收录为数不多的禁用词,如助词、连词、介词、冠词以 及一些通用概念的词。
C关键词法
第二章 文献信息组织
1文献检索的基本原理 2文献检索语言 3文献信息组织法
1文献检索的基本原理
1.文献替代
1)定义:对原始文献的外表特征和内容特征进 行描述的过程。 2)著录:将原始文献制成它的替代文献- 二次 文献,著录必须客观准确地反映原文的特征, 项目简洁,醒目易辨。 1983年,我国颁布《检索期刊条目著录格式》 (GB3793-83)
《汉语主题词表》
《汉语主题词表》的结构:
①主表:
• • • • • 全部叙词+部分非叙词 注释 范畴号 参照系统 附表:从主表中分离出来的专用叙词表,包括世界各
国政区名称、自然地理区划名称、组织机构、人物名 称
《汉语主题词表》
词目三: Gao Wen fa 高温阀(温度>4500C)----含义注释 词目四: Fen xi(hua xue) 分析(化学)*-------使用范围注释 Analysis(chemical) F 半微量分析
1.定义:是根据信息检索的需要编制的,供标引 文献和检索文献用的一种人工语言,是标引者 和检索者共同约定使用的语言。 2.特点: 1)表达的概念具有单义行和唯一性 2)可使内容相同和相关的文献集中,使大量分 散的文献存储系统化、组织化,便于进行有规 律的检索。
3.分类表
文献检索语言
3 文献信息组织法
组配的作用
1) 控制词量。组配可以起到控制词表体积的作用。只要 选择了基本的词汇,通过组配,就可以用少量的词表 达和描述尽可能多的概念。组配实际上遵循了数字排 列组合的原理和方法。 2)扩大检索途径。在组配中,每一个词及其组合都可以 作为检索人口参加排序,所以可以扩大检索途径。如 查找教育心理学方面的文献,可有三个人口,教育学、 心理学及教育+心理学,即提供了三条检索途径。 3)可以自由扩大、缩小或改变检索范围。在标引时,可 用许多个词来标识一篇文献,因而可以达到很高的专 指度和标引深度。在检索时,可根据检索中出现的具 体情况,随时增减叙词,以扩大、缩小或改变检索范 围,直到满足检索要求为止。
《国际十进分类法》(Universal Decimal
• 简称 UDC 。由比利时学者鲍威尔 · 奥特勒 (Paul Otlet)和亨利· 拉芳(Henri La)在DDC的基础上补 充而成,初版于 1905 年,现已出第 3 版。它是 一种半组配式的体系分类法,现已有 3 种文本, 从20世纪60年代末期起被称为世界图书信息的 国际交流语言。 • 该分类法由主表、辅助表及辅助符号 3 大部分 组成。主表把知识分为10大门类、大类划分沿 用了《杜威法》的基本大类结构。全表有近20 万个类目,是世界上现有各种分类法中类目设 置最多的一部,科技部分设类尤为详尽。
2.主题法:
1)定义:以自然语言中的词语或规范化的 词语作为揭示文献主题的标识,并以此 标识编排组织和查找文献的排检方法。 主题词:表达主题概念的词语,优选出 的词语必须词义明确,避免其多义性, 并受特定的词表控制。 2)分类:a标题词法、b单元词法、c关键 词法 d叙词法
a标题词法:
a1定义:以标题词(规范的事物名称、名词 术语)作为文献主题内容的标识和检索标 识的先组式主题法。
词目一: 正式叙词与非正式叙词款目结构
shou fa kai guan guan 收发开关管 [56CD]-- -范畴号 Transmit receive tubes D 放电器 收发管 F 放电管 宽频带开关管 窄频带开关管 S 充气管 Z 电子管*----------族首词符号 C 反收发开关管 词目二: shou fa guan 收发管 [56CD] Transmit-receive tubes Y 收发开关管
参照系统:
《汉语主题词表》
②辅助表:
词族索引:等级索引,利用概念成族原理 范畴索引:分类索引,采用三级分类制体系,数字与
字母混合的号码标记制度,把主表中全部叙词按学科
分类排列
英汉对照索引:按英文名称字母顺序排列,提供从英
文名查找叙词的检索途径。
词族索引款目结构:
chu deng shu xue 初等数学 * · 初等代数 · 初等几何 · · 立体几何 · · 平面几何 · 三角 · · 球面三角 · 算术
组配的形式
1)概念相交:即内涵不同、外延部分重合的两个 相同性质概念之间的组配。组配的结果产生一个 新概念,这个概念分别属于这两个概念的下位概 念。
2)概念限定:即两个不同性质概念之间的组配, 其中一个概念反映了另一概念的某一方面、某一 特征或时空中的某一部分。限定的结果也产生一 个新概念,它表示该事物的某一方面或某一特征。
中国专利文献著录格式:
2.文献整序
1)定义:对替代文献进行标引,给出文献标识,将 所有替代文献按其标识进行有规律的组织排列并 编制出各种类型的索引的过程。 2)分类:形式整序 内容整序
3.文献特征标识与检索提问标识的匹配
标引员对文献的表达 检索者对文献需要的表达
匹配
检索语言
文献检索
2 文献检索语言
3)概念概括:即两个或两个以上的同级概念相 加或并列,组配结果形成一个新概念,作为原 来概念的属概念。
4)概念联结:这种组配表示几个概念之间的联 系,并不形成新的概念。 例如:档案学+图书馆学一档案学与图书馆学 的关系。
组配的条件
1)当组配表达会产生意义失真时,不用组配表达。例如, 用“蘑菇”和“战术”两个词来组配表达“蘑菇战术” 这个概念,“蘑菇”一词在检索时独立使用会产生误 检,所以应直接采用专指性词组,即在叙词表中设置 “蘑菇战术”这一叙词。 2)某些专业词汇和专有名词不必用组配,可直接采用专 指性词组。如“收录两用机”。 3)当组配表达不可能得到组配长处时,就采用专指性词 组。例如,“文化水平” 一词就不必分拆成文化+水 平。因为“水平”一词并没有检索意义,不会成为一 条检索途径。
Classification)
《国际十进分类法》体系结构
0 1 2 3 4 5 6 7 8 9 总类 哲学 宗教、科学 社会科学、经济、法律、行政 (语言学)(该类1963年已并入第8类,现为空类) 数学、自然科学 应用数学、医学、工业、农业 艺术 语言学、文学 地理、传记、历史
1.体系分类法
3)特点: 优点:体现了学科的系统性,便于从学科 和专业的角度出发进行族性检索 缺点: • 缺乏进行多概念灵活组配的能力; • 无法反映新学科和新技术的内容; • 不能全面检索有关跨学科专业的某一事 物的所有文献。
规范化处理:同义词(计算机和电脑)、近义词(实 验与试验)、词形(汉字的简体、繁体、异体)、词 组的组合方式(正叙、倒叙、并列)、用注释方式对 标题词的内涵进行限制的规范
a2标题词表:《工程标题词表》(SHE)
《工程标题词表》(SHE)
① INFORMATION SCIENCE ⑥ 903 ②(Before 01/86,use code 901) ③ Abstracting (Beginning01/81) ③ Indexing (Apply code 723 if computerized) ⑥ (723) Information Dissemination ④See INFORMATION DISSEMINATION ③ Information Retrieval (For systems, see INFORMATION RETRIEVAL SYSTEMS) ③ Information Use Language Translation and Linguistics ⑥ (723) (Apply code 723 if computerized. ⑤See also TRANSLATING MACHINES) 说明:①主标题词;②注释项,说明词的使用范围、用法及含义;③副标 题词;④见项,指向规范化的标题词;⑤参见项,指向相关的标题词; ⑥分类号(用于计算机检索)。
文献的特征:
• 外表特征:可以在文献的封面或扉页,即不打 开书本,或不看文献的具体内容就可以确定一 篇文献。如题目、作者、出处、作者工作单位、 专利号、报告号。 • 内容特征:深入文献内容中间获得的特征,如 分类号、主题词、摘要等。
外表特征 文 内容特征 献
《环境科学文摘》著录格式:
《中国药学文摘》著录格式:
《中图法》体系结构
基本大类 简表 详表 复分表
《杜威十进分类法》 (Dewey
Decimal Classification and Relative lndex)
• 简称DC或DDC或杜威法,又名《十进制图书分类法》,是美 国图书馆学家麦—威尔· 杜威(Melvil Dewey)所创制的,初 版于1876年,1971年已出第18版。这是一部在国际上出现 最早、流行最广、影响最大的图书分类法。 • 采用十进制的等级分类体系,即把所有学科分成9大类,分 别标以100—900的数字。9大类表示9个专门的主题范畴, 各类中的类目均按照从一般到特殊,从总论到具体的组织 原则,对不能归人任何一类的综合性资料入第 10类,即总 论类,以下依次逐级分类,形成一个层层展开的等级体系。 从18版起,该分类法采用了一些分面综合手段,增强组配 性能。