2.主要体系分类检索语言
检索知识介绍
计算机信息检索的基本程序
进行计算机信息检索,一般来说要经过以下基本程序:分析检索课题,选择检索系统及数据库,确定检索词,构建检索提问式,上机检索并调整检索策略,输出检索结果。
1. 分析检索课题
利用计算机信息检索系统获取文献信息的用户,一般分为直接用户和间接用户两种类型。直接用户是指最终使用获得的信息进行工作的用户(如,科研人员,管理者,决策者等);间接用户是指专门从事计算机检索服务的检索人员。检索人员在接到用户的检索课题时应首先分析研究课题,全面了解课题的内容以及用户对检索的各种要求,从而有助于正确选择检索系统及数据库,制定合理的检索策略等。分析检索课题时应从以下几方面进行:
检索知识介绍
检索语言
计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。由此可见,能否准确地检索出用户所需的信息,关键在于能否准确地选择检索词。这里所谓的"准确",是指用户所选用的检索词必须与数据库中标引文献记录所用的标引词相一致。检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。因此,编制检索语言的目的就是不但能够保证不同的标引人员描述文献特征的一致性,而且能够保证检索提问词与文献标引词的一致性。要把存储和检索联系一致,检索语言所表达的概念应该是唯一的。这就是说,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,要使其在该检索系统中具有单义性。
信息检索概论思考题答案
第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。
客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。
如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
文献检索试题(含答案)
一、填空题:1. 文献按其加工深度不同可以划分为一次文献、二次文献和三次文献。
2. 信息素质的内涵包括信息需求、信息意识、信息知识、信息道德和信息能力。
3. 构成文献的三要素是内核、物质载体和符号系统。
4. CNKI的中文全称是中国知识基础设施工程。
5. 标准文献的主体是技术标准。
6. 期刊论文的文献出处包括期刊名称、年卷期和起止页码。
7. 在计算机信息检索中,用于组配检索词和限定检索范围的布尔逻辑运算符包括and 、or和not三种。
8. 文件ABC.001.TXT的后缀名是TXT,文件类型是文本文档。
9. 多数网页采用HTML编写,这里的HTML指的是超文本标识语言。
10. 在使用搜索引擎检索时,URL:ustc可以查到网址中带有ustc的网页。
11. 根据索引编制方式的不同,可以将搜索引擎分为索引型搜索引擎和网络目录型搜索引擎。
12. 按文献的相关度来划分,可以把文献分为核心文献、相关文献、边缘文献。
13. 检索工具具有两个方面的职能:存储职能、检索职能。
14. 利用原始文献所附的参考文献,追踪查找参考文献的原文的检索方法称为追溯法,又称为引文法。
15. 已知一篇参考文献的著录为"Levitan, K. B. Information resource management. New Brunswick: Rutgers UP, 1986",该作者的姓是Levitan。
16. 检索语言可分为两大类:分类语言、主题词语言。
17. 在大多数情况下,检索的目的是为了找到相关文献,而不是"答案"。
18. 二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是核心期刊。
19. 当计算机访问范围受到限制时,可以通过代理服务器访问外部网络。
20. PDF、VIP文件对应的打开程序分别为Adobe Reader,VipBrowser 。
检索语言
33 电子数字计算机 34 电子模拟计算机
317 程序包 319 各种专用程序
35 混合电子计算机
36 微型计算机 38 其它计算机
3R95151 信造息血处系理疾病
类目之间的关系: ❖从属关系 ❖并列关系
39 计算机的应用
-
392 各种专用数据库 393 计算机网络 399 在其他各方面的应用
《中图法》类目表等级关系
例:“网络浏览器”类号、类目展开示例: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 ……. TP39 计算机的应用
…… TP393 计算机网络
…… TP393.0 一般性问题
…… TP393.09 计算机网络应用程序
…… TP393.092 网络浏览器
信息检索语言和方法 1. 概念
检索语言(Retrieval language) 是用来描 述文献特征和表达检索提问的一种专门语言。不 同的检索语言构成不同的检索标识和索引系统, 提供不同的检索点和检索途径。
-
2. 检索语言的类型
检索语言
描述文献内 容特征的语言
分类语言 主题语言 代码语言
描述文献外 表特征的语言
TP1 自动化基础理论 2 自动化技术及设备 3 计算技术、计算机 6 射流技术(流控技术) 7 遥控技术 8 远动技术
30 一般性问题
312 程序语言、算法语言 313 汇编程序
31 计算机软件
314 编译程序、解释程序
315 管理程序、管理系统
32 一般计算器和计算机 316 操作系统
-
❖论述两个具有从属关系的主题,按较大的概念的 主题入类。即多级主题涉及上下位概念则入上位类。
例:“论软件需求分析方法和工具的选用” 软件需求分析方法 TP311.5 软件工程 工具的选用 TP311.56 软件工具 入TP311.5
检索语言与检索途径
(三)分类检索途径的基本规则
分类检索的基本步骤:
–
–ቤተ መጻሕፍቲ ባይዱ
– – –
分析课题内容,明确其学科属性。 查阅检索工具的分类目次表,根据分类号(或分类名) 确定需查检的类目,记录选定的类目所在页码。 逐条阅读所确定类目下的文献著录,根据文献题目或 文摘等提供的信息再次进行筛选,确定所需文献。 抄录选定的文献题录或文摘 根据文献题录或文献所提供的线索获取原始文献。
(二)体系分类语言的优缺点(续)
2.缺点:
(1)体系分类语言在标引和检索拥有复杂主题的文献 时很难达到精确,尤其对涉及边缘学科、交叉学科的 文献处理较为困难。 (2)体系分类语言是一种先组式语言,故体系分类表 不能随时进行修改,对一些新学科、新概念和新技术 等难以及时作出反应。 (3)体系分类虽利于族性检索,却不利于特性检索。
再由书中查 寻人参条目
三、主题语言
(一)主题语言特点 (二)主题语言的类型 (三)《中国中医药学主题词表》简介 (四)主题语言的优缺点
(一)主题语言特点
1.概念化
(1)独立概念 (2)普遍概念 (3)属概念 (4)种概念 (5)并列概念 (6)同一概念 (7)相关概念 (8)复合概念
(二)体系分类语言的优缺点
1.优点:
(1)体系分类具有反映学科体系的特点,在文献检索 中,对于熟知本专业学科结构的科技人员来说,无疑 十分方便,也容易接受和掌握。 (2)在体系分类中,同类文献被集中在一起。因此, 非常有利于开展族性检索,能够十分简捷的获取同一 学科或同一专业的文献。 (3)体系分类是按照学科结构的一种逻辑分类,因而 通过某一类目的上位类目和下位类目的选择,就能灵 活地扩大或缩小检索范围。
R21 中医预防、卫生学 22 中医基础理论 24 中医临床学 25 中医内科 26 中医外科 271 中医妇产科 272 中医儿科 273 中医肿瘤科
检索语言
3.靠词标引 某些文献主题过于专指,词表中既无专指主题 词,又无法组配标引则可采用靠词标引。 上位词标引:选用最直接的上位主题词标引。 甲基莲心碱——→生物碱类 近义词标引:选择含义相近的主题词标引。 上消化道出血 ——→胃肠出血 自由词标引
4
.组配标引
主题词——主题词交叉组配
胃溃疡出血 肛温 贲门肿瘤 孢子虫感染 ——→消化的溃疡出血+胃溃疡 ——→体温+直肠 ——→胃肿瘤+贲门 ——→原虫感染+孢子虫纲
中图法二十二个大类
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N O P Q R S T U V X Z 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学 综合性图书
④特征词(Check Tags)
人类、动物、病headings)
副主题词是限定主题概念的规范化词汇,对主题词起 细分作用或揭示多个主题词之间的关系。 副主题词没有独立的检索意义,其作用是增加主题概 念的专指性,提高检索效率 。 副主题词现有82个,使用范围详见37页。
⑴
Acquired Immunodeficiency Syndrome ⑵ C2.782.815.616.400.40 C2.800.801.400.40 ⑶ 83 ⑷ see related AIDS Arteritis, Central Nervous System HIV Seroprevalence ⑸ X AIDS X Immunodeficiency Syndrome, Acquired ⑹XR CD4-Positive T-Lymphocytes XR HIV-1
3-2分类检索语言
混合式分类法有两种类型:以分面组配为主,接近组配分
类法的组配-体系分类法。代表是阮岗纳赞的《冒号分类法》。 另一种类型是以体系分类为主,但大量采用了分面组配方法的 体系-组配分类法。代表是[比]奥特莱和拉封丹创制的《国际 十 进 分 类 法 》(Universal Decimal Classification , UDC , 1899)。 混合式分类法与组配分类法的一个明显的区别是,组配-体系 分类法和体系-组配分类法都是首先按学科体系分类,然后再 进行分面组配。换言之,任何一篇文献至少归入一个基本类, 基本类的号码称为主类号,各分面的号码称为辅助类号。在标 引时,主类号一般都置于辅助类号之前,但在组配分类法中, 因各个面并无主次之分,所以没有规定一篇文献必须归入某一 个“主面”的类目。
6
三、分类词表与分类标引
3、1 国际上重要的分类词表 3、2 中国主要的分类词表 3、3 中国图书馆分类法(CC)
7
3、1 国际上重要的分类词表
国际上重要的分类词表很多,最有影响的主要有: 《 杜 威 十 进分 类 法 》(Dewey Decimal Classification , DC或
DDC,1876),是世界上现行文献分类法中流行最广、影响最大 的一部分类法,被世界上135个国家和地区的20多万个图书情报 机构采用。 《国会图书馆分类法》(Library of Congress Classification, LC,1899),共分20大类,34卷。 《日本十进分类法》(Nippon Decimal Classification,NDC, 1928),分10大类。
一、分类检索语言的概念 二、分类检索语言的类型 三、分类法词表与分类标引
1
一、分类检索语言的概念
信息检索与分析利用复习题
三、名词解释题1. 按物质载体和记录形式划分,信息可分为印刷型、缩微型、声像型、机读型和手写型。
2. 文献是指“记录有知识的一切载体”,情报是“作为交流对象的有用知识”3. 内容、符号系统、物质载体、记录方式是构成文献的四个基本要素。
4. 按出版形式和内容的不同,信息可分为图书、期刊、报纸和特种信息。
特种信息也叫做灰色信息,包括:专利信息、学位论文、标准信息、会议信息、科技报告、政府出版物、产品样本资料和档案。
5. ISBN号是国际标准书号,由13位数字组成,分成五段:图书代号;国家、区域、语种代号;出版社代号;书名代号;计算机校验码。
ISSN号是国际标准出版物号,由8位数字组成,分两段:序号、校验码。
6. 图书按用途可分为3种类型:阅读用书,参考工具书,检索用书7. 按检索方法划分,检索工具可分为手工检索工具、计算机和网络检索工具。
8. 知识产权范围主要包括专利权、著作权和商标权9. 知识产权具有两大功能:保持功能和公开功能10. 广义的检索包括信息的存储和检索两个过程。
11. 检索方法分为常规法、引文法(追溯法和检索引文法)和交替法三种12. 检索途径可以分为主题途径、分类途径、责任者/著者途径、号码及其它途径13. 手工检索工具中的著录项目在数据库中称为字段,字段的集合称为记录。
14. 文献数据库内英文段码Abstract对应的中文段码名称是文摘。
Keyword对应的中文段码名称是关键词。
15. 按国际上通用的分类法,数据库分为参考数据库、源数据库和混合型数据库。
16. 中国现行主要的图书分类方法是《中国图书馆分类法》,它属于体系分类语言。
17. 《中图法》第四版将图书分为5部,22大类,L.M.W.Y没有,计算机属于TP类, 属于二级类目。
18. 索书号主要由分类号和著者号组成。
19. 在因特网中,政府机构和商业组织的二级域名分别是GOV、COM。
域名.hk所指的国家或地区是香港;.org的含义是非营利组织.20. 公告号为8510961的专利是发明专利,专利号为200420011414.6的专利是实用新型专利;申请号为99322746.5的专利是外观设计专利。
02检索语言
第2章检索语言【本章要点】●介绍检索语言的概念、功能及类型●总结检索语言的主要理论基础●阐述分类检索语言的结构与性能●分析主题检索语言的原理与性能●论述分类主题语言一体化检索语言的原理、性能及类型●探讨网络环境下检索语言的发展2. 1 检索语言概述2.1.1检索语言的概念(04北师)retrieval language,是为沟通文献标引与文献检索而编制的人工语言。
广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言。
狭义的检索语言指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。
2.1.2检索语言的功能(06华南师范简答)1.标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性2.对内容相同及相关的文献信息加以集中或揭示其相关性3.使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索4.便于将标引用语和检索用语进行相符性比较2.1.3检索语言的分类1.按描述文献的特征:描述文献外表特征(题名、组织、文献编号、引文等)的检索语言和描述文献内容(分类语言、主题语言、代码语言)特征的检索语言2.按结构或原理:分类语言、主题语言、代码语言和引文语言3.按信息标识的组合使用方法:先组式语言、后组式语言和散组式语言4.按语言的规范化程度:人工语言和自然语言2. 2 检索语言的理论基础检索语言以概念逻辑为基础,知识分类是概念逻辑的基础,检索语言的创制以术语学的研究成果为基础。
2.2.1概念逻辑1.概念逻辑的含义:是一种科学思维方法,通过明确各自概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。
2.概念是反映对象本质属性的思维形式,是对事物本质属性的概括。
①概念的内涵是概念所反映的对象的本质属性的总和。
②概念的外延是概念所反映对象的范围。
2.21.1概念间的关系1.相容关系:指两个概念的外延至少一部分是重合的。
信息检索基础 检索语言及其分类
《中国图书馆图书分类法》
R91下分为R911药物数学、R912药物物理学、R913 药物物理化学、R914药物化学、R915药物生物学。 R914下又分为{R914.1}药物分析、R914.2药物设 计 、 R914.3 无 机 药 学 化 学 、 R914.4 有 机 药 物 化 学 、 R914.5有机合成药物化学。
医学信息检索
检索语言及其分类
教 学
目 标
1
了解检索语言的分类
2
熟悉《中国图书馆图书分类法》
3
熟悉《医学主题词表》(MeSH)
了解检索语言的分类
检索语言是信息检索中用来描述文献特征和表达检索提问内容的一种专门性的人工语言,是一组有规则 的、能够反映出信息内容及特征的标识符,用于联系文献信息与用户需求的“语言括主题词和关键词语言。主题词语言与关键词语言的区别在于规范化程度不同。 ○关键词又名自由词,中选取的具有实质意义的名词,这种词不受主题词表限制,一般是未经规是从文献范
化或略规范化的词,常用于一般检索或精度要求不高的检索。 ○主题词是规范化词汇,最大的优点是概念准确、专指度高。它对文献中出现的同义词、近义词、多义词以
思 考 题
1
简述检索语言的分类及其特点
2
《中国图书馆图书分类法》分类体系是怎样的
3
主题词与关键词的区别是什么
图1主题:氟哌酸*胃肠炎 图2 主题:诺氟沙星*胃肠炎
《医学主题词表》(MeSH)
主题检索语言是信息检索语言中检索效率较高、使用频率较多的一种语言。人们为了更快更 好地检索文献,将概念更准确、专指度更高的反映文献内容的主题词编制成专门的主题词表, 供大家使用。目前国内最常用的主题词表是《医学主题词表》(MeSH)、《中医药学主题 词表》和《汉语主题词表》。 《医学主题词表》(MeSH)是美国国家医学图书馆从1960年起编制,并于1963年正式使 用的一部规范化的可扩充的动态性叙词表,是生物医学领域具有权威性的主题词表。MeSH 主要包括主题词表和树状结构表两个部分。
第四章 检索语言
4、聚类法
在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多 的文献,从而改善查全性。 例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。
二、索引语言
5、组 配
2、唯一性
指一个词只应有一种概念,一种概念,一种概念只应由一个词来表达,即 不能模棱两可、一词多义或者多词一义。
3、简洁性
也可以称为压缩性或致密性。这是指表达一定情报含量所要求的一个索引 词的长度与大小。
4、经济性
这里主要指: A、标引一个或多个索引词来表达文献主题内容是做出决策所花的时间代价; B、选择合适的检索词来表达自己情报需求的时间; C、培训人们使用这种语言的花费、辞典的编制与维护、改错的费用等。
二、索引语言
(二)索引语言的结构与种类
结构
反映文献内容特征的索引语言由两部分组成: 词汇 和 句法。 词汇,是索引记录中用来表达文献内容的词的集合。 例如:分类号码的集合,就是分类法这种语言的词汇。 句法,是将词汇中的单元(词)组成语言单元的一套规则。这种语言单 元(句法单元)可能是基本词汇所不能表达的,因而它是扩展词 汇表达能力的手段。 例如:由句法组成的 “学校实验室” 这种概念是基本词汇所不能表达的。
第四章 检索语言
检索语言概述 索引语言 索引Байду номын сангаас言的举例 计算机检索语言
一、检索语言概述
文献存贮时,文献的内外特征按照一定的语言来加以描述,而检索 时情报提问也是按照一定的语言来加以表达。所以这种把文献的存贮与 检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实 现交流的语言,就叫做情报检索语言。 检索语言,就其描述文献的有关特征而言,可分为: 描述文献外表特征的语言和描述文献内容特征的语言两大范畴。
检索语言
检索语言检索语言(Retrieval Language)就是组织文献与检索文献时所使用的语言。
也就是说,文献存储时,文献的内容特征(如分类、主题)和外表特征(如书名、刊名、篇名、号码、著者等)按照一定的语言来描述,检索文献时的提问也按照一定的语言来加以表达。
这种在文献的存储和检索过程中,共同使用、共同遵循的语言就是检索语言。
实质上它是标引和检索之间的约定语言,是人与检索系统对话的基础,检索的匹配就是通过检索语言的匹配来实现的。
使用检索工具和检索系统必须掌握检索语言,它是掌握和提高检索技能的基础。
检索语言的基本成分是检索词。
按检索词的规范化程度和组配程序,检索语言可分为自然语言(Natural Language)和人工语言(Artificial)两种。
自然语言采用的检索词是未加工整理和规范过的,即平常采用的关键词,这种语言又称作关键词语言(Keyword Language)。
人工语言采用经过规范化的词,规定一个词表示一种事物,例如规定“aircraft”表示飞机,而不用“air plane”、“plane”和“aeroplane”,以做到文献存储和检索的一致性。
信息检索语言是根据检索需要而创制的人工语言,也称检索标识系统,专门用于各种手工和计算机信息检索系统。
从不同角度检索文献,就有不同种类的检索语言,常用的有主题语言和分类语言,下面分别加以论述。
(一)分类语言分类语言是用分类号和相应分类款目来表达各种概念的,它以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序。
分类语言能反映事物的从属派生关系。
便于按学科门类迸行族性检索。
分类语言中最常见的是体系分类语言,它按照学科体系从综合到一般、从复杂到简单、从高级到低级的逻辑次序逐级展开,世界著名的分类法有:《国际专利分类表》(IPC)、《杜威十进分类法》(DDC)、《美国国会图书馆图书分类法》(LC)、《中国图书馆图书分类法》(中图法)和《中国科学院图书馆图书分类法》(科图法)。
检索语言
单元词语言
它是从文献内容中抽取出来的,以不能再分解 的概念单元的规范化名词作为文献主题概念的标 识。 单元词也称元词,元词语言是后组语言,它将 一些元词在检索执行时组合起来使用。 元词的组配仅限字面组配。单元词检索具有灵 活、自由的组配方式。
思考: 课题的分类标引和主题标引
1、统计技术在信息检索中的应用 2、电子商务的安全性问题研究 3、大量数据的备份与恢复 4、ADO与SQL在VC中共同实现数据库操作 5、在C语言中如何实现数据库的访问 6、教务管理系统的设计与实现 7、网络技术在社区医疗服务的应用 8、单片机与液晶显示器的接口及应用
3、大量数据的备份与恢复 TP309.3 数据备份与恢复 数据备份 数据恢复
J、艺术 K、历史、地理
基本大类
N、自然科学总论
O、数学科学和化学 P、天文学
Q、生物科学
R、 医药、卫生 S 、农业科学
中图法22个基本大类(一级类目)
T、工业技术
基本大类
U、交通运输
V、航空、航天 X、环境科学 Z、综合性图书
《中图法》层层隶属、逐级展开的逻辑体系
30
一般性问题
例:
完美 完美世界 完美主义 …… 胃 胃溃疡 胃炎 胃癌
单级标题:由一个标题词构成 单词标题: 如Romances、物质财富等; 词组标题:如Japanese literature、国家财 富; 短语标题: 如反对自由主义 多级标题(复合标题):由两个或两个以上的 标题词,采用组配符号联接所构成。 多级标题: 如“哲学-手册” 限定标题: 如“红楼梦(越剧)” 带说明语的标题: 如: Sports-England, London Metropolitan area
002-检索语言
第2章 检索语言
• 它将学科分为五大部类,分别是马克思 主义、列宁主义、毛泽东思想;哲学; 社会科学;自然科学;综合性图书。在 五大部类下,又分为22个大类,这22个 大类的类号分别用22个大写的英文字母 代表。
20
第2章 检索语言
基本部类 基本大类 1.马克思主义、列 A.马克思主义、列宁主义、毛泽东思想、邓小平理 宁主义、毛泽东思想、 论 邓小平理论 2.哲学 3.社会科学 B.哲学 C.社会科学总论 D.政治、法律 E.军事 F.经济 G.文化、科学、教育、体育 H.语 言文字 I.文学 J.艺术 K.地理、历史
●介绍检索语言的概念、功能及 类型 ●重点讲述体系分类检索语言 ●重点讲述关键词主题检索语言
3
第2章 检索语言
2.1 检索语言 概述 2.1.1 检索语言的概念
检索语言又称为索引语 言、存储检索语言、文献工 作语言、标引语言、标识系 统等,是检索系统进行存储 和检索时所使用的语言,是 专门用于各种手工和机器文 献检索系统描述文献的特征 和表达检索提问的一种人工 语言。
32
第2章 检索语言
举例: 如:《供应链管理》 分类:F——经济 F2——经济计划与管理 F25——物资经济 F252——物资流通
33
第2章 检索语言
示例: 书名 分类号 1、《笑傲江湖》 I247.4 2、《国际经济法》 D99 3、《企业管理理论与方法》F270 4、《计算机网络系统结构分析》TP39
N949系统科学在各方面的应用
F252.3物资流通费用、资金和利润
23
第2章 检索语言
《中图法》的类目标记:采用拉丁字母与阿拉伯数字相
结合的混合制标记符号。 • 类目级别 基本大类是类分图书的第一级类目,随着内容的细分,在 一级类目下还有二级类目、三级类目、四级类目…… 如:F 经济 一级类目 F2 经济计划与管理 二级类目 F25 物资经济 三级类目 又例:F252 类目下的图书都是内容为物资流通方面的图书。 (是四级类目) H31 类目下的图书都是内容与英语相关的考试类、语法、 或中英文对照等图书。(是三级类目)
3-2分类检索语言
3
体系分类法的类目与类目体系。类目是体系分类法的主体和基
本成份,其作用在于揭示具有共同属性的一组文献。类目由类号、 类名、注释3部分组成。类目可以按等级分为基本类目、基本大类、 二级类目、三级类目等等。类目体系是指按一定的标准和规则把 划分出来的类目排列成为一个具有层层隶属关系的分类体系。类 目体系由类系和类列构成,并以标记制度加以体现。类系是指一 个类目与它的各级上位类共同构成的一个具有从属关系的类目系 列,或称类链;类列是指在类目划分时,一组具有并列关系的同 位类的总称。
组配分类表:一般由编制说明、分面类表目次和若干分面类表、 索引等组成。世界上最重要的组配分类法词表是阮岗纳赞创立的 Colon Classification。
组配分类法的基本特征:(1)类目较少,但标引文献的能力较 强;(2)可以自由地扩大或缩小检索范围,能从多种途径检索 文献,还能进行较精确的组配检索和轮排检索,在检索性能、检 索效率和检索灵活性方面都优于体系分类法;(3)采用分段标 记制度,便于分类表的增补和修订;(4)可以用于分类目录的 组织以及分类检索系统的建设等。
6
三、分类词表与分类标引
3、1 国际上重要的分类词表 3、2 中国主要的分类词表 3、3 中国图书馆分类法(CC)
7
3、1 国际上重要的分类词表
国际上重要的分类词表很多,最有影响的主要有: 《 杜 威 十 进分 类 法 》(Dewey Decimal Classification , DC或
DDC,1876),是世界上现行文献分类法中流行最广、影响最大 的一部分类法,被世界上135个国家和地区的20多万个图书情报 机构采用。 《国会图书馆分类法》(Library of Congress Classification, LC,1899),共分20大类,34卷。 《日本十进分类法》(Nippon Decimal Classification,NDC, 1928),分10大类。
3-1检索语言概述
6
2、3 检索语言的谱系
一般地,可以将检索语言类型按亲属关系划分为4个层次,从而构成 检索语言的谱系。
10
9
五、信息检索语言的基本要求
1、保证较高的检全率和检准率。 2、能满足多种检索要求。从学科、专业出发的族性检索,
从事物出发的特性检索,多途径、多因素检索以及检 索范围的自由改变。 3、易于标引,易于检索,减少标引和检索误差。这就需 要语词或符号的明确性,语法的严谨性,标识的直观 性,排序的易理解性,查词查号手段的多样性以及整 个语言包含概念的丰富和完备性等。 4、多方面的适应性。 5、具有与其它检索语言的兼容性和通用性。 6、具有不断进行现代化改造的可能性。
3
二、检索语言的类型与谱系
2、1 依据检索语言的构成原理,把检索语言划分为分类检索语言、 主题检索语言、分类-主题一体化语言、代码语言和引文语言等 类型。
2、2 依据检索语言的受控情况,把检索语言分为Artificial Language 和Natural Language。
此外,可以按检索语言的学科或专业范围、适用范围、检索标识的 组合使用方法以及对信息特征的描述等标准,对检索语言进行划 分。
维方式,它反映概念之间的关系,确定概念的类型、内涵和外延 等。检索语言就是运用概念之间的各种关系,对文献内容和外部 特征进行标引。具体而言,概念的划分与概括,侧重于概念的隶 属关系和并列关系,并据此建立检索语言的概念等级体系。概念 的分析与综合,主要是利用概念的交叉关系,依此建立检索语言 的概念组配体系。 2、基本原理与机制之二:知识分类 知识分类是指以各门科学所研究的运动形态的固有特征及其互相关 联与转变的次序为依据,对整个科学知识领域所做的分类。目的 是考察各门科学之间的区别与联系,确定各门科学的内部结构, 建立相应的分类体系,以反映当代科技水平并指导科学的发展。
信息检索教程 第二章 检索语言
17
【例题】检索英语会话类辞典,例如《美国语会话百科》、 《英语会话大全》、《现代英汉生活用语图解词典》,请 选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61
C.用书名“英语会话”和“大全”
D.用书名“英语会话”和“词典” 【答案】B
2.1.3.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言
2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言
3
第2章 检索语言
2.2.1 概念逻辑
2.2 检索语言 的理论基础
2.2.1.1 概念间的关系 不相容 关系
相容关系
同一 属种
整体与 全面与 不相排斥 交叉 部分 某一方面 的并列
10
第2章 检索语言
2.3.2.3 主要体系分类法介绍 国内常见的体系分类法有:
《中国人民大学图书馆图书分类法》,简称《人大法》 《中国图书馆分类法》,简称《中图法》 《中国科学院图书馆图书分类法》,简称《科图法》 《中国档案分类法》
国外常见的体系分类法有:
《杜威十进分类法》(Dewey Decimal Classification)简称DC或DDC 《美国国会图书馆分类法》(Library of Congress Classification)简称LC 《国际十进制分类法》(Universal Decimal Classification)简称UDC
11
《中国图书馆分类法》 第2 章 检索语言
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国 家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特 性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义 列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,由 5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条 类目组成了一个完善的分类体系。 标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一 个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数 字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本 上遵从层累制的原则。
大学生信息检索习题以和答案解析
《大学生信息检索概论》模拟试题一、填空题1、文献的级次分为零次文献、一次文献、二次文献、三次文献2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思哲学;社会科学;自然科学和综合性图书,在此基础上又划分为_22_个大类。
3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事实型数据库、数值型数据库和全文型数据库。
4、我国标准可分为国家标准、部标准和企业标准三大类。
5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和综合法。
6、国际标准化组织简称:ISO 、本标准每 5 年修订一次二、选择题1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
A.分类索引B.作者索引C.引文索引 D.主题索引2、利用图书馆的数据库检索期刊论文时,可供选择的中文数据库是( D )。
A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库3、如果检索有关多媒体网络传播方面的文献,检索式为(A D)。
A.多媒体and 网络传播 B.多媒体+网络传播 C.多媒体or 网络传播 D.多媒体*网络传播4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
A.关键词 B.作者 C.刊名 D.题名 E.文摘5、二次文献又称检索工具,包括:( A C D )。
A.书目B.百科C.索引D.文摘E.统计数据三、名词解释题1、文献:用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。
也可以理解为古今一切社会史料的总称。
2、体系分类语言:是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
3、引文语言:是根据文献所附参考或引用文献的特征进行检索的语言。
简述分类检索语言的结构
简述分类检索语言的结构.说明类目之间的关系及表
现形式
1、分类语言。
分类语言以号码为基本字符,用分类号作为主题概念标识,将各种概念按学科性质进行分类和系统排列的检索语言。
分类语言是以学科体系为基础的语言。
国内外比较重要的分类语言表有《国际专利表》、《杜威十进分类法》、《中国图书馆图书分类法》、《中国科学院图书分类法》等。
分类语言可分为体系分类语言、组配分类语言和混合分类语言。
2、主题语言。
主题语言是以词语作为概念标识,即用自然语言中的名词、名词性词组、或句子作为主题词,来表达各种概念,将各种概念不管其相互关系,完全按字续排列的检索语言。
主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。
3、代码语言。
是人们为了提高检索语言的语义能力,而研究提出的一种代码系统。
这种代码系统,一般只就事物的某一方面特征加以标引和排列。
4、引文语言。
是利用文献之间的相互引证关系而建立的一种自然语言。
这种语言提供了从被引论文来检索引用它的全部论文的途径,从而能顺着一种科学思想发展过程找到有关的文献。
5、先组式检索语言。
是指描述信息主题概念的标识在检索之前就已经事先固定好的标识系统,如体系分类语言、标题语言等。
6、后组式检索语言。
是指描述信息主题概念的标识在检索之前未固定组配,而是在检索时根据检索的实际需要,按照组配规则临时进行组配的标识系统。
如叙词语言等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会科学各大类的排列主要根据大类间关 系密切的程度以及与其他部类的关系来确 定,大体按“上层建筑→经济基础→意识形 态”,即“政治→经济→文化”的次序排列 自然科学各大类则按照学科之间的内在联 系,遵循从简单到复杂,从一般到特殊, 从低级到高级,从理论到应用的次序排 列,形成“基础理论—技术科学--应用科学” 三个层次
《中图法》的类目结构即是按照学 科之间的内在联系,从总到分,从 一般到具体逐级展开,从而构成一 个纲目分明的体系
自然科学
综合性图书
Z 综合性图书
《中图法》(第四版)主表类目展开示意
基本部类
马列宁主义 毛泽东思想 哲学
基本大类 (一级类目)
A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济
《中国图书馆分类法(第四版)》封面
1、《中图法》宏观结构
《中图法》由以下部分组成:
编制说明 基本大类表 基本类目表(简表) 主表(详表) 通用复分表(辅助表) 字顺索引(单独出版) 使用手册(单独出版)
1、《中图法》宏观结构
编制说明
包括第一版编制说明和第四版编制说明。主要说明编制原则,体系 结构,分类体系,标记符号,修订原则、特点和重点等有关事项的 说明
字顺索引(单独出版)
是按类目名称查找类目的工具
使用手册(单独出版)
是详细阐述分类法编制的理论与技术、各类文献的分类规则与方法 的指南
2、《中图法》类目结构
2、《中图法》类目结构
《中图法》分为五个基本部类,22个基本大类
五个基本部类序列为:马克思主义列宁主义毛泽东思想、哲 学、社会科学、自然科学、综合性图书
其中:“C社会科学总论”和“N自然科 学总论”不属于独立的学科,是根据文 献资料的特点和分类的需要设置,以 概括这两个科学领域综合性知识
自然科学
综合性图书
Z 综合性图书
《中图法》基本类目
基本部类
马克思主义列宁 主义毛泽东思想 邓小平理论 哲学 社会科学
基本大类
A 马克思主义、列宁主义、毛泽 东思想、邓小平理论 B 哲学 C D E F G H I J K N O P Q R S T U V X 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史 地理 自然科学总论 数学科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学
4、《中图法》标记系统
(3)辅助符号 为进一步增强标记符号的表达能力,适应类号灵活组合的需要, 《中图法》一些特殊符号,作为辅助标记符号。包括: 间隔符号 . 符号a 总论复分号 – 起止符号 / 组配复分号 : 交替类号[] 国家、地区区分号() 时代区分号 = 联合符号 + 民族、种族区分号“” 通用时间、地点区分号〈〉
4、《中图法》标记系统
(3)辅助符号 交替类号[]
用以标记交替类目,表示类目是供选择使用的 例如:“[V238]火箭发动机 宜入V43。”V43是“推进系统(发动机、推 进器)”的类号。[V238]是选择使用的类目,V43是正式使用的类目
国家、地区区分号()
用于一般学科性类目下进行国家或地区复分 例如:美国的科学卫星为V474.1(712),V474.1是“科学卫星”的类 号,712在通用复分表—世界地区表中代表美国。为防止和前面的类 号混淆,加上国家区分号
二级类目
三级类目
四级类目
五级类目
六级类目
社会科学
G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数学科学和化学 P 天文学、地球科学 Q 生物科学
F0 经济学 F1 世界各国经济概况、 经济史、经济地理 F2 经济计划与管理 F3 农业经济 F4 工业经济 F49 信息产业经济(总论) F5 交通运输经济 F59 旅游经济 F6 邮电经济 F7 贸易经济 F8 财政、金融
4、《中图法》标记系统
(3)辅助符号 时代区分号 =
用于一般学科类目下进行时代复分 例如: 20世纪90年代的特殊教育理论为 G760 =536。 G760是“特殊 教育理论”的类号,=号后面的536在通用复分表—国际时代表中表示 20世纪90年代(1990-1999)
联合符号 +
用于连接主类号,表示文献的若干个并列主题 例如:中国哲学与中国传统文化为B2+G12
《中图法》基本类目
基本部类
马克思主义列宁 主义毛泽东思想 邓小平理论 哲学 社会科学
基本大类
A 马克思主义、列宁主义、毛泽 东思想、邓小平理论 B 哲学 C D E F G H I J K N O P Q R S T U V X 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史 地理 自然科学总论 数学科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学
其中哲学、社会科学、自然科学是三大知识门类,马克思主义列 宁主义毛泽东思想是指导思想的理论基础,作为一个基本部类列 于首位。考虑到图书本身的特点,将无法按某一学科内容性质分 类的图书,概括为“综合性图书”,置于最后
22个大类的设置是综合考虑了各学科领域的发展情况,以国 际上通用的基本学科和专业划分为依据,同时兼顾习惯的知 识领域的划分
4、《中图法》标记系统
(2)编号制度 《中图法》基本采用层累制作为编号制度。一级类目用一位号码 表示,二级类目用二级号码表示;同位类再顺序配以号码,避免 号码过长,同位类数量较多,采用八分法、双位制解决
具体表现为:对10—17个同位类的编号,采用八分法来处理,即前8 个类目用1—8标识,从第9个类目起,展开成两位数字,如1、2、 3……8、91、92、93……99; 当同位类超出17个时,一般采用双位制编号法,即同位类的类号用双 位数字表示,如11、12……21、22……31、32……98、99; 少数类目为了缩短分类号,或对重点类目给予较宽裕的号码,采用借 号法,即下位类借用上位类或上位类借用下位类的分类号; 小数之间留有空位,便于以后修改时增添新发展的学科 。
F252.1 物资流通 F252.2 物资市场 F252.3 物资流通费用、 资金和利润 F252.4 物资价格 F252.5 物资流通经济效益 F252.8 各类物资流通 F252.81 原材料流通 F252.82 设备流通
自然科学
R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学
5个基本部类 22个大类
自然科学
综合性图书
Z 综合性图书
《中图法》基本类目
基本部类
马克思主义列宁 主义毛泽东思想 邓小平理论 哲学 社会科学
基本大类
A 马克思主义、列宁主义、毛泽 东思想、邓小平理论 B 哲学 C D E F G H I J K N O P Q R S T U V X 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史 地理 自然科学总论 数学科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学
F20 国民经济管理 F21 经济计划 F22 经济计算、 经济数学方法 F23 会计 F239 审计 F24 劳动经济 F25 物资经济 F27 企业经济 F28 基本建设经济 F29 城市与市政经济
F250 物资经济理论 F251 物资管理 F252 物资流通 F253 物资企业经营 与管理 F259 世界各国物资经济
基本大类表
揭示分类法的基本学科范畴和排列次序
基本类目表(简表)
由第一、二、三级类目组成的体系框架
主表(详表)
是各级类目组成的一览表。按功能分为类名(词汇)系统、标记系 统、注释系统和专类复分表
1、《中图法》宏观结构
通用复分表(辅助表)
《中图法》设置了八个通用复分表:总论复分表、世界地区表、中 国地区表、国际时代表、中国时代表、世界种族与民族表、中国民 族表和通用时间和地点表
4、《中图法》标记系统
(3)辅助符号 间隔符号 .
用作分类号数字部分的分割,自左至右每三位数后加一圆点。目的使 号码清楚醒目,易于辨认
推荐符号a
该号置A类马列经典作家著作的互见分类号之后,起推荐作用。例如 :F2a排在F2之前
总论复分号 –
该号置于总论复分号码之前,是总论复分号的前置表示符。例如:“-0 理论与方法”、“-3研究方法、工作方法”,“Q-0生物科学的理论与方法” 、“Q-3生物科学的研究方法与技术”
4、《中图法》标记系统
(3)辅助符号 起止符号 /
在主表类号中用以表示概括一组相连类号的起止区间;在注释中表示 类目仿分的类号的区段或参见的类目范围 例如 :“F407.1/.9 各工业部门经济 如有必要,可仿F401/406分。”
组配复分号 :
用于连接主类号,表示主类目号之间的概念交替组配 例如:类目“G112文化专题研究” ,涉及多专题文化研究的著作入该 类目,各专题文化研究的著作入有关各类。如饮食文化入TS971(美 食学)。如愿集中于G112类目的,可将各专题文化研究的分类号码 组配在该类后,如世界饮食文化为G112: TS971
综合性图书
Z 综合性图书
3、《中图法》类目关系显示
《中图法》类目的含义是在一个由上位概念、同位 概念、下位概念、相关概念和类目注释构成的语义 空间中进行限定的
3、《中图法》类目关系显示
类目的纵向等级关系包括属分关系和并列关系,主要使用等 级结构来显示,分类标记符号的位数基本能反映类目的级位 例如: “F252.1物资流通”就是五级类目
主要体系分类检索语言