科学数据分类与编码标准
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
附录C 资料性附录 科学数据共享 工程数据分类编码标准XML文件
12
门类
门类 基础科学 资源环境科学 农业科学 工程技术科学 医药卫生科学 区域与综合领域
代码 F R A T H C
13
亚门类(资源环境科学为例)
亚门类 资 气象气候 源 水文水资源 环 海洋 境 地矿与土地资源科学
……
代码 W H S L ……
研制 以数据中心有效管理、组织数据,最终用户快捷地查
找数据为目的
19
分类依据(2) 以科学数据共享工程的规划为依托 充分考虑各个数据共享中心的分类编码 结合学科分类标准、行业分类标准
20
分类编码标准的应用 该标准只适用于数据集的分类,并将分类结果组织形
成数据目录。该标准不适用于数据库的改造,数据项 的改造,数据项内容的代码填写等。
16
编码规则
门类、亚门类各为1位英文字母码,大类、中类各2位数字码。 采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。
第Biblioteka Baidu位
门类 字母码
第2位
亚门类 字母码
第3位 第4位
大类 数字码
第5位 第6位
中类 数字码
17
三、标准内容要点解析
18
分类依据(1) 遵循“数据分类与编码基本原则与方法”标准 数据分类的基本单元(或者说分类的对象)是数据集 保证高层数据分类统一,低层数据分类由各单位自行
数据集内容相对应的各个类目,用它们的编码组配表 达所标引的数据集内容。
24
标准的映射及标引结果集的转换 把各个数据中心采用的分类编码标准中的类目和科学
数据分类编码标准中的类目对应起来。 把用数据中心分类编码标准标引的结果集,直接导入
到以科学数据分类编码标准为依据的标引结果集中。
25
四、标准的使用
14
大类
门类
亚门类 大类
海洋资源
资源环境科 学
海洋经济
海洋科 海洋环境
学
海洋生态
海洋灾害
……
代码 11 12 13 14 15 ……
15
中类
门类
亚门 类
大类 中类 海洋自然资源
资源 环境 科学
海洋 科学
海洋生物资源 海洋 资源 大洋矿产资源
海水化学资源
……
代码
11 12 13 14 ……
总代码
RS1111 RS1112 RS1113 RS1114 ……
科学数据分类与编码标准
1
主要内容 一. 编制背景 二. 标准总体结构 三. 标准内容要点解析 四. 标准使用
2
简介
3
科学数据分类与编码方案
1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类与编码的使用 8 分类代码表
4
分类类目释义
试点已有的标引结果可以通 过软件直接映射。
7
一、编制背景
8
背景 海量科学数据的共享需求 海量科学数据需要有序组织、管理 科学数据共享工程门户网站需要按照分类来组织数据
目录 数据用户需要从分类编码中查询数据
9
解决的问题 多学科、跨行业部门科学数据的分类 分类编码如何应用 如何支持网络信息化的数据集分类和共享 与已有科学数据共享工程中诸多试点的分类标准之间
系统轮排
据
检索2
用户1
库
34
关键技术(1) 高效的信息管理和查询
30
科学数据分类编码工具软件
31
电子词典软件框架
32
电子词典功能 标准的管理和维护 查询
以类名查询,以代码查询,以释义查询; 精确查询,模糊查询。
标引 映射
33
标引——保证标准和数据之间的关系
从外部进行标引,
数
数据集本身无需任何变动
据
集
检索1
A
标引
用户2
得到数据集A
SDCC
标
引
数
26
示例一:林业科学数据中心的“森林资源概况表”数据 集
通过分析该数据集的内容,应该属于“农业科学—林 业科学—森林资源数据”,在“森林资源数据”这个 大类下,有“全国森林资源数据”、“省级森林资源 数据”等小类,可以根据查阅数据集的具体内容,得 出应该属于哪个小类。如,这个数据集是全国范围内 的森林资源概况,则最后的类就是“农业科学—林业 科学—森林资源数据—全国森林资源数据”,具体编 码为:AF1112。
27
示例二:农业科学数据中心的“主要农作物种质资源评价数据库”
通过分析该数据集的内容,应该属于“农业科学—农 业科学数据—作物科学-主要农作物种质资源评价数 据”,则具体编码为:AS1211。
28
示例三:农业科学数据中心的“中国湖泊数据库” 通过分析该数据集的内容,发现其既可以属于“农业
科学—农业科学数据—水产科学”(编码为: AS2113),又可以属于“资源环境科学—水文水资 源科学—水资源—水资源调查”(编码为: RH1211)。因此,可以采用组配的方式,将这两个 类目的代码,全部标注在这个数据集上。
如何交互
10
二、标准总体结构
11
标准目次
1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类编码的使用 8 分类代码表
附录A 资料性附录 科学数据共享 工程分类编码标准的使用实例
附录B 资料性附录 本标准与科学 数据共享工程中试点单位的分类标 准之间的映射
6大门类、31亚门类、234 大 类 和 1008 中 类 , 共 1279 条类目的释义
5
电子词典
主要功能
分类类目的管理 分类类目的查询 数据集标引 分类映射 ……
6
转换实例——mapping机制
分别对每个试点的分类作相 应 的 Crosswalk , 实 现 标 准 之间的映射;
29
示例四:医药卫生科学数据集使用范例
序号
数据集名称
1 病原细菌数据集 2 单基因遗传病数据集 3 脑干图像数据集 4 最新国际心血管病临床试验 5 数字人脑图片数据集 6 卫生经济学数据
编码
HB111111 HB111312 HB141211 HC151311 HC111314 HC151200
21
分类编码标准的维护 随着科学数据共享工程的不断推进,该分类编码标准
必定会不断扩展和修订。 这种扩展必须是在遵从“数据分类与编码基本原则与
方法”的基础上的扩充。
22
数据集的分类标引 分类标引的对象是数据集 分类标引是在数据集外部进行的 分类标引的最终结果是标引结果集(数据库)
23
标引过程中组配方法的应用 在分类标引时,针对数据集的内容,从类目中找出与
12
门类
门类 基础科学 资源环境科学 农业科学 工程技术科学 医药卫生科学 区域与综合领域
代码 F R A T H C
13
亚门类(资源环境科学为例)
亚门类 资 气象气候 源 水文水资源 环 海洋 境 地矿与土地资源科学
……
代码 W H S L ……
研制 以数据中心有效管理、组织数据,最终用户快捷地查
找数据为目的
19
分类依据(2) 以科学数据共享工程的规划为依托 充分考虑各个数据共享中心的分类编码 结合学科分类标准、行业分类标准
20
分类编码标准的应用 该标准只适用于数据集的分类,并将分类结果组织形
成数据目录。该标准不适用于数据库的改造,数据项 的改造,数据项内容的代码填写等。
16
编码规则
门类、亚门类各为1位英文字母码,大类、中类各2位数字码。 采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。
第Biblioteka Baidu位
门类 字母码
第2位
亚门类 字母码
第3位 第4位
大类 数字码
第5位 第6位
中类 数字码
17
三、标准内容要点解析
18
分类依据(1) 遵循“数据分类与编码基本原则与方法”标准 数据分类的基本单元(或者说分类的对象)是数据集 保证高层数据分类统一,低层数据分类由各单位自行
数据集内容相对应的各个类目,用它们的编码组配表 达所标引的数据集内容。
24
标准的映射及标引结果集的转换 把各个数据中心采用的分类编码标准中的类目和科学
数据分类编码标准中的类目对应起来。 把用数据中心分类编码标准标引的结果集,直接导入
到以科学数据分类编码标准为依据的标引结果集中。
25
四、标准的使用
14
大类
门类
亚门类 大类
海洋资源
资源环境科 学
海洋经济
海洋科 海洋环境
学
海洋生态
海洋灾害
……
代码 11 12 13 14 15 ……
15
中类
门类
亚门 类
大类 中类 海洋自然资源
资源 环境 科学
海洋 科学
海洋生物资源 海洋 资源 大洋矿产资源
海水化学资源
……
代码
11 12 13 14 ……
总代码
RS1111 RS1112 RS1113 RS1114 ……
科学数据分类与编码标准
1
主要内容 一. 编制背景 二. 标准总体结构 三. 标准内容要点解析 四. 标准使用
2
简介
3
科学数据分类与编码方案
1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类与编码的使用 8 分类代码表
4
分类类目释义
试点已有的标引结果可以通 过软件直接映射。
7
一、编制背景
8
背景 海量科学数据的共享需求 海量科学数据需要有序组织、管理 科学数据共享工程门户网站需要按照分类来组织数据
目录 数据用户需要从分类编码中查询数据
9
解决的问题 多学科、跨行业部门科学数据的分类 分类编码如何应用 如何支持网络信息化的数据集分类和共享 与已有科学数据共享工程中诸多试点的分类标准之间
系统轮排
据
检索2
用户1
库
34
关键技术(1) 高效的信息管理和查询
30
科学数据分类编码工具软件
31
电子词典软件框架
32
电子词典功能 标准的管理和维护 查询
以类名查询,以代码查询,以释义查询; 精确查询,模糊查询。
标引 映射
33
标引——保证标准和数据之间的关系
从外部进行标引,
数
数据集本身无需任何变动
据
集
检索1
A
标引
用户2
得到数据集A
SDCC
标
引
数
26
示例一:林业科学数据中心的“森林资源概况表”数据 集
通过分析该数据集的内容,应该属于“农业科学—林 业科学—森林资源数据”,在“森林资源数据”这个 大类下,有“全国森林资源数据”、“省级森林资源 数据”等小类,可以根据查阅数据集的具体内容,得 出应该属于哪个小类。如,这个数据集是全国范围内 的森林资源概况,则最后的类就是“农业科学—林业 科学—森林资源数据—全国森林资源数据”,具体编 码为:AF1112。
27
示例二:农业科学数据中心的“主要农作物种质资源评价数据库”
通过分析该数据集的内容,应该属于“农业科学—农 业科学数据—作物科学-主要农作物种质资源评价数 据”,则具体编码为:AS1211。
28
示例三:农业科学数据中心的“中国湖泊数据库” 通过分析该数据集的内容,发现其既可以属于“农业
科学—农业科学数据—水产科学”(编码为: AS2113),又可以属于“资源环境科学—水文水资 源科学—水资源—水资源调查”(编码为: RH1211)。因此,可以采用组配的方式,将这两个 类目的代码,全部标注在这个数据集上。
如何交互
10
二、标准总体结构
11
标准目次
1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类编码的使用 8 分类代码表
附录A 资料性附录 科学数据共享 工程分类编码标准的使用实例
附录B 资料性附录 本标准与科学 数据共享工程中试点单位的分类标 准之间的映射
6大门类、31亚门类、234 大 类 和 1008 中 类 , 共 1279 条类目的释义
5
电子词典
主要功能
分类类目的管理 分类类目的查询 数据集标引 分类映射 ……
6
转换实例——mapping机制
分别对每个试点的分类作相 应 的 Crosswalk , 实 现 标 准 之间的映射;
29
示例四:医药卫生科学数据集使用范例
序号
数据集名称
1 病原细菌数据集 2 单基因遗传病数据集 3 脑干图像数据集 4 最新国际心血管病临床试验 5 数字人脑图片数据集 6 卫生经济学数据
编码
HB111111 HB111312 HB141211 HC151311 HC111314 HC151200
21
分类编码标准的维护 随着科学数据共享工程的不断推进,该分类编码标准
必定会不断扩展和修订。 这种扩展必须是在遵从“数据分类与编码基本原则与
方法”的基础上的扩充。
22
数据集的分类标引 分类标引的对象是数据集 分类标引是在数据集外部进行的 分类标引的最终结果是标引结果集(数据库)
23
标引过程中组配方法的应用 在分类标引时,针对数据集的内容,从类目中找出与