林业科学数据分类与编码V中国林业科学数据中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

林业科学数据分类与编码（V1.0）

1主题内容与适用范围

本标准根据林业科学的学科构成和学科发展规划编制。规定了林业科学数据的构成、类别和编码，适用于林业科学数据库建设、数据交流和数据共享服务。

2编制依据

下列文件中的条款通过本标准的应用而成为本标准的条款。凡是注明日期的引用文件，其随后所有的修改单（不包括勘误的内容）或修订版均不适用于本标准。但鼓励根据本标准达成协议各方研究是否可使用这些文件的最新版本。凡是不注明日期的文件，其最新版本适用于本标准。

科学数据共享核心元数据（征求意见稿）

国家科学数据共享工程技术标准《国家科学数据中心建设技术规范》

数字林业标准与规范（一）

3术语和定义

2.1林业科学数据资源data resources on forestry science

特指以公益性和基础性为主体的、具有科学研究与应用价值的林业基础、本底数据、在资源调查、监测、试验、观测以及研究等科学技术活动过程中产生的原始性数据，以及按照不同科技活动需求进行系统加工整理的应用类数据。

2.2数据集 dataset

是可以标识的数据集合。可以是一个数据库或一个或多个数据文件，能够用一个数据字典唯一描述。

2.3元数据 metadata

是关于数据的数据，即关于数据的内容、质量、状况和其他有关特征的描述信息。是对科学数据资源的一种规范化描述。元数据有两种类型：数据集内容元数据和数据集结构元数据。

2.4线分类法line-taxonomy

又叫层级分类法。是将分类对象按所选定的若干个属性或特征，作为分类的划分基础，逐次地分成相应的若干个层级的类目，并排成一个有层次的，逐级展开的分类体系。

4分类方法和原则

林业科学数据的分类采用―线分类法‖。

林业科学数据的分类遵循面向应用的原则，即按照科学研究人员、管理人员等用户的浏览和数据查询需求进行数据分类，分类数据主要应用于数据组织、编目和查询。

林业科学数据分类采用二级分类，二级分类以下可包含各相关数据集，各数据集的数据内容和具体数据分类、数据表、字段等编码由数据集提供者另行分类和编码，此处不再细分。

5分类体系

林业科学数据可分为林业科学基础数据、林业科学研究数据和林业成果及管理数据三类数据。科学基础数据内容包含森林资源状况、植被、土壤、土地、社会经济背景及相关统计数据等多种用于林业科学研究的公共及背景数据；科学研究数据内容包括林业科学研究领域中各主要专业领域研究数据；成果及管理数据内容包括已完成的科技成果数据、技术推广数据及科研管理数据等。此外，本体系中的类目和数据项可以扩充，在遵循分类原则和层次关系不变的原则下，新出现的类目和数据项可在相应级中扩充或归类。

表5.1列出了林业科学数据分类体系主要内容，其中数据门类按照数据性质划分，数据的一级类别按照数据的学科领域划分，数据的二级类别按照子学科及数据内容划分。

表5.1 林业科学数据分类体系表

6数据编码

6.1编码的基本原则

唯一性：虽然—个编码对象可能有不同的名称，也可按各种不同方式对其进行描述，但在一个分类编码标准中，每一个编码对象有且仅有一个代码，—个代码只唯—表示—个编码对象。

可扩充性：必须留有适当的后备容量，以便适应不断扩充的需要。

简单性：代码结构应尽量简单，长度尽量短，以便节省机器存贮空间和减少代码的差错率，同时提高机器处理的效率。

实用性：代码尽可能反映编码对象的特点，有助于记忆，便于使用。

规范性：代码的类型、结构以及编写格式统一。

6.2编码方法

编码就是将事物或概念（编码对象）赋予有一定规律性、易于计算机和人识

别与处理的符号或代码。代码的功能有：

a．标识：代码是鉴别编码对象的唯一标志；

b．分类：当按编码对象的属性或特征（如数据、处理和术语等）分类，并分别赋予不同的类别代码时，代码又可以作为区分编码对象类别的标志；

c．排序：当按编码对象发现（产生）的时间、所占有的空间或其他方面的顺序关系分类，并分别赋予不同的代码时，代码就可以作为区别编码对象排序的标志。

林业科学数据的编码体系由两种编码构成，即分类码和标识码。

分类码是直接利用信息分类的结果，根据分类体系设计出各种信息的分类代码，用以标记不同类别信息的数据，根据它可以将数据按类别存贮进数据库，或从数据库中按类别查询检索数据。

本标准与规范编码体系的分类码使用多级阿拉伯数字，在标准条目名称之前加上―数据库‖中各门类数据英文首字母；—W；背景数据—B。（如表2－1，表2－2所示）。

标识码又称为识别码，它是利用信息分类结果，即在分类的基础上，对某些类别的数据分别设计出其全部或主要实体的识别代码，简称标识码，用以对某一类数据中的实体进行标识，以便能按实体进行存贮和逐个地进查询检索。

6.3编码结构

基于分类码和标识码方法制定出的林业科学数据体系的编码结构如图12.1所示。由门类码、版本号、―.‖和分级代码组成。其中Y表示标识码定义的部分，XX是分类码定义的部分。编码总长度为8位

门类码采用标识码的编码方式，以汉语拼音首字母作为标识，这样，林业基础数据、科学研究数据、成果及管理数据分别标识为：J、Y、C；一级分类和二

级分类的编码采用分类码的编码方式，由两位数字构成，编码方式为：01、02、03、04……依次类推。

根据以上编码原则，表 2.2列出二级分类的林业科学数据分类编码，如表12.2。

7分类和编码的扩充

标准体系扩充的原则是：（1）保持原有分类体系的完整性工作的整体框架内进行；（2）反映现有科学数据的发展趋势与变化；（3）有助于信息标准化的实际工作。

增加数据类目时，可在其所属的类目级别中按编码规则增加一个新码。

8 原有专题数据的处理

林业科学数据资源建设过程中，对原有的科学数据进行整合形成符合林业科学数据共享的数据格式、规范要求的专题数据，原则上需独立建设专题，不再重新进行数据组织和系统开发建设，但其所提交的用于林业科学数据共享的数据，应按照分类编码的要求，对数据集进行数据分类的编码和标识工作。便于数据分类和编目。

附加说明

本标准由中国林业科学研究院资源信息所负责起草。

起草人为张旭、杨彦臣、邓广、陈艳、雷振宇、刘燕。