数据分类及编码标准介绍090422

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)主分类目界定规则
a) 类目名称与主题对应 b) 类目名称规范 c) 同位类互斥 d) 数据集存在性 e) 类目均衡 f) 层次逐级隶属
6.类目设置规则
2)复分类目界定规则
a) 复分类表的类目根据特有属性分区段设置,每 个区段对应数据集的一个特有属性,构成一个 复分类的类目。
b) 复分类的类目间无层级、无关联,无顺序约束, 属于分区段的松耦合约束。
5.分类方法
2)多属性复分法
数据集以相同主题构建,在若干相同主题 数据集中,又根据其个性,如时间、地域、疾 病、学科、机构等多属性,构成辅助分类体系, 即复分类体系。
5.分类方法
2)多属性复分法
特有属性1
类目1 类目2 类目3 ......
特有属性2
类目1 类目2 类目3 ......
特有属性3
对扩增属性,代码按照同一规则设计。
10.分类与编码标准文档结构
内容三
标准内容
1.范围 2.规范性引用文件(略) 3.术语和定义(略) 4.分类原则与方法 5.类目设置规则 6.编码原则与方法 7.编码设计规则 8.分类与编码的应用 9.分类与代码表 10.附录
个区段表达不同的类目属性,便于实现不 同维度检索。
8.编码方法
代码
有含义代码
无含义代码
缩层并组
写次置合
码码码码





按GB/T 7027规定的方法
顺序码










无序码
9.代码设计
1)主分类表码位设计
分类框架中每一个类目设定惟一的主分类 编码,编码为11位混合码。
第1位 第2位 第3位 第4位 第5位 第6位 第7位 第8位 第9位 第10位 第11位
体现--数据集内容的主题属性
一、背景意义
医药卫生科学数据集的内容,围绕数据产生过 程中所容纳的一系列主题描述展开。
主题成为数据集分类与编码的内容属性之一, 同时,数据集若体现机构、学科、病种等属性,也 要做为内容的分类标识属性。
内容二
标准研究意义
本标准就是对医药卫生科学数据主题数据集进行分类和 编码时应遵循的原则和方法,是分类和编码标准制定的指导 性标准。
7.编码原则
1)唯一性 在一个编码体系中,每一个编码对象仅应有
一个代码,一个代码只唯一表示一个编码对象。 2)匹配性
代码结构应与分类体系相匹配。 3)可扩充性
代码应留有适当的后备容量,以便适应不断 扩充的需要。
7.编码原则
4)简洁性 代码结构应尽量简单,长度尽量短。
5)区段性 在数据集编码体系设置若干区段,每
确立数据分类与编码的原则与方法,指导和规范各数据 资源建设单位研究和制定各类共享科学数据分类与编码标准, 推动和促进科学数据的集成与共享。
标准内容
封面 目次 前言 引言 名称
1.范围 2.规范性引用文件(略) 3.术语和定义(略) 4.分类原则 5.分类方法 6.类目设置规则 7.编码原则 8.编码方法 9.代码设计 10.分类与编码标准文档结构
亚门类
大类
小类
一级
二级
三级
字母码
数字码
数字码
数字码
数字码
数字码
A—Z
01—99
01—99
01—99
01—99
01—99
9.代码设计
2)复分类表码位设计
复分类表需依据数据集的特有属性采用分 段编码设计,其基本内容可以由诸如卫生机构、 疾病分类和学科分类等多个区段组成,表述格 式为×××××××××(GB/T 11714 )-×××.×××(GB/T 14396)-×××.××××(GB/T 13745)--……。
国家科技基础条件平台 医药卫生科学数据共享网 资源体系建设与标准规范建设培训
数据分类与编码标准介绍
张业武
张黎黎
医药卫生科学数据共享网总中心
资源体系建设课题组 标准规范建设课题组
主要内容
一、背景意义
科学数据共享活动涉及科学数据的汇交、分发、服务和应用 环节,也涉及科学数据的采集、加工和处理环节。
分类是人们认识事物的基础,对某种类别的数据作层次分类 并对分类结果赋予特定代码,以达到对该种数据类别或其分类结 果在语义上无歧义理解。
1.范围 2.规范性引用文件(略) 3.术语和定义(略)
4.分类原则
1)系统性原则 综合考虑数据主题一致性,按其内在联系进
行系统化排列,确保类目唯一、结构合理、层次 清晰,减少冗余。 2)实用性原则
满足数据集分类编目的简便性、可操作和通 用性需求和数据集查询的一致性理解。 3)可扩展性原则
保证分类体系框架适应数据集不断丰富的内 容和日益增长的种类与数量。
科学数据分类编码的目的在于准确地识别主题数据集的内容 属性,将主题概念进行分析,并将分析的结果转化为分类编码语 言;实施对数据的有效管理,并能按类别开发利用数据,实现数 据共享。
科学数据共享 不能缺少
பைடு நூலகம்
一、背景意义
数据集内容可以从不同的属性进行划分:
疾病分类,ICD--促进死亡率统计指标的可比性; 图书文献分类、学科分类,中图法--组织藏书排架; 业务属性,数据集分类--高层进行数据归并和信息组织。
类目1 类目2 类目3 ......
特有属性n
类目1 类目2 类目3 ......
5.分类方法
3)组配分类法
组配分类法是按照多维度、交叉性方式, 将数据集主分类框架与复分类表组合使用,对 数据集进行分类的规则。在某个主分类下的卫 生信息数据集的组配分类示意。
5.分类方法
3)组配分类法
6.类目设置规则
4.分类原则
4)兼顾科学性原则 自顶向下,优先选择最能代表卫生信息数
据集主题的语言、词条定义类目名称,编制受控 分类体系表。 5)稳定性原则
使用稳定的因素作为分类依据,同时提高 分类体系的可延展性或兼容性,促进稳定性。
5.分类方法
1)主题优先法
分类体系首先依据主题构建主分类框架, 分类框架各层级类目可表示为一级、二级、三 级类目等。
c) 复分类目区段个数可根据实际需要进行扩展。
6.类目设置规则
3)主分类目层级约束规则
a) 分类体系的展开层次决定着分类导航系统的导 航程度,层次越多越深,知识被组织得越细密, 用户查找信息耗费的时间和精力就越多。
b) 主分类层次应控制在3级-6级之间。
6.类目设置规则
4)复分属性有限性控制
复分类表属性宽度的控制应该充分考虑数据 集内容的特有属性进行设置,详细描述、全面覆 盖数据集内容信息,多属性组配,增加数据集管 理维度、提高数据组织和生产的效率和质量,增 强数据集聚类的灵活性、增加检索入口,适应计 算机检索的需要。
相关文档
最新文档