数据元,数据集
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 1 章数据元
1.1数据元定义
数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据
单元,在特定的语义环境中被认为是不可再分的最小数据单元。一般来说由对象类词、特性类词和表示三部分组成。
(1)对象类词:是指人们希望研究、搜集和存储其相关数据的事物,如:人、家庭、医疗机构、观察与干预等。
(2)特性类词:是某个对象的一个特征。例如,人这个对象类可以具有很
多特征,如性别、出生日期、身高、职业或患病情况等。
(3)表示是值域、数据类型的组合,必要时也包括度量单位或字符集。它
所表达的是数据元概念的数据类型及可能的取值范围。表示类词可以是一个
编码,如国际疾病分类(ICD-10),也可能是一个取值范围,如身高的取值。对象往往有多个特性,对象与其任何一个有意义的特性的结合就组成一个数
据元概念。例如,人这个“对象”可以有性别、身高、出生日期等多个“特性”,将它与其中的某一个特性结合在一起就组成一个“数据元概念”,如人—性别、人—身高和人—出生日期等都是数据元概念的例子。
数据元是数据元概念与值域的结合。即一个特定的数据元概念与一个特定的
值域结合创建一个数据元。例如在儿童营养监测中,定义的一个数据元概念“儿童身高”,与身高的表示值域结合,构成数据元“儿童身高的测量值”;而与儿童身高的平均水平值域结合,则构成“儿童身高的平均值”这个数据元。显然,这是两个不同的数据元。数据元概念与数据元之间存在一对多的关系,即一个数据元概念与不同的表示组合后可以生成不同的数据元。数据元需要并且只能有一个表。当数据元的概念模型相同而表示不同时就是两个不同的数据元。图1 给出了数据元的结构模型。
1.2数据元属性描述规则
1.2.1必选描述符
下列数据元属性描述符是必选的:
──名称
──定义
──约束
──数据类型
8.3.1.2.2 名称:赋予数据元属性标记。名称应当是唯一的,并且应当以字母数字
式的字符串形式表示。
8.3.1.2.3 定义:数据元属性的描述,可使一种数据元属性与其他数据元属性清晰地
中国公共卫生信息分类与基本数据集标准
379
区别开来。定义以字母数字式的字符串形式表示。
8.3.1.2.4 约束:显示一个数据元属性是始终还是有时出现(即含有的值)的描述符。该描述符可以有下列含义:
──必选:该数据元属性必须出现。
──条件选:如果规定的条件存在的话,那么该数据元属性就应当出现。
──可选:该数据元属性可以出现,也可以不出现。
条件:数据元属性应该出现的环境。
8.3.1.2.5 最多实例数:在一个数据元规范中,规定数据元属性可以拥有的最多实
例数目的描述符。
注:描述符“最多实例数”可以实现为属性的重复出现的次数,或实现为属性
出现一次但具有多个赋值(多值属性)。后一种情形需要句法约定,以使属性值相互区别。
实现示例1:
某种数据管理功能确定了这样的属性:在一个数据元规范中“同义名称”可以
出现3 次。数据元的3 个“同义名称”被命名为“产品代码”,表达如下:
名称产品代码
同义名称1:物品号
同义名称2:物料代码
同义名称3:产品索引号
实现示例2:
某种数据管理功能确定了这样的属性:在一个数据元规范中“分类模式”,可
以只出现1 次但可以拥有2 个值。数据元“元件体长”的两个“分类模式”,可以表
达如下:
名称体长
分类模式:IEC 元件种类:元件
IEC 数据元类型种类:长度值(T03)
8.3.1.2.6 数据类型:为表达属性值而规定的特定值集合的描述符。属性值的数据
类型示例有:“字符”、“序号”、“整数”、“字符串”。
8.3.1.2.7 最大长度:存储单元最大数目的规格以表达在数据类型中所规定的特定值。
示例:当“数据类型”实例被规定为“整数”并且“最大长度”描述符实例值是:“3”时,则表示属性值可以包含最多3 位整数。
8.3.1.2.8 备注:与属性应用有关的注释。
1.3数据元命名规则
数据元的中英文名称的命名应遵循以下三个方面的规则。
1.3.1唯一性规则
规则1:在一定相关环境下数据元名称应该唯一,名称中一般包括对象类词、特性词、表示词和限定词。
1.3.2语义规则
规则2:对象类词表示数据元所属的事物或概念,它表示某一相关环境下一
个活动或对象,它是数据元中占支配地位的部分。
规则3:数据元名称中应有一个且仅有一个对象类词。
规则4:特性词是表示数据元的对象类的显著的、有区别的特征。
规则5:数据元名称中应有一个且仅有一个特性词。
规则6:表示词是数据元名称中描述数据元表示形成的一个成分。它描述了
数据元有效值集合的格式。
规则7:数据元名称中应有一个且仅有一个表示词。
规则8:当需要描述一个数据元并使其在特定的相关环境中唯一时,可以使
用限定词对对象类词、特性词或表示词进行限定。限定词是可选的。
中国公共卫生信息分类与基本数据集标准
27
1.3.3语法规则
规则9:对象类词应处于名称的第一(最左)位置。
规则10:特性词应处于第二位置。
规则11:表示词应处于最后位置。
规则12:限定词可以附加到对象类词、特性词和表示词上。限定词应位于被
限定成分的前面,限定名称的顺序的不同不能用于区别不同的数据元。
规则13:当表示词与特性词有重复或部分重复时,可以从名称中将冗余词删
除掉。
1.3.4数据元英文名称的词法规则
规则14:名词使用单数形式,动词使用现在时;
规则15:名称的各个成分之间用空格分隔,不允许使用特殊字符。
规则16:允许使用缩写词、首字母缩略词和大写首字母。
1.4数据元的标识
为了区分不同的数据元,用一组相关属性对其进行规范性、唯一性标识。这
些属性如表4 中(标识类属性)给出的内容:
——名称(中文名称、英文名称、中文全拼);
——标识符;
——注册机构;
——版本;
——相关环境;
——同义名称。
1.4.1名称、同义名称和相关环境
在注册机构中注册的一个数据元至少应当有一个名称,根据该数据元的使用
的相关环境,可以分配多个名称。每个名称在某个特定的相关环境中有着特殊的中国公共卫生信息分类与基本数据集标准
28