数据元
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据元
编辑
数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。
1定义编辑
data element(数据元素),单个数据单元,也称为data item(数据项)。参阅date field (数据字段)。
data field(数据字段),数据记录中已有定义的部分,例如数据库表中的一列。
综上,data element(数据元素),泛指结构化数据中的最小组成单位。
数据元和元数据的概念
数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。
数据元一般来说由三部分组成:
a)对象类:思想、概念或真实世界中的事物的集合,它们具有清晰的边界和含义,
其特征和行为遵循同样的规则。
b)特性:对象类中的所有成员共同具有的一个有别于其它的、显著的特征。
c)表示:它描述了数据被表达的方式。
元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
元数据的基本特点主要有:
a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;
b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
摘自《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》
1、数据元与元数据的关系
首先肯定一点是:数据元本身也是数据单元,即也是数据。它就是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。用这一套方法对行业数据进行统一的名、型、值规范及分类。可以说数据元是组成数据的最小单元,是基本的。就像化学元素一样,化学元素本身并不多,即几十种,但由这几十种元素构成的物质可是形形色色。所以对于一个行业来讲数据元应该是有限的,而不是无限的。理解数据元应该从它的几个性质来认识: (1)原子性:即说明数据元具有原子特征,即是组成数据最小单元。例如“金额”本身就是一个基本数据元,“产量”,“重量”、“密度”等等
(2)集成性:按照数据本身自然联系建立数据间的关联关系,体现出了数据的集成性。同时,通过对数据元的分析,对数据的分类具有重要的指导作用。
(3)演绎性:说明可由基本数据元演绎或派生出许许多多的应用数据元,继上面的实例:煤产量、原油产量、钢产量等,或更细致地可以演绎出:煤年产量/煤月产量/煤季产量/煤累计产量等。从上面的讨论,我们可以看出,实际上数据元由基本数据元与应用数据元之分,所以一般来讲,我们就是指基本数据元。
可以看出,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。更重要的是在逻辑层上为我们提供了一个统的“参考模型”。以前存在的一些模型中的数据与其它模型进行共享时,可以在这个逻辑的“参考模型”一层上得到统一。而元数据,我个人认为理解这个元数据也应有几个层面的问题,首先,从它的定义上讲,所谓的元数据是“描述数据的数据”。单从这个定义上来看,元数据的定义是相当宽泛的。例如,描述数据元有二十几个属性,即这二十几个属性(例如数据元名称、定义、类型等),我们就称为是描述数据元的元数据。这只是单纯地从它的定义上来理解,其实,一般我们所指的元数据,通常都与具体的应用挂钩的。例如,我们保存到DBMS中的表结构、索引、字典、报表格式等等均为元数据,所以可以看出,元数据(Metadata)与数据元(Data Element)不是一个层面上的概念。
二者的关系:数据元规划好了,可以为企业提供高效的,而非冗余的元数据。元数据与软件及数据仓库紧密相关。另外,数据元之后才能谈元数据,元数据更接近于应用,而数据元仅仅是从数据名、型、值以及分类的角度对数据进行规划。数据元设计是为数据集成,即数据模型构建奠定基础,它更面向数据模型,而数据元更接近实际应用。
2.信息系统基本(通用)数据元怎样划分与提取?(1)按照行业中的关键业务活动,即工作流程,从源头出发来初步地提取出数据项,即业备流中蕴涵着数据流,这样可以保障所提取的数据元能够满足多学科的应用需求;这个过程也是分专业进行分析的过程。(2)将多专业的数据进行统一考虑,一般来讲,我国行业信息建设发展到今天数据已经有了很大程度上的积累,这样为我们提取数据项提供了更方便的条件。这样可以按照数据元的方法对数据元本身进行分类,这种分类一般有按照“对象”、“特性”以及“表示”等进行分类,这是最基本的分类。也有的可以按照自行业和特点按照应用主题或其它进行分类。
相似类别的数据分类到一起,这样可以统一考虑该类数据的名、型及值等问题。数据元的提取是一个逐步求精的过程,不可能一次就完成,它要有一个反复的过程。
上面所说的按照对象来分类,是指该数据元是描述什么对象的,例如,在石油行业,井号,这个数据元本身就是描述“井”这个对象的,所以如果按照对象来分类,那么它将被分到“井”这个对象。可以看出,按照对象来分类时,可以为下一步建模奠定一个好的基础。
按照特性与表示也可以从不同的角度来对这些数据元进行分类。对基本数据元的分析,最后可能会得到一个层次关系,有的人问,这个基本数据元到底要分解到何时为止呢?回答是:具体抽象为哪一层与行业应用有关系,这不是死规定。一般来讲,数据元如果越基本,那么它的抽象度应越高,而距离实际应用主题就越远。这就要根据实际而定了。
其实,我们上面所谈的数据元分析过程,实际上就是对信息进行分类的过程,如果再加上编码就形成了我们行业的数据标准。最后需要注意的是:数据元是信息化的一个中间产品,它是为最终数据建模与交换奠定基础的,是实现“e”能源的重要资产。我们在应用数据元时,一定不要按照它的理论来生搬硬套,只要在这一方法论的指导下,能将行业数据统一规范了就达到了目的!所以在实际应用中一定要注意这一点。
此外,要注意的一点是:利用数据元来规范化行业数据,而不是取代现有模型,它是集成多学科的一个“胶水”。数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。
数据元一般来说由三部分组成:
a)对象类:思想、概念或真实世界中的事物的集合,它们具有清晰的边界和含义,其特征和行为遵循同样的规则。
b)特性:对象类中的所有成员共同具有的一个有别于其它的、显著的特征。 c)表示:它描述了数据被表达的方式。
元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。元数据的基本特点主要有:
a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;
b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。由于元数据也是数据,因此可以用类似数据的方