ETL数据提取转换和加载解释

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 基本简介

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。

2 主要特点

ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

ETL一词较常出现在数据仓库,但其对象并不局限于数据仓库。

ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。

数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。

3 基本术语

ETL过程在很大程度上受企业对源数据的理解程度的影响,也就是说从业务的角度看数据集成非常重要。一个优秀的ETL设计应该具有如下功能:

3.1 1、管理简单

采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部数据源安装软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、完整;可以提供同各种数据系统的接口,系统适应性强;提供软件框架系统,系统功能改变时,应用程序很少改变便可适应变化;可扩展性强。

3.2 2、标准定义数据

合理的业务模型设计对ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构,而ETL则会依照模型的定义去提取数据源,进行转换、清洗,并最终加载到目标数据仓库中。

模型的重要之处在于对数据做标准化定义,实现统一的编码、统一的分类和组织。标准化定义的内容包括:标准代码统一、业务术语统一。ETL依照模型进行初始加载、增量加载、缓慢增长维、慢速变化维、事实表加载等数据集成,并根据业务需求制定相应的加载策略、刷新策略、汇总策略、维护策略。

3.3 3、拓展新型应用

对业务数据本身及其运行环境的描述与定义的数据,称之为元数据(metadata)。元数据是描述数据的数据。从某种意义上说,业务数据主要用于支持业务系统应用的数据,而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。

元数据的典型表现为对象的描述,即对数据库、表、列、列属性(类型、格式、约束等)以及主键/外部键关联等等的描述。特别是现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。“信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性。

而元数据对于ETL的集中表现为:定义数据源的位置及数据源的属性、确定从源数据到目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作,等等,它一般贯穿整个数据仓库项目,而ETL的所有过程必须最大化地参照元数据,这样才能快速实现ETL。

TPI (True Performance Initiative)理念,即所谓真实性能标准理念,是指协助用户全面理解适合实际应用需求的电脑性能的一种理念。根据TPI将制定一种全新的、更为精确的测评处理器运行应用程序性能的标准。这一标准称为TPI标准。

其实TPI理念并不是什么新东西,早就有人在自觉不自觉地按照它去做了,DIY的发烧友们就是它的忠实实践者。他们都是在自己的TPI理念指导下来选配电脑配件来搭配电脑的,从而使自己的PC能够符合自己的应用需求。如果你随某个DIY迷光顾电脑配套市场,你就会看到他询问销售商:“我要买一个‘QuickIII’能打到80帧的,需把什么卡和CPU放在一起,你这个行不行?不行?那我再看看其它的吧。”或者问:“我要做PHOTHSHOP,渲染时要达到XX速度,你这个可以做到么?”……其实所有这些都是TPI理念。其精髓就是根据实际应用的性能要求,选择合适的配置,最终得到性价比最高的PC。

评价计算机系统性能最重要的一个指标,是完成给定任务所需的时间,即真实应用性能。CPU是计算机的核心,相当于整个系统的心脏,是决定计算机系统能否在最短的时间里有效完成特定任务的关键部件。关于CPU的性能,人们通常认为其时钟频率越高,性能就越好,事实往往并非如此,特别是出现高频芯片以后,仅以CPU的时钟频率来衡量计算机的性能好坏就是一种片面的误解。因为时钟频率本身并不能单独决定PC的真实应用性能,就如同小孩和成人一起散步,小孩需要走更多步才能赶上成人。由于成人的步子比小孩大,每步走的路程比小孩长,因此小孩需要更快走动也就是需要更高的频率才能赶上大人,所仅通过迈步的频率来确定走的路程的长短是不合理的,处理器也是一样。而AMD Athlon XP处理器则与成人一样,它每步完成的任务多,因此其不需要很高的频率就能很大的提高产品的实际性能。

PC的真实应用性能反映的是PC的效率,它既取决于CPU的时钟频率(以MHz或GHz 计量),又取决于CPU在规定时钟周期内可以完成的工作量(以每时钟周期完成的指令数(IPC)计量)。真实性能就等于时钟频率与单位时间周期完成工作量的组合,即应用性能=[时钟频率/MHz]×[每时钟周期完成的工作量/IPC]

这一性能通过一些通用软件在相同状况下的运行速度反映出来。这就是广大用户真正应该关心的TPI。

相关文档
最新文档