ETL数据抽取方案简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
ETL简介 (1)
ETL抽取方案 (2)
1、数据抽取 (2)
2、数据转换与加工 (6)
3、数据装载 (7)
4、时间戳方式 ................................................................................................................... 错误!未定义书签。
5、全量删除插入方式......................................................................................................... 错误!未定义书签。
6、全量比对方式................................................................................................................ 错误!未定义书签。
ETL简介
数据集成就是把不同来源、格式与特点得数据在逻辑上或物理上有机地集中,从而提供全面得数据共享,就是企业商务智能、数据仓库系统
得重要组成部分。ETL 就是企业数据集成得主要解决方案。
ETL 中三个字母分别代表得就是Extract、Transform、Load,即抽取、转换、加载。
(1)数据抽取:从源数据源系统抽取目得数据源系统需要得数据;
(2)数据转换:将从源数据源获取得数据按照业务需求,转换成目得数据源要求得形式,并对错误、不一致得数据进行清洗与加工;
(3)数据加载:将转换后得数据装载到目得数据源。
ETL 作为构建数据仓库得一个环节,负责将分布得、异构数据源中得数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转
换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据
图1
ETL抽取方案
ETL 过程中得主要环节就就是数据抽取、数据转换与加工、数据装载。为了实现这些功能,ETL 工具会进行一些功能上得扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。
1. 数据抽取
数据抽取就是从数据源中抽取数据得过程。实际应用中,数据源较多采用得就是关系数据库。
从数据库中抽取数据一般有以下几种方式:
1)全量抽取
全量抽取类似于数据迁移或数据复制,它将数据源中得表或视图得数据原封不动得从数
据库中抽取出来,并转换成自己得ETL 工具可以识别得格式.全量抽取比较简单。
2)增量抽取
增量抽取只抽取自上次抽取以来数据库中要抽取得表中新增或修改得数据。在ETL 使用过程中,增量抽取较全量抽取应用更广。如何捕获变化得数据就是增量抽取得关键。对捕获方法一般有两点要求:准确性,能够将业务系统中得变化数据按一定得频率准确地捕获到;性能,不能对业务系统造成太大得压力,影响现有业务。目前增量数据抽取中常用得捕获变化数据得方法有:
a)触发器方式(又称快照式)
在要抽取得表上建立需要得触发器,一般要建立插入、修改、删除三个触发器,每当源表中得数据发生变化,就被相应得触发器将变化得数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过得数据被标记或删除。
优点:数据抽取得性能高,ETL 加载规则简单,速度快,不需要修改业务系统表结构,可以实现数据得递增加载.
缺点:要求业务表建立触发器,对业务系统有一定得影响,容易对源数据库构成威胁。
b)时间戳方式
它就是一种基于快照比较得变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据得时候,同时修改时间戳字段得值。当进行数据抽取时,通过比较上次抽取时间与时间戳字段得值来决定抽取哪些数据。有得数据库得时间戳支持自动更新,即表得其它字段得数据发生改变时,自动更新时间戳字段得值。有得数据库不支持时间戳得自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。
优点:同触发器方式一样,时间戳方式得性能也比较好,ETL 系统设计清晰,源数据抽取相对清楚简单,可以实现数据得递增加载。
缺点:时间戳维护需要由业务系统完成,对业务系统也有很大得倾入性(加入额外得时间戳字段),特别就是对不支持时间戳得自动更新得数据库,还要求业务系统进行额外得更新时间戳操作;另外,无法捕获对时间戳以前数据得delete与update 操作,在数据准确性上受到了一定得限制。
c)全表删除插入方式
每次ETL 操作均删除目标表数据,由ETL 全新加载数据。
优点:ETL 加载规则简单,速度快。
缺点:对于维表加外键不适应,当业务系统产生删除数据操作时,综合数据库将不会记录到所删除得历史数据,不可以实现数据得递增加载;同时对于目标表所建立得关联关系,需要重新进行创建.
d)全表比对方式
全表比对得方式就是ETL 工具事先为要抽取得表建立一个结构类似得临时表,该临时表记录源表主键以及根据所有字段得数据计算出来,每次进行数据抽取时,对源表与临时表进行得比对,如有不同,进行Update 操作,如目标表没有存在该主键值,表示该记录还没有,即进行Insert 操作。
优点:对已有系统表结构不产生影响,不需要修改业务操作程序,所有抽取规则由ETL完成,管理维护统一,可以实现数据得递增加载,没有风险。。
缺点:ETL 比对较复杂,设计较为复杂,速度较慢.与触发器与时间戳方式中得主动通知不同,全表比对方式就是被动得进行全表数据得比对,性能较差.当表中没有主键或唯一列且含有重复记录时,全表比对方式得准确性较差.
e)日志表方式
在业务系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容,当作ETL 加载时,通过读日志表数据决定加载那些数据及如