数据仓库ETL模式详解
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内容
1 数据仓库概述 2 ETL模式加载概述 3 ETL加载模式举例
ETL加载模式概述
• 镜像增量:数据仓库数据具有生效日期字段以保存数据的历史信 息,而源数据不保留历史并且每天都可能被更新。因此,只能将 新的镜像数据与上次加载的数据的镜像进行比较,找出变更部分, 更新历史数据被更新记录的生效终止日期,并添加变更后的数据。 大多数源数据中需保存历史信息的维表;
• 各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、 编码规则等都是不同的,这些数据加载到数据仓库之后,需要进 行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM 系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码: 451、452等,那么在数据仓库中,需要将各个业务系统中相同含 义的数据通过规则映射为同一个编码。
• 事件增量:每一个记录是一个新的事件,相互之间没有必然的联 系,新记录不是对原有记录数值的变更,记录包括时间字段,可 以通过时间字段将新增数据抽取出来加载到数据库中;
• 全量数据:数据仓库数据表中只包括最新的数据,每次加载均删 除原有数据,然后完全加载最新的源数据。这种模式下,数据抽 取程序抽取源数据中的所有记录,在加载前,将目标数据表清空, 然后加载所有记录。为提高删除数据的速度,一般是采用 truncate清空数据表。如本系统中的入库当前信息表采用此种模 式;
• 数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是 这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不 断变化的。
某个用户的用户状态变化过程
2008-04-03 2008-06-02
2008-06-03
2008-06-10 2008-07-15
代码:A 描述:正常
• 所谓主题:是指用户使用数据仓库进行决策时所关心的重点方 面,如:客户、产品、账务、事件、服务使用、资源、客户服 务、地域等;所谓面向主题,是指数据仓库内的信息是按主题 进行组织的,而不是像业务支撑系统那样是按照业务功能进行 组织的;
• 分析和明确企业所涵盖的业务范围,并且对企业业务进行高度 概括性的描述,把密切相关业务对象进行归类,它没有统一的 标准,主要根据设计者的经验。不同的行业会有不同的主题域 划分方式。
数据仓库的基本概念-数据集成
CRM系统
地市代码 地市名称
1
哈尔滨
2
齐齐哈尔
3
大庆
4
黑河
5
大兴安岭
Billing系统 地市代码 地市名称
451
哈尔滨
452
齐齐哈尔
映射规则1 映射规则2
数据仓库
地市代码 地市名称
01
哈尔滨
02
齐齐哈尔
03
大庆
04
黑河
05
大兴安岭
455
大庆
459
黑河
455
大兴安岭
数据仓库的基本概念-随时间变化
优缺点
数据量
适用数据库
增量抽取 全量抽取
镜像比较 全量刷新
冗余数据少, 小
可以节省大量
空间;处理较
复杂
大
大量冗余数据, 不区分 浪费很多空间; 处理方式简单
各类数据库
TERADATA、 DB2
各类数据库, TERADATA在大 数据量情况下 还可以做镜像 比较
ETL加载模式举例:镜像增量数据
• 假如有如下数据业务系统一个时间段的数据为: • ‘A’为正常用户,’B’为单停用户,’C’为双停用户,’a’为离网用户,
2008-06-03
2008-06-10 2008-07-15
代码:A 描述:正常
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
数据仓库的基本概念-信息相对稳定
• 所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更 多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。
数据仓库的基本概念-面向主题
客户 服务
客户服务是一个 客户接触事件
事件
帐务
发生帐务清算
结算
市场营销指 导客户服务
参与人参与事件 参与人是客户服务的对象
参与人因为使用产 品和服务支付相应 的费用
因为服务使用而进行的费 用结算
市场 营销
市场营销针对参与人发起的 市场营销推广产品
参与 人
对于不同地域采用 不同的营销策略
• 所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是 记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的
发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态, 数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。
某个用户的用户状态变化过程
2008-04-03 2008-06-02
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
数据仓库的基本概念-操作型系统与数据仓库的差异
操作型系统 面向应用 详细的数据 为日常工作服务 可更新 事务处理驱动 非冗余数据 一次处理很小的数据 高访问性 当前数据
数据仓库系统 面向主题 综合的或汇总的 为管理决策服务 不更新 分析驱动 经常有冗余 一次处理大量的数据 适量的访问度 历史数据
数据仓库ETL模式详解
内容
1 数据仓库概述 2 ETL加载模式概述 3 ETL加载模式举例
数据仓库的基本概念
• 数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon 博士提出的:数据仓库是一个面向主题的、集成的、随时间变 化的、信息相对稳定的数据集合,它用于对企业管理和决策提 供支持。
内容
1 数据仓库概述 2 ETL加载模式概述 3 ETL加载模式举例
ETL加载模式举例:增量抽取和全量抽取
• 对于镜像增量数据一般我们有两种加载方式,增量抽取和全量抽
取,一般做增量抽取数据则会做镜像比较加载数据;如果做全量
抽取,一般就会做全量加载数据。全量加载的数据情况同上表数
据。
数据抽取方式 建议加载方式
参与人关联地域
参与人订购相 应的产品
参与人使用服务提供 商提供的服务
服务 使用
提供服务所消耗的资源
地域
不同地域提供特定的产品
产品
提供产品所需要的资源
资源
数据仓库的基本概念-数据集成
• 所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽 取出来的,而是经过一系列加工、整理和汇总的过程,必须消除 源数据中的不一致性,因此数据仓库中的信息是关于整个企业的 一致的全局信息;