阿里数据仓库模型设计ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ 仓库层次更加清晰,对外暴露数据更加统一
5
❖ 需求驱动为主
传统仓库架构方法
…
6
支付宝交易主题现状
7
数据仓库模型建设目标示意图
8
仓库基础数据层建设的意义
❖ 避免底层业务变动对上层需求影响过大 ❖ 屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层
呈现业务数据 ❖ 仓库数据更加丰富 ❖ 建设高内聚松耦合的数据组织,使得数据从业务角度可分
3
支付宝业务系统
四大平台
资金平台 客户平台 支付平台 交易平台
五大域
商户域 用户域 支撑域 风控域 无线域
两条线
会员线 金融线
4
支付宝数据仓库架构原则
❖ 底层业务的数据驱动为导向同时结合业务需求驱动 ❖ 便于数据分析
▪ 屏蔽底层复杂业务 ▪ 简单、完整、集成的将数据暴露给分析层
❖ 底层业务变动与上层需求变动对模型冲击最小化
▪ 业务系统变化影响削弱在基础数据层(资金订单改造) ▪ 结合自上而下的建设方法削弱需求变动对模型的影响 ▪ 数据水平层次清晰化
❖ 高内聚松耦合
▪ 主题之内或各个完整意义的系统内数据的高内聚 ▪ 主题之间或各个完整意义的系统间数据的松耦合
❖ 构建仓库基础数据层
▪ 使得底层业务数据整合工作与上层应用开发工作相隔离, 为仓库大规模开发奠定基础
协议 条件
产品 条件 分类
当事人 条件 分类
地理位置
介质 条件
资源项
渠道 条件 分类
帐户
事件 业务方向
12
第三方支付企业支付宝数据模型设计
➢基于OMG推出的数据仓库元数据管理的CWM模型 (Common Warehouse Metamodel) ➢物理模型设计 PDM设计方法 ➢参考IBM的FSDM金融行业的数据仓库通用模板 ➢参考NCR Teradata 金融服务逻辑数据模型(FS-LDM ), ➢参考新巴塞尔资本协议(Basel II Capital Accord)需提供 三到五年的数据的规范
2
支付宝业务系统简介
❖业务特点
▪ 类金融交易:充值、提现、账务管理 ▪ 类电子商务:购物交易过程变更、实际交易(对B
机票、对C水电等) ▪ 非纯电子商务;纯金融
❖线上子系统多而杂
▪ 截止到2011年6月共有各类线上子系统259个 ▪ 类型多样:对C、对B、对内、对金融机构
❖系统间依赖程度参差不齐
▪ 垂直依赖(业务与核心) ▪ 跨层依赖(跨过交易到账务)
割,有助于数据和团队的扩展。
9
第三方支付企业支付宝数据仓库体系结构
数
KPI
账单应用
日志产品应用
其它……
据
应 用
报表展示
自定义查询
数据分析
数据挖掘
元
数
据
数据应用(ST)
管 理
数 据
数据集市、宽表(DM)
数
仓
库
E 低粒度汇总加工数据(DWB)
高粒度汇总数据(DWS) 据 质
T L
明细数据(DWD)
量
监
综合上述规范和要求,同时结合支付宝实际的业务, 推出数据仓库5层架构体系
13
DW五层模型架构介绍
❖ DW五层模型是按照EDW各个应用层次的需求进行分层细 化而来的,每个层次满足不同的应用。
❖ 分为以下5层:
1. ODS 数据准备层
2. DWD 数据明细层
3. DW(B/S) 数据汇总层
4. DM
数据集市层
IBM FSDM九大数据概念
当事人
协议 介质
地理位置 资源项
产品 介质
分类
帐户
渠道
条件
ห้องสมุดไป่ตู้
事件
业务方向
主要变化:
1. 将产品中的介质以及 分类中的帐户和渠道独 立出来作为单独的数据 概念
2.条件和分类不作为单 独的数据概念,分散在 各个数据概念中。
3.业务方向中的部分在 事件数据概念中体现
支付宝九大数据概念
▪ IBM业务概念间最初的关系提供了
相关方 合约 位置 分类 产品/服务 资源 事件 业务方向 条件
➢所有业务信息都是可以用九大概念的词汇来表示 ➢每一种信息概念都可用三个分层来详细说明: I. 分类分层(是什么) II. 描述分层(有什么) III. 关系分层(做什么)
11
九大数据概念变迁
控
源 数 据
点击流数据 (Click stream)
数据库数据 (OLTP)
文档数据
其它数据
(Documents) (Other)
10
建立企业级概念数据模型(CDM) 的基本架构
相关方 描述 位置 相关方类型
安排类型
相关方关系
相关方
相关方及安排间的 关系 安排
▪ 业务概念框架提供了一套通用的结构, 它描述了所有业务环境
数据建模介绍
1
数据仓库构造方法
自上而下 Bill Inmon
• 从整个企业的业务环境入手,分析其中的概念,应该有什么样的数据,达 成概念完整性,并不从它需要支持那些应用入手。
• 一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整 合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。
自下而上 Ralph Kimbal
• 按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据 仓库当中。
• 这种方式建设周期较短,客户能够很快看到结果,适合做项目类数据仓库。
混合法
• 结合自上而下、自下而上两种构造数据仓库的方法,结合企业自身特点, 分析业务环境构造数据仓库底层数据基础,再按照实际的应用需求构造数 据仓库上层数据。
从DW层的数据进行粗粒度 聚合汇总;如按年、月、季、 天对一些维度进行聚合生成 业务需要的事实数据
从DW层的数据进行粗粒度 聚合汇总;按业务需求对事 实进行拉宽形成宽表
从DWD层进行轻度清洗,转换, 汇总聚合生成DW层数据,如字符 合并,EMAIL,证件号,日期,手 机号转换,合并;用代理键取代 维度;按各个维度进行聚合汇总
ODS层
数据准备区,数据来源是各 业务系统的源数据,物理模 型和业务系统模型一致。
服务领域
前端报表展现,主题分析, KPI报表
数据挖掘,自定义查询,应 用集市
为EDW提供各种统计汇总数 据
为EDW提供各主题业务明细 数据
为其它逻辑层提供数据,为 统一数据视图子系统提供数 据实时查询
数据ETL过程描述
5. ST
数据应用层
14
DW五层模型架构介绍
数据来源及建模方式
ST层
数据来自DW层,采用维度 建模,星型架构
DM层
数据来自DW层,采用维度 建模,星型架构
DW层
数据来自DWD层,是DW事 实层,采用维度建模,星型 架构,这一层可细分为dwb 和
dws
DWD层
数据来自ODS层,是DW明 细事实层,数据模型是ODS 一致
5
❖ 需求驱动为主
传统仓库架构方法
…
6
支付宝交易主题现状
7
数据仓库模型建设目标示意图
8
仓库基础数据层建设的意义
❖ 避免底层业务变动对上层需求影响过大 ❖ 屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层
呈现业务数据 ❖ 仓库数据更加丰富 ❖ 建设高内聚松耦合的数据组织,使得数据从业务角度可分
3
支付宝业务系统
四大平台
资金平台 客户平台 支付平台 交易平台
五大域
商户域 用户域 支撑域 风控域 无线域
两条线
会员线 金融线
4
支付宝数据仓库架构原则
❖ 底层业务的数据驱动为导向同时结合业务需求驱动 ❖ 便于数据分析
▪ 屏蔽底层复杂业务 ▪ 简单、完整、集成的将数据暴露给分析层
❖ 底层业务变动与上层需求变动对模型冲击最小化
▪ 业务系统变化影响削弱在基础数据层(资金订单改造) ▪ 结合自上而下的建设方法削弱需求变动对模型的影响 ▪ 数据水平层次清晰化
❖ 高内聚松耦合
▪ 主题之内或各个完整意义的系统内数据的高内聚 ▪ 主题之间或各个完整意义的系统间数据的松耦合
❖ 构建仓库基础数据层
▪ 使得底层业务数据整合工作与上层应用开发工作相隔离, 为仓库大规模开发奠定基础
协议 条件
产品 条件 分类
当事人 条件 分类
地理位置
介质 条件
资源项
渠道 条件 分类
帐户
事件 业务方向
12
第三方支付企业支付宝数据模型设计
➢基于OMG推出的数据仓库元数据管理的CWM模型 (Common Warehouse Metamodel) ➢物理模型设计 PDM设计方法 ➢参考IBM的FSDM金融行业的数据仓库通用模板 ➢参考NCR Teradata 金融服务逻辑数据模型(FS-LDM ), ➢参考新巴塞尔资本协议(Basel II Capital Accord)需提供 三到五年的数据的规范
2
支付宝业务系统简介
❖业务特点
▪ 类金融交易:充值、提现、账务管理 ▪ 类电子商务:购物交易过程变更、实际交易(对B
机票、对C水电等) ▪ 非纯电子商务;纯金融
❖线上子系统多而杂
▪ 截止到2011年6月共有各类线上子系统259个 ▪ 类型多样:对C、对B、对内、对金融机构
❖系统间依赖程度参差不齐
▪ 垂直依赖(业务与核心) ▪ 跨层依赖(跨过交易到账务)
割,有助于数据和团队的扩展。
9
第三方支付企业支付宝数据仓库体系结构
数
KPI
账单应用
日志产品应用
其它……
据
应 用
报表展示
自定义查询
数据分析
数据挖掘
元
数
据
数据应用(ST)
管 理
数 据
数据集市、宽表(DM)
数
仓
库
E 低粒度汇总加工数据(DWB)
高粒度汇总数据(DWS) 据 质
T L
明细数据(DWD)
量
监
综合上述规范和要求,同时结合支付宝实际的业务, 推出数据仓库5层架构体系
13
DW五层模型架构介绍
❖ DW五层模型是按照EDW各个应用层次的需求进行分层细 化而来的,每个层次满足不同的应用。
❖ 分为以下5层:
1. ODS 数据准备层
2. DWD 数据明细层
3. DW(B/S) 数据汇总层
4. DM
数据集市层
IBM FSDM九大数据概念
当事人
协议 介质
地理位置 资源项
产品 介质
分类
帐户
渠道
条件
ห้องสมุดไป่ตู้
事件
业务方向
主要变化:
1. 将产品中的介质以及 分类中的帐户和渠道独 立出来作为单独的数据 概念
2.条件和分类不作为单 独的数据概念,分散在 各个数据概念中。
3.业务方向中的部分在 事件数据概念中体现
支付宝九大数据概念
▪ IBM业务概念间最初的关系提供了
相关方 合约 位置 分类 产品/服务 资源 事件 业务方向 条件
➢所有业务信息都是可以用九大概念的词汇来表示 ➢每一种信息概念都可用三个分层来详细说明: I. 分类分层(是什么) II. 描述分层(有什么) III. 关系分层(做什么)
11
九大数据概念变迁
控
源 数 据
点击流数据 (Click stream)
数据库数据 (OLTP)
文档数据
其它数据
(Documents) (Other)
10
建立企业级概念数据模型(CDM) 的基本架构
相关方 描述 位置 相关方类型
安排类型
相关方关系
相关方
相关方及安排间的 关系 安排
▪ 业务概念框架提供了一套通用的结构, 它描述了所有业务环境
数据建模介绍
1
数据仓库构造方法
自上而下 Bill Inmon
• 从整个企业的业务环境入手,分析其中的概念,应该有什么样的数据,达 成概念完整性,并不从它需要支持那些应用入手。
• 一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整 合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。
自下而上 Ralph Kimbal
• 按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据 仓库当中。
• 这种方式建设周期较短,客户能够很快看到结果,适合做项目类数据仓库。
混合法
• 结合自上而下、自下而上两种构造数据仓库的方法,结合企业自身特点, 分析业务环境构造数据仓库底层数据基础,再按照实际的应用需求构造数 据仓库上层数据。
从DW层的数据进行粗粒度 聚合汇总;如按年、月、季、 天对一些维度进行聚合生成 业务需要的事实数据
从DW层的数据进行粗粒度 聚合汇总;按业务需求对事 实进行拉宽形成宽表
从DWD层进行轻度清洗,转换, 汇总聚合生成DW层数据,如字符 合并,EMAIL,证件号,日期,手 机号转换,合并;用代理键取代 维度;按各个维度进行聚合汇总
ODS层
数据准备区,数据来源是各 业务系统的源数据,物理模 型和业务系统模型一致。
服务领域
前端报表展现,主题分析, KPI报表
数据挖掘,自定义查询,应 用集市
为EDW提供各种统计汇总数 据
为EDW提供各主题业务明细 数据
为其它逻辑层提供数据,为 统一数据视图子系统提供数 据实时查询
数据ETL过程描述
5. ST
数据应用层
14
DW五层模型架构介绍
数据来源及建模方式
ST层
数据来自DW层,采用维度 建模,星型架构
DM层
数据来自DW层,采用维度 建模,星型架构
DW层
数据来自DWD层,是DW事 实层,采用维度建模,星型 架构,这一层可细分为dwb 和
dws
DWD层
数据来自ODS层,是DW明 细事实层,数据模型是ODS 一致