阿里数据整合及数据管理体系解读
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能
深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。
传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联
网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。
阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可
管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和
DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体
的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。
数据体系架构
数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及
管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。
业先扳块
业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电商板块涵盖淘宝、天猫、天猫国际、B2B系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的7大生态。
规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命名体系,规范定义将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、原子指标/度量、修饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。
¥例
规范定义实例
pSwflT |
▼:' 1W
业罢过稈維度!
__ i__
__ ....
1
懂询类型原子指检度量J:畢度厲性
♦*
派生指标
(旅主抬标二原干指新■;+时间周勒+修询词丨—J
----------- 2_ .二 ----▼ f ■— E —叫一_
…■
数据域
规范定丈
明细事实表
{最原蛤持度的阴细数据)
汇总肇实表{把明细事实擊合
的事实表》维表
(把逻辑醴度物理化的箜叢)用JSPLM
模型设计
r™~ I 1
r *
厚子拖标
V T
■近t黃末忖書■
ipav^arnl
■
星蓝1天苗过柜瞟
主忡的金叛
耆
庫忖童■
卫押
d…009pafljT.ami创■討间
订单