阿里数据整合及数据管理体系解读

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能

深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。

传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联

网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。

阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可

管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和

DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体

的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。

数据体系架构

数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及

管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业先扳块

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电商板块涵盖淘宝、天猫、天猫国际、B2B系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的7大生态。

规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命名体系,规范定义将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、原子指标/度量、修饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。

¥例

规范定义实例

pSwflT |

▼:' 1W

业罢过稈維度!

__ i__

__ ....

1

懂询类型原子指检度量J:畢度厲性

♦*

派生指标

(旅主抬标二原干指新■;+时间周勒+修询词丨—J

----------- 2_ .二 ----▼ f ■— E —叫一_

…■

数据域

规范定丈

明细事实表

{最原蛤持度的阴细数据)

汇总肇实表{把明细事实擊合

的事实表》维表

(把逻辑醴度物理化的箜叢)用JSPLM

模型设计

r™~ I 1

r *

厚子拖标

V T

■近t黃末忖書■

ipav^arnl

星蓝1天苗过柜瞟

主忡的金叛

庫忖童■

卫押

d…009pafljT.ami创■討间

订单

相关文档
最新文档