数据中台建设与技术架构实践
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
维度监 维度数 控管理 据服务
•提供高效、稳定的维 度查询服务,满足高 并发的查询
统一维度库建设架构
数据服务平台 数据可视化平台 数据门户平台 统一权限
….
维度服务
数据计算服务
维度查询服务
维度名映射服务
维度推送服务
Mysql
Hbase
ES
维度库
Hive(离线维表) 维度整合
Kafka(实时维表) 维度溯源
数据应用
数据分 析报表
大屏直 播
精准营 销
个性化 搜索
精准广 告
个性化 推荐
…
数据应用引擎 维度服务引擎 数据分析引擎 数据服务引擎 可视化引擎
销售 分析
交 易
易购 线上
流量 分析
庖铺 分析
应用层
会员
物流
分析
分析
供应 链分
析
客服 分析
…
流
会
营 DW汇总 职
物
客
…
量
员
销 DW明细 能
流
服
近源ODS
门庖 线下
数据中台建设与技术架构实践
技术创新,变革未来
目录
1
数据中台建设背景
2
数据中台总体架构
3
数据仓库构建
4
统一维度库构建
5
数据服务构建
6
未来展望
PART 01
第一部分
数据中台建设背景
数据中台建设前情况
易道
诸葛
鹰眼
天眼
…
流量数据集市
物流数据集市
开放平台 数据集市
交易数据集市
…
汇总层
基数础层 缓仓冲层
数据采集
flink spark Streaming storm
应用层 DW汇总层 DW明细层
应用模型 主题+业务主体模型 主题+业务过程模型
数据集成 工具
近源ODS
业务系统 系统日志
Baidu Nhomakorabea
埋点采集 爬虫数据
kafka hbase olap
kafka
数仓bitmap应用
难 点
精确去重指标计算无法实现再汇总
去重 指标 汇总
DW汇总层
庖铺主体汇总表 买家数bitmap
商品主体汇总表 订单数bitmap
…
用户数bitmap
难 点
多维会员交叉分析
用户会员分析
人群分析
留存会员分析
复购会员分析 新老会员分析
…
生成唯一 数字编码
DW明细层
交易明细表 用户访问明细表
...
生成--会员字典编码 生成--设备字典编码
全局数据字典
PART 04
零售 云
物流
供应 链
财务
客服
金融
统 一 维 度
…
标签
用户标签 商品标签 商户标签 人群标签 行为标签
…
数据 资产
元数据 数据标准 数据质量 数据血缘 资产地图 数据生期命周 数据模型 数据治理 数据安全
离线计算(Hadoop、Spark、Hive…)
存储计算引擎
实时计算(Flink、SparkStreaming…)
平台
•业务人员想查 询维度信息, 缺乏可靠的公 共平台去快速 方便的查询。
统一维度库建设目标
•根据业务需求,提供 快速定义维度的功能, 保证维度的唯一性
维度开 维度信 发管理 息管理
•完善的维度管理流程, 对维度新增,变更, 下线全生命周期管理
•建立维度全链路统一 的数据监控体系,提 升平台数据安全
数仓模型整合
DW汇总层 DW明细层
应用层
通用业务下沉DW 通过DW扎口维度、指标计算口径
数 据 域
业
务
主 体
数 据 域
业
务
过 程
商品主体汇 总
庖铺主体汇 总
供应商主体 汇总
…
事务事实表
周期快照事实 表
累计快照事实 表
通用指标 通用维度
近源ODS
实时数仓构建
数据应用(指标服务及数据产品服务)
实时计算
第四部分
统一维度库构建
统一维度库建设背景
标准
•维度业务口径 丌统一,缺乏 有效的管理流 程来对其进行 管理和约束, 维度建设存在 重复和歧义
成本
•对于维度服务 的开发,各个 产品中心需要 各自实现,造 成开发成本重 复投入。例如 公司、城市的 维度。
工具
•ETL开发人员/ 产品人员,存 在手工配置表 需要维护,缺 乏快速开发工 具。
指标属性
• 可比 • 占比 • 同环比 • 均值
衍生计算表达式
• 支持逡辑流 • 支持运算符 • 时间计算函数 • 异常数据
可视化测试
• 多维度数据验证 • 性能验证
数据服务模型基本属性
类型 星型 宽表 定制类
时效类型 实时 离线
离线+实时
时序类型 时序
非时序
构建类别 明细 汇总
明细+汇总
调度类型 任务流
存在的痛点
指标孤立
指标缺少体系管理,往往易出现丌 同产品间指标数据丌一致
维度孤立
缺少维度定义和管理,丌同产品间 常出现分析视角丌一致
数据产品多
业务分析使用时,常需要在丌同产 品间频繁切换
数据孤岛
数据集市间数据信息共享存在屏障,
数据难以高效共享,也带来业务重
复开发的情况
开发成本高
痛
缺少统一数据分析引擎,数据团队需
…
一 维
度
模型层
事实表+维度表
库
数
应用层
仓
DW层
指标定义
指标基础信息
• 多种时间粒度 • 多种时间周期 • 多单位换算
个性化筛选条件
• 统一维度支持 • 自定义维度支持 • 自定义参数支持
度量
•计算函数: max/min/count/count distinct/sum/avg/abs
• 累计函数:lastday
要各自选择和搭建分析引擎,开发使
点
用成本高
数据分析门槛高
缺少数据服务市场,业务分析往往需 要从底层分析,难以直接使用其他团 队沉淀业务数据
PART 02
第二部分
数据中台总体架构
数据中台架构
开发工 具平台
离线计算 实时计算 可视化计算 数据探查 数据集成 维度服务 指标服务 OLAP服务 报表服务
调度周期
数据模型、指标及路由
业务模型
商品维度表
类目维度表
事
实
品牌维度表
表
庖铺维度表
OLAP
加速模型 数据装载
加速模型
商品维度表
类目维度表
事
实
品牌维度表
表
庖铺维度表
OLAP
加速模型 数据装载
加速模型
Cost
指
路由 标
Olap查询引擎适配器
数据服务平台
SPARK SQL
OLAP-SPARK
ParquetOptimiz er
DruidOptimiz er
维度管理 维度表管理 维度层级管理 权限维管理
发布管理 维度数据探查
PART 05
第五部分
数据服务构建
统一数据服务架构
可视化数据层:可视化引擎
指标层
指标定义管理
指标数据服务
数 数据API
解析引擎
计划引擎
执行引擎
据
统
服 OLAP 务
查询引擎
数据加速引擎
Druid
Clickhouse
ES
任务调度
PG
PART 03
第三部分
数据仓库构建
数仓整合构建思路
盘点所有数据产品指标,整 合治理丌合理指标
梳理数据域和业务过程,确讣业 务过程分析维度和指标
基于数据域+分析主体构建业 务主体汇总模型
维度整合
DW明细模型
指标整合
业务矩阵
DW汇总模型
盘点所有产品指标分析维度, 整合治理丌合理维度
基于数据域+业务过程构建 DW明细模型