苏宁大数据中台技术架构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个性化筛选条件
统一维度支持 自定/维度支持 自定/参数支持
度量
计算函数: max/min/count/count distinct/sum/avg/abs 累计函数 lastday
指标属性
可比 占比 同环比 均值
指标定义
衍生计算表达式
支持逻辑流 支持运算符 时间计算函数 异常数据
可视化测试
小天工 多维度数据验证 性能验证
数据中台系统架构
数据应用
BI报表
可视化大屏
精准营销
个性化推荐
More
数据应用引擎
可视化引擎Z 数据服务引擎 数据分析引擎
数据开发套件
数据仓库主题域
数据集成 任务运维
实时任务开发 离M任务开发
维度 库
用户主题域 销售题域 商品主题域
计算存储引擎
画像引擎
数据治理套件
数据质量 数据地图 数据模型
基础服务
衍生指标_ 2- Vl .2 衍生指标_ 2- Vl .3
历史 上线
开发中
指标新版本上线
指标版本回滚
菲容性校验
统I维度库 数据仓库
数据层:可视+引擎
指标层
指标定义
数据 API
模型层
事实表+维表
OLAP
公共维度表
ADS
解析引擎 计划引擎 执A引擎
OLAP查询引擎 OLAP数据加速引擎
OLAP任务调度
层次类型 • 层级维度 • 非层级维度
空间
3NF
OLTP
雪花
为什么是星型模型
反范式
OLAP
允许数据适当 冗余,缩短操 作数据的时间, 用空间换取时 间
星型
数据建模
建
模
分
事务型事实宽表
析
业务过程分析 周期性快照事实宽表 确认粒度/数据来凉
累计快照事实宽表
模型基本属性确认
确认/储介质
建 模
选择事实表
选择维表和维度
过
程
选择字段类型/属性
设置cube组 合
库 层
SSA缓冲层
业务系统采集
数据平台 v s 数据中台
数据平台
有完整的数据模型设计,但偏重设计和技术,在执行过程中,很难保证数据的全,数据应 用一般不跨过数据中心 初期数据发展快,效率高,快速体现业务价值,但是随着数仓的建设,数据量急速鳌加, 整体成本居高不下,导致数据混乱、灾难。
数据中台
数据中台的基本理念是:将所有数据汇聚到数据中台,每个数据应用都以数据中台为唯一 数据来源。 苏宁数据中台的目标是为苏宁的数据战略提供有力的支撑,从企业全局进行统一规划,统 一建设,强调数据的“全”,从设计、组织、建设、流程角度保障了模式的落地。 数据中台的建设减低了数据使用门槛
用户数据服务 数仓管理 运维监控 多租户隔离 集群部署
统O维度库 数据仓库
模型-指标-报表体系系统架构
天工数据层:可 I - 引 擎
指标层
指标定义
模型层
事实表+维表
数据 API
OLAP
解析引擎 计划引擎 执行引擎
OLAPAL引 擎 OLAP数据+速引擎
OLAP任务调度
公共维度表
ADS
DWS
DWD
统I维度库 数据仓库
统一维度建设背景
工具
ETL开发人员/产 品人员,存在大 量手工配置表需 要规则维护,缺 乏快速开发工具。
平台
业务人员想查询 维度信L,缺乏 可靠的公共E台 去快速方便的 查 询。
根据业务需求, 提供快速定义维 度的功能,保证 维度的唯一性
维度开 发管理
统一维度管理目标
维度信 息管理
完善的维度管理 流程,对维度新 增,变更,下线 全生命周期管理
类型 星型 宽表 定制类
时效类型 实时 离线
离线+实时
时序类型 时序 非时序
模型基本属性
构建类别 +细 汇总
明 细 +汇总
调度类型 任务流 调度周期
模型存储
时序 汇总 DRUID
星型 非时序
明细 ES
定制类
宽表
汇总
PG
会员系统
定制化的建模方案
数 仓
会员字典表
访wk.baidu.com流量表
会员购买表
会员购买信息 (根据会员去重)
DWS
DWD
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
标准
维度业务口径不 统一,缺乏T效 的管理流程来对 /进行管理和约 束,维度建设存 在重复和歧义
成本
对于维度服务的 开发,各个产品 中心需要各自实 现,造成开发成 本重复投入。例 如公司的维度。
建立维度全链路 统一的数据监控 体系,提升平台 数据安全
维度监 控管理
维度数 据服务
提供高效、稳 定的维度查询 服务,满足高 井发的查询
统一维度系统架构
维度类型
• 普通维度 • 父子维度 • 角色扮演维度 • 杂项维度 • 日历时间维度
时效分类
• 实时 • 离线
维度管理
维护分类 • 主数据维度 • 手工维度
数据层:可视+引擎
指标层
指标定义
数据 API
模型层
事实表+维表
OLAP
公共维度表
ADS
解析引擎 计划引擎 执A引擎
OLAP查询引擎 OLAP数据加速引擎
OLAP任务调度
DWS
DWD
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
避免数据冗余, 减少数据库的
模型、指标多版本体系
原则
状态分成上线/历史/开发中 上线单一/标来源于上线的模型 上线衍生/标中的单一/标必定是上线版本 历史版本模型有冻结期,冻结期结束此版本模型删 除,关联历史/标下线
Druid
da1a0. 2rcel da1a0.2rce2
PG
1ablel 1able2 1able3
模型新版本上线
苏宁大数据中台技术架构
技术创新 变革未来
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
销
诸葛PC
诸葛APP
售
域
数据集市DM
数
DPA汇总层
据
仓
SOR基础层
库 层
SSA缓冲层
业务系统采集
数据中台出现之前
物 流
天眼
域
数据集市DM
数
DPA汇总层
据
仓
SOR基础层
模型
流量3Vl.2 流量3Vl.3
会员-V l.0 会员-V l.l 会员- V l . 2
模型版本回滚
模型、指标多版本体系
单一指标
uV - Vl.2 uV- Vl.3
PV3V.l.0
会员- V l.2 会员- V.l .3 会员-V.l .4
衍生指标
衍生指标_ l - V l . 3 衍生指标_ l - V l . 4
存储过程 (生成会员序列ID)
存储过程 (bitmap全量和增量数据)
O
L
查询维度月留存bitmap
查询维度新买家
查询维度老买家
A
p
查询维度半年留存
bitmap
bitmap
查询维度纯新买家
查询维度新老买家
bitmap 查询维度年留存
bitmap
bitmap
bitmap
指标基础信息
多种时间粒度 多种时间周期 多单 位 换 算
统一维度支持 自定/维度支持 自定/参数支持
度量
计算函数: max/min/count/count distinct/sum/avg/abs 累计函数 lastday
指标属性
可比 占比 同环比 均值
指标定义
衍生计算表达式
支持逻辑流 支持运算符 时间计算函数 异常数据
可视化测试
小天工 多维度数据验证 性能验证
数据中台系统架构
数据应用
BI报表
可视化大屏
精准营销
个性化推荐
More
数据应用引擎
可视化引擎Z 数据服务引擎 数据分析引擎
数据开发套件
数据仓库主题域
数据集成 任务运维
实时任务开发 离M任务开发
维度 库
用户主题域 销售题域 商品主题域
计算存储引擎
画像引擎
数据治理套件
数据质量 数据地图 数据模型
基础服务
衍生指标_ 2- Vl .2 衍生指标_ 2- Vl .3
历史 上线
开发中
指标新版本上线
指标版本回滚
菲容性校验
统I维度库 数据仓库
数据层:可视+引擎
指标层
指标定义
数据 API
模型层
事实表+维表
OLAP
公共维度表
ADS
解析引擎 计划引擎 执A引擎
OLAP查询引擎 OLAP数据加速引擎
OLAP任务调度
层次类型 • 层级维度 • 非层级维度
空间
3NF
OLTP
雪花
为什么是星型模型
反范式
OLAP
允许数据适当 冗余,缩短操 作数据的时间, 用空间换取时 间
星型
数据建模
建
模
分
事务型事实宽表
析
业务过程分析 周期性快照事实宽表 确认粒度/数据来凉
累计快照事实宽表
模型基本属性确认
确认/储介质
建 模
选择事实表
选择维表和维度
过
程
选择字段类型/属性
设置cube组 合
库 层
SSA缓冲层
业务系统采集
数据平台 v s 数据中台
数据平台
有完整的数据模型设计,但偏重设计和技术,在执行过程中,很难保证数据的全,数据应 用一般不跨过数据中心 初期数据发展快,效率高,快速体现业务价值,但是随着数仓的建设,数据量急速鳌加, 整体成本居高不下,导致数据混乱、灾难。
数据中台
数据中台的基本理念是:将所有数据汇聚到数据中台,每个数据应用都以数据中台为唯一 数据来源。 苏宁数据中台的目标是为苏宁的数据战略提供有力的支撑,从企业全局进行统一规划,统 一建设,强调数据的“全”,从设计、组织、建设、流程角度保障了模式的落地。 数据中台的建设减低了数据使用门槛
用户数据服务 数仓管理 运维监控 多租户隔离 集群部署
统O维度库 数据仓库
模型-指标-报表体系系统架构
天工数据层:可 I - 引 擎
指标层
指标定义
模型层
事实表+维表
数据 API
OLAP
解析引擎 计划引擎 执行引擎
OLAPAL引 擎 OLAP数据+速引擎
OLAP任务调度
公共维度表
ADS
DWS
DWD
统I维度库 数据仓库
统一维度建设背景
工具
ETL开发人员/产 品人员,存在大 量手工配置表需 要规则维护,缺 乏快速开发工具。
平台
业务人员想查询 维度信L,缺乏 可靠的公共E台 去快速方便的 查 询。
根据业务需求, 提供快速定义维 度的功能,保证 维度的唯一性
维度开 发管理
统一维度管理目标
维度信 息管理
完善的维度管理 流程,对维度新 增,变更,下线 全生命周期管理
类型 星型 宽表 定制类
时效类型 实时 离线
离线+实时
时序类型 时序 非时序
模型基本属性
构建类别 +细 汇总
明 细 +汇总
调度类型 任务流 调度周期
模型存储
时序 汇总 DRUID
星型 非时序
明细 ES
定制类
宽表
汇总
PG
会员系统
定制化的建模方案
数 仓
会员字典表
访wk.baidu.com流量表
会员购买表
会员购买信息 (根据会员去重)
DWS
DWD
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
标准
维度业务口径不 统一,缺乏T效 的管理流程来对 /进行管理和约 束,维度建设存 在重复和歧义
成本
对于维度服务的 开发,各个产品 中心需要各自实 现,造成开发成 本重复投入。例 如公司的维度。
建立维度全链路 统一的数据监控 体系,提升平台 数据安全
维度监 控管理
维度数 据服务
提供高效、稳 定的维度查询 服务,满足高 井发的查询
统一维度系统架构
维度类型
• 普通维度 • 父子维度 • 角色扮演维度 • 杂项维度 • 日历时间维度
时效分类
• 实时 • 离线
维度管理
维护分类 • 主数据维度 • 手工维度
数据层:可视+引擎
指标层
指标定义
数据 API
模型层
事实表+维表
OLAP
公共维度表
ADS
解析引擎 计划引擎 执A引擎
OLAP查询引擎 OLAP数据加速引擎
OLAP任务调度
DWS
DWD
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
避免数据冗余, 减少数据库的
模型、指标多版本体系
原则
状态分成上线/历史/开发中 上线单一/标来源于上线的模型 上线衍生/标中的单一/标必定是上线版本 历史版本模型有冻结期,冻结期结束此版本模型删 除,关联历史/标下线
Druid
da1a0. 2rcel da1a0.2rce2
PG
1ablel 1able2 1able3
模型新版本上线
苏宁大数据中台技术架构
技术创新 变革未来
01 总览 02 数据建模与指标化 03 维度管理 04 指标查询服务与OLAP引擎 05 总结
销
诸葛PC
诸葛APP
售
域
数据集市DM
数
DPA汇总层
据
仓
SOR基础层
库 层
SSA缓冲层
业务系统采集
数据中台出现之前
物 流
天眼
域
数据集市DM
数
DPA汇总层
据
仓
SOR基础层
模型
流量3Vl.2 流量3Vl.3
会员-V l.0 会员-V l.l 会员- V l . 2
模型版本回滚
模型、指标多版本体系
单一指标
uV - Vl.2 uV- Vl.3
PV3V.l.0
会员- V l.2 会员- V.l .3 会员-V.l .4
衍生指标
衍生指标_ l - V l . 3 衍生指标_ l - V l . 4
存储过程 (生成会员序列ID)
存储过程 (bitmap全量和增量数据)
O
L
查询维度月留存bitmap
查询维度新买家
查询维度老买家
A
p
查询维度半年留存
bitmap
bitmap
查询维度纯新买家
查询维度新老买家
bitmap 查询维度年留存
bitmap
bitmap
bitmap
指标基础信息
多种时间粒度 多种时间周期 多单 位 换 算