淘宝数据仓库架构实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
TT:浏览日志数据同步, 基本上实时同步
DATA
采集
Datax:全量同步, 基本上延迟一天
统一淘宝数据体系
基于ODS、主题与实事三层标准
核心业务数据驱动+其它业务应用驱动
统一淘宝 数据体系
初期人工为主,后期自动化建模为主 基于云存储计算环境 打造电子商务行业数据模型标准
淘宝业务模型
浏览 购买 支付 收藏 物流 评价 发布 销售 收款 分销 营销 物流
使用人数、数据量、数据保存周 期、数据需求量
02 容量评估
计算(CPU/内存),存储(磁盘), 网络(网卡,路由器).
02 需求评估
线性扩展、成本、稳定性、性能 、运维……
传统数据仓库平台架构
根据对节点(CPU/内存),磁盘,网络的共享分为 完全共享、部分共享与完全不共享几种类型.
.对称多处理SMP
hadoop集群(2000节点)
Greenplum分布式数据库
Oracle RAC多节点(20)
Oracle单节点
开发管理平台架构
子主题
总体规划 云分析 ETL 任务调度
总体规划
开发 测试 布署上预发 预发 云分析 问答 知识中心
.....
自动化测试平台(开发中)
.....
版本/发布功能(开发中)
.....
天网
版本/发布功能(开发中)
布署上生产
冒烟
.....
.....
天网
云分析
已支持 HIVE Shell PIG Python MR Mahout R 计划支持
AD-HOC
开发平台
社区、知识库、帮助中心
ETL任务调度平台
Crontab调度
RAC天网调度
根节点定时启动 任务之间完全基于 触发启动 能很好解决均衡负 载的问题 能很好的解决优先 级问题 一键式运维,轻松 快捷 不能解决rac单节 点失效的问题。
总体规划
DSM ADM 淘数据 商城数据 portal 你的数据 应用产品
数据应 用产品 数据应 用商店 (接口) 结果集 (OB集 群)
云分析
Data APP Store(DAS)
统一指标库
CUBE
TOPX
……
事实层
主题层
ODS TT datax dbsync
DW(云梯)
数据采 集
数据采集
Dbsync:DB log解析, 准实时同步
退处投评旺 款罚诉价旺
聚卖 划家 算工 具
P4P
统一指标库—生成过程
维度 W1
周期
指标 W2
一级 类目
W3
地域
W4
卖家 性别
W5
年龄 段
W6
卖家 星级
W7
W8
I1
GMV
I2
支付宝 成交
I3
PV
指标库 唯一标识
20120401001
指标名称
度量代码
度量值(元) 标签
300000000 GVM|男装|上海 |网站运营部|男 装运营
共享磁盘
完全不共享
Client
Client
Client
DB
DB
DB
DB
DB
DB
DB
DB
DB
磁盘
SAN/共享磁盘
磁盘
磁盘
磁盘
磁盘
分布式平台设计理念
异构软硬件平台间的可移植性
硬件错误是常态而不是异常
移动计算比移动数据更划算
流式数据访问
简单的一致性模型 (写一次,不限读次数)
大规模数据集
淘宝计算存储平台发展
调度系统之于数据仓库有如大脑于人体一样重要,他是数据仓库所有任 务高度协同有序运转的指挥中心.
早期天网原型
应用开放平台架构
子主题 总体规划
数据采集
统一淘宝数据体系 统一指标库、CUBE群、TOP结果集 数据应用商店DAS(Data APP Store) 官方数据应用:DSM、ADM
周期=日|一级类目 Sum(GMV) =男装|地域=上 海|日交易大于等于 1W的店铺
统一指标库—目前指标来源
统一指标库: 逐步切换为统一建模+应用驱动的来源,目前
绝大多数指标库来源为淘数据指标
淘数据接入
60%
5% 25% 10%
ETL开发
建模+应用驱动
第三方系统接入
Data App Store(DAS)
系统元数据与业务元数
据关系元数据
数据库表元数据
ETL代码元数据
ETL仸务运行过程元数据
数据容量元数据
ETL仸务调度元数据
业务逻辑单元元数据
数据表描述
对数据表,字段引用关 系
map数,reduce数
记录数
依赖关系
业务主题元数据
数据字段描述
代码元素元数据
运行起至时间
占用空间大小
调度周期
语义元数据
优先级
……
淘宝数据仓库架构实践
薛奎 2012-04-05
主题
概述 元数据平台架构 存储计算架构 开发管理平台架构 应用开放平台架构 展望
概述
阿里集团未来更像一家数据公司而不是一家电商公司
淘宝数据仓库架构
元数据
子主题
概述 元数据平台架构 元数据在淘宝中的应用
元数据架构
元数据 系统元数据 业务元数据
元数据在淘宝中的应用
血缘分析 系统 …… Reduce自 适应系统
调度系统
数据波动
元数据
监控系统
自助分析 提数系统 自动化建 模系统
告警系统
ETL代码 优化系统
存储计算架构
子主题 存储计算平台选型 传统存储计算平台架构 分布式平台设计理念 淘宝存储计算平台发展
存储计算平台选型
01 规模评估
特点:可线性扩展;多副本机制 保证系统7*24小时不间断提供服 务。开源系统与低廉设备 特点:可线性扩展,但当集群到 达一定规模时,数据仓库的不可 写时间会越来越长。低廉的设备 与收费软件 特点:有一定的扩展能 力,但不是线性扩展。 高端存储与商业软件成 本高昂 特点:无扩 展能力,计 算存储能力 有限
分布式天网调度
根节点启动 仸务之间基于触发 启动 能很好解决均衡负 载 ETL仸务的优先级 能传递到云梯的资 源分配调度 很好解决gateway 失效的问题 一键式运维,轻松 快捷
完全为了解决定时 启动的问题 无法解决时序前后 置依赖问题 元法解决均衡负载 问题 无法解决优先级问 题 运维的灾难
支持EXCEL的所有编辑功能 支持定期邮件发送功能
支持excel导出
展望
联系我们
• 数据平台与产品
Blog: http://www.tbdata.org/ 百科: 邮件列表:taobao-dw@list.alibaba-inc.com
• 薛奎
微博:淘薛奎 mail:xuekui@taobao.com 旺旺:薛奎
DSM
Jsion
XML
http
API
……
Leabharlann Baidu
指标库
CUBE群
……
DSM系统
Data Super Market:简称DSM,就像在超市购 物一样获取你想要的数据,从此您只需要看一张 报表,100%DIY By Yourself.
格式一次定义,永久生成
数据一次定义,定期自动产生 搜索的方法查找数据
取你所想,用你所用 通过业务元数据定位数据
DATA
采集
Datax:全量同步, 基本上延迟一天
统一淘宝数据体系
基于ODS、主题与实事三层标准
核心业务数据驱动+其它业务应用驱动
统一淘宝 数据体系
初期人工为主,后期自动化建模为主 基于云存储计算环境 打造电子商务行业数据模型标准
淘宝业务模型
浏览 购买 支付 收藏 物流 评价 发布 销售 收款 分销 营销 物流
使用人数、数据量、数据保存周 期、数据需求量
02 容量评估
计算(CPU/内存),存储(磁盘), 网络(网卡,路由器).
02 需求评估
线性扩展、成本、稳定性、性能 、运维……
传统数据仓库平台架构
根据对节点(CPU/内存),磁盘,网络的共享分为 完全共享、部分共享与完全不共享几种类型.
.对称多处理SMP
hadoop集群(2000节点)
Greenplum分布式数据库
Oracle RAC多节点(20)
Oracle单节点
开发管理平台架构
子主题
总体规划 云分析 ETL 任务调度
总体规划
开发 测试 布署上预发 预发 云分析 问答 知识中心
.....
自动化测试平台(开发中)
.....
版本/发布功能(开发中)
.....
天网
版本/发布功能(开发中)
布署上生产
冒烟
.....
.....
天网
云分析
已支持 HIVE Shell PIG Python MR Mahout R 计划支持
AD-HOC
开发平台
社区、知识库、帮助中心
ETL任务调度平台
Crontab调度
RAC天网调度
根节点定时启动 任务之间完全基于 触发启动 能很好解决均衡负 载的问题 能很好的解决优先 级问题 一键式运维,轻松 快捷 不能解决rac单节 点失效的问题。
总体规划
DSM ADM 淘数据 商城数据 portal 你的数据 应用产品
数据应 用产品 数据应 用商店 (接口) 结果集 (OB集 群)
云分析
Data APP Store(DAS)
统一指标库
CUBE
TOPX
……
事实层
主题层
ODS TT datax dbsync
DW(云梯)
数据采 集
数据采集
Dbsync:DB log解析, 准实时同步
退处投评旺 款罚诉价旺
聚卖 划家 算工 具
P4P
统一指标库—生成过程
维度 W1
周期
指标 W2
一级 类目
W3
地域
W4
卖家 性别
W5
年龄 段
W6
卖家 星级
W7
W8
I1
GMV
I2
支付宝 成交
I3
PV
指标库 唯一标识
20120401001
指标名称
度量代码
度量值(元) 标签
300000000 GVM|男装|上海 |网站运营部|男 装运营
共享磁盘
完全不共享
Client
Client
Client
DB
DB
DB
DB
DB
DB
DB
DB
DB
磁盘
SAN/共享磁盘
磁盘
磁盘
磁盘
磁盘
分布式平台设计理念
异构软硬件平台间的可移植性
硬件错误是常态而不是异常
移动计算比移动数据更划算
流式数据访问
简单的一致性模型 (写一次,不限读次数)
大规模数据集
淘宝计算存储平台发展
调度系统之于数据仓库有如大脑于人体一样重要,他是数据仓库所有任 务高度协同有序运转的指挥中心.
早期天网原型
应用开放平台架构
子主题 总体规划
数据采集
统一淘宝数据体系 统一指标库、CUBE群、TOP结果集 数据应用商店DAS(Data APP Store) 官方数据应用:DSM、ADM
周期=日|一级类目 Sum(GMV) =男装|地域=上 海|日交易大于等于 1W的店铺
统一指标库—目前指标来源
统一指标库: 逐步切换为统一建模+应用驱动的来源,目前
绝大多数指标库来源为淘数据指标
淘数据接入
60%
5% 25% 10%
ETL开发
建模+应用驱动
第三方系统接入
Data App Store(DAS)
系统元数据与业务元数
据关系元数据
数据库表元数据
ETL代码元数据
ETL仸务运行过程元数据
数据容量元数据
ETL仸务调度元数据
业务逻辑单元元数据
数据表描述
对数据表,字段引用关 系
map数,reduce数
记录数
依赖关系
业务主题元数据
数据字段描述
代码元素元数据
运行起至时间
占用空间大小
调度周期
语义元数据
优先级
……
淘宝数据仓库架构实践
薛奎 2012-04-05
主题
概述 元数据平台架构 存储计算架构 开发管理平台架构 应用开放平台架构 展望
概述
阿里集团未来更像一家数据公司而不是一家电商公司
淘宝数据仓库架构
元数据
子主题
概述 元数据平台架构 元数据在淘宝中的应用
元数据架构
元数据 系统元数据 业务元数据
元数据在淘宝中的应用
血缘分析 系统 …… Reduce自 适应系统
调度系统
数据波动
元数据
监控系统
自助分析 提数系统 自动化建 模系统
告警系统
ETL代码 优化系统
存储计算架构
子主题 存储计算平台选型 传统存储计算平台架构 分布式平台设计理念 淘宝存储计算平台发展
存储计算平台选型
01 规模评估
特点:可线性扩展;多副本机制 保证系统7*24小时不间断提供服 务。开源系统与低廉设备 特点:可线性扩展,但当集群到 达一定规模时,数据仓库的不可 写时间会越来越长。低廉的设备 与收费软件 特点:有一定的扩展能 力,但不是线性扩展。 高端存储与商业软件成 本高昂 特点:无扩 展能力,计 算存储能力 有限
分布式天网调度
根节点启动 仸务之间基于触发 启动 能很好解决均衡负 载 ETL仸务的优先级 能传递到云梯的资 源分配调度 很好解决gateway 失效的问题 一键式运维,轻松 快捷
完全为了解决定时 启动的问题 无法解决时序前后 置依赖问题 元法解决均衡负载 问题 无法解决优先级问 题 运维的灾难
支持EXCEL的所有编辑功能 支持定期邮件发送功能
支持excel导出
展望
联系我们
• 数据平台与产品
Blog: http://www.tbdata.org/ 百科: 邮件列表:taobao-dw@list.alibaba-inc.com
• 薛奎
微博:淘薛奎 mail:xuekui@taobao.com 旺旺:薛奎
DSM
Jsion
XML
http
API
……
Leabharlann Baidu
指标库
CUBE群
……
DSM系统
Data Super Market:简称DSM,就像在超市购 物一样获取你想要的数据,从此您只需要看一张 报表,100%DIY By Yourself.
格式一次定义,永久生成
数据一次定义,定期自动产生 搜索的方法查找数据
取你所想,用你所用 通过业务元数据定位数据