阿里巴巴数据仓库技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
阿里云服务的统一的底层平台, 同一个系统要支撑离线和在线 服务,甚至包括弹性计算等复 杂场景 面向互联网用户 Thousands 灵活多样的安全认证和授权体 系
目标受众 用户数量 安全认证
计量
简单的计量体系、一般没有 计费体系
完善的计量计费系统
在线计算集群
• • • • • •
Galaxy(CDO):Storm+SQL解析引擎+调度 赤兔(CBU):基于Storm 虫洞(etao):基于Storm 支付宝:基于Storm/JStorm 老Galaxy:C++版本类Storm架构 聚划算:消息中心+Java
HBase
Hive
OSS
OTS
ODPS
ECS
Hadoop vs 飞天
Hadoop
设计初衷 提供软件
架构设计目标 源于Yahoo搜索,架构设计 主要面向大规模的离线数据 处理,在线服务支持薄弱 面向企业内部用户 Hundreds 相对简单的安全认证体系
飞天
提供通用服务,包括部署、监 控、数据导入导出、工作流管 理等周边关键组件
数据采集工具:TimeTunnel(TT)
数据交换工具
• DHW(Data High Way)
– – – – – – – – – – – – 基于Python 支持多种数据源互导 数据落地中转 专属团队维护 较为独立产品 不开源 基于Java 支持多种数据源互导 数据不落地 支持插件式开发 与周边工具集成 开源
数据质量管理的正向通知Sample
数据产品简单介绍
宏观、行业趋势类数据产品: • 数据魔方:http://mofang.taobao.com/p/app • 阿里指数: http://index.1688.com/alizs/home.htm • 淘宝指数:http://shu.taobao.com 数据开放类数据产品: • 淘宝开放平台(TOP):http://open.taobao.com • 聚石塔: http://open.taobao.com/doc/detail.htm?id=101130 • 数据超市: http://d.1688.com/index.htm 数据化运营类数据产品: • 量子统计: http://lz.taobao.com • 生意参谋B版: http://advisor.1688.com • 生意参谋C版:http://sycm.taobao.com(10月底上线)
阿里巴巴 数据仓库&BI
目录 1 2
整体架构介绍 数据采集和流转 数据存储和计算 数据模型和开发
3
4 5 6
数据质量和管理
数据产品简单介绍
集团数据相关团队
CEO
陆兆禧
ቤተ መጻሕፍቲ ባይዱ
业务共享平台
三丰
CTO
王坚
CDO
七公
商业智能部
品觉
商家业务
菲青
阿里云
…
技术保障
振飞
DW整体架构
数据采集工具:TimeTunnel(TT)
• DataX( DateExchange)
离线计算集群
云梯一(基于Hadoop)
云梯二(基于飞天)
集群规模: 2009年:博士酝酿中 2010年:启动 2011年:进行中 2012年:1500+ 2013年:2000+(单机房) 2014年:超越云梯一(多机房)
集群规模: 2009年:200+ 2010年:500+ 2011年:1000+ 2012年:2500+(单机房) 2013年:5000+(2机房) 2014年:10000+(多机房)
Hadoop vs 飞天
ACE 神农
HDFS
Map Reduce
盘古
伏羲
Common
Hadoop
Common
飞天
在线结构化数据存储和查询(NoSQL数据库) 离线数据处理(SQL) 分布式文件系统 集群资源管理、大规模离线作业模型和调度 Hadoop 或者飞天独有的模块
大禹
Pig
即时计算集群(alipay等)
即时计算集群(Taobao等)
数据模型
ODS
BDS
IDS
ADS
ODS
Kimball?
DW
Inmon?
数据开发平台
• 演示DXP
元数据管理
• 完整(从生产到报表) • 动态更新 • 反馈机制 • http://idata.alibabainc.com/links/datamap.htm?param=1037493 &type=D • http://ndxp.alibabainc.com/s/metadata#controller:meta|guid:yu nti1_hive.cbuapp.ids_cn_member_basic_fdt0
END
目标受众 用户数量 安全认证
计量
简单的计量体系、一般没有 计费体系
完善的计量计费系统
在线计算集群
• • • • • •
Galaxy(CDO):Storm+SQL解析引擎+调度 赤兔(CBU):基于Storm 虫洞(etao):基于Storm 支付宝:基于Storm/JStorm 老Galaxy:C++版本类Storm架构 聚划算:消息中心+Java
HBase
Hive
OSS
OTS
ODPS
ECS
Hadoop vs 飞天
Hadoop
设计初衷 提供软件
架构设计目标 源于Yahoo搜索,架构设计 主要面向大规模的离线数据 处理,在线服务支持薄弱 面向企业内部用户 Hundreds 相对简单的安全认证体系
飞天
提供通用服务,包括部署、监 控、数据导入导出、工作流管 理等周边关键组件
数据采集工具:TimeTunnel(TT)
数据交换工具
• DHW(Data High Way)
– – – – – – – – – – – – 基于Python 支持多种数据源互导 数据落地中转 专属团队维护 较为独立产品 不开源 基于Java 支持多种数据源互导 数据不落地 支持插件式开发 与周边工具集成 开源
数据质量管理的正向通知Sample
数据产品简单介绍
宏观、行业趋势类数据产品: • 数据魔方:http://mofang.taobao.com/p/app • 阿里指数: http://index.1688.com/alizs/home.htm • 淘宝指数:http://shu.taobao.com 数据开放类数据产品: • 淘宝开放平台(TOP):http://open.taobao.com • 聚石塔: http://open.taobao.com/doc/detail.htm?id=101130 • 数据超市: http://d.1688.com/index.htm 数据化运营类数据产品: • 量子统计: http://lz.taobao.com • 生意参谋B版: http://advisor.1688.com • 生意参谋C版:http://sycm.taobao.com(10月底上线)
阿里巴巴 数据仓库&BI
目录 1 2
整体架构介绍 数据采集和流转 数据存储和计算 数据模型和开发
3
4 5 6
数据质量和管理
数据产品简单介绍
集团数据相关团队
CEO
陆兆禧
ቤተ መጻሕፍቲ ባይዱ
业务共享平台
三丰
CTO
王坚
CDO
七公
商业智能部
品觉
商家业务
菲青
阿里云
…
技术保障
振飞
DW整体架构
数据采集工具:TimeTunnel(TT)
• DataX( DateExchange)
离线计算集群
云梯一(基于Hadoop)
云梯二(基于飞天)
集群规模: 2009年:博士酝酿中 2010年:启动 2011年:进行中 2012年:1500+ 2013年:2000+(单机房) 2014年:超越云梯一(多机房)
集群规模: 2009年:200+ 2010年:500+ 2011年:1000+ 2012年:2500+(单机房) 2013年:5000+(2机房) 2014年:10000+(多机房)
Hadoop vs 飞天
ACE 神农
HDFS
Map Reduce
盘古
伏羲
Common
Hadoop
Common
飞天
在线结构化数据存储和查询(NoSQL数据库) 离线数据处理(SQL) 分布式文件系统 集群资源管理、大规模离线作业模型和调度 Hadoop 或者飞天独有的模块
大禹
Pig
即时计算集群(alipay等)
即时计算集群(Taobao等)
数据模型
ODS
BDS
IDS
ADS
ODS
Kimball?
DW
Inmon?
数据开发平台
• 演示DXP
元数据管理
• 完整(从生产到报表) • 动态更新 • 反馈机制 • http://idata.alibabainc.com/links/datamap.htm?param=1037493 &type=D • http://ndxp.alibabainc.com/s/metadata#controller:meta|guid:yu nti1_hive.cbuapp.ids_cn_member_basic_fdt0
END