淘宝海量数据技术解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实时流处 理 数据缓存
实时 流计 算
前端应 用
实时计算系统
银河 - 技术框架
Other PNs
ZK
PN
Data API Data Event Dispatch e r
Contro & Management Configurat l API Stage Status i on Manage Monito Manager r r Stage Container AKK A
Z K Config file
Βιβλιοθήκη BaiduDB
银河 - 数据流
应 用 • 实时行业总体数据 分类
• • • •
目实时商品成交排行 实 时店铺汇总数据 实时店 铺浏览、交易明细 实时 用户成交排行
数据可视 化
数据可视化
•
为什么要研究数据可视化?
数据背后隐藏什 么?
传统的数据平台
展 现 AP I
高性 能 DB 数据同 步 大容 量存 储 离线计 算
有没有完美的数据平 台?
我心中的完美
展 现 实时计 算
实时传 输 数据同 步 大容 量存 储 高速 访问 存储 离线计 算
AP I
业务系 统
Open Hosting
淘宝数据应 用 TOP API 数据 API 在线计 算 在线存 储 离线计 算 数据挖 掘 底层存储 服务 API 数据工 场 Open DB 数据同 步
路
由
层 查 询 计 层 算 层
缓 存
AP C
查询路 由 分片 SQL
缓 存
SQL解 析 语义理 解 字段改 写 计算规 则 取分片数 据 结果合 并
挑 战 • 淘宝涵盖100个行业的商
•
品 属性值的条数2000W
如何获取任意多个商品属性值 组 合产生的交易 ?
实时计 算
Prom
• • •
T级数据量(7天总量hbase) 千万级记录实时计算分析 以byte[]方式存储于hbase
Myfox - 分布式Mysq集群
息路 M 库由 信 S
MyFOX(虚拟机)
热节点(MySQL)
冷节点(MySQL)
15k SAS硬盘, 300G
MyS QL MyS QL =
* 12,8节 点
MyS QL =
7.2k SATA硬盘,1T *
MyS QL MyS QL =
12,8节 点
Myfox - 数据查询
大 纲
• • • • • •
大数据在淘宝的挑
战 分布式存储计算
实时计算
实时流处理 数据可
视化 数据产品实践
大数据在淘宝的 挑战
淘宝规模
PV 商品数 用户数 品牌数
SPU 每分钟销售商品 件数 高峰日成交金额
20亿 8亿+ 4.4亿 8万+ 334万 4.8万件 52亿元
淘宝数据特点
• 数据量 大 内容 •• 日志型数 多样 • 据 文本数 • 据 关系型 维度丰 • 富 涵盖近 • 数据 100个不同行业的商品维度,五级商品类目体 • 系 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不 高 非法交易 恶意 • • 评价 用于自定 • 义属性
挑 战 • 20PB 总量
• • • • •
900TB 每天计算扫描数据 量 月增1.5P 日增0.06P 高峰处理数据量:30G/s ...
挑 战 • 数据的商业模式不清楚,缺乏足够的业务支撑
• • • • •
海量数据处理的基础技术需要大量的研发投入 数据安全机制非常复杂,还要兼顾效率 开放的 同时,需要防止数据被恶意爬取 基础设施的建 设周期较长,可能赶不上业务的变化 数据自身 变化演进,数据更新非常困难
ClientAp p SharesMerg
Cach e
e Shard 1 Cal c DataFetc h
Shard 2 Inde x
DataStorage
Glider
• 高性能异构数据中间层 统一restful数据输出接口 使用 • SQL Like作为配置语法 SQL关联 • 整合多种数据源,不同数据源之间数据可以进行 Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP 操作 •• 简单的数据二次加工 内置二级缓 API 存 • 单虚拟机 8000qps (4CPU/7G内 • 存) 请求分优先级 • •
RP T
Hiv e
M/ R
使用状况
•• • •• • • • • •• • 淘宝母婴频道推荐月底上
线
分布式存储和计 算 1800+ Hadoop集 群 24G+2T*12T 7:00 前必须处理完昨日增量计 离线 算 在 (目前每天 3半点前处理完成) 实时的交易跟踪,秒级别的延 线 迟 实时千万级交易维度交叉计 分布式数据挖 个节点的Mahout集群 掘 30算
•• • • 计算时对维度抽象转换: • • 一次过程进行多粒度进行指标汇 总 支持用户自定义 •
多维数据立方体构 造满足业务对数据分析灵活性要 求 压缩数据处理中间过程 减 少表间关联
Myfox - 分布式Mysql集群
• • • •
基于Mysql Myisam存储引擎 海量数据分布式存储、 非实时写入 提供全镜像、路由字段、记录条数、组合 等数据分片规则 32个节点
挑 战 • 如何获取店铺实时数据? 不能直接主库上
•
计算啊,主库表示压力很大。
实时流处 理
银河 - 实时流处理平台
• • • • •
基于Actor模型的分布式流数据实时处理和计算 框架 底层基于开源软件AKKA实现 消息既数据 客户端3台(1.5万/s),Hbase 5台 日 处理3亿数据量
数据 源
淘宝海量数据产品技术
误区
• 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念
传统海量数据产品误区
• 只关注分析处理性能,不关注数据查询 性能 大型商业产品更好 •• Oracle/GreenPlum可以解决大多数 • 问题 IBM/EMC 开源产品更 • 好Hadoop可以解决一切问 • • 题 Hadoop 成本更低 • 数据展现不重 要
Open DB TOP API
数据写入 API
实 时 处 理
缓冲区存 储
安全过滤层
实时同 步
淘宝 DB
分布式存储计 算
分布式存储计算
M/R: •• 文本数 据 数据 • • HQL : 复 挖掘 •• 中间层建 杂计算 • 设 维度转 • 换 指标加 工
RP T
Automa ' c Code Framewor k
实时 流计 算
前端应 用
实时计算系统
银河 - 技术框架
Other PNs
ZK
PN
Data API Data Event Dispatch e r
Contro & Management Configurat l API Stage Status i on Manage Monito Manager r r Stage Container AKK A
Z K Config file
Βιβλιοθήκη BaiduDB
银河 - 数据流
应 用 • 实时行业总体数据 分类
• • • •
目实时商品成交排行 实 时店铺汇总数据 实时店 铺浏览、交易明细 实时 用户成交排行
数据可视 化
数据可视化
•
为什么要研究数据可视化?
数据背后隐藏什 么?
传统的数据平台
展 现 AP I
高性 能 DB 数据同 步 大容 量存 储 离线计 算
有没有完美的数据平 台?
我心中的完美
展 现 实时计 算
实时传 输 数据同 步 大容 量存 储 高速 访问 存储 离线计 算
AP I
业务系 统
Open Hosting
淘宝数据应 用 TOP API 数据 API 在线计 算 在线存 储 离线计 算 数据挖 掘 底层存储 服务 API 数据工 场 Open DB 数据同 步
路
由
层 查 询 计 层 算 层
缓 存
AP C
查询路 由 分片 SQL
缓 存
SQL解 析 语义理 解 字段改 写 计算规 则 取分片数 据 结果合 并
挑 战 • 淘宝涵盖100个行业的商
•
品 属性值的条数2000W
如何获取任意多个商品属性值 组 合产生的交易 ?
实时计 算
Prom
• • •
T级数据量(7天总量hbase) 千万级记录实时计算分析 以byte[]方式存储于hbase
Myfox - 分布式Mysq集群
息路 M 库由 信 S
MyFOX(虚拟机)
热节点(MySQL)
冷节点(MySQL)
15k SAS硬盘, 300G
MyS QL MyS QL =
* 12,8节 点
MyS QL =
7.2k SATA硬盘,1T *
MyS QL MyS QL =
12,8节 点
Myfox - 数据查询
大 纲
• • • • • •
大数据在淘宝的挑
战 分布式存储计算
实时计算
实时流处理 数据可
视化 数据产品实践
大数据在淘宝的 挑战
淘宝规模
PV 商品数 用户数 品牌数
SPU 每分钟销售商品 件数 高峰日成交金额
20亿 8亿+ 4.4亿 8万+ 334万 4.8万件 52亿元
淘宝数据特点
• 数据量 大 内容 •• 日志型数 多样 • 据 文本数 • 据 关系型 维度丰 • 富 涵盖近 • 数据 100个不同行业的商品维度,五级商品类目体 • 系 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不 高 非法交易 恶意 • • 评价 用于自定 • 义属性
挑 战 • 20PB 总量
• • • • •
900TB 每天计算扫描数据 量 月增1.5P 日增0.06P 高峰处理数据量:30G/s ...
挑 战 • 数据的商业模式不清楚,缺乏足够的业务支撑
• • • • •
海量数据处理的基础技术需要大量的研发投入 数据安全机制非常复杂,还要兼顾效率 开放的 同时,需要防止数据被恶意爬取 基础设施的建 设周期较长,可能赶不上业务的变化 数据自身 变化演进,数据更新非常困难
ClientAp p SharesMerg
Cach e
e Shard 1 Cal c DataFetc h
Shard 2 Inde x
DataStorage
Glider
• 高性能异构数据中间层 统一restful数据输出接口 使用 • SQL Like作为配置语法 SQL关联 • 整合多种数据源,不同数据源之间数据可以进行 Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP 操作 •• 简单的数据二次加工 内置二级缓 API 存 • 单虚拟机 8000qps (4CPU/7G内 • 存) 请求分优先级 • •
RP T
Hiv e
M/ R
使用状况
•• • •• • • • • •• • 淘宝母婴频道推荐月底上
线
分布式存储和计 算 1800+ Hadoop集 群 24G+2T*12T 7:00 前必须处理完昨日增量计 离线 算 在 (目前每天 3半点前处理完成) 实时的交易跟踪,秒级别的延 线 迟 实时千万级交易维度交叉计 分布式数据挖 个节点的Mahout集群 掘 30算
•• • • 计算时对维度抽象转换: • • 一次过程进行多粒度进行指标汇 总 支持用户自定义 •
多维数据立方体构 造满足业务对数据分析灵活性要 求 压缩数据处理中间过程 减 少表间关联
Myfox - 分布式Mysql集群
• • • •
基于Mysql Myisam存储引擎 海量数据分布式存储、 非实时写入 提供全镜像、路由字段、记录条数、组合 等数据分片规则 32个节点
挑 战 • 如何获取店铺实时数据? 不能直接主库上
•
计算啊,主库表示压力很大。
实时流处 理
银河 - 实时流处理平台
• • • • •
基于Actor模型的分布式流数据实时处理和计算 框架 底层基于开源软件AKKA实现 消息既数据 客户端3台(1.5万/s),Hbase 5台 日 处理3亿数据量
数据 源
淘宝海量数据产品技术
误区
• 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念
传统海量数据产品误区
• 只关注分析处理性能,不关注数据查询 性能 大型商业产品更好 •• Oracle/GreenPlum可以解决大多数 • 问题 IBM/EMC 开源产品更 • 好Hadoop可以解决一切问 • • 题 Hadoop 成本更低 • 数据展现不重 要
Open DB TOP API
数据写入 API
实 时 处 理
缓冲区存 储
安全过滤层
实时同 步
淘宝 DB
分布式存储计 算
分布式存储计算
M/R: •• 文本数 据 数据 • • HQL : 复 挖掘 •• 中间层建 杂计算 • 设 维度转 • 换 指标加 工
RP T
Automa ' c Code Framewor k