大数据离线计算平台介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Shuffle r Reduce
Broadcast session
Reduce
Reduce
Reduce
MIMO
数据传输方式可以任意定制 高效、通用的DAG引擎
Runtime rePartition
Task
Task
Runtime rePartitiion
Task
Task
运行期间, 动态调整Parittiion规则
借鉴CPU流水线 资源使用更平稳 运行时间缩短
Map
Wait For Flush
time
time
MIMO(Multi-Input MultiOutput)
Normal Shuffle
Map
Broadcast
Map
多种数据传输模式 多下游共用数据
Shuffle r Reduce
Shuffle r Reduce
环境 初始化
结 算
高精硬件
FPGA
GPU
整机柜
百度大数据计算平台
Python
API层
C++
Java
……
Simplified Unified API - Bigflow
计算引擎
TM
DStream
DCE
(MR/DAG)
MPI/ ELF
Spark/ Flink
资源调度 资源管理 机器资源
Normandy Matrix IDC
预 算
统一资源调度-Normandy
资源位移 队列/优先级 调度算法
分布式文件系统-AFS
StateCenter NameSpace MetaServer
集群操作系统-Matrix
Container
仲裁器
State Management 机器故障 自动化 机器 自动流转
交 付 管 理
集群/机器管理
Machine Management
中间数据持久化:
避免重算(对dag作业尤为重要)
目录
• 百度离线大数据平台发展历程 • 离线计算引擎DCE揭秘 • 统一分布式计算引擎API-Bigflow
需求
• 学习成本:
• 学习使用、学习优化
Hadoop
一套逻辑,重写再重写
Spark
未来某种新的计算引擎
• 迁移成本:
• 单机作业迁移分布式、流式与批量 迁移、新引擎迁移
批量计算引擎
提升时效性
实时计算引擎
• 维护成本:
• 用户作业维护、引擎演化兼容维护
恢复故障数据、提升结果准确性 一套逻辑,同时需要维护两个系统上完全不同的代码
统一分布式计算API
•
统一分布式计算API-Bigflow:
– 统一流式和批处理计算模型 – 自动优化用户代码 – 针对引擎特性,进一步优化执行 – 简单易学,高层抽象API
Task
Task
Task
收益
收益 流式shuffle:
减少旧shuffle map merge、 reduce pull时间消耗
内存Push:
map端不落盘
Shuffler内存聚合:
聚合度高,减少map端seek,减 少reduce端merge路数,减少IO
Pipeline:
大大提高中小作业map端运行速
Bigflow效果
成功对接多种批量、迭代、流式引擎 比直接使用底层引擎接口性能平均高100%+ 用户代码平均减少60%
Python
C++
Java
……
API层
Simplified Unified API - Bigflow
计算引擎
TM
DStream
DCE
(MR/DAG)
MPI/ ELF
Spark/ Flink
Bigflow特点
从点击衍生数据(<地区,用户>)对每个地区的用户求UV Bigflow示例: 全白盒 Spark示例: 黑盒
Shuffle结果持久 化避免重算
Shuffler
Shuffler
通用Service
分布式(内存)文件系统
Map Pipeline
Map
Wait For Flush
Map
Wait For Flush
Map
Wait For Flush
பைடு நூலகம்
Map
Wait For Flush pipeline
Map
Wait For Flush
AFS/PETA
目录
• 百度离线大数据平台发展历程 • 离线计算引擎DCE揭秘 • 统一分布式计算引擎API
DCE引擎演化总览
内存流式 Shuffle
HDFS
Pipeline 执行层
MIMO
HDFS
DAG引擎
rePartition
Broadcast
DAG引擎
优化计算模型 避免MR作业间IO读写。
百度大数据离线计算平台发展历程
百度MR单集群规模 Hadoop
统一计算表示层发布
5000台
Bigflow DAG引擎
上线 DCE高级特性 MIMO等
2014 2014 2015.4 2015 2016 2016.6
开源
2004 2006 2007.11 2011 2013
Bigflow对接流式引 MapReduce论文 百度MR单集群 DCE 擎 发表 13000台 &内存流式Shuffle 上线 上线 百度MR上线 SQL on DAG (基于Hadoop 0.15.1) 上线
HDFS
HDFS
DCE-Shuffle架构
records
Map
Memory
Map
Memory
Map
Memory
不重不丢 异步Ack机制 流式Shuffle降低延迟 内存Push 避免随机读
Memory
优势: 减少IO 减少随机读 避免重算
负载均 衡
blocks
Memory Memory
Shuffler
百度大数据离线计算平台介绍
目录
• 百度离线大数据平台发展历程 • 离线计算引擎DCE揭秘 • 统一分布式计算API-Bigflow
百度私有云
产品生态
搜索
金融
糯米
AI
开放云
ADU
分布式计算
服 务 托 管 研 发 效 率 相 关 工 具 Batch RealTime Iterative
分布式存储
Ojbect Table NFS
1. 提出了分布式可嵌套数据集(NDD)模型,相比于业界同类系统抽象程度更高。 2. 对接了多种计算引擎,包括批量引擎、迭代引擎、流式引擎,方便用户切换执行引擎。 3. 完成了许多优化策略,使得Bigflow可以高效运行。 4. 我们在线上大规模验证了Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标
百度大数据离线计算平台生态
数百业务线,每日百万量级作业
Bigflow
统一分布式API
Wing/Hive
SQL
HCE Streaming Java
直接使用 解决用户需求 自动提示失败原因
YunRang
Support
一键升级 自动运维
DCE/Abaci
(MR/DAG)
十万量级规模
每日处理海量数据
Normandy Matrix IDC