苏宁大数据平台运维
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 0 0
Worker3
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
Flume HDFS
Druid Alluxio
Cassan dra
存储层
Web日志
app日志
爬虫
合作数据
… …
企 n 经营数据
数据源
典型数据流向
WebServer
Http请求
流式 离线
LogServer Kafka
Flume Flume/DataFlow 数据交换 计算
Storm/Spark Streaming
大数据管理平台:主机管理,集群管理自动化
t机详情
t机 运 行 组 件
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
集群列表
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
集群详细信息
解决1. 平台化、自动化
元数据管理: 数据字典 , 权限申请审批实施自动化
解决1. 平台化、自动化
物理CPU虚机CPU 1-1 亲和性绑定 CPU ST从40%+降低至1%
痛点4. 排查问题耗时长,应用优化门槛高
用 户 不 清 楚 任 务 为什么 失 败 用户 不 清楚该如何优化任务
解决4. 智能诊断、优化建议
离线计算平台 - MR任务分析平台
解决4. 智能诊断、优化建议
离线计算平台 - MR任务分析平台
元数据管理: 数据字典 , 权限申请审批实施自动化
数据字典 d支持搜索
解决1. 平台化、自动化
元数据管理: 数据字典 , 权限申请审批实施自动化
权限申请
解决1. 平台化、自动化
数据流管理平台 :集成 Flume, 智 能 扩 缩 容 , 插件式
% 节点小集群
对接.1000qpYn 务
领取任务 分配任务 e 节点发现 failover
共享型-YARN
解决3. 差异化服务、物理隔离
共享型-YARN
3RuYZKr1
AKMOUT1
A K M O U T %
3RuYZKr%
AKMOUT1 A K M O U T %
AKMOUT3
AKMOUT4
AKMOUT3
AKMOUT4
避免大 集 群 : 对 Z K 的压力,对 Controller 的压力 逻 辑 分 区 :按 照 不同 的 业务 场 景 分 配 ,避 免 不同 保 障 级 别 业 务 的 相 互 影 响
苏宁大数据平台运维
技术创新,变革未来
你认 为 以 下 哪些关键字对运维最重要 ?
智能
易用 高效 稳定
性能
自动化
流程
MTTR 安全
规范
审计
SLA 故障预测
苏宁大数据平台基本介绍 大数据平台运维的痛点及解决方案
平台优化及增强 DOING & TO DO
苏宁大数据平台软件栈介绍
数 据 云 ( DataCloud )
不 同维 度的排 行榜
解决4. 智能诊断、优化建议
大数据平台运维的痛点
➢ 痛点1.
➢ 痛点2. ➢ 痛点3. ➢ 痛点4.
部署及运维复杂
无资源使用视图 任务相互影响 ,资源隔离性差 排查问题耗时长, 应用优化门槛高
痛点1. 部署及运维复杂
平台管理员
业务开发
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
t机 列 表
解决1. 平台化、自动化
输出
poll
Kafka
n务 系 统
HDFS/Hive
计算
MR/Spark
输出
HDFS/Hive
数据交换
FTP
FTP
数据交换 Push 数据交换
n务 系 统
DB
DB
平台发展历程
第 一 H a d o o p 集群 10p虚机节点
Storm SQL 平台上线
Storm服务化j线 数 据开发平台j线 引 入Spark
任务展板
痛点3. 任务互相影响d资源隔离性差
我的任务为什么突然变慢了? 是 不是 别 人 影 响 我 了
解决3. 差异化服务、物理隔离
共享型
BZUrS <A /BpG rQ BpGrQ BZrKGSOTM :G L Q G 82GYK
独占型
4ruOd
5B
资源浪费 : 离线、流本Βιβλιοθήκη Baidu就是错峰的
解决3. 差异化服务、物理隔离
痛点2. 无资源使用视图
解决2. 资源可视化、人民币化
✓ 存储/计算资源计量计费
✓ 资源池使用可视化 ✓ 任务展板
解决2. 资源可视化、人民币化
存储/计算资源计量计费
解决2. 资源可视化、人民币化
资源使用可视化
解决2. 资源可视化、人民币化
任务展板
解决2. 资源可视化、人民币化
任务展板
解决2. 资源可视化、人民币化
解决3. 差异化服务、物理隔离
独占型-Storm
虚机1 虚机x 虚机4 虚机% 虚机y 虚机( 虚机3 虚机z 虚机)
虚机1
........
虚机%
........
虚 机 3
........
........
........
虚机4 )
........
虚机(
........
虚机
........
独立的物理区域
Druid/ES上线 诊 断平台华佗上线
2014.6 2013.10 2014.12
2015.5 2015.12
2016.7 2017.3
流计算平台 上 线 Storm
Hadoop版本升级
大数据管理平台上线
平台规模
苏宁大数据平台基本介绍 大数据平台运维的痛点及解决方案 平台优化及增强 DOING & TO DO
大数据管理 平台 元数据 数据开发平台 CBT Sqoop Spark SQL 准实时 计算 Spark Streaming Spark Core 机器学习 OLAP 实时计算
服务层
Hive Kafka Zookeeper
MLLib
ES Kylin
Libra
MapReduce
计算层
Storm
YARN HBase
FUU:KKpKr
F:1 F:%
3RuYZ Kr
a F:(
领取任务
10节点 q 集群 对接1000-10000qpYn务
<GYZKr
<GYZKr
领取任务
GIZOvK)
YZ G TdHy )
metrics
metrics
metrics
metrics
30节点大集群 对接010000qpYn务 Worker1 Worker2
Worker3
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
解决1. 平台化、自动化
数据开发平台 : 支持 10种不同的任务类型,支持任务流 /任务管 理,解决复杂依赖问题,可扩展
Flume HDFS
Druid Alluxio
Cassan dra
存储层
Web日志
app日志
爬虫
合作数据
… …
企 n 经营数据
数据源
典型数据流向
WebServer
Http请求
流式 离线
LogServer Kafka
Flume Flume/DataFlow 数据交换 计算
Storm/Spark Streaming
大数据管理平台:主机管理,集群管理自动化
t机详情
t机 运 行 组 件
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
集群列表
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
集群详细信息
解决1. 平台化、自动化
元数据管理: 数据字典 , 权限申请审批实施自动化
解决1. 平台化、自动化
物理CPU虚机CPU 1-1 亲和性绑定 CPU ST从40%+降低至1%
痛点4. 排查问题耗时长,应用优化门槛高
用 户 不 清 楚 任 务 为什么 失 败 用户 不 清楚该如何优化任务
解决4. 智能诊断、优化建议
离线计算平台 - MR任务分析平台
解决4. 智能诊断、优化建议
离线计算平台 - MR任务分析平台
元数据管理: 数据字典 , 权限申请审批实施自动化
数据字典 d支持搜索
解决1. 平台化、自动化
元数据管理: 数据字典 , 权限申请审批实施自动化
权限申请
解决1. 平台化、自动化
数据流管理平台 :集成 Flume, 智 能 扩 缩 容 , 插件式
% 节点小集群
对接.1000qpYn 务
领取任务 分配任务 e 节点发现 failover
共享型-YARN
解决3. 差异化服务、物理隔离
共享型-YARN
3RuYZKr1
AKMOUT1
A K M O U T %
3RuYZKr%
AKMOUT1 A K M O U T %
AKMOUT3
AKMOUT4
AKMOUT3
AKMOUT4
避免大 集 群 : 对 Z K 的压力,对 Controller 的压力 逻 辑 分 区 :按 照 不同 的 业务 场 景 分 配 ,避 免 不同 保 障 级 别 业 务 的 相 互 影 响
苏宁大数据平台运维
技术创新,变革未来
你认 为 以 下 哪些关键字对运维最重要 ?
智能
易用 高效 稳定
性能
自动化
流程
MTTR 安全
规范
审计
SLA 故障预测
苏宁大数据平台基本介绍 大数据平台运维的痛点及解决方案
平台优化及增强 DOING & TO DO
苏宁大数据平台软件栈介绍
数 据 云 ( DataCloud )
不 同维 度的排 行榜
解决4. 智能诊断、优化建议
大数据平台运维的痛点
➢ 痛点1.
➢ 痛点2. ➢ 痛点3. ➢ 痛点4.
部署及运维复杂
无资源使用视图 任务相互影响 ,资源隔离性差 排查问题耗时长, 应用优化门槛高
痛点1. 部署及运维复杂
平台管理员
业务开发
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
t机 列 表
解决1. 平台化、自动化
输出
poll
Kafka
n务 系 统
HDFS/Hive
计算
MR/Spark
输出
HDFS/Hive
数据交换
FTP
FTP
数据交换 Push 数据交换
n务 系 统
DB
DB
平台发展历程
第 一 H a d o o p 集群 10p虚机节点
Storm SQL 平台上线
Storm服务化j线 数 据开发平台j线 引 入Spark
任务展板
痛点3. 任务互相影响d资源隔离性差
我的任务为什么突然变慢了? 是 不是 别 人 影 响 我 了
解决3. 差异化服务、物理隔离
共享型
BZUrS <A /BpG rQ BpGrQ BZrKGSOTM :G L Q G 82GYK
独占型
4ruOd
5B
资源浪费 : 离线、流本Βιβλιοθήκη Baidu就是错峰的
解决3. 差异化服务、物理隔离
痛点2. 无资源使用视图
解决2. 资源可视化、人民币化
✓ 存储/计算资源计量计费
✓ 资源池使用可视化 ✓ 任务展板
解决2. 资源可视化、人民币化
存储/计算资源计量计费
解决2. 资源可视化、人民币化
资源使用可视化
解决2. 资源可视化、人民币化
任务展板
解决2. 资源可视化、人民币化
任务展板
解决2. 资源可视化、人民币化
解决3. 差异化服务、物理隔离
独占型-Storm
虚机1 虚机x 虚机4 虚机% 虚机y 虚机( 虚机3 虚机z 虚机)
虚机1
........
虚机%
........
虚 机 3
........
........
........
虚机4 )
........
虚机(
........
虚机
........
独立的物理区域
Druid/ES上线 诊 断平台华佗上线
2014.6 2013.10 2014.12
2015.5 2015.12
2016.7 2017.3
流计算平台 上 线 Storm
Hadoop版本升级
大数据管理平台上线
平台规模
苏宁大数据平台基本介绍 大数据平台运维的痛点及解决方案 平台优化及增强 DOING & TO DO
大数据管理 平台 元数据 数据开发平台 CBT Sqoop Spark SQL 准实时 计算 Spark Streaming Spark Core 机器学习 OLAP 实时计算
服务层
Hive Kafka Zookeeper
MLLib
ES Kylin
Libra
MapReduce
计算层
Storm
YARN HBase
FUU:KKpKr
F:1 F:%
3RuYZ Kr
a F:(
领取任务
10节点 q 集群 对接1000-10000qpYn务
<GYZKr
<GYZKr
领取任务
GIZOvK)
YZ G TdHy )
metrics
metrics
metrics
metrics
30节点大集群 对接010000qpYn务 Worker1 Worker2