容器化大数据云平台技术架构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用云化大数据相关资 源,赋能创新 保障数据安全开放
通过持续研究和探索,构建中国联通容器化大数据 云平台,解决痛点问题
一、建设背景
二、探索历程 三、平台实践 四、总结与展望
2.1 历程回顾
2016年至今,中国联通持续在大数据云平台建设方面投入力量
完成了资源管理从无到有,资源调度及运维从“体力”到“脑力”的演变,逐步实现智能化管理和运营,为 企业数据生产与服务起到了降本提效的作用。
2015: Kudu 2014: Spark, Flink 2012: YARNຫໍສະໝຸດ Baidu Impala, Storm 2011: MapR, Hcatalog, HDP, Kafka 2010-11: Crunch, Sqoop, Flume, Oozie
1980-2002 萌芽阶段
2003-2006 突破阶段
1999 SaaS出现
2006 IaaS/PaaS出现
2013 CaaS出现
2014 FaaS出现
• 大数据的目标是充分挖 掘海量数据中的信息, 以发现数据中的价值
• 云计算的目标是通过资 源共享的方式更好地调 用、扩展和管理计算和 存储等方面的资源和能 力,以提高资源利用率, 降低企业的IT成本
• 云计算可以为大数据平 台的计算和存储提供资 源层的灵活性
Big Data 2.0
Hadoop ecosystem Hortonworks, Cloudera, MapR
Big Data 1.0
Tech vendors’ internal development MapReduce, BigTable, GFS, Cassandra
Specialization
1.4 联通痛点
全域数据汇聚和管理中心,沉淀了海量的计算能力、存储能力、数据能力。 面临着如何实现资源智能调度、最大化利用、能力共享,进一步赋能各类合作伙伴应用创新、
促进数据价值变现的发展瓶颈。
应 SaaS 用
大数据对内应用
大数据对外应用
PaaS 数 据 中 台
数据服务能力封装/开放
数
生(数产智据服算能务)平力台
2006-2009 成熟阶段
2009-2016 应用阶段
2013: 中国 大数据元年
2017-2022 爆发阶段
2010: OpenStack(IaaS) 2009: vSphere(IaaS) 2006: AWS(SaaS), Amazon EC2(IaaS), Zimki (PaaS) 1999: Salesforce (SaaS)
人工 业务
A智引I能能擎力
空空间间数 据数能据库力
能(资力智源开汇能放)平力台
(智见)(智图)
开 发 测
据 治 理
试
基于容器云的数据中心操作系统
IaaS 基础 设施
主机资源
存储资源
网络资源
自身优化
计算/存储资源使用 不均衡
资源弹性调度不足 技术组件支撑不全 手工运维效率低
创新驱动
构建能力共享生态 急需支持租户自助使
• 大数据组件部署到云平 台上,作为通用PaaS能 力,为用户带来使用上 的便利和高效
1.2 技术发展趋势:走向AI+Bigdata+Cloud 融合
美国知名分析机构Wikibon把大数据技术发展大致分为3个阶段:
Bigdata 1.0 :
❖ 以海量数据存储、处理为主 ❖ 平台难以维护,数据开发困难
最初阶段
• 物理部署 • 人工划配 • 系统运维
Hive
Storm Spark ……
容器化大数据云平台技术架构
目录
一、建设背景
二、探索历程 三、平台实践 四、总结与展望
1.1 大数据与云计算的发展历程
2009: CDH, Avro, Chukwa 2008: Hive, Pig, ZooKeeper 2007: HBase 2006: Hadoop(HDFS+MapReduce), Solr
2016: OpenWhisk (FaaS), Fission(FaaS) 2014: Kubernetes (CaaS), AWS Lambda(FaaS) 2013: Docker (CaaS), Marathon(CaaS) 2012: Oracle Cloud(Iaas/PaaS/SaaS) 2011: CloudFoundry (PaaS)
数据中心
计算
• 日志解析 • ... ...
能力
• 流量查询 • ... ...
孵化
• 数据应用 • ... ...
资产化管理 价值化运营
全域贯穿
统一数据模型
能力化输出
向下完成5大类、全域数据汇聚
IT系统
通信网络
业务平台
外部合作伙伴
互联网
1.3中国联通构建了业界领先的大数据平台
国内领先的大数据平台
应 SaaS 用
大数据对内应用
大数据对外应用
PaaS
数 据
中
台
数据服务能力封装/开放
数
生(数产智据服算能务)平力台
人工 业务
A智引I能能擎力
空空间间数 据数能据库力
能(资力智源开汇能放)平力台
(智见)(智图)
开 发 测
据 治 理
试
IaaS 基础 设施
基于容器云的数据中心操作系统
主机资源
存储资源
网络资源
Development
Simplicity
1.3 中国联通构建了业界领先的大数据平台
中国联通拥有集中的,企业级全域数据的存储中心、计算中心、能力中心和孵化中心
数据服务
能力开放
对内应用
对外变现(大数据公司)
向上服务对内生产,同时支撑价值开放运营
技术引领 顶层架构设计
存储
• 资料数据 • ... ...
海量的计算能力、存储能力 PB级数据吞吐能力、统一数据服务能力 企业核心数据资产管理能力 助力数字化转型的服务型数据应用 可价值变现的产品型数据应用
数据规模(PB)
98.6
108.06
62.3
X86服务器(台)
6097
6551
4289
2017年 2018年 2019年
2017年 2018年 2019年
Bigdata 2.0 :
❖ Hadoop商业版出现 ❖ SQL on Hadoop 逐渐成熟 ❖ 以批处理、流处理为主
Bigdata 3.0 :
❖ 客户需求多元化 ❖ 技术栈复杂化 ❖ ABC走向融合
Admin
Specialization
Simplicity
Big Data 3.0
Single vendor platform Azure, AWS, Google,Databricks
通过持续研究和探索,构建中国联通容器化大数据 云平台,解决痛点问题
一、建设背景
二、探索历程 三、平台实践 四、总结与展望
2.1 历程回顾
2016年至今,中国联通持续在大数据云平台建设方面投入力量
完成了资源管理从无到有,资源调度及运维从“体力”到“脑力”的演变,逐步实现智能化管理和运营,为 企业数据生产与服务起到了降本提效的作用。
2015: Kudu 2014: Spark, Flink 2012: YARNຫໍສະໝຸດ Baidu Impala, Storm 2011: MapR, Hcatalog, HDP, Kafka 2010-11: Crunch, Sqoop, Flume, Oozie
1980-2002 萌芽阶段
2003-2006 突破阶段
1999 SaaS出现
2006 IaaS/PaaS出现
2013 CaaS出现
2014 FaaS出现
• 大数据的目标是充分挖 掘海量数据中的信息, 以发现数据中的价值
• 云计算的目标是通过资 源共享的方式更好地调 用、扩展和管理计算和 存储等方面的资源和能 力,以提高资源利用率, 降低企业的IT成本
• 云计算可以为大数据平 台的计算和存储提供资 源层的灵活性
Big Data 2.0
Hadoop ecosystem Hortonworks, Cloudera, MapR
Big Data 1.0
Tech vendors’ internal development MapReduce, BigTable, GFS, Cassandra
Specialization
1.4 联通痛点
全域数据汇聚和管理中心,沉淀了海量的计算能力、存储能力、数据能力。 面临着如何实现资源智能调度、最大化利用、能力共享,进一步赋能各类合作伙伴应用创新、
促进数据价值变现的发展瓶颈。
应 SaaS 用
大数据对内应用
大数据对外应用
PaaS 数 据 中 台
数据服务能力封装/开放
数
生(数产智据服算能务)平力台
2006-2009 成熟阶段
2009-2016 应用阶段
2013: 中国 大数据元年
2017-2022 爆发阶段
2010: OpenStack(IaaS) 2009: vSphere(IaaS) 2006: AWS(SaaS), Amazon EC2(IaaS), Zimki (PaaS) 1999: Salesforce (SaaS)
人工 业务
A智引I能能擎力
空空间间数 据数能据库力
能(资力智源开汇能放)平力台
(智见)(智图)
开 发 测
据 治 理
试
基于容器云的数据中心操作系统
IaaS 基础 设施
主机资源
存储资源
网络资源
自身优化
计算/存储资源使用 不均衡
资源弹性调度不足 技术组件支撑不全 手工运维效率低
创新驱动
构建能力共享生态 急需支持租户自助使
• 大数据组件部署到云平 台上,作为通用PaaS能 力,为用户带来使用上 的便利和高效
1.2 技术发展趋势:走向AI+Bigdata+Cloud 融合
美国知名分析机构Wikibon把大数据技术发展大致分为3个阶段:
Bigdata 1.0 :
❖ 以海量数据存储、处理为主 ❖ 平台难以维护,数据开发困难
最初阶段
• 物理部署 • 人工划配 • 系统运维
Hive
Storm Spark ……
容器化大数据云平台技术架构
目录
一、建设背景
二、探索历程 三、平台实践 四、总结与展望
1.1 大数据与云计算的发展历程
2009: CDH, Avro, Chukwa 2008: Hive, Pig, ZooKeeper 2007: HBase 2006: Hadoop(HDFS+MapReduce), Solr
2016: OpenWhisk (FaaS), Fission(FaaS) 2014: Kubernetes (CaaS), AWS Lambda(FaaS) 2013: Docker (CaaS), Marathon(CaaS) 2012: Oracle Cloud(Iaas/PaaS/SaaS) 2011: CloudFoundry (PaaS)
数据中心
计算
• 日志解析 • ... ...
能力
• 流量查询 • ... ...
孵化
• 数据应用 • ... ...
资产化管理 价值化运营
全域贯穿
统一数据模型
能力化输出
向下完成5大类、全域数据汇聚
IT系统
通信网络
业务平台
外部合作伙伴
互联网
1.3中国联通构建了业界领先的大数据平台
国内领先的大数据平台
应 SaaS 用
大数据对内应用
大数据对外应用
PaaS
数 据
中
台
数据服务能力封装/开放
数
生(数产智据服算能务)平力台
人工 业务
A智引I能能擎力
空空间间数 据数能据库力
能(资力智源开汇能放)平力台
(智见)(智图)
开 发 测
据 治 理
试
IaaS 基础 设施
基于容器云的数据中心操作系统
主机资源
存储资源
网络资源
Development
Simplicity
1.3 中国联通构建了业界领先的大数据平台
中国联通拥有集中的,企业级全域数据的存储中心、计算中心、能力中心和孵化中心
数据服务
能力开放
对内应用
对外变现(大数据公司)
向上服务对内生产,同时支撑价值开放运营
技术引领 顶层架构设计
存储
• 资料数据 • ... ...
海量的计算能力、存储能力 PB级数据吞吐能力、统一数据服务能力 企业核心数据资产管理能力 助力数字化转型的服务型数据应用 可价值变现的产品型数据应用
数据规模(PB)
98.6
108.06
62.3
X86服务器(台)
6097
6551
4289
2017年 2018年 2019年
2017年 2018年 2019年
Bigdata 2.0 :
❖ Hadoop商业版出现 ❖ SQL on Hadoop 逐渐成熟 ❖ 以批处理、流处理为主
Bigdata 3.0 :
❖ 客户需求多元化 ❖ 技术栈复杂化 ❖ ABC走向融合
Admin
Specialization
Simplicity
Big Data 3.0
Single vendor platform Azure, AWS, Google,Databricks