大数据云计算平台解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据云计算平台解决方案
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
真正的云计算平台,它有五层架构:
运维管理层:clouDil 计算层:MapReduce+TaskMaster 数据管理层:DataCube 虚拟化层:cCloud 存储层:cStor
• 数据立方etl工具是一个用来将数据立方和关系型数据库中的数据 相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到数据立方中,也可以将数据
立方的数据导进到关系型数据库中。一大亮点就是可以通过 hadoop的mapreduce把数据从关系型数据库中导入数据到数据立 方。
DB2
cStor HDFS
层
虚拟化资源层
应用层
TaskMaster调度平台
ZooKeeper
Master Node 1
Task Node1 Task Node2 Task Node3 Task Node4
Master Node 2
Task Node1 Task Node2 Task Node3 Task Node4
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
在搭建云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到 兴奋的同时,也不免有些顾虑。
相对于传统的副本冗余容错
方式而言,具有更高的磁盘利用 率和更高的系统可靠性,如采用 8+2的编解码容错方式,磁盘利用 率可以达到80%,允许同时损坏2 台存储服务器。
产品特性
高磁盘利用率:对于传统具有N份副本容错而言,其磁盘利用率只有1/N,而采用编解 码方式,磁盘利用率为M/(N+M),如8+2,其磁盘利用率为80%。
行了优化,从而在一定规模 下达到成本、可靠性和性能 的最佳平衡。
目前,cStor云存储系 统已成功应用于安防、广电 、交通、电信、政务等诸多 领域。
产品特性
优异性能:支持高并发、带宽饱和利用。cStor云存储系统将控制流和 数据流分离,数据访问时多个存储服务器同时对外提供服务,实现高 并发访问。
集群状态监控
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
TaskMaster是云
云计算平台能力
cCloud是南京云创存储 科技有限公司自主研发的虚拟 化云计算平台。
cCloud平台可以加速高 伸缩性的公共和私有云IaaS的 部署、管理、配置。帮助企业 用户快速而轻松地将虚拟数据 中心资源转 入自动化、富于 弹性且可自我服务的云平台中 。另外cCloud兼容亚马逊API接 口允许跨cCloud和亚马逊平台 实现负载兼容。使用cCloud作 为基础数据中心操作者可以快 速方便的通过现存基础架构创 建云服务。
创存储自主研发的一款
高效云调度平台。它保
证在云计算平台中部分
硬件或软件发生故障的
业务层
情况下仍不影响系统的
正常运行;保证在云计
算平台中高效稳定的合 数
理化分配和执行任务,
据 处
同时能够完美解决系统
理 层
cProc分布式处理框架 视频处理应用 其他设计应用
单点故障问题,负载均
衡,自动调度与部署。
存
储 Oracle Mysql
Master Node 3
Task Node1 Task Node2 Task Node3 Task Node4
产品优势
高可靠性:采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处 理节点都不存在任何单点故障问题。
低依赖性:采用模块化设计思想,通过统一化配置和API接口的方式向用户提供服务。 低干预性:采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障
出了问题怎么办,有没有预警机制? 有没有可视化的管理界面? 机器宕机,管理员能否实时监控到? 如何做性能调优? 扩容升级时,能否给出依据?
带着这些问题,我们开始了自己的云计算平台管理和运营之旅,现在完美的形成了一整套云计算平台管理体系。
流量监控
健康度报告
节点性能监控
集群状态监控
• 该表一共104个字段,平均一条记录300Byte
• 以下是从数据立方导入到Oracle的测试统计
1000万 2500万 5000万 1亿条 2亿条
条
条
条
用时(秒)
46.29
111.60 193.05 374.53 746.26
速度(万条/秒) 21.6
22.4
25.9
26.7
26.8
• 以下是从Ora1c0l0e0导万 入到25数00万据立5方00的0万测试1亿统条计
高可靠性:传统全副本的容错方式,通过牺牲磁盘的有效容量来提升系统的可靠性, 如1:1副本容错,磁盘利用率为50%,只能损坏1台存储节点;而采用2+2的编解码方 式,在磁盘利用率为50%的情况下,允许同时损坏2台存储节点。
高安全性:数据在编码的过程中,也起到数据加密的作用,必须通过对应的解密算法 解码才能够获取到原始数据,提升了系统的安全性。
超大规模:支持超大规模集群,理论容量为1024*1024*1024 PB。 简单通用:支持POSIX接口规范,支持Windows/Linux/Mac OS X,可当
成海量磁盘使用,无需修改应用。同时系统也对外提供专用的高速 API访问接口。
cStor超安存云存储系统是 新一代基于编码技术的分布式文 件存储系统,它在cStor云存储系 统的基础上,融入RS编解码取代 传统副本冗余的方式进行系统容 错,编解码参数M+N可根据应用需 求灵活配置。
产品特点
对任意多关键字实时索引 支持类SQL复杂并行组合查询 分布式万兆实时数据流秒级处理 系统无单点,确保意外情况下,系统的正常运行
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
高度可靠:采用多个数据块副本的方式实现冗余可靠,数据在不同的 存储节点上具有多个块副本,任意节点发生故障,系统将自动复制数 据块副本到新的存储节点上,数据不会丢失,实现数据完整可靠。
在线伸缩:可以在不停止服务的情况下,动态加入新的存储节点,无 需任何操作,即可实现系统容量从TB级向PB级平滑扩展;也可以取下 任意节点,系统自动缩小规模而不丢失数据,并自动将取下的节点上 的数据备份到其他节点上,保证整个系统数据的冗余数。
1
*千兆48口交换机
双路四核, 32GB 2TB* 双千兆网卡绑定
主频2GHz
8
• 建表语句:
• create table E_MP_POWER_CURVE(ID BIGINT,DATA_TYPE INT,DATA_POINT_FLAG INT,DATA_WHOLE_FLAG STRING,P1 DOUBLE,P2 DOUBLE, P3 DOUBLE,P4 DOUBLE,P5 DOUBLE, P6 DOUBLE, P7 DOUBLE, P8 DOUBLE, P9 DOUBLE, P10 DOUBLE, P11 DOUBLE, P12 DOUBLE, P13 DOUBLE, P14 DOUBLE, P15 DOUBLE, P16 DOUBLE, P17 DOUBLE, P18 DOUBLE, P19 DOUBLE, P20 DOUBLE, P21 DOUBLE, P22 DOUBLE, P23 DOUBLE, P24 DOUBLE, P25 DOUBLE, P26 DOUBLE, P27 DOUBLE, P28 DOUBLE, P29 DOUBLE, P30 DOUBLE, P31 DOUBLE, P32 DOUBLE, P33 DOUBLE, P34 DOUBLE, P35 DOUBLE, P36 DOUBLE, P37 DOUBLE, P38 DOUBLE, P39 DOUBLE, P40 DOUBLE, P41 DOUBLE, P42 DOUBLE, P43 DOUBLE, P44 DOUBLE, P45 DOUBLE, P46 DOUBLE, P47 DOUBLE, P48 DOUBLE, P49 DOUBLE, P50 DOUBLE, P51 DOUBLE, P52 DOUBLE, P53 DOUBLE,P54 DOUBLE, P55 DOUBLE, P56 DOUBLE, P57 DOUBLE, P58 DOUBLE, P59 DOUBLE, P60 DOUBLE, P61 DOUBLE, P62 DOUBLE, P63 DOUBLE, P64 DOUBLE, P65 DOUBLE, P66 DOUBLE, P67 DOUBLE, P68 DOUBLE, P69 DOUBLE, P70 DOUBLE, P71 DOUBLE, P72 DOUBLE, P73 DOUBLE, P74 DOUBLE, P75 DOUBLE, P76 DOUBLE, P77 DOUBLE, P78 DOUBLE, P79 DOUBLE, P80 DOUBLE, P81 DOUBLE, P82 DOUBLE, P83 DOUBLE, P84 DOUBLE,P85 DOUBLE, P86 DOUBLE, P87 DOUBLE, P88 DOUBLE, P89 DOUBLE, P90 DOUBLE, P91 DOUBLE, P92 DOUBLE, P93 DOUBLE, P94 DOUBLE,P95 DOUBLE, P96 DOUBLE) PARTITIONED BY (DATA_DATE STRING,IDRAGE BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
cCloud系统构架
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
cStor云存储系统是 南京云创存储自主研发的高 科技产品。与传统的大规模 存储系统相比,cStor针对 绝大多数数据密集型应用的 特点从多个方面进
数
据
Oracle
库
Mysql
PostgreSQL ……
数据立方ETL工具
数据立方
• 硬件配置
序 号 1
2
设备名称 主控节点 处理节点
Baidu Nhomakorabea
数量 1 10
CPU
内存 硬盘
双路四核, 主频2GHz
双路四核, 主频2GHz
32GB 32GB
2TB* 8
2TB* 8
网络 双千兆网卡绑定 双千兆网卡绑定
3 客户端
处理等功能。 高实时性:在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有
前所未有的高效性。
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
数据立方是一种高效分布式的处理海量数据的云处理软件,具有 从TB乃至PB级的数据中挖掘出有用的信息并进行快捷、高效处理的能 力,同时支持数据仓库存储和商业智能分析等业务。该软件基于 hadoop平台大数据处理的解决方案,具有处理能力高效、超高可靠性 的优点。
优异性能:所有的存储节点兼作编解码计算节点,有效的保证了客户端的写入性能, 同时充分利用了整个系统中大量存储节点的计算资源。
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
真正的云计算平台,它有五层架构:
运维管理层:clouDil 计算层:MapReduce+TaskMaster 数据管理层:DataCube 虚拟化层:cCloud 存储层:cStor
• 数据立方etl工具是一个用来将数据立方和关系型数据库中的数据 相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到数据立方中,也可以将数据
立方的数据导进到关系型数据库中。一大亮点就是可以通过 hadoop的mapreduce把数据从关系型数据库中导入数据到数据立 方。
DB2
cStor HDFS
层
虚拟化资源层
应用层
TaskMaster调度平台
ZooKeeper
Master Node 1
Task Node1 Task Node2 Task Node3 Task Node4
Master Node 2
Task Node1 Task Node2 Task Node3 Task Node4
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
在搭建云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到 兴奋的同时,也不免有些顾虑。
相对于传统的副本冗余容错
方式而言,具有更高的磁盘利用 率和更高的系统可靠性,如采用 8+2的编解码容错方式,磁盘利用 率可以达到80%,允许同时损坏2 台存储服务器。
产品特性
高磁盘利用率:对于传统具有N份副本容错而言,其磁盘利用率只有1/N,而采用编解 码方式,磁盘利用率为M/(N+M),如8+2,其磁盘利用率为80%。
行了优化,从而在一定规模 下达到成本、可靠性和性能 的最佳平衡。
目前,cStor云存储系 统已成功应用于安防、广电 、交通、电信、政务等诸多 领域。
产品特性
优异性能:支持高并发、带宽饱和利用。cStor云存储系统将控制流和 数据流分离,数据访问时多个存储服务器同时对外提供服务,实现高 并发访问。
集群状态监控
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
TaskMaster是云
云计算平台能力
cCloud是南京云创存储 科技有限公司自主研发的虚拟 化云计算平台。
cCloud平台可以加速高 伸缩性的公共和私有云IaaS的 部署、管理、配置。帮助企业 用户快速而轻松地将虚拟数据 中心资源转 入自动化、富于 弹性且可自我服务的云平台中 。另外cCloud兼容亚马逊API接 口允许跨cCloud和亚马逊平台 实现负载兼容。使用cCloud作 为基础数据中心操作者可以快 速方便的通过现存基础架构创 建云服务。
创存储自主研发的一款
高效云调度平台。它保
证在云计算平台中部分
硬件或软件发生故障的
业务层
情况下仍不影响系统的
正常运行;保证在云计
算平台中高效稳定的合 数
理化分配和执行任务,
据 处
同时能够完美解决系统
理 层
cProc分布式处理框架 视频处理应用 其他设计应用
单点故障问题,负载均
衡,自动调度与部署。
存
储 Oracle Mysql
Master Node 3
Task Node1 Task Node2 Task Node3 Task Node4
产品优势
高可靠性:采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处 理节点都不存在任何单点故障问题。
低依赖性:采用模块化设计思想,通过统一化配置和API接口的方式向用户提供服务。 低干预性:采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障
出了问题怎么办,有没有预警机制? 有没有可视化的管理界面? 机器宕机,管理员能否实时监控到? 如何做性能调优? 扩容升级时,能否给出依据?
带着这些问题,我们开始了自己的云计算平台管理和运营之旅,现在完美的形成了一整套云计算平台管理体系。
流量监控
健康度报告
节点性能监控
集群状态监控
• 该表一共104个字段,平均一条记录300Byte
• 以下是从数据立方导入到Oracle的测试统计
1000万 2500万 5000万 1亿条 2亿条
条
条
条
用时(秒)
46.29
111.60 193.05 374.53 746.26
速度(万条/秒) 21.6
22.4
25.9
26.7
26.8
• 以下是从Ora1c0l0e0导万 入到25数00万据立5方00的0万测试1亿统条计
高可靠性:传统全副本的容错方式,通过牺牲磁盘的有效容量来提升系统的可靠性, 如1:1副本容错,磁盘利用率为50%,只能损坏1台存储节点;而采用2+2的编解码方 式,在磁盘利用率为50%的情况下,允许同时损坏2台存储节点。
高安全性:数据在编码的过程中,也起到数据加密的作用,必须通过对应的解密算法 解码才能够获取到原始数据,提升了系统的安全性。
超大规模:支持超大规模集群,理论容量为1024*1024*1024 PB。 简单通用:支持POSIX接口规范,支持Windows/Linux/Mac OS X,可当
成海量磁盘使用,无需修改应用。同时系统也对外提供专用的高速 API访问接口。
cStor超安存云存储系统是 新一代基于编码技术的分布式文 件存储系统,它在cStor云存储系 统的基础上,融入RS编解码取代 传统副本冗余的方式进行系统容 错,编解码参数M+N可根据应用需 求灵活配置。
产品特点
对任意多关键字实时索引 支持类SQL复杂并行组合查询 分布式万兆实时数据流秒级处理 系统无单点,确保意外情况下,系统的正常运行
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
高度可靠:采用多个数据块副本的方式实现冗余可靠,数据在不同的 存储节点上具有多个块副本,任意节点发生故障,系统将自动复制数 据块副本到新的存储节点上,数据不会丢失,实现数据完整可靠。
在线伸缩:可以在不停止服务的情况下,动态加入新的存储节点,无 需任何操作,即可实现系统容量从TB级向PB级平滑扩展;也可以取下 任意节点,系统自动缩小规模而不丢失数据,并自动将取下的节点上 的数据备份到其他节点上,保证整个系统数据的冗余数。
1
*千兆48口交换机
双路四核, 32GB 2TB* 双千兆网卡绑定
主频2GHz
8
• 建表语句:
• create table E_MP_POWER_CURVE(ID BIGINT,DATA_TYPE INT,DATA_POINT_FLAG INT,DATA_WHOLE_FLAG STRING,P1 DOUBLE,P2 DOUBLE, P3 DOUBLE,P4 DOUBLE,P5 DOUBLE, P6 DOUBLE, P7 DOUBLE, P8 DOUBLE, P9 DOUBLE, P10 DOUBLE, P11 DOUBLE, P12 DOUBLE, P13 DOUBLE, P14 DOUBLE, P15 DOUBLE, P16 DOUBLE, P17 DOUBLE, P18 DOUBLE, P19 DOUBLE, P20 DOUBLE, P21 DOUBLE, P22 DOUBLE, P23 DOUBLE, P24 DOUBLE, P25 DOUBLE, P26 DOUBLE, P27 DOUBLE, P28 DOUBLE, P29 DOUBLE, P30 DOUBLE, P31 DOUBLE, P32 DOUBLE, P33 DOUBLE, P34 DOUBLE, P35 DOUBLE, P36 DOUBLE, P37 DOUBLE, P38 DOUBLE, P39 DOUBLE, P40 DOUBLE, P41 DOUBLE, P42 DOUBLE, P43 DOUBLE, P44 DOUBLE, P45 DOUBLE, P46 DOUBLE, P47 DOUBLE, P48 DOUBLE, P49 DOUBLE, P50 DOUBLE, P51 DOUBLE, P52 DOUBLE, P53 DOUBLE,P54 DOUBLE, P55 DOUBLE, P56 DOUBLE, P57 DOUBLE, P58 DOUBLE, P59 DOUBLE, P60 DOUBLE, P61 DOUBLE, P62 DOUBLE, P63 DOUBLE, P64 DOUBLE, P65 DOUBLE, P66 DOUBLE, P67 DOUBLE, P68 DOUBLE, P69 DOUBLE, P70 DOUBLE, P71 DOUBLE, P72 DOUBLE, P73 DOUBLE, P74 DOUBLE, P75 DOUBLE, P76 DOUBLE, P77 DOUBLE, P78 DOUBLE, P79 DOUBLE, P80 DOUBLE, P81 DOUBLE, P82 DOUBLE, P83 DOUBLE, P84 DOUBLE,P85 DOUBLE, P86 DOUBLE, P87 DOUBLE, P88 DOUBLE, P89 DOUBLE, P90 DOUBLE, P91 DOUBLE, P92 DOUBLE, P93 DOUBLE, P94 DOUBLE,P95 DOUBLE, P96 DOUBLE) PARTITIONED BY (DATA_DATE STRING,IDRAGE BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
cCloud系统构架
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
cStor云存储系统是 南京云创存储自主研发的高 科技产品。与传统的大规模 存储系统相比,cStor针对 绝大多数数据密集型应用的 特点从多个方面进
数
据
Oracle
库
Mysql
PostgreSQL ……
数据立方ETL工具
数据立方
• 硬件配置
序 号 1
2
设备名称 主控节点 处理节点
Baidu Nhomakorabea
数量 1 10
CPU
内存 硬盘
双路四核, 主频2GHz
双路四核, 主频2GHz
32GB 32GB
2TB* 8
2TB* 8
网络 双千兆网卡绑定 双千兆网卡绑定
3 客户端
处理等功能。 高实时性:在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有
前所未有的高效性。
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力
数据立方是一种高效分布式的处理海量数据的云处理软件,具有 从TB乃至PB级的数据中挖掘出有用的信息并进行快捷、高效处理的能 力,同时支持数据仓库存储和商业智能分析等业务。该软件基于 hadoop平台大数据处理的解决方案,具有处理能力高效、超高可靠性 的优点。
优异性能:所有的存储节点兼作编解码计算节点,有效的保证了客户端的写入性能, 同时充分利用了整个系统中大量存储节点的计算资源。
第一部分 1.1 1.2 1.3 1.4 1.5
第二部分
云计算平台架构 clouDil
MapReduce+TaskMaster DataCube cCloud cStor
云计算平台能力