2014年数据库技术大会_华为分布式存储技术与应用实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
2
3
6
数据仓库性能瓶颈在于IO吞吐
传统架构
Switch
可视化图表
OLAP过程
读写 瓶颈 写 瓶颈 内存
Avg/Sum
时延 瓶颈
需要从磁盘读取大量的 临时数据, ,瓶颈在 于网络和磁盘IO
由于内存大小限制,需要将 Group操作的临时数据写 入磁盘,瓶颈在于网络和 磁盘IO。
Server
CPU Network
Memory Storage
High-speed network CPU Memory Storage
系统性能和灵活性不断增强,OPEX不断降低
创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营
一体机解决方案
计算、网络、存 储、管理深度融 合 与上下游产品或 者其他公司产品 配套,形成完整 的解决方案
Cache
SSD
• 数据重建快:并行重建,重建数据量小
• 管理简单:结构简单带来管理简单
FusionStorage 分布式存储系统
8
FusionStorage 总体架构
存储 驱动层
SCSI驱动/iSCSI
分布式链接克隆 备份 分布式快照
存储接口层: 通过SCSI驱动接口向操作系统、数据库提供卷 存储服务层:提供各种存储高级特性,如快照、
Disk5
P17 P3’ P18 P12’ P19 P15’ P20 P24’
Disk6
P21 P4’ P22 P8’ P23 P16’ P24 P20’
数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问 数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;
Server Server Server
资源池1
资ቤተ መጻሕፍቲ ባይዱ池2
Volume1
Volume2
Volume3
Volume10
Volume12
P1
P2
资源池1 资源池1 资源池1
P3 P1 P6
P2
资源池2
P3
…
P4
P5
P7
P8
P9
Disk
Disk
Disk
Disk
Disk
Disk
资源池: 类似于SAN的RAID组概念,与RAID相比,其优点是:
VBS
VBS
…
SCSI/iSCSI
VBS IO路径
Disk1
Disk2
OSD
OSD
…
Diskn
• 高 吞 吐 量 , 不 再 有 机 头 瓶 颈 : IB/10GE/FOCE并发支持,带宽是传统 SAN的10倍以上
OSD
无状态分布式机头层,可水平扩展
分布式存储引擎,可水平扩展
11
FusionStorage 基本原理-DHT寻址与水平扩展技术
• P2P无阻塞通信网络,数据交换无瓶颈 • ns级通信时延,计算存储信息及时传递
8G FC
10GE 56G FDR
16
高性能、低时延—支持全SSD 存储
Database
Instance1 Instance2 Instancen
• 高IO: 整柜IOPS达240万
• 低时延:读时延49us,写时延8us,仅为传统SAS盘的
• 水平扩展、超大容量:分布式系统,无管理机头瓶颈, 容量几乎不受限制 • 高IOPS:应用大容量分布式Cache技术,提升IOPS • 低时延:应用程序通过Cache/SSD直达存储,时延 更低
FusionStorage分布式一体化存储
Cache SSD HDD HDD Cache SSD HDD
各节点利用率
分布式存储架构(FusionStorage)及基于ETH/IB的点对点互联网络,不再有带宽瓶颈 更多硬盘在扁平P2P架构下实现为同一App实例或VM提供并发读写服务,使得突发MBPS提升3-5倍以上;
更大资源池, 负载均衡,利用率更高
13
高可靠——多重数据安全保障机制
Applications
链接克隆、精简配置、分布式cache、容灾备
份等 存储引擎层:
存储 管理
存储 服务层
分布式精简配置 容灾 分布式Cache
FusionStorage存储基本功能,包括MDC总控 集群、DHT数据路由、分布系统、强一致性复 制协议;及在单节点故障时,集群故障自愈与 并行数据重建子系统
存储 引擎层
MDC状态控制 DHT数据分布
PCI-E SSD:作为主存,提升随机读写IO能力
,优化数据读写模型
FusionStorage分布式存储池
4
FusionCube:业界领先的计算、存储、交换组件
后视图
交换模块
前视图
半宽槽位
E9000
全宽单槽位
计算节点
电源模块
风扇模块 管理模块
CH121 计算节点
CH221 IO扩展型计算节点
CH223
Server
IT架构演进方向:计算、存储架构融合;资源统一管理;业务按需部署
2
Server
Server
CPU
Memory
(exclusive/ shared)
I/O acceleration
Network
External storage
Network
External storage
I/O acceleration (exclusive / shared)
56Gbps FDR InfiniBand
FusionStorage:Scale-Out架构,计算存储 深度融合,分布式存储解决集中式机头的瓶颈 无阻塞IB交换:高速互联,降低时延,提高带
存储节点
存储节点
存储节点
存储节点
PCI-e SSD
PCI-e SSD
PCI-e SSD
PCI-e SSD
宽,提高数据库多节点横向扩展能力
Cache SSD HDD HDD Cache SSD HDD Cache SSD
后端的一份或多份副本必然一致,再次读时,无论从哪个副 本都可读到正确的数据; • 数据高可用:可以跨服务器或跨机柜分布数据,不会因某个 服务器、或者某个机柜故障导致数据不可访问;
14
高可靠——并行、快速数据重建
Server 1
Leader
MDC MDC MDC
• 全分布式架构,水平扩展:无状态机头层,
每个机头可以平滑添加与减少;
• 无状态分布式存储引擎: 可以水平扩展单
板、磁盘 • 计算、存储全融合架构,超高性能:
状态控制路径
状态控制路径
Cache更大,不再受到传统SAN机头限制
SCSI/iSCSI SCSI/iSCSI
优点:
水平扩展速度快: 新物理节点加入时, 只需要搬移部分数据 (partition),并达到负载均衡 数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于 同一个Disk、同一块板、同一个机柜
Partition:将DHT环空间划分为N等份,每一等份是一个分区
物理节点:即一个DISK, 与Partition分区对应
Disk1
P1 P2 P3 P4
Server 2
Disk2
P5 P6 P10’ P7 P13’ P8 P22’
Server 3
Disk3
P9 P10 P6’ P11 P14’ P12
P5’
P9’
P17’
P21’
P1’
P2’
P18’
Disk4
P13 P7’ P14 P11’ P15 P19’ P16 P23’
重建1TB数据时间 < 30分钟( 传统IPSAN 重建1TB数据需要12小时)
15
高速Infiniband网络互联,计算、存储交换无瓶颈
• 56Gbps FDR InfiniBand,超高速互联
单链路速率对比
8000 6000 4000 2000 0 GE 8G FC 10GE 56G FDR GE
…
InfiniBand
1/100~1/1000
Node1 Node2
PCIE
Cache Cache Cache
Node3
• 高吞吐:整柜带宽达120 GB/s
SSD
SSD
SSD
SSD
SSD
SSD
分布式SSD存储系统,主要用于数据仓库一体机场景
17
Content
1
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
纯软件解决方案
数据系统
软件架构、协议 和部件的实现
3
华为解决之道:计算存储融合架构一体机FusionCube
FusionCube解决方案
计算节点
CPU CPU
计算节点
CPU CPU
计算节点
CPU CPU
融合架构:计算网络存储融合设计,计算刀片
和存储刀片灵活配置,大内存,内置GE/10GE /IB多协议交换板
强一致性复制协议 并行数据重建
集群故 障自愈
E9000计算、存储融合刀片式服务器
硬件 设备层
X86 CPU
SAS/SATA
IB
PCI-E SSD卡
硬件设备层: 基于E9000计算、存储融合刀片式服务器,无 需外置SAN,支持IB高速交换、PCI-E SSD卡
9
Page 9
FusionStorage 基本原理-卷映射
华为分布式存储技术与应用实践
Author: 陈坚 Version: V1.0(201404)
Content
1
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
2
3
1
IT 架构演进趋势
传统IT架构 虚拟化架构
I/O acceleration (exclusive) Virtualization
服务器 /小机
FC Switch
Group
Join
限制
读 瓶颈 全表扫描,瓶颈在于磁盘 IO
SAN
星型/雪花型模型
数据仓库主要的瓶颈是计算和存储节点间的网络IO和主存的磁盘IO!
7
华为分布式存储FusionStorage主要特点
主要特点
计算网络(10GE)/IB/FOCE Server1 App App Server2 App App Server3 App App
App1
• 多副本备份:根据安全级别可灵活配置1副本(相当于
RAID10)或多副本(3副本情况下,数据可用性达到7个9以
App2
App3
上);
• NVDIMM Cache技术:读写速度快,掉电数据不丢失; • 强一致性复制协议:应用程序写入一份数据时,如果成功,
FusionStorage分布式一体化存储
融合架构
应用整合
Applicationdeployment template ManagementPlatform
Physical and virtual resource pool management
I/O acceleration (exclusive) CPU Memory
Unified physical machine and virtual machine management
12
高性能——DHT并行IO读写
传统SAN外置存储
Applications
App1 App2 App3 App1
FusionStorage分布式存储
Applications
App2 App3
LUN内共享IO
LUN内共享IO LUN内共享IO
VS.
P2P集群级共享IO
RAIDArray
大资源池集群
各节点利用率
CH222 存储扩展型计算节点
CH240 计算节点
单刀片:未来四代CPU; 756G~1.5T内存;15块硬盘;4 PCIE标准扩展卡; 网络:GE/10GE/IB 40G/IB 56G交换;15.6Tbps无源背板; 存储: 无须外置San存储; 3~5倍 IOPS; 单机框64颗cpu
2
3
18
华为FusionCube数据仓库加速解决方案
高性能、低成本的基础设施平台,混搭架构,可灵活应对不同应用负载
大数据和MPP DB 内存数据库 传统数据仓库 数据库整合 ETL、建模、分析
FusionInsight
Oracle
SQL Server • 海量数据非结构化 • 高并发数据分析处理 • CEP流处理 • 实时商业洞察 • 性能快100-100,000倍 • 主数据仓库 • 关系型结构化数据 • 减少企业数据库实例 • DBaaS 服务提供 •多维建模分析工具 • ETL、报表展现
5
IO扩展型计算节点
交换模块
CX116 GE直通模块 CX310 10GE交换模块 CX311 10GE/FCoE/FC融合交换 模块
CX110 GE交换模块
CX317 10GE直通模块
CX610 Infiniband QDR/ FDR融合交换模块
CX911 10GE/FC多平面交换模块
Content
数据逻辑地址
数据逻辑地址 数据逻辑地址 数据逻辑地址 … 数据逻辑地址 Hash Key1 Key2 分段寻址
Pn
DHT环
P1
P2
物理节点
映射物理空间 Disk1
Key3
Key4
…
P6
DHT
P5 P4
Disk2
P3
… Keyn
Diskn
DHT(Distributed Hash Table)
DHT环:232超大虚拟节点构成的环形空间
大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈 动态热备:所有硬盘都可用作资源池的热备盘 简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume
10
FusionStorage 分布式软件架构
基于PAXOS机制的高 可靠、大规模存储集 群总控MDC集群
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
2
3
6
数据仓库性能瓶颈在于IO吞吐
传统架构
Switch
可视化图表
OLAP过程
读写 瓶颈 写 瓶颈 内存
Avg/Sum
时延 瓶颈
需要从磁盘读取大量的 临时数据, ,瓶颈在 于网络和磁盘IO
由于内存大小限制,需要将 Group操作的临时数据写 入磁盘,瓶颈在于网络和 磁盘IO。
Server
CPU Network
Memory Storage
High-speed network CPU Memory Storage
系统性能和灵活性不断增强,OPEX不断降低
创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营
一体机解决方案
计算、网络、存 储、管理深度融 合 与上下游产品或 者其他公司产品 配套,形成完整 的解决方案
Cache
SSD
• 数据重建快:并行重建,重建数据量小
• 管理简单:结构简单带来管理简单
FusionStorage 分布式存储系统
8
FusionStorage 总体架构
存储 驱动层
SCSI驱动/iSCSI
分布式链接克隆 备份 分布式快照
存储接口层: 通过SCSI驱动接口向操作系统、数据库提供卷 存储服务层:提供各种存储高级特性,如快照、
Disk5
P17 P3’ P18 P12’ P19 P15’ P20 P24’
Disk6
P21 P4’ P22 P8’ P23 P16’ P24 P20’
数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问 数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;
Server Server Server
资源池1
资ቤተ መጻሕፍቲ ባይዱ池2
Volume1
Volume2
Volume3
Volume10
Volume12
P1
P2
资源池1 资源池1 资源池1
P3 P1 P6
P2
资源池2
P3
…
P4
P5
P7
P8
P9
Disk
Disk
Disk
Disk
Disk
Disk
资源池: 类似于SAN的RAID组概念,与RAID相比,其优点是:
VBS
VBS
…
SCSI/iSCSI
VBS IO路径
Disk1
Disk2
OSD
OSD
…
Diskn
• 高 吞 吐 量 , 不 再 有 机 头 瓶 颈 : IB/10GE/FOCE并发支持,带宽是传统 SAN的10倍以上
OSD
无状态分布式机头层,可水平扩展
分布式存储引擎,可水平扩展
11
FusionStorage 基本原理-DHT寻址与水平扩展技术
• P2P无阻塞通信网络,数据交换无瓶颈 • ns级通信时延,计算存储信息及时传递
8G FC
10GE 56G FDR
16
高性能、低时延—支持全SSD 存储
Database
Instance1 Instance2 Instancen
• 高IO: 整柜IOPS达240万
• 低时延:读时延49us,写时延8us,仅为传统SAS盘的
• 水平扩展、超大容量:分布式系统,无管理机头瓶颈, 容量几乎不受限制 • 高IOPS:应用大容量分布式Cache技术,提升IOPS • 低时延:应用程序通过Cache/SSD直达存储,时延 更低
FusionStorage分布式一体化存储
Cache SSD HDD HDD Cache SSD HDD
各节点利用率
分布式存储架构(FusionStorage)及基于ETH/IB的点对点互联网络,不再有带宽瓶颈 更多硬盘在扁平P2P架构下实现为同一App实例或VM提供并发读写服务,使得突发MBPS提升3-5倍以上;
更大资源池, 负载均衡,利用率更高
13
高可靠——多重数据安全保障机制
Applications
链接克隆、精简配置、分布式cache、容灾备
份等 存储引擎层:
存储 管理
存储 服务层
分布式精简配置 容灾 分布式Cache
FusionStorage存储基本功能,包括MDC总控 集群、DHT数据路由、分布系统、强一致性复 制协议;及在单节点故障时,集群故障自愈与 并行数据重建子系统
存储 引擎层
MDC状态控制 DHT数据分布
PCI-E SSD:作为主存,提升随机读写IO能力
,优化数据读写模型
FusionStorage分布式存储池
4
FusionCube:业界领先的计算、存储、交换组件
后视图
交换模块
前视图
半宽槽位
E9000
全宽单槽位
计算节点
电源模块
风扇模块 管理模块
CH121 计算节点
CH221 IO扩展型计算节点
CH223
Server
IT架构演进方向:计算、存储架构融合;资源统一管理;业务按需部署
2
Server
Server
CPU
Memory
(exclusive/ shared)
I/O acceleration
Network
External storage
Network
External storage
I/O acceleration (exclusive / shared)
56Gbps FDR InfiniBand
FusionStorage:Scale-Out架构,计算存储 深度融合,分布式存储解决集中式机头的瓶颈 无阻塞IB交换:高速互联,降低时延,提高带
存储节点
存储节点
存储节点
存储节点
PCI-e SSD
PCI-e SSD
PCI-e SSD
PCI-e SSD
宽,提高数据库多节点横向扩展能力
Cache SSD HDD HDD Cache SSD HDD Cache SSD
后端的一份或多份副本必然一致,再次读时,无论从哪个副 本都可读到正确的数据; • 数据高可用:可以跨服务器或跨机柜分布数据,不会因某个 服务器、或者某个机柜故障导致数据不可访问;
14
高可靠——并行、快速数据重建
Server 1
Leader
MDC MDC MDC
• 全分布式架构,水平扩展:无状态机头层,
每个机头可以平滑添加与减少;
• 无状态分布式存储引擎: 可以水平扩展单
板、磁盘 • 计算、存储全融合架构,超高性能:
状态控制路径
状态控制路径
Cache更大,不再受到传统SAN机头限制
SCSI/iSCSI SCSI/iSCSI
优点:
水平扩展速度快: 新物理节点加入时, 只需要搬移部分数据 (partition),并达到负载均衡 数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于 同一个Disk、同一块板、同一个机柜
Partition:将DHT环空间划分为N等份,每一等份是一个分区
物理节点:即一个DISK, 与Partition分区对应
Disk1
P1 P2 P3 P4
Server 2
Disk2
P5 P6 P10’ P7 P13’ P8 P22’
Server 3
Disk3
P9 P10 P6’ P11 P14’ P12
P5’
P9’
P17’
P21’
P1’
P2’
P18’
Disk4
P13 P7’ P14 P11’ P15 P19’ P16 P23’
重建1TB数据时间 < 30分钟( 传统IPSAN 重建1TB数据需要12小时)
15
高速Infiniband网络互联,计算、存储交换无瓶颈
• 56Gbps FDR InfiniBand,超高速互联
单链路速率对比
8000 6000 4000 2000 0 GE 8G FC 10GE 56G FDR GE
…
InfiniBand
1/100~1/1000
Node1 Node2
PCIE
Cache Cache Cache
Node3
• 高吞吐:整柜带宽达120 GB/s
SSD
SSD
SSD
SSD
SSD
SSD
分布式SSD存储系统,主要用于数据仓库一体机场景
17
Content
1
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
纯软件解决方案
数据系统
软件架构、协议 和部件的实现
3
华为解决之道:计算存储融合架构一体机FusionCube
FusionCube解决方案
计算节点
CPU CPU
计算节点
CPU CPU
计算节点
CPU CPU
融合架构:计算网络存储融合设计,计算刀片
和存储刀片灵活配置,大内存,内置GE/10GE /IB多协议交换板
强一致性复制协议 并行数据重建
集群故 障自愈
E9000计算、存储融合刀片式服务器
硬件 设备层
X86 CPU
SAS/SATA
IB
PCI-E SSD卡
硬件设备层: 基于E9000计算、存储融合刀片式服务器,无 需外置SAN,支持IB高速交换、PCI-E SSD卡
9
Page 9
FusionStorage 基本原理-卷映射
华为分布式存储技术与应用实践
Author: 陈坚 Version: V1.0(201404)
Content
1
技术趋势 华为分布式存储技术原理与优势 华为分布式存储应用实践
2
3
1
IT 架构演进趋势
传统IT架构 虚拟化架构
I/O acceleration (exclusive) Virtualization
服务器 /小机
FC Switch
Group
Join
限制
读 瓶颈 全表扫描,瓶颈在于磁盘 IO
SAN
星型/雪花型模型
数据仓库主要的瓶颈是计算和存储节点间的网络IO和主存的磁盘IO!
7
华为分布式存储FusionStorage主要特点
主要特点
计算网络(10GE)/IB/FOCE Server1 App App Server2 App App Server3 App App
App1
• 多副本备份:根据安全级别可灵活配置1副本(相当于
RAID10)或多副本(3副本情况下,数据可用性达到7个9以
App2
App3
上);
• NVDIMM Cache技术:读写速度快,掉电数据不丢失; • 强一致性复制协议:应用程序写入一份数据时,如果成功,
FusionStorage分布式一体化存储
融合架构
应用整合
Applicationdeployment template ManagementPlatform
Physical and virtual resource pool management
I/O acceleration (exclusive) CPU Memory
Unified physical machine and virtual machine management
12
高性能——DHT并行IO读写
传统SAN外置存储
Applications
App1 App2 App3 App1
FusionStorage分布式存储
Applications
App2 App3
LUN内共享IO
LUN内共享IO LUN内共享IO
VS.
P2P集群级共享IO
RAIDArray
大资源池集群
各节点利用率
CH222 存储扩展型计算节点
CH240 计算节点
单刀片:未来四代CPU; 756G~1.5T内存;15块硬盘;4 PCIE标准扩展卡; 网络:GE/10GE/IB 40G/IB 56G交换;15.6Tbps无源背板; 存储: 无须外置San存储; 3~5倍 IOPS; 单机框64颗cpu
2
3
18
华为FusionCube数据仓库加速解决方案
高性能、低成本的基础设施平台,混搭架构,可灵活应对不同应用负载
大数据和MPP DB 内存数据库 传统数据仓库 数据库整合 ETL、建模、分析
FusionInsight
Oracle
SQL Server • 海量数据非结构化 • 高并发数据分析处理 • CEP流处理 • 实时商业洞察 • 性能快100-100,000倍 • 主数据仓库 • 关系型结构化数据 • 减少企业数据库实例 • DBaaS 服务提供 •多维建模分析工具 • ETL、报表展现
5
IO扩展型计算节点
交换模块
CX116 GE直通模块 CX310 10GE交换模块 CX311 10GE/FCoE/FC融合交换 模块
CX110 GE交换模块
CX317 10GE直通模块
CX610 Infiniband QDR/ FDR融合交换模块
CX911 10GE/FC多平面交换模块
Content
数据逻辑地址
数据逻辑地址 数据逻辑地址 数据逻辑地址 … 数据逻辑地址 Hash Key1 Key2 分段寻址
Pn
DHT环
P1
P2
物理节点
映射物理空间 Disk1
Key3
Key4
…
P6
DHT
P5 P4
Disk2
P3
… Keyn
Diskn
DHT(Distributed Hash Table)
DHT环:232超大虚拟节点构成的环形空间
大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈 动态热备:所有硬盘都可用作资源池的热备盘 简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume
10
FusionStorage 分布式软件架构
基于PAXOS机制的高 可靠、大规模存储集 群总控MDC集群