DTCC2014:华为分布式存储技术与应用实践_IT168文库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
3
6
数据仓库性能瓶颈在于IO吞吐
传统架构
Switch
可视化图表
OLAP过程
读写 瓶颈 FC Switch 写 瓶颈 内存 限制 时延 瓶颈
Avg/Sum
需要从磁盘读取大量的 临时数据, ,瓶颈在 于网络和磁盘IO
由于内存大小限制, 需要将 Group操作的临时数据写 入磁盘,瓶颈在于网络和 磁盘IO。
一体机解决方案
计算、网络、存 储、管理深度融 合
纯软件解决方案
与上下游产品或 者其他公司产品 配套,形成完整 的解决方案
软件架构、协议 和部件的实现
数据系统
3
华为解决之道:计算存储融合架构一体机FusionCube
FusionCube解决方案
计算节点
CPU CPU
计算节点
CPU CPU
计算节点
CPU CPU
5
CH223 IO扩展型计算节点
CH222 存储扩展型计算节点
CH240 计算节点
交换模块
CX116 GE直通模块 CX310 10GE交换模块 CX311 10GE/FCoE/FC融合交换 模块 CX911 10GE/FC多平面交换模块
CX110 GE交换模块
CX317 10GE直通模块
CX610 Infiniband QDR/ FDR融合交换模块
数据逻辑地址 数据逻辑地址 数据逻辑地址 数据逻辑地址 … Hash Key1 Key2 Key3 Key4 分段寻址
Pn
DHT环
P1 P2
物理节点 映射物理空间 Disk1
…
P6
DHT
P5 P4
Disk2
P3
…
Keyn
数据逻辑地址
Diskn
DHT(Distributed Hash Table)
DHT环:232 超大虚拟节点构成的环形空间
备份
存储服务层:提供各种存储高级特性,如快照、 链接克隆、精简配置、分布式cache、容灾备 份等
存储 管理
存储 服务层
存储引擎层: FusionStorage存储基本功能,包括MDC总控
存储 引擎层
MDC状态控制 DHT数据分布
强一致性复制协议
并行数据重建
集群故 障自愈
集群、DHT数据路由、分布系统、强一致性复
• 强一致性复制协议: 应用程序写入一份数据时,如果成功,
Cache
SSD HDD
Cache
SSD
后端的一份或多份副本必然一致,再次读时,无论从哪个副 本都可读到正确的数据; • 数据高可用: 可以跨服务器或跨机柜分布数据,不会因某个
服务器、或者某个机柜故障导致数据不可访问;
14
高可靠——并行、快速数据重建
VBS
VBS
…
SCSI/iSCSI
Disk1
Disk2
VBS
IO路径
OSD
OSD
…
Diskn
• 高 吞 吐 量 , 不 再 有 机 头 瓶 颈 :
OSD
IB/10GE/FOCE 并 发 支 持 , 带 宽 是 传 统
SAN的10倍以上
无状态分布式机头层,可水平扩展
分布式存储引擎,可水平扩展
11
FusionStorage 基本原理-DHT寻址与水平扩展技术
全宽单槽位
计算节点
电源模块 风扇模块 管理模块
CH121 计算节点
CH221 IO扩展型计算节点
单刀片:未来四代CPU; 756G~1.5T内存;15块硬盘;4 PCIE标准扩展卡; 网络:GE/10GE/IB 40G/IB 56G交换;15.6Tbps无源背板; 存储: 无须外置San存储; 3~5倍 IOPS; 单机框64颗cpu
• 水平扩展、超大容量:分布式系统,无管理机头瓶颈,
容量几乎不受限制 • 高IOPS:应用大容量分布式Cache技术,提升IOPS • 低时延: 应用程序通过 Cache/SSD 直达存储,时延
FusionStorage分布式一体化存储
Cache
SSD HDD HDD Cache SSD HDD
Cache
Server 1
Disk1
P1 P5’ P2 P9’ P3 P17’ P4 P21’
Server 2
Disk2
P5 P1’ P6 P10’ P7 P13’ P8 P22’
Server 3
Disk3
P9 P2’ P10 P6’
P11
P14’
P12 P18’
Disk4
P13
P7’ P14 P11’ P15 P19’ P16 P23’
Partition:将DHT环空间划分为N等份,每一等份是一个分区 物理节点:即一个DISK, 与Partition分区对应
优点:
水平扩展速度快: 新物理节点加入时, 只需要搬移部分数据 (partition),并达到负载均衡 数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于 同一个Disk、同一块板、同一个机柜
Applications
• 多副本备份:根据安全级别可灵活配置1副本(相当于
RAID10)或多副本( 3副本情况下,数据可用性达到 7个9以
App1
App2
App3
上); • NVDIMM Cache技术:读写速度快,掉电数据不丢失;
FusionStorage分布式一体化存储
Cache
SSD HDD HDD
大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈 动态热备:所有硬盘都可用作资源池的热备盘 简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume
10
FusionStorage 分布式软件架构
基于PAXOS机制的高 可靠、大规模存储集 群总控MDC集群
Unified physical machine and virtual machine management
Server
IT架构演进方向:计算、存储架构融合;资源统一管理;业务按需部署
2
Server
Server
(exclusive / shared)
I/O acceleration
Network External storage
融合架构:计算网络存储融合设计,计算刀片
和存储刀片灵活配置,大内存,内置GE/10GE /IB多协议交换板
56Gbps FDR InfiniBand
FusionStorage:Scale-Out架构,计算存储
深度融合,分布式存储解决集中式机头的瓶颈
存储节点
存储节点
存储节点
存储节点
无阻塞IB交换:高速互联,降低时延,提高带
融合架构
应用整合
Application deployment template
Management Platform
Physical and virtual resource pool management
I/O acceleration (exclusive)
CPU Memory Network External storage
3
18
华为FusionCube数据仓库加速解决方案
高性能、低成本的基础设施平台,混搭架构,可灵活应对不同应用负载
大数据和MPP DB 内存数据库 传统数据仓库 数据库整合 ETL、建模、分析
FusionInsight
Oracle
SQL Server
• 海量数据非结构化
重建1TB数据时间 < 30分钟( 传统IPSAN 重建1TB数据需要12小时)
15
高速Infiniband网络互联,计算、存储交换无瓶颈
ห้องสมุดไป่ตู้
• 56Gbps FDR InfiniBand,超高速互联
单链路速率对比
8000
6000 4000 2000 0 GE 8G FC 10GE 56G FDR GE
Server Server Server
资源池1
资源池2
Volume1
Volume2
Volume3
Volume10
Volume12
P1
P2
资源池1
P3 P1 P6
P2
资源池2
P3
…
P4
P5
资源池1
资源池1
P7
P8
P9
Disk
Disk
Disk
Disk
Disk
Disk
资源池: 类似于SAN的RAID组概念,与RAID相比,其优点是:
各节点利用率
各节点利用率
分布式存储架构(FusionStorage)及基于ETH/IB的点对点互联网络,不再有带宽瓶颈 更多硬盘在扁平P2P架构下实现为同一App实例或VM提供并发读写服务,使得突发MBPS提升3-5倍以上; 更大资源池, 负载均衡,利用率更高
13
高可靠——多重数据安全保障机制
Leader
MDC MDC MDC
• 全分布式架构,水平扩展 :无状态机头层,
每个机头可以平滑添加与减少; • 无状态分布式存储引擎: 可以水平扩展单
状态控制路径
板、磁盘
状态控制路径
• 计算、存储全融合架构,超高性能:
Cache更大,不再受到传统SAN机头限制
SCSI/iSCSI
SCSI/iSCSI
Disk5
P17 P3’ P18 P12’ P19 P15’ P20 P24’
Disk6
P21
P4’
P22
P8’
P23
P16’
P24 P20’
数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问 数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;
宽,提高数据库多节点横向扩展能力 PCI-E SSD:作为主存,提升随机读写IO能力
PCI-e SSD
PCI-e SSD
PCI-e SSD
PCI-e SSD
FusionStorage分布式存储池
4
,优化数据读写模型
FusionCube:业界领先的计算、存储、交换组件
后视图
交换模块
前视图
半宽槽位
E9000
I/O acceleration (exclusive / shared)
Server
CPU
Memory
High-speed network
CPU Memory Storage
Network
Storage
系统性能和灵活性不断增强,OPEX不断降低
创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营
制协议;及在单节点故障时,集群故障自愈与
E9000计算、存储融合刀片式服务器
硬件 设备层
并行数据重建子系统
PCI-E SSD卡
X86 CPU
SAS/SATA IB
硬件设备层:
基于E9000计算、存储融合刀片式服务器,无
需外置SAN,支持IB高速交换、PCI-E SSD卡
9
Page 9
FusionStorage 基本原理-卷映射
服务器 /小机
Group Join
SAN
读 瓶颈
全表扫描,瓶颈在于磁盘 IO
星型/雪花型模型
数据仓库主要的瓶颈是计算和存储节点间的网络IO和主存的磁盘IO!
7
华为分布式存储FusionStorage主要特点
主要特点
计算网络(10GE)/IB/FOCE Server1 App App Server2 App App Server3 App App
华为分布式存储技术与应用实践
Author: 陈坚 Version: V1.0(201404)
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
3
1
IT 架构演进趋势
传统IT架构 虚拟化架构
I/O acceleration (exclusive) Virtualization CPU Memory
…
InfiniBand
1/100~1/1000
Node1 Node2
PCIE
Cache Cache Cache
Node3
• 高吞吐:整柜带宽达120 GB/s
SSD
SSD
SSD
SSD
SSD
SSD
分布式SSD存储系统,主要用于数据仓库一体机场景
17
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
12
高性能——DHT并行IO读写
传统SAN外置存储
Applications
App1 App2 App3
FusionStorage分布式存储
Applications
App1
App2 App3
LUN内共享IO LUN内共享IO LUN内共享IO
VS.
P2P集群级共享IO
RAID Array
大资源池集群
• P2P无阻塞通信网络,数据交换无瓶颈
• ns级通信时延,计算存储信息及时传递
8G FC
10GE 56G FDR
16
高性能、低时延—支持全SSD 存储
Database
Instance1 Instance2 Instance n
• 高IO: 整柜IOPS达240万 • 低时延:读时延49us,写时延8us,仅为传统SAS盘的
SSD
更低
• 数据重建快:并行重建,重建数据量小 • 管理简单:结构简单带来管理简单
FusionStorage 分布式存储系统
8
FusionStorage 总体架构
存储 驱动层
SCSI驱动/iSCSI
分布式链接克隆 分布式快照 分布式精简配置 容灾 分布式Cache
存储接口层:
通过SCSI驱动接口向操作系统、数据库提供卷