选材-分布式存储系统介绍

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
VBS(Virtual Block System):虚拟块存储管理组件,负责卷元数据的管理, 提供分布式集群接入点服务,使计算资源能够通过VBS访问分布式存储资源。 每个节点上默认部署一个VBS进程,形成VBS集群。节点上也可以通过部署 多个VBS来提升IO性能。
OSD(Object Storage Device):对象存储设备服务,执行具体的I/O操作。 在每个服务器上部署多个OSD进程,一块磁盘默认对应部署一个OSD进程。 在SSD卡作主存时,为了充分发挥SSD卡的性能,可以在1张SSD卡上部署多 个OSD进程进行管理,例如2.4TB的SSD卡可以部署6个OSD进程,每个OSD进 程负责管理400GB。
本章节介绍华为分布式存储产品FusionStorage,该产品也是 华为的软件定义存储产品,广泛应用于华为虚拟化及云计算 解决方案中。
学完本课程后,您将能够:
区分传统存储和分布式存储的区别 描述Fusionstorage基础原理和特性 安装和使用FusionStorage
1. FusionStorage方案介绍 2. FusionStorage架构原理 3. FusionStorage部署配置
单口56Gbps带宽,完美配合极速SSD存储吞吐。
FusionStorage块存储功能 - SCSI/iSCSI块接 口
FusionStorage通过VBS以SCSI或iSCSI方式提供块接口:
SCSI方式:安装VBS的物理部署、FusionSphere或KVM等采用SCSI方式; iSCSI方式:安装VBS以外的虚拟机或主机提供存储访问,VMware、MS SQL Server集群采用
数据分片存储
硬件故障
故障自动检测
多节点并行恢复
自动重建数据副本
FusionStorage支持大块直通,按缺省配置大于256KB的块直接落盘不写Cache,这个 配置可以修改。
OSD
Step 1
Cache
READ
Memory
HDD
READ HDD
WRITE SSD
drain
HDD
FusionStorage Cache读机制
FusionStorage的读缓存采用分层机制,第一层为内存cache,内存cache采用LRU机制缓存数据。
认识Server SAN
概念
由多个独立服务器自带的存储组成一个存储资源池,同时融合 了计算和存储资源。
特征
专有设备变通用设备 计算与存储线性扩展 简单管理、低TCO
传统SAN架构
FC/IP
孤立的存储资源:存储通过 专用网络连接到有限数量的 服务器。
存储设备通过添加硬盘框 增加容量,控制器性能成 为瓶颈。
12 3 45 6 78 9
12 3 45 6 78 9
12 3 45 6 78 9
12 3 45 6 78 9
11 12 13
11 12 13
12 3 45 6 78 9
初始卷
第一次快照
11 12 13
新数据写
第二次快照
15
18
新数据写
11 15 13 45 6 7 8 18
等效内容
FusionStorage故障容忍
数据可靠是第一位的, FusionStorage建议3副本配 置部署。
如果两副本故障,仍可保障 数据不丢失。
故障容忍根据环境规模可以 支持:
跨服务器故障容忍 跨机柜故障容忍 跨机房故障容忍
支持机房级安全
机房A 机房B 机房C
容忍同时2机房故障
FusionStorage快速数据重建
服务器6
FusionStorage Agent
OSD OSD
管理&计算&存储节点 管理&计算&存储节点 管理&计算&存储节点 计算&存储节点
计算节点Βιβλιοθήκη Baidu
存储节点
FSM(FusionStorage Manager):FusionStorage管理模块,提供告警、监控、日志、配置等操作 维护功能。一般情况下FSM主备节点部署。
FusionStorage中的每个硬盘都保存了多个DHT分区(Partition),这些分区的副本按 照策略分散在系统中的其他节点。当FusionStorage检测到硬盘或者节点硬件发生故 障时,自动在后台启动数据修复。
由于分区的副本被分散到多个不同的存储节点上,数据修复时,将会在不同的节点 上同时启动数据重建,每个节点上只需重建一小部分数据,多个节点并行工作,有 效避免单个节点重建大量数据所产生的性能瓶颈,对上层业务的影响做到最小化。
存储网络
GE/10GE组网
物理服务器网卡要求配置网口聚合(Bond)。 GE组网时,硬件至少为4*1Gb组网,其中至少3*1Gb用于存储平面。 10GE组网时,硬件至少为2*10Gb组网,其中至少2*6Gb用于存储平面。
IB高速组网
FusionStorage内部通信支持低时延、高带宽的Infiniband网络,存储交换 无瓶颈。
时间
相比传统方式分配物理存储资源,精简配置可显著提高存储空间利用率。 FusionStorage天然支持自动精简配置,和传统SAN相比不会带来性能下降。
FusionStorage快照功能
FusionStorage快照机制,将用户卷数据在某个时间点的状态保存下来,可用作导出数据、恢复数据之用。 FusionStorage快照数据在存储时采用ROW(Redirect-On-Write)机制,快照不会引起原卷性能下降。 无限次快照:快照元数据分布式存储,水平扩展,无集中式瓶颈,理论上可支持无限次快照。 卷恢复速度快:无需数据搬迁,从快照恢复卷1S内完成(传统SAN在几小时级别)。
Volume:应用卷,代表了FusionStorage向上层呈现的一个逻 辑存储单元。
Server1
Server2
Server3
Volume1
Volume2
Volume3
Volume10
Volume11
P1
P2
Px
资源池1
资源池2

P1
P2
Py
Disk
Disk
Disk
Disk
Disk
Disk
基础概念 (2/2)
FusionStorage部署方式
融合部署
指的是将VBS和OSD部署在同一台服务器中。 虚拟化应用推荐采用融合部署的方式部署。
分离部署
指的是将VBS和OSD分别部署在不同的服务器中。 高性能数据库应用则推荐采用分离部署的方式。
基础概念 (1/2)
资源池:FusionStorage中一组硬盘构成的存储池。
分布式Server SAN架构
虚拟化/操作系统 InfiniBand /10GE Network
InfiniBand /10GE Network
共享式存储资源池 计算、存储融合部署
容量和性能线性增长
华为Server SAN产品FusionStorage
分布式块存储软件
将通用X86服务器的本地HDD、SSD等介质通过分布式技术组织成大规模存储资源池。
iSCSI模式。
VM
VM
SCSI VBS
CVM iSCSI-Target
VBS
OSD
VM
VM
OSD UVP/KVM
硬件介质
VMWARE-ESXi
VMFS iSCSI-Initiator
硬件介质
FusionStorage精简配置功能
2TB
2TB
2TB
传统配置
300GB
600GB
900GB
自动精简配置
到SSD中。
Step 1
OSD
Step 2 Step 3 Step 4
Cache
READ
Memory
HDD
READ
cache
WRITE SSD
HDD
HDD
FusionStorage 分布式Cache
FusionStorage:分布式Cache资源池
主机
主机
主机
主机
APP1
APP2
APP1
APP2
Cache资源池
数据副本: FusionStorage采用数据多副本备份机制来保证数 据的可靠性,即同一份数据可以复制保存为2~3个副本。
Server 1
Disk1
P1 P2’ P3
PP44’
P5’ P9’ P17’ P21’
Server 2
Disk2
P5 P6’
P7
P8’
P1’ P10’ P13’ P22’
Server 3
对非虚拟化环境的上层应用和虚拟机提供工业界标准的SCSI和iSCSI接口。
开放的API。
计算
存储
PCIe SSD
Controller
存储
PCIe SSD
计算 Controller
PCIe 存储 SSD
Controller 计算
计算 Controller
PCIe SSD 存储
华为FusionStorage两大主要应用场景
MDC VBS
OSD OSD
服务器2 FusionStorage Agent
MDC VBS
OSD OSD
服务器3 FusionStorage Agent
MDC VBS
OSD OSD
服务器4 FusionStorage Agent
VBS
OSD OSD
服务器5 FusionStorage Agent
VBS
7.2TB
>
Cache资源池 9.6TB
存储 SRV1
存储 SRV2
存储
>
存储
SRV3
SRV1
存储 SRV2
存储 SRV3
存储 SRV4
Cache共享,水平任意扩展
FusionStorage集群内各服务器节点的缓存和带宽都均匀分布到各个服务器节点上,不存在独立存 储系统中大量磁盘共享计算设备和存储设备之间有限带宽的问题。
1. FusionStorage方案介绍 2. FusionStorage架构原理 3. FusionStorage部署配置
FusionStorage逻辑架构 (1/2)
VM 1
FusionStorage Manager (主)
VM 2
FusionStorage Manager (备)
服务器1 FusionStorage Agent
FusionStorage Cache写机制
OSD在收到VBS发送的写IO操作时,会将写IO缓存在SSD cache后完成本节点写操作。
OSD会周期将缓存在SSD cache中的写IO数据批量写入到硬盘,写Cache有一个水位值, 未到刷盘周期超过设定水位值也会将Cache中数据写入到硬盘中。
FusionStorage支持将服务器部分内存用作读缓存,NVDIMM和SSD用作写缓存,数据缓存均匀分 布到各个节点上,所有服务器的缓存总容量远大于采用外置独立存储的方案。即使采用大容量 低成本的SATA硬盘,FusionStorage仍然可以发挥很高的IO性能,整体性能提升1~3倍。
FusionStorage支持SSD用作数据缓存,除具备通常的写缓存外,增加热点数据统计和缓存功能, 加上其大容量的优势,进一步提升了系统性能。
FSA(FusionStorage Agent):代理进程,部署在各节点上,实现各节点与FSM通信。FSA包含 MDC、VBS和OSD三种不同的进程。根据系统不同配置要求,分别在不同的节点上启用不同的进 程组合来完成特定的功能。
FusionStorage逻辑架构 (2/2)
MDC(MetaData Controller):元数据控制,实现对分布式集群的状态控制, 以及控制数据分布式规则、数据重建规则等。 MDC默认部署在3个节点的 ZK(Zookeeper)盘上,形成MDC集群。
Disk3 P9 P10 P11 P12
P2’ P6’ P14’ P18’
Disk4 P13 P14’ P15 P16’ P7’ P11’ P19’ P23’
Disk5 P17 P18’ P19 P20’ P3’ P12’ P15’ P24’
Disk6 P21 P22 P23 P24 P4’ P8’ P16’ P20’
第二层为SSD cache,SSD cache采用热点读机制,系统会统计每个读取的数据,并统计热点访问因 子,当达到阈值时,系统会自动缓存数据到SSD中,同时会将长时间未被访问的数据移出SSD。
FusionStorage预读机制,统计读数据的相关性,读取某块数据时自动将相关性高的块读出并缓存
云资源池


公有云 私有云 VDI 开发测试



数据库及关键应用
财务报表 ERP 市场营销 CRM




FusionStorage
OpenStack
SCSI/iSCSI
HANA
查询检索
数据分析
高速网络 IB /GE/10GE
分布式Cache
x86服务器

DHT环 x86服务器
分布式Cache
强一致性算法
相关文档
最新文档