分布式存储解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分布式存储技术架构方案

1.需求分析

1.1.应用数据流逻辑架构

如下图表示,整个系统应用数据流结构。

根据数据流和应用情况,得出下面要求:

1)用于存放流数据的存储分为在线、近线和长期归档三部分,容量需求分别不低于150TB、600TB和4PB;

2)另有用于管理和索引的数据库、以及服务器虚拟化数据,各占5TB的空间,共10TB空间;

3)在线数据保留7天(可根据要求进行灵活修改),7天后自动迁移到近线存储(采用廉价磁盘);迁移后,对应用访问的路径不变。

更长时间的数据(如100天),将按照策略归档到离线光盘库设备;

4)流数据的性能需求

o在线存储能够支撑3路200MB/s写入流、12路100MB/s写入流和15路100MB/s读取流,即近2GB/s持续写和1.5GB/s

持续读的并发读写需求。

o在线到近线的迁移速度,应达到200MB/s。

o近线存储读取速度,可以达到单路80MB/s,支持大于15路读,总共1.2GB/s读。

5)自动解决在线存储上的碎片问题,保证性能;

1.2.需求分析

1.2.1.管理数据库和虚拟化数据融合部署

流数据为典型的顺序I/O,OLTP类型管理数据库根据程序类型,存在随机和顺序I/O多种情况,服务器虚拟化在存储介质中表现为封装好的文件,具备空间局部性特征。

国际主流数据中心建设模式倾向扁平化、大二层组网,融合架构兼具可控性和高扩展性,因此建议合并部署。

1)流数据部署在高性能分布式存储– 提供极高的I/O吞吐性能,并按照在线、近线和离线三部级存储进行署。下面的文字将主要对这部分需求进行讨论和分析。

2)管理数据库部署在通用磁盘阵列存储上,提供高效的OLTP

性能、集成于应用的管理和数据保护功能。这部分存储容量需求为5TB,主流的企业级存储都可满足要求。

3)服务器虚拟化部署在高性能分布式存储上,充分利用分布式存储性能优势和数据多副本优势,提供高可靠的集群文件系统功能。由于虚拟化服务器主要使用计算资源,而分布式存储I/O需求较大,有效利用技术优势,利用Hypervisor底层充分整合分布式存储,构建智能的软件定义的数据中心。

1.2.2.在线和近线存储性能分析

在线存储可用容量需求为150TB。性能方面,用于生产的性能需求为:并发达到1.8GB/s的持续写入和1.5GB的持续读取。

1、近线存储性能指标:

这就要求,近线存储能够满足以下的并发I/O要求:1.8GB/s的写入,同时还有1.2GB/s的读取,以及向磁带库(三级存储)的归档。由于读、写是同时进行,因此在进行存储选项和规划时,考虑一定产品指标因素,建议最大写性能2倍处理,即3.6 GB/s写为选型指标。

2、在线存储性能指标:

同理,对于在线存储的并发I/O要求:1.8GB/s的持续写入和1.5GB的持续读取,可选取3.6GB/s最大写入性能为标准。但需要注意的是在部分部件损坏后,该存储必须能够满足生产性能要求。因此,

在线存储必须考虑较多的性能余量,因此可将选型标准定为最大写入性能5GB/s或者更高。

1.2.3.在线和近线存储容量需求分析

在线和近线存储的容量规划,是根据数据保存策略估算,规划中真正使用空间是总容量的80%左右,确保存储容量、稳定性和数据应用的安全。

1、在线存储容量分析

在线存储保存7天数据容量= 21.4TB * 7 = 150TB。

从数据保留在在线存储的策略评估,进行最大化估算,3路200MB/s写入流、12路100MB/s写入流,总共需持续最大化写入1.8GB/s,但是平均写入数据较低,21.4TB/60(1分钟60秒)* 60(1小时60分钟)* 24(1天24小时)=247MB/s(每秒写入数据)分布式存储提供了多副本机制保证数据高可靠,考虑到性能和安全性,设置两份副本,150TB在线数据量共需要300TB存储空间。

2、近线存储容量需求分析

近线存储数据容量为600TB。

近线存储容量,是根据数据迁移策略和数据归档策略的定义情况来平衡并评估出需要的容量,即每天从在线存储中迁移150TB(最大化)容量到近线存储,在线数据7天自动迁移近线存储,因此写满一次近线数据周期为一个月。

2.分布式存储系统架构设计

2.1.分布式存储物理架构拓扑

方案以融合架构为基础,充分结合分布式数据特征,利用物理硬件资源的不同使用消耗,整合存储、计算、网络资源,实现软件定义IT。

2.2.分布式存储架构设计说明

2.3.1.纵向分区设计

计算密集区,主要提供分布式存储架构中的计算用途。计算功能:部署20台存储服务器。确保计算优先,即运行流数据业务的虚拟机,在线存储能够支撑3路200MB/s写入流、12路100MB/s写入流和15路100MB/s读取流,即近2GB/s持续写和1.5GB/s持续读的并发读写需求。每服务器系统盘本地部署,建议SATA硬盘RAID1;存储功能:

提供分布式存储数据环境,考虑横向连池,与其他两区存储硬盘配置相同,建议500GB SSD高速存储。

数据管理区,主要提供分布式存储架构中的数据库管理和虚拟机管理。数据库管理建议以虚拟机形式部署,近线存储介质中划分5TB 空间,以裸设备形式映射给Hypervisor,满足OLTP I/O要求。虚拟机集群管理通过vCenter建立状态,实现HA功能,完成计算资源的高可用。并且可根据实际软件资源响应情况,灵活调整计算资源,在业务连续运行状态下实现动态迁移。

迁移归档区,提供在线数据到近线数据迁移,近线数据到归档存储迁移。在线到近线的迁移速度,应达到200MB/s,近线存储读取速度,可以达到单路80MB/s,支持大于15路读,总共1.2GB/s读。在线到近线的迁移利用Hypervisor存储迁移功能,在虚机开机状态下迁移数据业务。归档迁移利用第三方备份软件或光盘塔实现。

2.3.1.横向互联设计

管理千兆网,实现虚拟机管理,数据库管理,虚拟机迁移和集群通信四大功能。千兆以太网建议专网专用。Hypervisor主机采用SSD,以SSD硬盘为介质的存储池承担在线存储,提供的巨大的吞吐量和高速的读写性能,满足项目中对在线存储读写性能的需求。

生产万兆网,运行虚拟机业务系统,联通服务器区向在线存储区读写职能。提供1.8GB写,1.5GB读。

相关文档
最新文档