魔方-2超级计算机存储系统介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. ParaStor200存储系统的带宽性能测试
72
《高性能计算发展与应用》 2015年第三期 总第五十二期
测试软件: iozone3.43 测试参数:持续读、写以1M为单位的块,大小 为256G的文件
3.1 单节点读写性能测试:
/public/software/benchmark/iozone/3.430/gnu/iozone
oPara介绍:用于管理存储系统的所有索引数据 和命名空间,对外提供单一的全局映像,2台oPara以 Active-Active模式工作,并提供相互冗余机制。 oPara配置:双路Intel Xeon E5-2620 v2处理器/64GB内 存/56 Gb IB网络;
MGR介绍:两台管理控制器以Active-Standby方 式运行,提供统一的控制管理界面,管理员通过该 节点管理整个存储系统;
iozone -s 256g -r 1m -c -i 0 -i 1 -t 64 -+n -+m /public/ a/ma >& iozonetest &
a111 /public/a public/software/benchmark/
iozone/3.430/gnu/iozone
……
我们在使用中也发现在一些小的问题,比如用 户磁盘限额quota的精确度不够,有时会偏痉20%左 右;替换故障磁盘后,需要人工执行命令等,这需 要曙光公司进一步解决。
a112 /public/a public/software/benchmark/
iozone/3.430/gnu/iozone
……
测试结果:
总进程数
64
写kB/sec
11618754.77
读kB/sec
6359492.03
4. ParaStor200存储系统的监控管理
ParaStor200存储系统提供基于WEB的图形化 监控管理界面,提供系统配置管理、监控告警等功 能,方便用户实时监控系统的状态,简化了安装和 维护过程,提高了管理效率。
图2 ParaStor200存储系统的N+M纠删码数据保护示意 本次ParaStor200存储系统采用8+2:1的保护策
略,即8个数据对象匹配2个校验对象,这10个对象 根据哈希算法分布在不同数据控制的不同硬盘上, 这10块硬盘为一组,可以容忍2块硬盘同时失效而不 至于数据丢失;整套存储系统可以容忍1台数据控制 器失效而不至于数据丢失。在这种配置下,存储系 统空间利用率可达到80%。
为解决传统存储架构成为高性能计算的性能 瓶颈,此次魔方-2超级计算机使用了基于对象集 群文件系统存储架构,曙光ParaStor200存储系统。 ParaStor200存储系统,打破了传统的存储软(文件系 统)、硬(磁盘阵列)分离的模式,将后端磁盘与 分布式文件系统融为一体,提供面向文件级别的存 储服务。
= 981319.53 kB/sec
Min throughput per process
= 94513.81 kB/sec
Max throughput per process
= 105813.58 kB/sec
Avg throughput per process
= 104803.24 kB/sec
Min xfer
= 3804160.00 kB
Children see throughput for 10 readers
= 981558.17 kB/sec
Parent sees throughput for 10 readers
70
《高性能计算发展与应用》 2015年第三期 总第五十二期
魔方-2超级计算机存储系统介绍
薛刚 上海超级计算中心 上海 201203 gxue@ssc.net.cn
前言
随着近年来数据的爆炸性增长,PB规模级的存 储系统已经越来越常见。而在高性能计算领域中, 90%以上的数据是非结构化数据。从目前来看,传统 的 SAN 和 NAS 存储架构已经无法满足高性能计算对 海量非结构化数据处理的密集型 I/O 及海量并发访问 的需求。
2.2 多副本及纠删码数据保护技术 ParaStor200存储系统采用N+M:B纠删码数据保护
技术(可以理解成跨设备节点的RAID校验技术), 既能实现数据的高可用保护,又能提高存储系统的 利用率。N+M:B,N代表数据对象个数或数据分布磁 盘数量;M代表校验对象个数或容忍故障的磁盘数 量;B代表容忍故障的节点数量。
此外,管理员也可以通过命令行方式, ParaStor200存储系统对健康状态进行查询。
图3 ParaStor200存储系统健康状态,读写IO,存储使 用率情况
5. 小结
ParaStor200存储系统在上海超算装机完成至今已 有约2个月时间,期间除磁盘故障外,没有发生过其 它故障,运行稳定。
从ParaStor200存储系统的底层硬件架构来看,因 采用了多台X86服务器插硬盘的架构来替代传统的磁 盘阵列+机头的架构,较多的节省了成本,可尽一步 降低存储系统的预算。
由于采用8+2:1保护策略,ParaStor200存储系 统可以容忍2块硬盘同时失效。实际上2块硬盘“同 时”失效的概率非常低,因为当ParaStor200的1块硬 盘失效后,系统会在很短时间内在其它硬盘上自动 完成数据重建,重建完成后,ParaStor200又可以容 忍2块硬盘同时失效。数据修复过程完全无人值守。 用户只用定期更换故障硬盘即可,更换新硬盘后, ParaStor会自动进行底层数据迁移,平衡容量。
-r 1m -s 256g -i 0 -i 1 -+n -w -t 4
Children see throughput for 10 initial writers =
1048032.43 kB/sec
Parent sees throughput for 10 initial writers
2.4 全冗余架构,无单点故障 ParaStor200存储系统为非对称多集群架构设计,
系统中的任何一个部分都采用集群架构设计,能够 确保整套存储系统在任何组件失效时,都能够保持 业务的连续性和用户的正常数据访问。当单台索引 控制器oPara、管理控制器MGR、数据控制器及磁盘 (2块)同时发生故障时,ParaStor200存储系统仍然 可以正常使用。此外,ParaStor200存储系统的数据传 输网络也支持冗余网络结构,多套数据网络支持故 障切换(IB网络、万兆以太网络、千兆以太网络)和 负载均衡。
与传统磁盘阵列RAID保护技术相比,使用
71 交流之窗
N+M纠删码技术,ParaStor200存储系统可以实现数 据重建无人值守,比如深夜磁盘出现故障,传统 RAID要立即人工更换磁盘,而ParaStor200只要有剩 余空间就可以自动进行数据重建;ParaStor200的数据 重建并发进行,1TB数据半小时内重建完成,而传统 RAID的重建时间可能长达10小时到1天以上,而且 RAID在数据重建期间磁盘负载很重,很容易出现雪 崩效应,即继续出现磁盘损耗,导致RAID降级甚至 数据丢失。
oStor介绍:用于提供数据存储空间,内嵌高性 能数据存取引擎,并行处理所有客户端的数据访问 请求,支持以多个oStor节点间冗余方式进行数据保 护;oStor配置:双路Intel Xeon E5-2620 v2处理器 /64GB内存/56 Gb IB网络
oApp介绍 :向应用提供符合 POSIX语义数据访 问接口。
而Lustre等并行文件系统的元数据IO节点也支持 冗余配置,但只支持一主一备的热备模式,正常工 作时只有主节点响应并行文件系统元数据请求,另 一台完全闲置,无论主节点负载多高备节点都无法 帮助分担;当主节点故障时,元数据服务切换到备 节点,切换时间通常达到5-10分钟,切换期间文件 系统服务停止,会造成计算节点上正在运行的程序 报错退出。
= 989887.85 kB/sec
Min throughput per process
= 99435.57 kB/sec
Max throughput per process
= 109623.20 kB/sec
Avg throughput per process
图1 ParaStor200存储架构图
2. ParaStor200存储系统的特点
ParaStor200是曙光公司自主开发的分布式并行 存储系统,采用多副本、N+M纠删码等数据保护技 术、全冗余设计,支持单一存储命名空间、Scale-out 扩展方式,满足高性能计算中心海量文件并发、高
速、稳定、读写的需求。
2.1 采用元数据和数据分离的结构 ParaStor200存储系统的元数据结构采用元数据和
数据分离的非对称式结构,这也是国际主流的并行
存储系统架构,元数据和数据分离有助于提升存储 系统的性能和扩展性。
ParaStor200存储系统可以同时支持多台元数据 控制器(索引控制器)组成元数据集群(目前配置 2台),每台元数据控制器均为Active在线状态,正 常工作时负载均衡并行文件系统客户端的元数据访 问请求,一台元数据控制器出现故障时,其它元数 据控制器分担其工作负载,接管时间非常短,且为 在线切换,不中断正在进行的IO请求,不影响并行 文件系统的业务运行。元数据存储采用RAID6保护的 SSD高速磁盘以提高元数据访问性能。
1. ParaStor200存储系统的组成
ParaStor200存储系统由2台索引控制器oPara、 2台管理控制器MGR、11台数据控制器oStor及客户端 驱动oApp组成。
每台oStor,后端为24块7200 RPM 4TB SATA磁盘, 共使用264块磁盘,总裸容量达1056TB。
ParaStor200存储系统通过56Gb IB网络实现互 联,并直联IB网络总交换机;
= 98155.82 kB/sec
Min xfer
= 3749888.00 kB
测试结果:
总进程数
4Leabharlann Baidu
写kB/sec
1048032.43
读kB/sec
981558.17
3.2 16节点读写性能测试: nohup /public/software/benchmark/iozone/3.430/gnu/
2.3 Scale-out 扩展方式 Scale-out扩展方式是指性能随容量增加而线性增
长。在ParaStor200存储系统中,可以通过添加数据控 制器oStor的数量,来获得更大的存储容量,及更高 的IO聚合带宽。
ParaStor200存储系统的横向动态扩展特性打破 了传统架构的扩展限制,系统容量可以动态扩展至 EB级。按需购买存储容量,减少了的一次性投资成 本。在增加了新的数据控制器oStor后,条带化技术 将 I/O 操作均匀分布到多个数据控制器,为数据提供 了多个并行传输通道,并行化的I/O有效地提高了存 储系统的读写带宽和IOPS,从而实现最高达数百GB/ s的吞吐量。系统聚合IO带宽随系统容量的增加呈线 性增长,可满足由于用户应用规模的不断增长而带 来的容量和性能的需求。
72
《高性能计算发展与应用》 2015年第三期 总第五十二期
测试软件: iozone3.43 测试参数:持续读、写以1M为单位的块,大小 为256G的文件
3.1 单节点读写性能测试:
/public/software/benchmark/iozone/3.430/gnu/iozone
oPara介绍:用于管理存储系统的所有索引数据 和命名空间,对外提供单一的全局映像,2台oPara以 Active-Active模式工作,并提供相互冗余机制。 oPara配置:双路Intel Xeon E5-2620 v2处理器/64GB内 存/56 Gb IB网络;
MGR介绍:两台管理控制器以Active-Standby方 式运行,提供统一的控制管理界面,管理员通过该 节点管理整个存储系统;
iozone -s 256g -r 1m -c -i 0 -i 1 -t 64 -+n -+m /public/ a/ma >& iozonetest &
a111 /public/a public/software/benchmark/
iozone/3.430/gnu/iozone
……
我们在使用中也发现在一些小的问题,比如用 户磁盘限额quota的精确度不够,有时会偏痉20%左 右;替换故障磁盘后,需要人工执行命令等,这需 要曙光公司进一步解决。
a112 /public/a public/software/benchmark/
iozone/3.430/gnu/iozone
……
测试结果:
总进程数
64
写kB/sec
11618754.77
读kB/sec
6359492.03
4. ParaStor200存储系统的监控管理
ParaStor200存储系统提供基于WEB的图形化 监控管理界面,提供系统配置管理、监控告警等功 能,方便用户实时监控系统的状态,简化了安装和 维护过程,提高了管理效率。
图2 ParaStor200存储系统的N+M纠删码数据保护示意 本次ParaStor200存储系统采用8+2:1的保护策
略,即8个数据对象匹配2个校验对象,这10个对象 根据哈希算法分布在不同数据控制的不同硬盘上, 这10块硬盘为一组,可以容忍2块硬盘同时失效而不 至于数据丢失;整套存储系统可以容忍1台数据控制 器失效而不至于数据丢失。在这种配置下,存储系 统空间利用率可达到80%。
为解决传统存储架构成为高性能计算的性能 瓶颈,此次魔方-2超级计算机使用了基于对象集 群文件系统存储架构,曙光ParaStor200存储系统。 ParaStor200存储系统,打破了传统的存储软(文件系 统)、硬(磁盘阵列)分离的模式,将后端磁盘与 分布式文件系统融为一体,提供面向文件级别的存 储服务。
= 981319.53 kB/sec
Min throughput per process
= 94513.81 kB/sec
Max throughput per process
= 105813.58 kB/sec
Avg throughput per process
= 104803.24 kB/sec
Min xfer
= 3804160.00 kB
Children see throughput for 10 readers
= 981558.17 kB/sec
Parent sees throughput for 10 readers
70
《高性能计算发展与应用》 2015年第三期 总第五十二期
魔方-2超级计算机存储系统介绍
薛刚 上海超级计算中心 上海 201203 gxue@ssc.net.cn
前言
随着近年来数据的爆炸性增长,PB规模级的存 储系统已经越来越常见。而在高性能计算领域中, 90%以上的数据是非结构化数据。从目前来看,传统 的 SAN 和 NAS 存储架构已经无法满足高性能计算对 海量非结构化数据处理的密集型 I/O 及海量并发访问 的需求。
2.2 多副本及纠删码数据保护技术 ParaStor200存储系统采用N+M:B纠删码数据保护
技术(可以理解成跨设备节点的RAID校验技术), 既能实现数据的高可用保护,又能提高存储系统的 利用率。N+M:B,N代表数据对象个数或数据分布磁 盘数量;M代表校验对象个数或容忍故障的磁盘数 量;B代表容忍故障的节点数量。
此外,管理员也可以通过命令行方式, ParaStor200存储系统对健康状态进行查询。
图3 ParaStor200存储系统健康状态,读写IO,存储使 用率情况
5. 小结
ParaStor200存储系统在上海超算装机完成至今已 有约2个月时间,期间除磁盘故障外,没有发生过其 它故障,运行稳定。
从ParaStor200存储系统的底层硬件架构来看,因 采用了多台X86服务器插硬盘的架构来替代传统的磁 盘阵列+机头的架构,较多的节省了成本,可尽一步 降低存储系统的预算。
由于采用8+2:1保护策略,ParaStor200存储系 统可以容忍2块硬盘同时失效。实际上2块硬盘“同 时”失效的概率非常低,因为当ParaStor200的1块硬 盘失效后,系统会在很短时间内在其它硬盘上自动 完成数据重建,重建完成后,ParaStor200又可以容 忍2块硬盘同时失效。数据修复过程完全无人值守。 用户只用定期更换故障硬盘即可,更换新硬盘后, ParaStor会自动进行底层数据迁移,平衡容量。
-r 1m -s 256g -i 0 -i 1 -+n -w -t 4
Children see throughput for 10 initial writers =
1048032.43 kB/sec
Parent sees throughput for 10 initial writers
2.4 全冗余架构,无单点故障 ParaStor200存储系统为非对称多集群架构设计,
系统中的任何一个部分都采用集群架构设计,能够 确保整套存储系统在任何组件失效时,都能够保持 业务的连续性和用户的正常数据访问。当单台索引 控制器oPara、管理控制器MGR、数据控制器及磁盘 (2块)同时发生故障时,ParaStor200存储系统仍然 可以正常使用。此外,ParaStor200存储系统的数据传 输网络也支持冗余网络结构,多套数据网络支持故 障切换(IB网络、万兆以太网络、千兆以太网络)和 负载均衡。
与传统磁盘阵列RAID保护技术相比,使用
71 交流之窗
N+M纠删码技术,ParaStor200存储系统可以实现数 据重建无人值守,比如深夜磁盘出现故障,传统 RAID要立即人工更换磁盘,而ParaStor200只要有剩 余空间就可以自动进行数据重建;ParaStor200的数据 重建并发进行,1TB数据半小时内重建完成,而传统 RAID的重建时间可能长达10小时到1天以上,而且 RAID在数据重建期间磁盘负载很重,很容易出现雪 崩效应,即继续出现磁盘损耗,导致RAID降级甚至 数据丢失。
oStor介绍:用于提供数据存储空间,内嵌高性 能数据存取引擎,并行处理所有客户端的数据访问 请求,支持以多个oStor节点间冗余方式进行数据保 护;oStor配置:双路Intel Xeon E5-2620 v2处理器 /64GB内存/56 Gb IB网络
oApp介绍 :向应用提供符合 POSIX语义数据访 问接口。
而Lustre等并行文件系统的元数据IO节点也支持 冗余配置,但只支持一主一备的热备模式,正常工 作时只有主节点响应并行文件系统元数据请求,另 一台完全闲置,无论主节点负载多高备节点都无法 帮助分担;当主节点故障时,元数据服务切换到备 节点,切换时间通常达到5-10分钟,切换期间文件 系统服务停止,会造成计算节点上正在运行的程序 报错退出。
= 989887.85 kB/sec
Min throughput per process
= 99435.57 kB/sec
Max throughput per process
= 109623.20 kB/sec
Avg throughput per process
图1 ParaStor200存储架构图
2. ParaStor200存储系统的特点
ParaStor200是曙光公司自主开发的分布式并行 存储系统,采用多副本、N+M纠删码等数据保护技 术、全冗余设计,支持单一存储命名空间、Scale-out 扩展方式,满足高性能计算中心海量文件并发、高
速、稳定、读写的需求。
2.1 采用元数据和数据分离的结构 ParaStor200存储系统的元数据结构采用元数据和
数据分离的非对称式结构,这也是国际主流的并行
存储系统架构,元数据和数据分离有助于提升存储 系统的性能和扩展性。
ParaStor200存储系统可以同时支持多台元数据 控制器(索引控制器)组成元数据集群(目前配置 2台),每台元数据控制器均为Active在线状态,正 常工作时负载均衡并行文件系统客户端的元数据访 问请求,一台元数据控制器出现故障时,其它元数 据控制器分担其工作负载,接管时间非常短,且为 在线切换,不中断正在进行的IO请求,不影响并行 文件系统的业务运行。元数据存储采用RAID6保护的 SSD高速磁盘以提高元数据访问性能。
1. ParaStor200存储系统的组成
ParaStor200存储系统由2台索引控制器oPara、 2台管理控制器MGR、11台数据控制器oStor及客户端 驱动oApp组成。
每台oStor,后端为24块7200 RPM 4TB SATA磁盘, 共使用264块磁盘,总裸容量达1056TB。
ParaStor200存储系统通过56Gb IB网络实现互 联,并直联IB网络总交换机;
= 98155.82 kB/sec
Min xfer
= 3749888.00 kB
测试结果:
总进程数
4Leabharlann Baidu
写kB/sec
1048032.43
读kB/sec
981558.17
3.2 16节点读写性能测试: nohup /public/software/benchmark/iozone/3.430/gnu/
2.3 Scale-out 扩展方式 Scale-out扩展方式是指性能随容量增加而线性增
长。在ParaStor200存储系统中,可以通过添加数据控 制器oStor的数量,来获得更大的存储容量,及更高 的IO聚合带宽。
ParaStor200存储系统的横向动态扩展特性打破 了传统架构的扩展限制,系统容量可以动态扩展至 EB级。按需购买存储容量,减少了的一次性投资成 本。在增加了新的数据控制器oStor后,条带化技术 将 I/O 操作均匀分布到多个数据控制器,为数据提供 了多个并行传输通道,并行化的I/O有效地提高了存 储系统的读写带宽和IOPS,从而实现最高达数百GB/ s的吞吐量。系统聚合IO带宽随系统容量的增加呈线 性增长,可满足由于用户应用规模的不断增长而带 来的容量和性能的需求。