高性能计算系统设计方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高性能计算系统

方案设计

第1章需求分析

1.1 高性能计算的和大规模数据处理的应用

高性能计算作为一种先进的科研手段,在国的应用发展很快,得到了普遍的重视,近年来国家投入逐年加大。

高性能计算的应用条件已经成熟,表现在:

◆价格相对低廉的高性能机群系统为高性能计算应用提供了物质基础;

◆高性能计算应用的技术门槛逐渐降低;

◆国家鼓励相关单位做高性能计算的研究,相关投入不断加大;

◆很多高校的科研人员使用高性能计算手段,取得了很好的成果。

1.1.1 计算机架构

由于各学科高性能计算应用软件种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,方案的设计需要充分考虑到实际应用的特点。

作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了30年的发展历程。先后出现了向量机、多处理器并行向量机、MPP 大规模并行处理机、SMP对称多处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等多种主体的架构,并分别在不同的时期占据着应用的主流。

开放的Cluster集群系统具有较多的优势,已经占据了目前高性能计算机的主流位置,在TOP500中占据了约80%的份额,在中小规模的高性能计算系统中更是占据统治地位。

1.1.2 软件的并行特点

按照应用程序是否为并行程序,可以分为如下几类:

◆串行程序

程序运行中只有一个进程或线程。串行程序不能利用高性能计算机多个处理器的并行特点,但可以同时运行程序的多个任务或算例。

◆共享存并行程序

程序运行中可以有多个进程或多个线程,可以使用多个处理器进行并行计算。但这种并行程序不能在分布式存的机群系统上运行。

◆消息传递并行程序

消息传递式并行程序可以在所有架构的计算机上运行,可以同时使用数目很多的处理器,以加速程序的运行。

在高性能集群系统上,各种程序都可以运行,可以使用集群系统的一个CPU,一个节点或多个节点。

1.1.3 互连网络

高性能计算系统的互连网络包括计算网络,数据IO网络,管理监控网络等。

对于并行程序来说,进程之间的通信量也有着显著差别。对于进程间通信量较小的程序来说,使用高性价比的千兆以太网就可以满足需求。

对于通信密集型的并行程序,多个进程之间数据交换频繁,对互连网络的性能要求很高,要求具有较高的带宽和很低的延迟,千兆以太网就不能很好满足要求,需要使用高速网络,如Infiniband,其单向带宽达到20Gb,延迟小于2微秒。

从2010 TOP500 排行榜中我们可以看到,千兆以太网和Infiniband网成为高性能计算机网络互联的主流,尤其从性能份额上来说,Infiniband网更是占据了绝大部分的份额,所以在国际主流的较大系统中,Infiniband计算网逐渐成为主流。

高性能网络的基本性能如下

我们可以看到,对于千兆以太网,带宽达到112MB/s,延时非常高,达到47.57us。而使用万兆以太网,虽然带宽和延时均有显著提高,但是与Infiniband网相比,还是有较大差距。万兆以太网使用TCP/IP协议,带宽达到770MB,延时约为12us,使用Iwarp的RDMA 协议,性能有一定提升,带宽达到1046MB/s,延时达到7.68us。

对于Infiniband网,DDR和QDR的带宽有较大差距,但是延时比较接近,分别为1.6us 和1.3us。值得注意的是,QDR的IP over IB的性能有了大幅的提升。

1.1.4 操作系统

高性能计算的操作系统由最初的Unix操作系统为主,目前随着集群架构的逐渐广泛和Linux操作系统的逐渐成熟,Linux操作系统逐渐成为高性能计算机的主流,占到80%以上的市场份额。

为了使得集群系统有较好的兼容性,可以配置多种操作系统,如Linux (Redhat,Suse),Windows HPC server等.

第2章系统方案设计

2.1 方案总体设计

2.1.1 系统配置表

序号名称技术规格单

数量

1 硬件部分1.1 计算子系统

刀片平台TC4600 标准19英寸5U机架式刀片机箱、可以支持14个计算

刀片;

1*管理模块,集成远程KVM和远程虚拟媒体;

2*千兆网络交换模块,提供6个RJ45千兆接口;

4*冗余热插拔散热模块;

4*2000W电源(3+1冗余热拔插);

台 5

计算刀片

CB60-G15

带FDR计算

刀片

2*Intel Xeon E5-2660 八核处器(2.2GHz);

8*8GB DDR3 1333MHz;

1*300G 2.5寸10000转SAS硬盘;

1*56Gb Infiniband 接口;

2*1000M以太网接口;

片63

集群管理系统

曙光

GridView

2.5

GridView HPC版,支持系统部署、系统监控、集群管

理、数据报表、统一告警、作业调度。

basic portal,包含serial 和 mpi,支持互动作业,

作业故障自动切换重启,文件传输,查看修改文件操作。

套65

Gridview ClusQuota 集群配额系统,可支持用户机时

配额管理,充值计费管理,用户信用管理等功能。(可

选)

套 1

应用门户系统

曙光

Gridview

Clusportal

系统

包含Fluent软件作业调度套 1

应用开发环境

编译器

GNU 编译器,支持C/C++ Fortran77/90

Intel 编译器,支持C/C++ Fortran

套 1 数学库MKL,BLAS、LAPACK、ScaLAPACK、FFTW 套 1 MPI并行环

OpenMPI(支持Infiniband和以太网的MPI环境)套 1

MPICH2(支持千兆以太网的MPI环境)套 1

2.1.2 系统拓扑图

2.1.3 系统方案说明

计算系统CPU整体峰值性能达到17.7万亿次,可以扩展到500万亿次;

相关文档
最新文档