【高性能计算中心】高性能计算中心项目详细设计方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高性能计算中心项目详细设计方案

目录

1 系统方案详细设计 (4)

1.1 计算系统 (4)

1.1.1 计算系统需求分析 (4)

1.1.2 刀片集群 (5)

1.1.3 SMP胖节点 (8)

1.1.4 Intel E5-2600v2处理器性能优势 (9)

1.1.5 AMD Opteron 6300系列处理器优势 (11)

1.2 网络系统 (16)

1.2.1 管理网络 (17)

1.2.2 万兆核心网络 (17)

1.2.3 Infiniband计算网 (18)

1.3 存储系统 (20)

1.3.1 高性能集群存储的需求特点 (20)

1.3.2 ParaStor200并行存储系统 (21)

1.3.3 文件服务器存储系统 (24)

1.4 前后处理节点 (24)

1.5 集群管理运维系统 (25)

1.5.1 管理/登陆节点 (25)

1.5.2 ClusKVM监控管理系统 (25)

1.5.3 集群管理系统 (26)

1.5.4 集群计费软件系统 (33)

1.5.5 集群节能软件系统 (35)

1.5.6 运维辅助软件 (36)

1.5.7 作业调度系统 (37)

1.6 安全系统 (41)

1.6.1 高性能集群整体安全解决方案 (41)

1.6.2 主机与应用安全(计算环境安全设计) (42)

1.6.3 区域边界安全设计 (45)

2

1.6.4 边界完整性检查 (46)

1.6.5 通信网络安全设计 (47)

1.6.6 系统管理 (48)

1.6.7 审计管理 (49)

1.6.8 安全管理体系 (49)

1.6.9 安全系统配置清单 (49)

1.7 集群基础软件环境 (50)

1.7.1 操作系统 (50)

1.7.2 编译环境 (50)

1.7.3 并行环境 (52)

1.7.4 数学库 (54)

1.8 终端 (56)

3

方案详细设计

1.1计算系统

1.1.1计算系统需求分析

(一).计算性能高

高性能计算应用最为核心的需求仍然是计算能力,高性能计算机峰值计算能力代表着高性能计算机的整体处理能力,而对于大部分的高性能计算应用,对计算资源的海量需求仍然是最为迫切和直接的需求。

(二).内存需求高

在高性能计算过程中,会进行大量的内存访问,对内存的容量和访问速度都有很高的需求。尤其随着CPU多核化的快速发展,对内存的访问能力提出了新的需求,Intel和AMD 等CPU厂商已经认识到了这一问题,目前这2个厂商的CPU架构均已经升级为直连架构、内存控制器均已经集成到了CPU中,避免多个CPU访问时的内存争抢。同时,随着CPU 的不断升级,内存通道的数量及内存的频率也在不断升级。对于用户,在方案需求阶段,建议要求配置兼容的性能最高的内存芯片(DDR3 1600),且要求内存条的数量与CPU的内存通道数量匹配。

(三).适合高性能应用

高性能计算机的最核心的需求仍然为适合高性能计算机的使用方的应用软件,从而帮助科研及生产工作,所以高性能计算采用的部件及架构要适合高性能计算软件。例如,如果应用软件需要大内存、共享存储扩展等需求,则系统需要配置大内存及多核的SMP胖节点。

如果应用软件的扩展性不好,则在相同的预算下,尽量考虑高主频、核心较少的方案。如果系统扩展性很好,则尽量考虑总体计算峰值最高的方案。

(四).每瓦性能高

4

高效能代表着高性能计算的每瓦性能较高,这是评价高性能计算机架构是否科学、配置是否合理的重要指标。能源的利用率对于降低总体拥有成本、节能减排有着重要意义。

(五).总体功耗低

高性能计算机是能耗大户,一台高性能计算满负载运行,在他的生命周期内所消耗的电力的预算几乎和高性能计算机初期的预算一致,所以高性能计算机降低功耗非常有意义。降低功耗一般可以通过选购效率较高的IT设备、提高制冷及空气调节效率、使用功耗控制软件等几个方面实施。

(六).高密度

较高密度能满足用户机房空间有限的需求,同时,较高的密度能够有效节约空间,降低运维成本,降低管理难度。

(七).可靠性要求相对不高

目前,高性能计算机主要架构为集群架构,一般工作方式为若干台X86服务器通过标准网络连接,通过作业调度软件将计算任务分发到不同计算节点上。在一台高性能计算机系统中,网络系统、存储系统、管理登陆节点等都属于系统级组件,单一组件的不可用会导致整个系统的不可用,对可靠性要求非常高;而集群计算节点由于作业调度可自动将不同作业分发到不同的节点上,少量节点的故障不会导致整个系统的不可用,所以在预算有限的情况下,可适当降低计算节点高可用性方面的预算,一般单个节点都配制一块本地硬盘,如果是机架服务器,也可考虑非冗余电源的情况。

1.1.2刀片集群

系统共配置36片曙光CB60-G16刀片服务器,这36片刀片安装在4个曙光TC4600H 刀片机箱中,双精度峰值达到16.128万亿次。每个刀片服务器配置2颗十核Intel Xeon E5-2680v2 处理器,主频2.8Ghz,每节点配置64GB DDR3 1600MHz内存。

5

图3-2 TC4600产品特点

目前,开放的集群(Cluster)系统具有较多的优势,已经占据了目前高性能计算机的主流位置,在TOP500中占据了80%以上的份额,在中小规模的高性能计算系统中更是占据统治地位。刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其它系统,且为系统的扩容升级提供了良好的基础,刀片系统的优势主要体现在以下几个方面。

●计算密度更高

提高计算密度是刀片服务器发展的主要动力之一。对于大规模并行计算机来说,提高计算密度尤其重要,刀片式集群系统有效提高了计算密度。

●机房要求降低

大规模高性能计算机将对机房空间提出较高的要求,并且要为系统的扩容升级留下空间。刀片式集群系统实现了较高的计算密度,并且有效降低了系统功耗,对系统空调等散热系统的要求也相对降低。

6

相关文档
最新文档