深圳超算HPC使用手册v3.1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

深圳超算HPC使用手册v3.1

系统运行部

2014年2月24日

1. (1)

2. (3)

2.1 (3)

2.2 (3)

2.3 (3)

2.4 (4)

3. (5)

3.1 (6)

3.2 (10)

3.3 (11)

3.3.1 (11)

3.3.2 GPU (15)

3.3.3 (16)

3.4 (21)

A (24)

1 (24)

2 MPI (24)

3 (24)

4 (openmp) (25)

5 OpenMP+MPI (26)

6 mpich2(RAW) (27)

B (29)

1 Fluent (29)

2 ANSYS (31)

3 CFX (34)

4 ABAQUS (36)

5 MARC (38)

6 NASTRAN (40)

7 LSDYNA (42)

8 DYTRAN (44)

9 ADF (46)

10 HFSS (48)

C (50)

国家超级计算深圳中心采用由中科院和曙光公司联合研制的曙光6000超级计算系统,该系统整体计算能力实测峰值为1.271千万亿次浮点运算(1.271PFLOPS)。于2011年11月16日投入运行。本文主要介绍曙光6000超级计算系统的使用方法和环境。

1.基本环境

为了方便管理和使用,曙光6000超级计算系统高性能计算区分成5个逻辑分区,分别为科学计算分区(GK)、工程计算分区(GG)、生命科学计算(GS)、胖节点分区(Fn)以及龙芯计算分区(Lx)。其中GK、GG、GS分区的每个计算节点由2颗Intel5650六核心处理器组成、主频2.66GHz,配置24GB DDR3内存以及1块Nvidia C2050 GPGPU卡,一块本地149G的 SAS硬盘,一块QDR IB子卡。胖节点分区(Fn)共配置128台4路A840 SMP计算节点,每个计算节点配置4颗AMD 6136 八核心处理,主频2.4GHz,内存128GB。龙芯分区(Lx)共配置320台龙芯节点,每个节点配置1颗AMD64双核CPU和8颗龙芯处理器,20G内存,1块DDR IB网卡。

曙光6000超级计算主机系统的存储分为两种:每个计算节点配备的本地磁盘;由存储节点建立的高速并行文件系统。其中本地硬盘严禁普通用户使用,仅供计算节点操作系统使用,用户的所有操作都应该在账号所对应的$HOME(该$HOME所在的位置

为高速并行文件系统)下进行,用户登录时,会自动被引导到自己账号的$HOME下面。鉴于存储空间的有限和数据安全的考虑,请用户务必做到及时下载计算结果文件并清理空间。

用户可以使用VPN进入登录节点,该登录节点主要用于登录超算内网、使用LSF作业调度系统提交作业,禁止在登录节点运行程序、编译及数据上传下载。

2.系统软件环境

2.1

计算节点和前端接入节点的操作系统均为64为SuSE Linux Enterprise Server(SLES)11SP1,提供标准的64位Linux操作系统环境。用户需要熟悉一些基本的Linux命令行操作,特别是文件目录操作,并能熟练使用一种编辑器(vi或emacs等)。2.2

大规模超级计算系统,为了有效利用众多处理器核心所提供的计算能力,需要有一个作业管理系统,统一地跟用户交互,接收提交的各类计算任务,合理分配计算资源,将用户作业指派到具体的节点执行,对用户来说,不需要关心计算具体在哪里进行的,系统会自动按照最优化原则进行调度,这不仅方便了用户的使用,更提高了整个系统的利用率。作业管理系统是整个超级计算机最重要的软件环境之一,目前在曙光6000超级计算机上使用的作业管理系统是IBM Platform LSF(Load Sharing Facility)作业管理系统。

2.3

曙光6000主机系统支持OpenMP和MPI两种并行方式。OpenMP为共享内存方式,仅能在一个计算节点内并行,最大线

程数不能超过该节点处理器核心数(GS/GG/GK分区为12,Fn分区为32)。MPI则是分布式并行,计算作业可以在一个或者若干个节点上进行,最大进程数仅受用户账号所能调用的CPU总数限制。目前常见的支持InfiniBand网络的MPI实现是MVAPICH2和OpenMPI。

2.4

开放源代码程序往往要调用大量的数学函数进行各种计算,经过长期积累,已经有一些比较成熟的标准化数学库,其中最常见的诸如线性代数方面的BLAS、LAPACK、ScaLAPACK和快速傅里叶变换FFT等等。曙光6000超级计算机安装有AMD的ACML数学库(AMD Core Math Library),部署的ACML数学库的位置为:/home-*/compiler/pgi/linux86-64/11.10/lib/libacml.a,该库为PGI11.10版本编译器所匹配的数学库,库内的数学函数针对处理器进行了优化,能够获得更高的性能。

使用INTEL, PGI, GNU编译器都可以使用MKL数学库,其部署在/home-g*/compiler/intel/mkl。

注:其中g*表示分区gg、gk、gs.

MKL的使用可参考:

/en-us/articles/intel-mkl-link-line-advisor

3.使用方法

曙光6000超级计算系统为实现集群的各类功能,为了安全起见,从外部公网只能通过VPN访问曙光6000超级计算集群。

要使用曙光6000超级计算机,必须登录超级计算机,通过作业调度系统进行作业提交、管理、监控、删除等操作。所有作业提交均通过提交作业脚本的方式来进行。无论是通用刀片计算区、胖节点区还是龙芯计算分区都配有相应的登录节点和FTP 文件传输节点,这些节点分配有独立的IP地址,禁止在登录节点上运行任何大规模程序和编译任何程序。

一般作业的基本步骤如下:

⏹模型准备--用户准备模型数据文件和作业脚本文件。

⏹模型上传--通过FTP工具将模型数据文件和脚本文件上

传至FTP server。

⏹作业提交--利用Putty工具或其他SSH工具登陆曙光6000

计算机,用dos2unix 命令处理上传的文本文件后,用作

业提交命令提交脚本文件进行计算。

⏹作业监控--通过Telnet 或者Putty工具方式登录超级计

算机,采用作业管理命令监控作业的执行情况。

⏹结果下载--计算完成后,通过ftp工具从FTP Server 下

载结果文件。

相关文档
最新文档