新曙光集群系统(Pluto)简明用户手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
曙光集群系统(Pluto)简明用户手册(第2版)
1.系统介绍
曙光集群系统(命名为Pluto)共有172个计算节点(140个刀片节点,16个MIC节点,16个GPU节点),5个登录节点。
集群系统所有登录节点和计算节点的操作系统均为64位Redhat7.2。
系统采用Intel Omni-Path高速计算网络,曙光Parastor200全局并行存储系统。
全系统峰值性能为211.2Tflop/s。
计算节点的硬件配置如下:
●所有刀片计算节点、MIC计算节点、GPU计算节点均配置2颗Intel E5-2680 v3处理
器,每个处理器12核,每节点共24核;64 GB DDR4 ECC 2133MHz内存。
●每台MIC计算节点配置1块Intel Xeon Phi 5110P加速卡(1.011TFlops)。
●每台GPU计算节点配置1块NVIDIA TESLA K80 GPGPU加速卡(2.911TFlops)。
2.系统登录及文件传输
2.1.系统登录
首先使用Xshell、SecureCRT等软件登录到前端机(IP:218.249.35.43)。
登陆进前端机后,再用命令ssh 帐号@pluto登录到新曙光(pluto)系统。
2.2.文件拷贝
用scp命令在前端机与新曙光(pluto)之间完成文件拷贝,新老曙光系统间的文件拷贝同样用scp命令。
3.程序编译运行环境
集群系统部署的编译器既包含Linux操作系统自带的GNU c/c++/fortran(版本4.8.5)编译
器,也提供了Intel/MPI多个版本的c/c++/fortran的编译器,以及支持NVIDIA GPU 程序编译的CUDA toolkit。
此外,集群系统还部署了Mvapich2/OpenMPI/IntelMPI等多个版本的MPI 库,可以支持OpenMP和MPI两种并行方式。
3.1.环境变量设置方法
用户可以采用下面的方法来快速设置环境变量:
方法一、运行脚本文件加载环境变量。
设置编译器、MPI库、数学库环境变量的脚本文件都在/public/software/profile.d目录下,用户从文件名可以很直观地看出该文件是用于设置哪类软件的运行环境。
例子:source /public/software/profile.d/mpi_mvapich2-2.2rc1-intel-hfi.sh
方法二、使用module程序管理环境变量,module是环境变量模块化管理工具,可以自动处理编译器及函数库的依赖。
具体使用方式如下:
命令说明
module avail 查看可用环境变量
module load <module> 加载某环境变量
module list 查看已加载环境变量
module unload <module> 卸载某环境变量
module purge 清除所有环境变量
例子:module load mpi/mvapich2/2.1-hfi/intel
3.2.编译器、MPI库及数学库
3.2.1.编译器
除了Linux操作系统自带的GNU编译器,系统还安装配置了intel编译器。
系统默认的编译器是intel编译器,版本是composer_xe_2016.0.3。
所有已安装的编译器版本及环境变量设置方法见表1。
表1、编译器版本及环境变量设置
版本环境变量设置方法
composer_xe_2015.2.164 source
/public/software/profile.d/compiler_intel-composer_xe_2015.2.164.sh 或者:
module load compiler/intel/composer_xe_2015.2.164
composer_xe_2016.0.3 (系统默认)source
/public/software/profile.d/compiler_intel-composer_xe_2016.0.3.sh 或者
module load compiler/intel/composer_xe_2016.0.3
composer_xe_2017.0.098 source
/public/software/profile.d/compiler_intel-composer_xe_2017.0.098.sh 或者
module load compiler/intel/composer_xe_2017.0.098
CUDA toolkit 7.5 source /public/software/profile.d/cuda-7.5.sh
3.2.2.MPI并行环境
系统默认的MPI环境是Intel MPI-5.1.3.210,所有已安装的其他MPI及其环境变量设置方法见表2。
表2、MPI及环境变量设置
Intel MPI
版本环境变量设置
intelmpi-5.0.2.044 source
/public/software/profile.d/compiler_intel-composer_xe_2015.2.164.sh source /public/software/profile.d/mpi_intelmpi-5.0.2.044.sh
或者:
module load compiler/intel/composer_xe_2015.2.164
module load mpi/intelmpi/5.0.2.044
intelmpi-5.1.3.210 source
/public/software/profile.d/compiler_intel-composer_xe_2016.0.3.sh source /public/software/profile.d/mpi_intelmpi-5.1.3.210.sh
或者
module load compiler/intel/composer_xe_2016.0.3
module load mpi/intelmpi/5.1.3.210
intelmpi-2017 source
/public/software/profile.d/compiler_intel-composer_xe_2017.0.098.sh
source /public/software/profile.d/mpi_intelmpi-2017.sh
或者
module load compiler/intel/composer_xe_2017.0.098
module load mpi/intelmpi/2017
mvapich2
版本环境变量设置
mvapich2-2.1 source
/public/software/profile.d/compiler_intel-composer_xe_2015.2.164.sh source /public/software/profile.d/mpi_mvapich2-2.1-intel-hfi.sh
或者
module load compiler/intel/composer_xe_2015.2.164
module load mpi/mvapich2/2.1-hfi/intel
mvapich2-2.1-gnu (由gnu编译器编译) source /public/software/profile.d/mpi_mvapich2-2.1-gnu-hfi.sh 或者
module load mpi/mvapich2/2.1-hfi/gnu
mvapich2-2.2rc1 source
/public/software/profile.d/compiler_intel-composer_xe_2015.2.164.sh source /public/software/profile.d/mpi_mvapich2-2.2rc1-intel-hfi.sh
或者
module load compiler/intel/composer_xe_2015.2.164
module load mpi/mvapich2/2.1-hfi/intel
3.2.3.数学库
曙光集群系统(Pluto)部署了Lapack/FFTW/mkl等多个版本的数学库。
表3列出了这些数学库及其环境变量的设置。
表3、数学库及环境变量设置
类别及版本环境变量设置方法
fftw-2.1.5-double source /public/software/profile.d/mathlib_fftw-2.1.5-double.sh 或者:
module load mathlib/fftw/2.1.5/double
fftw-2.1.5-float source /public/software/profile.d/mathlib_fftw-2.1.5-float.sh 或者
module load mathlib/fftw/2.1.5/float
fftw-3.3.4-double source /public/software/profile.d/mathlib_fftw-3.3.4-double.sh 或者
module load mathlib/fftw/3.3.4/double
fftw-3.3.4-float source /public/software/profile.d/mathlib_fftw-3.3.4-float.sh 或者
module load mathlib/fftw/3.3.4/float
lapack-3.4.2 (intel编译器编译)source /public/software/profile.d/mathlib_lapack-3.4.2-intel.sh 或者
module load mathlib/lapack/3.4.2/intel
lapack-3.4.2 (GNU编译器编译)source /public/software/profile.d/mathlib_lapack-3.4.2-gnu.sh 或者
module load mathlib/lapack/3.4.2/gnu
注:Mkl库的路径在设置intel编译器的环境变量时一并设置好了。
3.2.
4.其它软件
类别及版本环境变量设置方法
hdf5-1.8.12 source /public/software/profile.d/mathlib_hdf5-1.8.12-intel.sh 或者
module load mathlib/hdf5/1.8.12/intel
hdf-4.2.10 source /public/software/profile.d/mathlib_hdf-4.2.10-intel.sh 或者
module load mathlib/hdf/4.2.10/intel
python-3.5.sh source /public/software/profile.d/python-3.5.sh
4.作业管理系统
曙光集群系统(Pluto)采用基于PBS的作业调度系统。
目前系统设置了如下队列:
●debug:用于作业调试运行,共4个节点,限时15分钟。
提交作业到debug队列时,
作业脚本中的#PBS -l walltime项必须小于15分钟,否则不能提交。
●comput:136个刀片节点
●batch:136个刀片节点+16个MIC节点+16个GPU节点
队列设置为独占模式,即一个节点不会同时运行两个作业。
将来会根据实际需求调整队列设置。
4.1.PBS作业脚本
在提交作业前,用户需要编写好作业脚本文件。
作业脚本的一个例子文件是/public/software/sys/misc/pbs_sample,用户可以拷贝到自己目录下修改使用,或用pbss命令可以显示脚本文件例子。
下面是该作业脚本的内容:
#!/bin/bash
#PBS -N myjob_name
#PBS -l nodes=100:ppn=12
#PBS -j oe
#PBS -l walltime=10:0:0
#PBS -q batch
#进入提交作业时所在的目录
cd $PBS_O_WORKDIR
#计算进程数,存入变量$NP
NP=`cat $PBS_NODEFILE|wc -l`
#设置运行环境
source /public/software/profile.d/mpi_intelmpi-5.1.3.210.sh
mpirun -np $NP -machinefile $PBS_NODEFILE ./myprog.exe
脚本内容说明:
#PBS -N myjob_name 设置作业名字
#PBS -l nodes=100:ppn=12 作业需要100个节点,每节点12个进程
#PBS -j oe 将标准输出和错误输出合并输出到一个文件
#PBS -q batch 将作业提交到队列名为batch的队列中
#PBS -l walltime=10:30:0 用户估计的最大计算时间,超时系统会自动中断作业
4.2.常用命令
●查看作业脚本模板:pbss
●提交作业:qsub <作业脚本>
●查看作业:qstat [作业号]
●查看队列:qstat –Q
●删除作业:qdel <作业号>
●查看计算节点:pestat
5.系统管理员联系方式
办公室电话:61935246、59872457、61935542。