华师大高性能计算集群作业调度系统简明手册

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

华师大高性能计算集群作业调度系统简明手册

华师大高性能计算集群采用曙光的Gridview作业管理系统,其中集成了torque+Maui,是十分强大的作业调度器。下面将依次介绍华师大的的作业调度系统的设定,使用,以及相关作业调度命令

一:华师大作业调度系统队列策略设定

由于华师大的超级计算中心共分三期建设,其作业调度设定较为复杂:

CPU 节点名

(pestat

可查看) 节点Core

个数

队列备注

第一期E5450 b110-b149

b210-b229

8(2*4) mid1,huge

第二期E5640 b310-b339

b410-b439 8(2*4) mid2,

hugeA(需申请)

其中hugeA队列提交后

需经批准

第三期X5675

,GPU(c2050

)

a110-a149

a210-a249

a310-a339

a410-a447

12(2*6) mid3,small,ser

ial,gpu

hugeB(需申请),

shu(私有队列)

itcs(私有队列)

其中hugeB队列提交后

需经批准

shu和itcs为私有队列,

不向公共用户开放

在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略,如下

二:作业调度系统的使用

华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187),供用户登陆提交相关作业。一般来说,可直接使用命令行提交作业。不过为了规范和易于管理,建议使用PBS脚本进行作业提交,提交命令为qsub **.pbs(pbs脚本文件)。

下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下),仅供参考,更多高级功能,请自行查阅相应手册。

1.串行作业pbs脚本样本

#PBS -N test \\表示该作业名称为test。

#PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。

#PBS -j oe \\表示系统输出,如果是oe,则标准错误输出(stderr)和

标准输出(stdout)合并为stdout

#PBS –q serial \\表示提交到集群上的serial 队列。

. /job>job.log 为提交的作业。

2.并行作业PBS脚本样本

并行作业脚本与串行类似,只需指定相应的mpi,并采用infiniband网络相应的格式即可。

如下图,

上图中使用的是intel mpi, 略作修改即可使用openmpi,如下图:

三:作业调度系统相关命令

1.查看队列中的作业状态:qstat

利用qstat可以查看作业的运行状态:

输入以上命令后,将会有如下输出:

以上几列的含义分别为:作业号、作业名、用户名、使用的时间、状态、

队列名。其中状态R表示运行中,Q表示排队中,H表示Hold。

2.终止作业:qdel

如果一个用户想终止一个作业,可以用qdel+作业号来取消。

例如:qdel 3470

3.查看集群整体负载情况:pestat

如下图

4.显示节点信息:pbsnodes

利用pbsnodes可以显示系统各个节点的信息,比如空闲(free)、当机

(down)、离线(offline)。例如:显示所有空闲的节点:

pbsnodes -l free

更多关于PBS的命令和高级用法,例如checkjob,qhold,qorder等,请自行查阅相关手册。

相关文档
最新文档