华师大高性能计算集群作业调度系统简明手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
华师大高性能计算集群作业调度系统简明手册
华师大高性能计算集群采用曙光的Gridview作业管理系统,其中集成了torque+Maui,是十分强大的作业调度器。下面将依次介绍华师大的的作业调度系统的设定,使用,以及相关作业调度命令
一:华师大作业调度系统队列策略设定
由于华师大的超级计算中心共分三期建设,其作业调度设定较为复杂:
CPU 节点名
(pestat
可查看) 节点Core
个数
队列备注
第一期E5450 b110-b149
b210-b229
8(2*4) mid1,huge
第二期E5640 b310-b339
b410-b439 8(2*4) mid2,
hugeA(需申请)
其中hugeA队列提交后
需经批准
第三期X5675
,GPU(c2050
)
a110-a149
a210-a249
a310-a339
a410-a447
12(2*6) mid3,small,ser
ial,gpu
hugeB(需申请),
shu(私有队列)
itcs(私有队列)
其中hugeB队列提交后
需经批准
shu和itcs为私有队列,
不向公共用户开放
在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略,如下
二:作业调度系统的使用
华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187),供用户登陆提交相关作业。一般来说,可直接使用命令行提交作业。不过为了规范和易于管理,建议使用PBS脚本进行作业提交,提交命令为qsub **.pbs(pbs脚本文件)。
下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下),仅供参考,更多高级功能,请自行查阅相应手册。
1.串行作业pbs脚本样本
#PBS -N test \\表示该作业名称为test。
#PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。
#PBS -j oe \\表示系统输出,如果是oe,则标准错误输出(stderr)和
标准输出(stdout)合并为stdout
#PBS –q serial \\表示提交到集群上的serial 队列。
. /job>job.log 为提交的作业。
2.并行作业PBS脚本样本
并行作业脚本与串行类似,只需指定相应的mpi,并采用infiniband网络相应的格式即可。
如下图,
上图中使用的是intel mpi, 略作修改即可使用openmpi,如下图:
三:作业调度系统相关命令
1.查看队列中的作业状态:qstat
利用qstat可以查看作业的运行状态:
输入以上命令后,将会有如下输出:
以上几列的含义分别为:作业号、作业名、用户名、使用的时间、状态、
队列名。其中状态R表示运行中,Q表示排队中,H表示Hold。
2.终止作业:qdel
如果一个用户想终止一个作业,可以用qdel+作业号来取消。
例如:qdel 3470
3.查看集群整体负载情况:pestat
如下图
4.显示节点信息:pbsnodes
利用pbsnodes可以显示系统各个节点的信息,比如空闲(free)、当机
(down)、离线(offline)。例如:显示所有空闲的节点:
pbsnodes -l free
更多关于PBS的命令和高级用法,例如checkjob,qhold,qorder等,请自行查阅相关手册。