集群资源管理器Torque安装配置

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

集群资源管理器Torque安装配置
Torque有三个重要的可执行文件,运行在主节点上的pbs_server和pbs_sched(对于比较简单的情况,这里使用这个Torque自带的调度器)及运行在计算节点上的pbs_mom,提交任务前要先启动这三个服务。

为方便阅读,命令及在需要编辑文件的内容以兰色字体显示。

如果没有说明路径,操作(如cp)是在/root/software/torque-2.5.4进行的。

1.编译安装
1.1 解压源文件包
假设解压的文件放在/root/software
# cd /root/software
# tar -xvf torque-2.5.4.tar.gz
1.2 编译配置
# cd torque-2.5.4
#./configure --enable-docs --with-scp --enable-syslog --with-default-server=xxx(headnode-name)
其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。

其余的配置文件将安装在/var/spool/torque下(其实直接./configure应该也可以)。

1.3 编译安装
# make
# make install
2.参数设置
2.1在Server端设置队列管理员
在torque的安装源文件根目录中,执行
#./torque.setup root
上面的命令以root作为torque的管理员账号创建作业队列,也可以指定其它的用户作管理员。

如果此处添加失败,有可能是机器用户名不对,执行这步之前要确认用户名,如果出现BS_Server: LOG_ERROR::pbsd_main, unable to determine local server hostname - gethostbyname(pbsmaster.localdomain) failed, h_errno=1
解决方法:
add a line in /etc/host:
192.168.1.101 pbsmaster pbsmaster.localdomain
2.2 Server端资源管理配置(指定计算节点)
为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes 文件中指定,一行一个节点,对于只有一个节点的情况只用增加一行就行。

#vim /var/spool/torque/server_priv/nodes
amaxit np=8 gpus=2
上面由两个空格隔开的三项,分别是主机名,每个主机的cpu数(这里是8核),gpu卡数(根据机器的具体配置,这里是两张卡,支持gpu调度是Torque从2.5.4开始的新功能)
2.3 调度策略的设置(根据客户的情况改动,一般默认设置就能满足,这里不改变默认值)
#vim /var/spool/torque/sched_priv/sched_config
2.4 在计算节点上配置(对于只有一台机器的情况,管理节点和计算节点指的是同一台机器)
在每个计算节点,必须配置可以通过编辑/var/spool/torque/server_name来实现,把amaxit写入该文件即可。

#vim /var/spool/torque/server_name
amaxit
其余的配置参数写入/var/spool/torque/mom_priv/config 文件。

#vim /var/spool/torque/mom_priv/config (好像只需要输入粗体字部分)
# MOM server configuration file
# if more than one value, separate
## rule is defined by the name
## host allowed to connect to mom server on privileged port
# note: IP address of host running pbs_server it by comma.
$logevent 0x1ff
$pbsserver amaxit
$clienthost amaxit
#ideal processor load and max processor load
$ideal_load 7
$max_load 8
2.5 指定提交任务的节点
#qmgr -c 'set server submit_hosts = amaxit' (好像头节点才能执行,而且好像只需要头节点执行)3.服务启动设置
在torque-2.5.4/contrib目录下有一些pbs的启动脚本,将它们复制到/etc/.init.d。

下面这三个服务必须启动才能进行作业的提交与管理。

#cp contrib/init.d/pbs_server /etc/init.d/
#cp contrib/init.d/pbs_mom /etc/init.d/
#cp contrib/init.d/pbs_sched /etc/init.d/
查看pbs_servert,pbs_sched和pbs_mom确保里面有如下两个变量(默认是有的):
#cat /etc/init.d/pbs_server
PBS_DAEMON=/usr/local/sbin/pbs_server
PBS_HOME=/var/spool/torque
这样我们就可以象管理其它服务一样启动、停止、重启pbs的服务。

设置开机自动启动:
#chkconfig --level 35 pbs_server on (头节点需要启动)
#chkconfig --level 35 pbs_sched on (头节点需要启动)
#chkconfig --level 35 pbs_mom on
开启所需服务以后利用#pbsnodes –a 查看状态
如果执行此命令,提示出错pbsnodes -a
pbsnodes: Server has no node list MSG=node list is empty - check 'server_priv/nodes' file
将服务重启一下。

再查看
4.编辑一个提交任务的脚本
注意其中的第4行,用来指定队列需要的gpu数的语法,前面nodes指在集群中申请的节点数,ppn指每个节点使用的核数。

#vim test.pbs
#PBS -S /bin/bash
#PBS -o script.out
#PBS -j oe
#PBS -l nodes=1:ppn=1:gpus=1
cd /root/NVIDIA_GPU_Computing_SDK/C/bin/linux/release
./FDTD3d
qsub xxx.pbs 提交任务
qstat 查看任务队列。

相关文档
最新文档