pbs torque 安装过程
GPU集群Torque排队系统使用手册
GPU集群Torque排队系统使⽤⼿册多媒体计算与通讯实验室GPU集群Torque排队系统使⽤⼿册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利⽤GPU计算资源,我们利⽤Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下⾯说明使⽤本GPU集群的⼏个步骤。
1.申请帐号.本集群有⼀个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使⽤集群的学⽣需要给我发⼀个申请邮件,同时cc给⾃⼰的导师,在导师批准后相应的帐号会被建⽴。
2.建⽴job脚本⽂件Torque管理系统不能直接提交⼆进制可执⾏⽂件,需要编写⼀个⽂本的脚本⽂件,来描述相关参数情况。
⼀个⽰例脚本⽂件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本⽂件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运⾏的标准输出⽂件,如程序中printf打印信息,相当于stdout;-e 定义程序运⾏时的错误输出⽂件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表⼀个结点,⼀般申请⼀个结点,除⾮采⽤mpi并⾏作业;gpus=1定义了申请的GPU数量,根据应⽤实际使⽤的gpu数量来确定,S表⽰job类型,后⾯有详细描述。
曙光作业管理-调度系统安装配置手册
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
Linux并行集群的搭建PBS
Linux并行集群的搭建PBSLinux并行集群的搭建实验环境OS:CentOS 5.10 x86_64(一台admin,两台计算节点)主机名和和IP对应关系如下admin: 192.168.78.11node1:192.168.78.12node2:192.168.78.13软件版本:PBStorque-3.0.6.tar.gzmaui-3.3.1.tar.gzopenmpi-1.8.1.tar.bz2并行软件:apoa1.tar.gzNAMD_2.9_Linux-x86_64-multicore.tar.gz一:环境配置1.修改hosts文件,添加内容如下192.168.78.11 admin192.168.78.12 node1192.168.78.13 node22.设置无密码访问ssh-keygen一直按enter键即可,进入.ssh目录生成认证密码,并设置权限[root@admin ~]#cd.ssh/[**************]#lsid_rsa id_rsa.pub[**************]#cpid_rsa.pubauthorized_keys[**************]#chmod600authorized_keys[**************]#lltotal 12-rw------- 1rootroot 394 Aug 23 03:52 authorized_keys-rw------- 1rootroot 1675 Aug 23 03:50 id_rsa-rw-r--r-- 1rootroot 394 Aug 23 03:50 id_rsa.pub3.然后复制.ssh目录到所有计算节点[root@admin~]# for i in 1 2 ; do scp -r /root/.ssh node$i:/ro ot/ ; done第一次要输入两台计算节点的root密码,以后都是无密码访问了4.复制hosts文件到所有计算节点[root@admin ~]#for i in 1 2 ; do scp /etc/hosts node$i:/etc/ ; done5.配置nfs服务把管理节点上的/export作为共享目录[root@admin~]#mkdir -p /export/{apps,home,scripts,sourc e} //其中apps为软件共享目录,home为共享家目录[root@admin ~]#cat /etc/exports/export 192.168.78.0/255.255.255.0(rw,sync)6.启动nfs服务并检查启动是否成功[root@admin~]#chkconfig portmap on ; /etc/init.d/portma p startStartingportmap: [ OK ][root@admin~]#chkconfig nfs on ; /etc/init.d/nfs start[root@admin~]#showmount -e localhostExport listforlocalhost:/export 192.168.78.0/255.255.255.0[root@admin ~]#7.配置autofs[root@admin ~]#cat /etc/auto.master/home/etc/auto.home --timeout=1200/share/ec/auto.share --timeout=1200[root@admin ~]#cat /etc/auto.share* admin:/export/&[root@admin ~]#cat /etc/auto.home* -nfsvers=3 admin:/export/home/&[root@admin ~]#8.启动autofs服务[root@admin~]#chkconfig autofs on ; /etc/init.d/autofs star t9.复制auto.master auto.share auto.home到所有计算节点[root@admin ~]#for i in 1 2; do scp /etc/auto.master node$i: /etc/; done[root@admin ~]#for i in 1 2; do scp /etc/auto.share node$i:/ etc/; done[root@admin ~]#for i in 1 2; do scp /etc/auto.home node$i: /etc/; done10.启动autofs服务[root@admin ~]#for i in 1 2; do ssh node$i /etc/init.d/autof s start; done[root@admin ~]#for i in 1 2; do ssh node$i chkconfig autofs on; done11.配置NIS服务[root@admin ~]#yum -y install ypserv[root@admin~]#nisdomainname [root@admin~]#echo "NISDOMAIN=">>/etc /sysconfig/network[root@admin ~]#cp /usr/share/doc/ypserv-2.19/securenets /var/yp/[root@admin ~]#vi /var/yp/securenets修改后内容如下[root@admin~]#grep -v "^#" /var/yp/securenets255.0.0.0 127.0.0.0255.255.255.0 192.168.78.0[root@admin ~]#12.启动NIS服务[root@admin~]#/etc/init.d/ypserv start ;chkconfig ypserv o nStarting YP servers ervices: [ OK ][root@admin~]#/etc/init.d/yppasswdd start ;chkconfig yppa sswdd onStarting YP passwd service: [ OK ][root@admin ~]#13.修改/etc/default/useradd文件把HOME=/home更改为HOME=/export/home14.在/etc/skel目录下创建.ssh目录并在.ssh目录下建立一个名为config的文件,设置如下[root@admin~]#mkdir /etc/skel/.ssh[root@admin~]#touch /etc/skel/.ssh/config[root@admin ~]#cat /etc/skel/.ssh/configStrictHostKeyChecking noUserKnownHostsFile /dev/null[root@admin~]#chmod 600 /etc/skel/.ssh/config15.创建用于同步用户的命令◆在/usr/local/sbin目录下创建了一个名为sync_users的脚本,内容如下:#!/bin/bashYPINIT=/usr/lib64/yp/ypinitfor USER in $(sed -n '/export/p' /etc/passwd | awk -F ":" '{pri nt$1}')doif [ -z "$USER" ]; then$YPINIT -melseusermod -d /home/$USER $USERfidone$YPINIT -m◆赋予可执行权限chmod 755/usr/local/sbin/sync_users◆以后执行sync_users命令就可以同步新创建的用户16.创建一个测试用户linuxidc,并同步该用户[root@admin~]#useradd linuxidc[root@admin~]#echo linuxidc | passwd --stdin linuxidc[root@admin~]#sync_users注:以后每添加一个新用户,都需要执行sync_users命令17. 配置NIS客户端,在所有计算节点上安装ypbind,RHEL默认已经安装[root@admin~]# for i in 1 2; do ssh node$i auth-config --en able-nis --nisdomain= \--nisserver=admin --update; done18.验证NIS服务配置是否正确[root@node1~]#ypcat passwdlinuxidc:$1$tsPKQvPP$Kwom9qG/DNR1w/Lq./cQV.:500:500:: /home/linuxidc:/bin/bash[root@admin ~]#for i in 1 2; do ssh node$i id linuxidc; done uid=500(linuxidc) gid=500(linuxidc) groups=500(linuxidc)uid=500(linuxidc) gid=500(linuxidc) groups=500(linuxidc)有上面输出可知,NIS服务配置正确二:安装和配置torque(管理节点)1.首先安装openmpi[root@adminparallel]#tar xjvf openmpi-1.8.1.tar.bz2 -C /usr/ local/src/[root@adminparallel]#cd /usr/local/src/openmpi-1.8.1/[*********************.1]#./configure--prefix=/share/ap ps/openmpi[*********************.1]#make[*********************.1]#makeinstall[*********************.1]#cp-r examples/ /share/apps/ openmpi2.添加环境变量,在/share/scripts目录先建立了一个Path.sh,以后也方便计算节点添加环境变量[root@adminscripts]#pwd/share/scripts[root@adminscripts]#cat Path.sh#!/bin/bashgrep openmpi /etc/profile || cat >>/etc/profile <<EOFexport PATH=/share/apps/openmpi/bin:\$PATHexport LD_LIBRARY_PATH=/share/apps/openmpi/lib:\$LD_LI BRARY_PATHEOF[root@adminscripts]#[root@adminscripts]#sh Path.sh[root@adminscripts]#source /etc/profile3.测试openmpi是否安装成功[root@adminscripts]#which mpirun/share/apps/openmpi/bin/mpirun[root@adminscriptss]#which mpiexec/share/apps/openmpi/bin/mpiexec4.安装torque[root@adminparallel]#tar xzvf torque-3.0.6.tar.gz -C /share/ source/[root@adminparallel]#cd /share/source/torque-3.0.6/[********************.6]#./configure--enable-syslog --e nable-nvidia-gpus --enable-cpuset --disable-gui --with-rcp=scp --with-sendmail[********************.6]#make[********************.6]#makeinstall[********************.6]#pwd/share/source/torque-3.0.6[********************.6]#catinstall.shcd /share/source/torque-3.0.6make install[********************.6]#5.初始化torque创建默认队列[********************.6]#./torque.setuproot initializingTORQUE(admin: root@admin)PBS_Server admin:Create mode and server database exists, do you wishtocontinue y/(n)?yroot 26351 1 0 06:44? 00:00:00 pbs_server -t create Max openservers:10239Max openservers:10239[********************.6]#6.查看创建的默认队列batch[********************.6]#qmgr-c"ps"## Create queues and set their attributes.### Create and define queue batch#create queue batchset queue batch queue_type = Executionset queue batch resources_default.nodes = 1set queue batch resources_default.walltime= 01:00:00set queue batch enabled = Trueset queue batch started = True## Set server attributes.#set server scheduling = Trueset server acl_hosts = adminset server admins= root@adminset server operators = root@adminset server default_queue = batchset server log_events = 511set server mail_from = admset server scheduler_iteration = 600set server node_check_rate = 150set server tcp_timeout = 6set server mom_job_sync = Trueset server keep_completed = 300[********************.6]#7.更改队列batch部分属性,以满足实际需求[********************.6]#qmgr-c"sqbatchresources_de fault.walltime=24:00:00"[********************.6]#qmgr-c"ssquery_other_jobs=t rue"8.建立mom配置文件,用于复制到所有计算节点[root@adminmom_priv]#pwd/var/spool/torque/mom_priv[root@adminmom_priv]#cat config$pbsserver admin$logevent 2259.创建节点信息文件[root@adminserver_priv]#pwd/var/spool/torque/server_priv[root@adminserver_priv]#cat nodesnode1node2[root@adminserver_priv]#10.查看目前节点信息均为down状态[root@adminserver_priv]#pbsnodes -anode1state = downnp = 1ntype = clustermom_service_port = 15002mom_admin_port = 15003gpus = 0node2state = downnp = 1ntype = clustermom_service_port = 15002mom_admin_port = 15003gpus = 0[root@adminserver_priv]#11.复制pbs_server启动脚本,并设置开机自动启动[********************.6]#pwd/share/apps/torque-3.0.6[********************.6]#cpcontrib/init.d/pbs_server/etc /init.d/[********************.6]#chmod755/etc/init.d/pbs_serve r[********************.6]#chkconfigpbs_serveron12.复制pbs_mom脚本,方便复制到计算节点[********************.6]#cpcontrib/init.d/pbs_mom/etc/ init.d/13.安装maui[root@adminparallel]#tar xzvf maui-3.3.1.tar.gz -C /usr/local /src/[root@admin ~]#cd /usr/local/src/maui-3.3.1/[******************.1]#./configure--prefix=/usr/local/ma ui --with-pbs=/usr/local[******************.1]#make[******************.1]#makeinstall14.复制maui启动脚本,设置正确路径,并设置为开机启动[******************.1]#cpetc/maui.d/etc/init.d/mauid[******************.1]#vi/etc/init.d/mauid更改MAUI_PREFIX=/opt/maui为MAUI_PREFIX=/usr/local/m aui[******************.1]#chmod755/etc/init.d/mauid[******************.1]#chkconfigmauidon15.启动maui调度服务[******************.1]#/etc/init.d/mauidstartStartingMAUIScheduler: [ OK ][******************.1]#16.添加maui命令环境变量[******************.1]#vi/etc/profileexport PATH=/share/apps/openmpi/bin:/usr/local/maui/bin: $PATH[******************.1]#source/etc/profile17.安装并行软件到共享目录[root@adminnamd]#tar xzvf NAMD_2.9_Linux-x86_64-multi core.tar.gz -C /share/apps/[root@adminnamd]#tar xzvf apoa1.tar.gz -C /share/apps/ [root@adminapps]#pwd/share/apps[root@adminapps]#mv NAMD_2.9_Linux-x86_64-multicore/ namd18.添加namd命令环境变量,同时也添加到Path.sh方便计算节点添加环境变量[******************.1]#vi/etc/profileexport PATH=/share/apps/openmpi/bin:/usr/local/maui/bin: /share/apps/namd:$PATH[******************.1]#source/etc/profile[root@adminscripts]#which namd2/share/apps/namd/namd2[root@adminscripts]#cat Path.sh#!/bin/bashgrep openmpi /etc/profile || cat >>/etc/profile <<EOFexport PATH=/share/apps/openmpi/bin:/share/apps/namd:\$PATHEOF[root@adminscripts]#至此管理端配置完成三:计算节点配置torque1.计算节点安装torque[root@admin ~]#for i in 1 2; do ssh node$i sh /share/source /torque-3.0.6/install.sh; done2.复制mom配置文件到计算节点[root@admin ~]#for i in 1 2; do scp /var/spool/torque/mom _priv/confignode$i:/var/spool/torque/mom_priv/; done3.复制mom启动脚本到计算节点,启动pbs_mom服务,并设置开机启动[root@admin ~]#for i in 1 2; do scp /etc/init.d/pbs_mom no de$i:/etc/init.d/; done[root@admin ~]#for i in 1 2; do ssh node$i /etc/init.d/pbs_ mom start; doneStartingTORQUEMom: [ OK ]StartingTORQUEMom: [ OK ][root@admin ~]#for i in 1 2; do ssh node$i chkconfig pbs_m om on; done4.设置环境变量[root@admin ~]#for i in 1 2; do ssh node$i sh /share/scripts /Path.sh; done5.测试环境变量设置是否正确[root@admin ~]#for i in 1 2; do ssh node$i which mpirun; d one/share/apps/openmpi/bin/mpirun/share/apps/openmpi/bin/mpirun[root@admin ~]#for i in 1 2; do ssh node$i which namd2; d one/share/apps/namd/namd2/share/apps/namd/namd2[root@admin ~]#6.此时再观察计算节点状态,已经变成free了,即可以提交任务到计算节点了[root@adminapps]#pbsnodes -anode1state = freenp = 1ntype = clusterstatus=rectime=1408751492,varattr=,jobs=,state=free,netlo ad=12996103,gres=,loadave=0.01,ncpus=1,physmem=1024932 kb,availmem=2082428kb,totmem=2165536kb,idletime=0,nuser s=0,nsessions=0,uname=Linuxnode12.6.18-371.el5 #1 SMP Tue Oct 1 08:35:08 EDT 2013 x86_64,opsys=linuxmom_service_port = 15002mom_admin_port = 15003gpus = 0node2state = freenp = 1ntype = clusterstatus=rectime=1408751482,varattr=,jobs=,state=free,netlo ad=12983275,gres=,loadave=0.03,ncpus=1,physmem=1024932 kb,availmem=2082444kb,totmem=2165536kb,idletime=0,nuser s=0,nsessions=0,uname=Linuxnode22.6.18-371.el5 #1 SMP Tue Oct 1 08:35:08 EDT 2013 x86_64,opsys=linuxmom_service_port = 15002mom_admin_port = 15003gpus = 0[root@adminapps]#四:验证并行集群是否搭建成功1.在管理节点上以建立的linuxidc用户登录,首先设置节点间无密码互访,操作和root用户一样,只是不需要复制.ssh目录2.复制namd用软件apoa1到当前目录下[linuxidc@admin ~]$cp -r /share/apps/apoa1/ ./3.创建PBS脚本[linuxidc@admin~]$touch test.pbs脚本内容如下[linuxidc@admin ~]$cat test.pbs#!/bin/bash#PBS -N linuxidcjob1#PBS -j oe#PBS -l nodes=2:ppn=1NP=`cat $PBS_NODEFILE | wc -l`echo "This job's id is $PBS_JOBID@$PBS_QUEUE"echo "This job's workdir is $PBS_O_WORKDIR"echo "This job is running on following nodes:"cat $PBS_NODEFILEecho "This job begins at:" `date`echoechocd $PBS_O_WORKDIRmpirun -np $NP-machinefile $PBS_NODEFILE namd2 apoa1 /apoa1.namdechoechoecho "This job stops at:" `date`[linuxidc@admin ~]$4.提交任务[linuxidc@admin ~]$qsub test.pbs5.查看作业运行状态[linuxidc@admin~]$qstatJobid Name User Time UseS Queue -------------------------------------------------------- -------- - -----1.admin linuxidcjob1 linuxidc 0 R b atch[linuxidc@admin~]$qstat -nadmin:Req'd Req'd ElapJobID Username Queue Jobname SessID NDS TSK Memory Time S Time--------------------------------------- ---------------- ------ ----- ------ ------ ----- - -----1.admin linuxidc batch linuxidcjob1 66762 2 -- 24:00 R --node2/0+node1/0[linuxidc@admin ~]$由上面可知作业已经在node1和node2上运行了至此,linux并行集群搭建完成。
实时数据库Buffer机器安装步骤
中国石油炼油与化工运行系统二期推广项目 PHD Buffer机器安装说明孙浩 2008年3月19日Buffer机器安装步骤Oracle客户端的安装 Oracle客户端的网络服务配置 ODBC的配置 PHD Server的安装 TPI以及Desktop工具的安装 PHD Server的相关配置,以及TPI的使用 PHDManager的主要命令中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.2Oracle 9i客户端的安装1基本上是默认 安装选择Custom 安装选择安装的插件有六个 Oracle Network Utilities SQL*Plus Oracle Windows Interfaces Oracle Call Interfaces Oracle9i Windows Documentation (optional) Oracle Universal Installer中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.3Oracle客户端的网络服务配置Oracle客户端的安装过程中有个网络服务配置界面,可以 先忽略,在安装完毕后再进行配置,网络服务配置入口如 下图所示:中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.4Oracle客户端的网络服务配置1选择网络服务 配置填入UNF填入Oracle服 务器的IP中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.5Oracle客户端的网络服务配置1选择测试网络 服务测试成功后进 行下一步网络服务名为 UNIFORMANCE配置完成,如果机器加入了域,则网络服务名 会变为UNIFORMANCE.域名,可以进入 Oracle的安装路径下,例如: D:\oracle\ora92\network\ADMIN,用 写字板打开该目录下的tnsnames.ora文 件,进行手工编辑将后缀的域名去掉,只保留 UNIFORMANCE中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.6ODBC的配置1添加新的 ODBC连接 选择Oracle数 据连接填写相关项目 内容测试连接,如果 通过则点击 OK按钮保存中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.7PHD Server的安装1License参见 License文件可以选择安 装目录填写用户名和密码,可以直 接用本地管理员用户, 也可以选择域用户或者 新建用户,建议使用本 地管理员用户执行下一步直 至安装结束中国石油炼油与化工运行系统吉林石化项目组© 2007 BearingPoint, Inc.8TPI以及Desktop工具的安装TPI及Desktop工具安装比较简单,简单的执行默认安装即 可,也可以选择自定义安装,中间过程需要的License请参 考License文件。
torque安装步骤
一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
集群资源管理器Torque安装配置
集群资源管理器Torque安装配置Torque有三个重要的可执行文件,运行在主节点上的pbs_server和pbs_sched(对于比较简单的情况,这里使用这个Torque自带的调度器)及运行在计算节点上的pbs_mom,提交任务前要先启动这三个服务。
为方便阅读,命令及在需要编辑文件的内容以兰色字体显示。
如果没有说明路径,操作(如cp)是在/root/software/torque-2.5.4进行的。
1.编译安装1.1 解压源文件包假设解压的文件放在/root/software# cd /root/software# tar -xvf torque-2.5.4.tar.gz1.2 编译配置# cd torque-2.5.4#./configure --enable-docs --with-scp --enable-syslog --with-default-server=xxx(headnode-name)其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下(其实直接./configure应该也可以)。
1.3 编译安装# make# make install2.参数设置2.1在Server端设置队列管理员在torque的安装源文件根目录中,执行#./torque.setup root上面的命令以root作为torque的管理员账号创建作业队列,也可以指定其它的用户作管理员。
如果此处添加失败,有可能是机器用户名不对,执行这步之前要确认用户名,如果出现BS_Server: LOG_ERROR::pbsd_main, unable to determine local server hostname - gethostbyname(pbsmaster.localdomain) failed, h_errno=1解决方法:add a line in /etc/host:192.168.1.101 pbsmaster pbsmaster.localdomain2.2 Server端资源管理配置(指定计算节点)为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes 文件中指定,一行一个节点,对于只有一个节点的情况只用增加一行就行。
DB2V10.5PureScale安装指导书forLinuxandAIX(非infiniband)
DB2V10.5PureScale安装指导书forLinuxandAIX(⾮infiniband)IBM DB2 V10.5 PureScale forLinux and AIX安装指导书1⽬录1⽬录 (1)2⽂档说明 (3)2.1⽂档版本 (3)2.2⽂档类型 (3)2.3⽂档摘要 (3)3准备⼯作 (4)3.1缩写释义 (4)3.2实验安装环境 (4)3.3预安装检查 (4)3.3.1AIX安装要求 (4)3.3.2AIX集群环境配置 (10)3.3.3Linux安装要求 (14)3.3.4Linux集群环境配置 (19)3.4介质准备 (24)3.4.1AIX系统介质准备 (24)3.4.2Linux系统介质准备 (24)3.5核⼼⽂件安装 (26)3.5.1使⽤ db2_install安装 (26)3.5.2GPFS ⽂件系统配置与挂载 (30)3.5.3db2 许可证配置 (32)4DB2实例配置及验证 (34)4.1创建数据库组和⽤户标识 (34)4.1.1⽤户和组命名说明 (34)4.1.2创建组和⽤户 (36)4.2创建实例及版本验证 (37)4.2.1创建实例 (37)4.2.2db2 版本检查 (39)4.3查看实例的集群状态 (40)4.4启动实例 (40)4.5添加member (41)4.6添加CF (42)4.7为实例配置 TCP/IP 通信 (43)4.7.1更新 services ⽂件 (43)4.7.2更新数据库管理器配置 (44)4.8配置 DB2 服务器通信 (44)5数据库创建 (44)5.1实例注册变量设置 (44)5.1.1注册变量设置 (44)5.1.2注册变量检查 (45)5.2创建SAMPLE数据库 (45)2⽂档说明2.1⽂档版本⽂档历史2.2⽂档类型2.3⽂档摘要本⽂档描述数据库产品 DB2 V10.5.0.4 PureScale在Linux 和 Unix平台的安装、配置等内容。
集群资源管理器Torque安装配置
集群资源管理器Torque安装配置集群资源管理器T orque安装配置Torque有三个重要的可执行文件,运行在主节点上的pbs_server 和pbs_sched(对于比较简单的情况,这里使用这个Torque自带的调度器)及运行在计算节点上的pbs_mom,提交任务前要先启动这三个服务。
为方便阅读,命令及在需要编辑文件的内容以兰色字体显示。
如果没有说明路径,操作(如cp)是在/root/software/torque-2.5.4进行的。
1.编译安装1.1 解压源文件包假设解压的文件放在/root/software# cd /root/software# tar -xvf torque-2.5.4.tar.gz1.2 编译配置# cd torque-2.5.4#./configure --enable-docs --with-scp --enable-syslog --with-default-server=xxx(headnode-name)其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin 和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下(其实直接./configure应该也可以)。
1.3 编译安装# make# make install2.参数设置2.1在Server端设置队列管理员在torque的安装源文件根目录中,执行#./torque.setup root上面的命令以root作为torque的管理员账号创建作业队列,也可以指定其它的用户作管理员。
如果此处添加失败,有可能是机器用户名不对,执行这步之前要确认用户名,如果出现BS_Server: LOG_ERROR::pbsd_main, unable to determine local server hostname - gethostbyname(pbsmaster.localdomain) failed, h_errno=1解决方法:add a line in /etc/host:192.168.1.101 pbsmaster pbsmaster.localdomain2.2 Server端资源管理配置(指定计算节点)为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes 文件中指定,一行一个节点,对于只有一个节点的情况只用增加一行就行。
资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用
资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用李会民(hmli@)中国科学技术大学网络信息中心2008年1月目录1资源管理软件TORQUE的安装与设置21.1服务节点安装TORQUE (2)1.2服务节点初始化并设置TORQUE (2)1.3计算节点上安装TORQUE (4)1.4计算节点配置TORQUE (4)2安装与配置作业调度软件:Maui52.1服务节点上安装Maui (5)2.2服务节点上配置Maui (5)3作业运行63.1串行作业 (7)3.2并行作业 (8)3.3常用作业管理命令 (8)3.3.1查看队列中的作业状态:qstat (9)3.3.2挂起作业:qhold (10)3.3.3取消挂起:qrls (10)3.3.4终止作业:qdel和canceljob (10)3.3.5查看作业状态:checkjob (11)3.3.6交换两个作业的排队顺序:qorder (12)3.3.7选择符合特定条件的作业的作业号:qselect (12)3.3.8显示队列中作业的信息:showq (13)3.3.9显示节点信息:pbsnodes和qnodes (13)1资源管理软件TORQUE的安装与设置TORQUE和Maui可以从上下载。
以下仅是粗略配置,详细配置请参考相关手册:•TORQUE:/torquedocs21/•Maui:/products/maui/docs/mauiusers.shtml1.1服务节点安装TORQUE这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.1.tar.gzroot@kd50#cd torque-2.2.1root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcp上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。
torque使用指南
Tip1:By default, job submission is allowed only on the TORQUE server host (host on which pbs_server is running). Enablement of job submission from other hosts is documented in Configuring Job Submit Hosts.Master node:node3Submit a job:Qsub查询作业状态:qstat/qstat –f查询节点状态:pbsnodes –a第一步:安装Yum install torque*安装之后的路径:/var/torque第二步:配置配置控制节点:1.执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。
命令:./torque.setup <username>(指定一个非root用户名)qmgr -c 'p s' //查看配置信息2.具体指定计算节点在目录TORQUE_HOME/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。
简单示例如下:# Nodes 001 and 003-005 are cluster nodes#node001 np=2 cluster01 rackNumber22## node002 will be replaced soonnode002:ts waitingToBeReplaced# node002 will be replaced soon#node003 np=4 cluster01 rackNumber24node004 cluster01 rackNumber25node005 np=2 cluster01 rackNumber26 RAM16GBnode006node007 np=2node008:ts np=4配置计算节点:在计算节点的TORQUE_HOME/mom_priv/config文件中修改$pbsserver headnode # note: hostname running pbs_server $logevent 255 # bitmap of which events to log Pbsserver为你的集群中的管理节点的hostname.3.重启节点计算节点:pbs_mom控制节点:> qterm -t quick> pbs_server注意事项:1.在torque中在执行mpi程序时。
OpenPBS-Torque安装手册
OpenPBS/Torque安装手册原文出处:/blog/?p=65WebHPC官方网站:/PBS是由NAS(National Academy of Sciences)开发的面向批作业调度以及系统资源管理的软件包。
它主要用于管理使用UNIX或Linux的同构或异构的机群系统。
PBS是一个商用软件,拥有完善的解决方案和技术支持,但是价格昂贵。
OpenPBS是对PBS系统的开源实现,遵循开源软件的相关约定,所以任何个人和组织都可以自由获得其源代码并修改之。
OpenPBS目前的最新版本为2.3.16。
本文介绍的对象即为OpenPBS 2.3.16版,为简洁起见,本文下面不再另行说明版本,默认是2.3.16版。
请注意,在使用OpenPBS 2.3.16提交作业时,提交者用户名长度不能大于15个字符。
一、 OpenPBS的结构OpenPBS主要由三个主要部件组成:PBS服务守护进程: pbs_server 负责接收作业提交,位于服务节点PBS调度守护进程: pbs_sched 负责调度作业,位于服务节点PBS MOM守护进程: pbs_mom 负责监控本机并执行作业,位于所有计算节点二、在单个节点上安装OpenPBS本节介绍的是通过编译源代码的方式安装OpenPBS。
由于整个OpenPBS都被安装在一台计算机上,所以上述pbs_server、pbs_mom 和pbs_sched都会被安装在一起。
具体步骤如下:1. 安装前提:a)机器上安装有合适版本的Linux(包括Redhat9、AS3、AS4等)、gcc编译器以及其他所需的包;b)安装者能以root帐户登录计算机;c)下载合适的源码形式安装包,如pbs.tar.gz2. 以root帐号登录计算机3. 用tar zxf pbs.tar.gz命令释放安装包到指定位置,譬如:/opt/OpenPBS_2_3_16/4. 进入解压得到的目录,执行命令:a)./configure –disable-gui –set-server-home={YOUR_PBS_HOME}说明:有的环境下可能是—with-server-home,具体可以通过./configure –-help查看b) ./configure –enable-docs –disable-gui其中:–disable-gui:说明不安装GUI组件,因为该组件不常用,且对linux的tcl 等库的版本颇为挑剔,往往使安装进程无法继续–set-server-home:指定OpenPBS的工作目录,默认是 /usr/spool/PBS/5. 执行make6. 执行make install,这样就可以把OpenPBS安装到指定工作目录中7. 下面设置OpenPBS(假设工作目录为/usr/spool/PBS/)a)设置服务器名:编辑/usr/spool/PBS/server_name文件,填写本机机器名(如cngrid217)b)设置机群所有机器名:编辑/usr/spool/PBS/server_priv/nodes文件,填写本机机器名c)设置MOM进程配置文件:编辑 /usr/spool/PBS/mom_priv/config文件,写入如下内容$logevent 0×1ff$clienthost server_host其中server_host是本机的机器名,譬如mydemocluster8. 启动OpenPBSa)启动mom进程:(任意路径下)执行命令 pbs_momb)启动调度器进程:执行命令 pbs_schedc)启动OpenPBS服务器进程,创建pbs数据库执行命令 pbs_server -t create其参数 -t create 只在首次启动server进程时才需要9. 创建并设置作业队列:a) 用qmgr创建队列normalqmgr -c “c q normal”其中:-c 表示其后是命令c 表示创建q 表示队列b) 设定队列的类型为可执行队列qmgr -c “s q normal queue_type=Execution”其中s表示设置。
PBS管理系统--torque
PBS管理系统(一)作业提交系统Torque个人安装总结(PBS)PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。
PBS 的目前包括openPBS,PBS Pro和Torque三个主要分支。
其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。
Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。
一、Torque安装在master(管理结点上)1、解压安装包[root@master tmp]#tar zxvf torque-2.3.0.tar.gz2、进入到解压后的文件夹./configure--with-default-server=mastermakemake install3、(1)[root@master torque-2.3.0]#./torque.setup<user><user>必须是个普通用户(2)[root@master torque-2.3.0]#make packages把产生的tpackages,torque-package-clients-linux-x86-64.sh,torque-package-mom-linux-x86-64.sh拷贝到所有节点。
(3)[root@mastertorque-2.3.0]#./torque-package-clients-linux-x86_64.sh--install[root@master torque-2.3.0]#./torque-package-mom-linux-x86_64.sh --install(4)编辑/var/spool/torque/server_priv/nodes(需要自己建立)加入如下内容master np=4node01np=4........node09np=4(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。
torque安装步骤
一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
作业调度系统PBS(Torque)的设置
作业调度系统PBS(Torque)的设置1、修改/var/spool/torque/server_priv/⽬录下的nodes⽂件##Node1 np=16 gpus=4Node2 np=16 gpus=4...其中Node1为计算节点名字,np为逻辑核数,gpus为显卡数该⽂件给出了计算集群的最⼤可⽤资源2、重新启动pbs##\#service pbs_mon restart\#service pbs_server restart\#service pbs_sched restart注意要按照顺序重启服务3、 qmgr 是Torque⽤户对队列进⾏管理的交互界⾯##在root账户下进⼊qmgr\#qmgrQmgr:list queue QueueName //查看队列属性Queue QueueNamequeue_type = Executionmax_user_queuable = 100total_jobs = 0state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0resources_max.ncpus = 12resources_default.ncpus = 12resources_default.nodes = 1resources_default.walltime = 01:00:00mtime = Tue Jan 30 16:14:38 2018resources_assigned.ncpus = 4resources_assigned.nodect = 1max_user_run = 1enabled = Truestarted = True如要启⽤队列Qmgr:set queue QueueName enabled=True相应的设置项在中给出max_user_queuable :队列中⼀个⽤户能提交的最⼤作业数max_user_run :队列中⼀个⽤户同时运⾏的作业数resources_max.ncpus :最⼤可⽤逻辑核数total_jobs :当前提交的作业数如果要求⼀次执⾏⼀个任务,该任务占⽤12个核,其余任务需要排队,则设置max_user_run=1.然后在作业提交脚本.pbs中 -np 12qmgr不需要重新启动pbs服务4、如何将pbs_mom, pbs_server 和 pbs_sched ,并添加为系统服务,设置为开机启动##cd /usr/local/src/torque-2.5.12/contrib/init.d/cp pbs_mom pbs_server pbs_sched /etc/init.d/chkconfig --add pbs_momchkconfig --add pbs_serverchkconfig --add pbs_sched。
Torque在Linux集群上的安装配置
Torque在Linux集群上的安装配置服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。
操作系统为CentOS 5.3 x86_64版本的Linux系统。
NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。
所有的应用软件都安装在此共享磁盘上。
1.ssh免密码登录.对每个用户都要设置。
2.下载Torque,解压缩,编译。
目前,torque 2.3是稳定版本,2.4是beta版本。
为了稳定,我下载的是2.3.9版本。
下载地址:/doc/5b17756210.html,/downloads/t orque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。
将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。
或者手工写一个脚本来完成这些工作。
3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。
拓林思软件 TurboHA6.5 用户快速安装手册
TurboHA6.5用户快速安装手册 版权所有(c) 2005北京拓林思软件有限公司目录 TURBOHA6.5介绍 (1)1.TURBOHA的历史.................................................................................12.TURBOHA6.5的使用限制..........................................................................13.TURBOHA6.5的相关术语..........................................................................24.TURBOHA6.5快速安装手册的使用方法..............................................................35.TURBOHA6.5快速安装的主体过程..................................................................3第1章安装TURBOHA6.5前的准备工作 (5)1.了解和分析您的应用............................................................................52.准备TURBOHA6.5需要的硬件环境..................................................................63. 准备TURBOHA6.5需要的软件环境..................................................................74. 安装TURBOHA6.5前需要准备的操作系统的配置......................................................75. 安装TURBOHA6.5前需要准备用户的应用程序........................................................86. 安装TURBOHA6.5的配置示例......................................................................8第2章安装TURBOHA6.5 (11)1.确认您所使用的TURBOHA6.5产品的类型...........................................................112.安装TURBOHA6.5...............................................................................113.注册TURBOHA6.5产品...........................................................................12第3章系统配置 (16)1.选择其中一节点进行系统配置...................................................................162.在对方节点上同步配置.........................................................................213.运行TURBOHA6.5...............................................................................21第4章用户脚本和检测脚本 (23)1.用户脚本.....................................................................................232.检测脚本.....................................................................................26第5章配置服务(使用共享磁盘) (29)1.配置工具.....................................................................................292.配置条件.....................................................................................293.配置命令.....................................................................................294.配置服务.....................................................................................315. 修改服务.....................................................................................366. 删除服务.....................................................................................367. 启动服务.....................................................................................378. 停止服务.....................................................................................379. 切换服务.....................................................................................38第6章配置服务(不使用共享磁盘) (39)1.配置工具.....................................................................................392.配置条件.....................................................................................393.配置命令.....................................................................................394.配置服务.....................................................................................415. 修改服务.....................................................................................446. 删除服务.....................................................................................457. 启动服务.....................................................................................458. 停止服务.....................................................................................469. 切换服务.....................................................................................46第7章配置服务(使用磁盘镜像设备,KERNEL2.4) (47)1.安装磁盘镜像软件(DRBD)........................................................................472.注册具有磁盘镜像功能的LICENSE.................................................................483.配置磁盘镜像设备.............................................................................484.添加使用磁盘镜像设备的服务...................................................................505. 修改服务.....................................................................................556. 删除服务.....................................................................................567. 启动服务.....................................................................................568. 停止服务.....................................................................................579. 切换服务.....................................................................................57第8章配置服务(使用磁盘镜像设备,KERNEL2.6) (58)1.安装磁盘镜像软件(DRBD)........................................................................582.注册具有磁盘镜像功能的LICENSE.................................................................593.配置磁盘镜像设备.............................................................................594.添加使用磁盘镜像设备的服务...................................................................625. 修改服务.....................................................................................676. 删除服务.....................................................................................677. 启动服务.....................................................................................688. 停止服务.....................................................................................689. 切换服务.....................................................................................69第9章使用GUIADMIN来配置TURBOHA (70)1.GUIADMIN说明..................................................................................702.配置条件.....................................................................................703.安装、启动GUIADMIN的命令......................................................................714.连接TURBOHA服务器............................................................................725.GUIADMIN功能介绍..............................................................................746. 停止GUIADMIN..................................................................................797. 卸载GUIADMIN..................................................................................79第10章检查TURBOHA6.5的运行状态 (80)1.检查各守护进程的运行状态.....................................................................802.检查集群与服务的运行状态.....................................................................803.检查DRBD的运行状态...........................................................................84第11章卸载TURBOHA6.5 (87)1.卸载T URBO HA6.5.............................................................................872.卸载DRBD....................................................................................883.卸载GUIADMIN客户端..........................................................................88附录TURBOHA6.5 的维护 (90)1.TURBOHA6.5的日志信息.........................................................................902.FAQ..........................................................................................903. LOG收集工具的使用方法........................................................................934.联系拓林思软件有限公司.......................................................................94 T U R B O H A 6.5用户快速安装手册1注意事项 在您开始使用TurboHA6.5之前,请您全面仔细的阅读本用户手册!否则,可能会因为您的疏忽而使得安装过程出现不必要的问题! TurboHA6.5介绍 TurboHA6.5是北京拓林思软件有限公司推出的、为满足Linux平台电信级和企业级应用的高可用产品。
pbstorque安装过程
pbstorque安装过程单机安装torque PBS过程(广石化应用物理系 XU)去torque官网下载安装包,以最新的6.1.1为例。
使用系统为最新的centos7。
首先设置 hostname。
Vi /etc/hosts修改成如下:(我的hostname是wuzhou509)127.0.0.1 wuzhou509 wuzhou509 localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 Vi /etc/hostname修改成wuzhou509然后,重新登录。
输入命令 hostname ,看是否修改成功。
解压torque./configure (如果要改目录,在这里加参数)MakeMake install如何提示缺少/etc/lib/ld 那是因为有些依赖包没装。
libxml2-devel package (package name may vary)openssl-devel package (package name may vary)Tcl/Tk version 8 or later if you plan to build the GUI portion of TORQUE or use a Tcl based schedulerIf your configuration uses cpusets, you must install libhwloc; the corresponding hwloc-devel package is also required. See 4.6 Linux Cpuset Support.用yum install libtool openssl-devel libxml2-devel boost-devel gcc gcc-c++安装上面的东西。
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+硬盘空间及核心限制)异常详细版
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+用户硬盘空间限制和核心使用限制设置)异常详细版制作者:甄江苏单位:湘潭大学材料科学与工程本教程假设你已经在多台电脑上安装了CentOS 7.x 或RedHat 7.x版本的系统(建议每个机器上的root用户登录密码相同),并且强烈建议安装系统时选择系统语言选择英文。
本教程主要分为这几个方面:1.IP设置、计算机名称设置及hosts文件修改2.SSH双向免验证登录及其相关设置3.防火墙设置4.节点间共享文件夹(NFS服务)设置5.NIS服务设置6.Torque安装及其设置7.Maui安装及其设置8.用户硬盘使用容量限制9.并行运行相关说明(比较重要!!!)1.IP设置、计算机名称设置及hosts文件修改1.1IP设置(所有节点都要设置,只有主节点必须设置两个,外网和内网):一般服务器电脑都有两个网络接口(至少主节点上面有两个接口吧),我们可以把主节点上的一个网络接口连接外网,以便在其他电脑上通过远程ssh来进行相关操作,比如修改配置,提交任务等。
另一个接口来连接内网,以便和其他子节点相互通信。
外网IP是网络管理中心分配的,内网IP可以自己分配。
用图形桌面的方式进入系统,点击右上角,会看见网络接口名称(比如我的这个显示enp2s0和enp3s0两个接口),前提是你的两个接口已经连上了网线。
然后点击进去,会看见关闭(或打开)选项和设置选项,点击进去进行设置,我们现在先设置内网IP(我用enp2s0接口作为内网接口),像上面说的那样选择一个接口进去设置:进去后,点击右下角的齿轮状图标进行设置,然后出现一个菜单,会发现左边有6项,选择第三项,进去后为左中下角的第一个“Connect automatically”打钩,然后选择左边的第四个选项(也就是“IPV4”那个选项),然后选择右上角的“ON”,“ON”的下边那个(有DHCP的那个)用鼠标点击一下,选择中间的选项(“Manual”选项),然后在出来的地方填写IP相关信息,第一行是IP地址,可以填比如:192.168.1.1(不能是192.168.1.0),其他节点可以是.2,.3……等;第二行是掩码,所有节点都填写:255.255.255.0;第三个是网关,可以填:192.168.1.1(所有节点网关都一样),然后点击应用就可以了,而外网IP跟上面的设置方法差不多,只不过是在连接外网的网络接口里填写由网络管理中心给你的相关数据而已。
OpenPBS的安装配置
2009-08-27OpenPBS安装关键字: openpbs1、必须用root登录2、创建安装路径,一般是:/usr/local/OpenPBS3、 cp OpenPBS安装包到安装路径并释放4、进入释放的目录,例如:$>OpenPBS_2_3_16"5、运行OpenPBS配置脚本:$>./configure –prefix=/usr/local/OpenPBS./configure可以配置OpenPBS的环境,-prefix是一些安装目录的前缀,例如lib等,默认是/usr/local。
可以./configure –help查看所有的参数。
一般默认的就可以。
6、编译OpenPBS:在释放的目录下make.在make的过程中可能出现如下错误:make[4]: *** No rule to make target `'''', needed by `attr_atomic.o''''. Stop.make[4]: Leaving directory `/g/pbs/OpenPBS_2_3_16/src/lib/Libattr''''make[3]: *** [all] Error 2make[3]: Leaving directory `/g/pbs/OpenPBS_2_3_16/src/lib/Libattr''''make[2]: *** [all] Error 2make[2]: Leaving directory `/g/pbs/OpenPBS_2_3_16/src/lib''''make[1]: *** [all] Error 2make[1]: Leaving directory `/g/pbs/OpenPBS_2_3_16/src''''make: *** [all] Error 2这需要一个补丁来解决,参见附录7、安装OpenPBS:编译成功后,make install8、创建节点(node)文件/usr/spool/PBS/server_priv/nodes文件内容是节点的机器名。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单机安装torque PBS过程
(广石化应用物理系 XU)
去torque官网下载安装包,以最新的6.1.1为例。
使用系统为最新的centos7。
首先设置 hostname。
Vi /etc/hosts
修改成如下:(我的hostname是wuzhou509)
127.0.0.1 wuzhou509 wuzhou509 localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 Vi /etc/hostname
修改成wuzhou509
然后,重新登录。
输入命令 hostname ,看是否修改成功。
解压torque
./configure (如果要改目录,在这里加参数)
Make
Make install
如何提示缺少/etc/lib/ld 那是因为有些依赖包没装。
∙libxml2-devel package (package name may vary)
∙openssl-devel package (package name may vary)
∙Tcl/Tk version 8 or later if you plan to build the GUI portion of TORQUE or use a Tcl based scheduler
∙If your configuration uses cpusets, you must install libhwloc; the corresponding hwloc-devel package is also required. See 4.6 Linux Cpuset Support.
用 yum install libtool openssl-devel libxml2-devel boost-devel gcc gcc-c++
安装上面的东西。
安装完成后。
设置。
Red Hat 6-based systems
[root]# cp contrib/init.d/trqauthd /etc/init.d/
[root]# chkconfig --add trqauthd
[root]# echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf
[root]# ldconfig
[root]# service trqauthd start
SUSE 11-based systems
[root]# cp contrib/init.d/suse.trqauthd /etc/init.d/trqauthd
[root]# chkconfig --add trqauthd
[root]# echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf
[root]# ldconfig
[root]# service trqauthd start
Red Hat 7-based and SUSE 12-based systems
[root]# cp contrib/systemd/trqauthd.service /usr/lib/systemd/system/
[root]# systemctl enable trqauthd.service
[root]# echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf
[root]# ldconfig
[root]# systemctl start trqauthd.service
接下来继续:
1.Verify that the /var/spool/torque/server_name file exists and contains
the correct name of the server.
[root]# echo <pbs_server's_hostname>>/var/spool/torque/server_name
2.By default, TORQUE installs all binary files
to /usr/local/bin and /usr/local/sbin. Make sure the path environment variable includes these directories for both the installation user and the root user.
[root]# export PATH=/usr/local/bin/:/usr/local/sbin/:$PATH
3.Initialize serverdb by executing the torque.setup script.
[root]# ./torque.setup root
这一步如果出错,检查hostname是否按照上面修改hosts
新建 /var/spool/torque/server_priv/nodes
内容为:wuzhou509 np=32 all
新建/var/spool/torque/mom_priv/config 内容为:
$pbsserver wuzhou509 # hostname running pbs server
$logevent 225 # bitmap of which events to log
修改walltime
qmgr-c "set queue batch resources_default.walltime=900:00:00"
然后qterm
填加自动启动:
* If RHEL distribution, do the following *
[root]# cp contrib/init.d/pbs_server contrib/init.d/pbs_mom contrib/init.d/pbs_sched /etc/init.d
[root]# chkconfig --add pbs_server
[root]# chkconfig --add pbs_sched
[root]# chkconfig --add pbs_mom
[root]# service pbs_server restart
[root]# service pbs_sched restart
[root]# service pbs_mom start
完成。