集群资源管理器Torque安装配置
GPU集群Torque排队系统使用手册
GPU集群Torque排队系统使⽤⼿册多媒体计算与通讯实验室GPU集群Torque排队系统使⽤⼿册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利⽤GPU计算资源,我们利⽤Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下⾯说明使⽤本GPU集群的⼏个步骤。
1.申请帐号.本集群有⼀个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使⽤集群的学⽣需要给我发⼀个申请邮件,同时cc给⾃⼰的导师,在导师批准后相应的帐号会被建⽴。
2.建⽴job脚本⽂件Torque管理系统不能直接提交⼆进制可执⾏⽂件,需要编写⼀个⽂本的脚本⽂件,来描述相关参数情况。
⼀个⽰例脚本⽂件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本⽂件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运⾏的标准输出⽂件,如程序中printf打印信息,相当于stdout;-e 定义程序运⾏时的错误输出⽂件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表⼀个结点,⼀般申请⼀个结点,除⾮采⽤mpi并⾏作业;gpus=1定义了申请的GPU数量,根据应⽤实际使⽤的gpu数量来确定,S表⽰job类型,后⾯有详细描述。
曙光作业管理-调度系统安装配置手册
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
集群的配置步骤
集群的配置步骤一、搭建集群环境的准备工作在开始配置集群之前,我们需要先进行一些准备工作。
首先,确保所有服务器都已经正确连接到网络,并且能够相互通信。
其次,确保每台服务器上已经安装了操作系统,并且操作系统版本一致。
最后,确保每台服务器上已经安装了必要的软件和工具,例如SSH、Java等。
二、创建集群的主节点1.选择一台服务器作为集群的主节点,将其IP地址记录下来。
2.登录到主节点服务器上,安装并配置集群管理软件,例如Hadoop、Kubernetes等。
3.根据集群管理软件的要求,配置主节点的相关参数,例如集群名称、端口号等。
4.启动集群管理软件,确保主节点能够正常运行。
三、添加集群的工作节点1.选择一台或多台服务器作为集群的工作节点,将其IP地址记录下来。
2.登录到工作节点服务器上,安装并配置集群管理软件,确保与主节点的版本一致。
3.根据集群管理软件的要求,配置工作节点的相关参数,例如主节点的IP地址、端口号等。
4.启动集群管理软件,确保工作节点能够正常连接到主节点。
四、测试集群的连接和通信1.在主节点服务器上,使用集群管理软件提供的命令行工具,测试与工作节点的连接和通信。
例如,可以使用Hadoop的hdfs命令测试与工作节点的文件系统的连接。
2.确保主节点能够正确访问工作节点的资源,并且能够将任务分配给工作节点进行处理。
五、配置集群的资源管理1.根据集群管理软件的要求,配置集群的资源管理策略。
例如,可以设置工作节点的CPU和内存的分配比例,以及任务的调度算法等。
2.确保集群能够合理分配资源,并且能够根据需要动态调整资源的分配。
六、监控和管理集群1.安装并配置集群的监控和管理工具,例如Ganglia、Zabbix等。
2.确保监控和管理工具能够正常运行,并能够及时发现和处理集群中的故障和问题。
3.定期对集群进行巡检和维护,确保集群的稳定和可靠性。
七、优化集群的性能1.根据实际情况,对集群的各项参数进行调优,以提高集群的性能和效率。
torque安装步骤
一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
PBS管理系统--torque
PBS 管理系统(一)作业提交系统Torque 个人安装总结(PBS)PBS 是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。
PBS 的目前包括openPBS,PBS Pro 和Torque 三个主要分支。
其中OpenPBS 是最早的PBS 系统,目前已经没有太多后续开发,PBS pro 是PBS 的商业版本,功能最为丰富。
Torque 是Clustering 公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque 的过程。
一、Torque 安装在master(管理结点上)1、解压安装包[root@master tmp]# tar zxvf torque-2.3.0.tar.gz2、进入到解压后的文件夹./configure --with-default-server=mastermakemake install3、(1)[*********************.0]#./torque.setup<user><user>必须是个普通用户(2)[*********************.0]#makepackages把产生的 tpackages , torque-package-clients-linux-x86-64.sh,torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
(3)[root@mastertorque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install[*********************.0]#./torque-package-mom-linux-x86_64.sh --install(4)编辑/var/spool/torque/server_priv/nodes (需要自己建立)加入如下内容master np=4node01 np=4........node09 np=4(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local 里使其能开机自启动。
集群服务器安装及配置
1 集群服务器安装及配置步骤节点1节点2存储注释安装配置系统上电上电断电检查所有共享总线上的存储设备是否都已经断电,给各节点上电。
1.1 安装Windows Server 2003操作系统在服务器1和服务器2分别独立安装Windows Server 2003操作系统。
安装要开始安装过程,请直接从 Windows Server 2003 CD 启动。
您的 CD-ROM 必须支持可启动的 CD。
注意:在配置分区和格式化驱动器时,服务器硬盘驱动器上的数据均会被破坏。
1.1.1 开始安装安装程序在运行 Windows Server 2003 的计算机中创建磁盘分区,格式化驱动器,然后将安装文件从 CD 复制到服务器上。
注意:这些说明假定在尚未运行 Windows 的计算机上安装 Windows Server 2003。
如果从较早版本的 Windows 进行升级,某些安装步骤可能会有所不同。
开始安装1.将“Windows Server 2003 CD”插入 CD-ROM 驱动器。
2.“重新启动”计算机。
在出现提示时,按任意键从 CD 启动。
此时将开始安装 Windows Server 2003。
3.在“欢迎使用安装程序”屏幕上,按“Enter”键。
4.阅读许可协议,如果接受的话,请按“F8”键。
注意:如果此服务器上已安装了较早版本的Windows Server 2003,则可能会出现一条消息,询问您是否要修复驱动器。
按“Esc”键,继续进行安装而不修复驱动器。
5.按照说明进行操作,删除所有现有的磁盘分区。
具体步骤可能会因计算机上现有分区的数量和类型而异。
继续删除分区,直至所有磁盘空间均标记为“未划分的空间”为止。
6.在将所有磁盘空间均标记为“未划分的空间”后,按“C”键,在第一个磁盘驱动器的未划分空间中创建一个分区(如果适用)。
7.在出现“创建磁盘分区大小(单位 MB)”提示时,键入20480,然后按“Enter”键。
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+硬盘空间及核心限制)异常详细版
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+用户硬盘空间限制和核心使用限制设置)异常详细版制作者:甄江苏单位:湘潭大学材料科学与工程本教程假设你已经在多台电脑上安装了CentOS 7.x 或RedHat 7.x版本的系统(建议每个机器上的root用户登录密码相同),并且强烈建议安装系统时选择系统语言选择英文。
本教程主要分为这几个方面:1.IP设置、计算机名称设置及hosts文件修改2.SSH双向免验证登录及其相关设置3.防火墙设置4.节点间共享文件夹(NFS服务)设置5.NIS服务设置6.Torque安装及其设置7.Maui安装及其设置8.用户硬盘使用容量限制9.并行运行相关说明(比较重要!!!)1.IP设置、计算机名称设置及hosts文件修改1.1IP设置(所有节点都要设置,只有主节点必须设置两个,外网和内网):一般服务器电脑都有两个网络接口(至少主节点上面有两个接口吧),我们可以把主节点上的一个网络接口连接外网,以便在其他电脑上通过远程ssh来进行相关操作,比如修改配置,提交任务等。
另一个接口来连接内网,以便和其他子节点相互通信。
外网IP是网络管理中心分配的,内网IP可以自己分配。
用图形桌面的方式进入系统,点击右上角,会看见网络接口名称(比如我的这个显示enp2s0和enp3s0两个接口),前提是你的两个接口已经连上了网线。
然后点击进去,会看见关闭(或打开)选项和设置选项,点击进去进行设置,我们现在先设置内网IP(我用enp2s0接口作为内网接口),像上面说的那样选择一个接口进去设置:进去后,点击右下角的齿轮状图标进行设置,然后出现一个菜单,会发现左边有6项,选择第三项,进去后为左中下角的第一个“Connect automatically”打钩,然后选择左边的第四个选项(也就是“IPV4”那个选项),然后选择右上角的“ON”,“ON”的下边那个(有DHCP的那个)用鼠标点击一下,选择中间的选项(“Manual”选项),然后在出来的地方填写IP相关信息,第一行是IP地址,可以填比如:192.168.1.1(不能是192.168.1.0),其他节点可以是.2,.3……等;第二行是掩码,所有节点都填写:255.255.255.0;第三个是网关,可以填:192.168.1.1(所有节点网关都一样),然后点击应用就可以了,而外网IP跟上面的设置方法差不多,只不过是在连接外网的网络接口里填写由网络管理中心给你的相关数据而已。
turbolinux GreatTurbo Cluster Server 10 用户快速安装手册
GreatTurbo Cluster Server 10用户快速安装手册版权所有 (c) 2006北京拓林思软件有限公司目录GREATTURBO CLUSTER SERVER 10介绍 (1)1.G REAT T URBO C LUSTER S ERVER 10的使用限制 (1)2.G REAT T URBO C LUSTER S ERVER 10的相关术语 (2)3.G REAT T URBO C LUSTER S ERVER 10快速安装手册的使用方法 (4)4.G REAT T URBO C LUSTER S ERVER 10快速安装的主体过程 (4)第1章安装GREATTURBO CLUSTER SERVER 10前的准备工作 (5)1.了解和分析您的应用 (5)2.准备G REAT T URBO C LUSTER S ERVER 10需要的硬件环境 (6)3.准备G REAT T URBO C LUSTER S ERVER 10需要的软件环境 (7)4.安装G REAT T URBO C LUSTER S ERVER 10前需要准备的操作系统的配置 (8)5.安装G REAT T URBO C LUSTER S ERVER 10前需要准备用户的应用程序 (8)6.安装G REAT T URBO C LUSTER S ERVER 10的配置示例 (9)第2章安装GREATTURBO CLUSTER SERVER 10 (11)1.确认您所使用的G REAT T URBO C LUSTER S ERVER 10产品的类型 (11)2.安装G REAT T URBO C LUSTER S ERVER 10 (11)3.注册G REAT T URBO C LUSTER S ERVER 10产品 (13)第3章系统配置 (16)1.选择其中一节点进行系统配置 (16)2.在对方节点上同步配置 (23)3.运行G REAT T URBO C LUSTER SERVER 10 (23)第4章用户脚本和检测脚本 (24)1.用户脚本 (24)2.检测脚本 (27)第5章配置HA服务--使用共享磁盘 (30)1.配置工具 (30)2.配置条件 (30)3.配置命令 (30)4.配置服务 (32)5.修改服务 (37)6.删除服务 (38)7.启动服务 (38)8.停止服务 (39)9.切换服务 (39)第6章配置HA服务--不使用共享磁盘 (40)1.配置工具 (40)2.配置条件 (40)3.配置命令 (40)4.配置服务 (42)5.修改服务 (45)6.删除服务 (46)7.启动服务 (46)8.停止服务 (47)9.切换服务 (47)第7章配置HA服务--使用磁盘镜像设备KERNEL2.4 (49)1.安装磁盘镜像软件(DRBD) (49)2.注册具有磁盘镜像功能的LICENSE (50)3.配置磁盘镜像设备 (50)4.添加使用磁盘镜像设备的服务 (52)5.修改服务 (57)6.删除服务 (58)7.启动服务 (59)8.停止服务 (59)9.切换服务 (59)第8章配置HA服务--使用磁盘镜像设备KERNEL2.6 (61)1.安装磁盘镜像软件(DRBD) (61)2.注册具有磁盘镜像功能的LICENSE (62)3.配置磁盘镜像设备 (62)4.添加使用磁盘镜像设备的服务 (65)5.修改服务 (70)6.删除服务 (71)7.启动服务 (71)8.停止服务 (72)9.切换服务 (72)第9章配置LB服务--DR方式 (73)1.配置工具 (73)2.配置条件 (73)3.配置REALSERVER环境 (73)4.配置调度节点环境 (74)5.配置命令 (74)6.配置单端口服务 (76)7.修改服务 (81)8.删除服务 (82)9.启动服务 (82)10.停止服务 (83)11.切换服务 (83)第10章配置LB服务--TUN方式 (85)1.配置工具 (85)2.配置条件 (85)3.配置REALSERVER环境 (85)4.配置调度节点环境 (86)5.配置命令 (87)6.配置单端口服务 (88)7.修改服务 (93)8.删除服务 (94)9.启动服务 (94)10.停止服务 (95)11.切换服务 (95)第11章配置LB服务--NAT方式 (97)1.配置工具 (97)2.配置条件 (97)3.配置REALSERVER环境 (97)4.配置调度节点环境 (98)5.配置命令 (99)6.配置单端口服务 (100)7.修改服务 (105)8.删除服务 (106)9.启动服务 (106)10.停止服务 (107)11.切换服务 (107)第12章配置LB服务--多端口DR方式 (109)1.配置工具 (109)2.配置条件 (109)3.配置REALSERVER环境 (109)4.配置调度节点环境 (110)5.配置命令 (111)6.配置多端口服务 (112)7.修改服务 (117)8.删除服务 (118)9.启动服务 (118)10.停止服务 (119)11.切换服务 (119)第13章使用GUIADMIN来配置GREATTURBO CLUSTER SERVER 10 (121)1.GUIADMIN说明 (121)2.配置条件 (122)3.安装、启动GUIADMIN的命令 (122)4.连接G REAT T URBO C LUSTER S ERVER 10服务器 (123)5.GUIADMIN功能介绍 (125)6.停止GUIADMIN (131)7.卸载GUIADMIN (131)第14章检查GREATTURBO CLUSTER SERVER 10的运行状态 (132)1.检查各守护进程的运行状态 (132)2.检查集群与服务的运行状态 (132)3.检查DRBD的运行状态 (136)4.检查IPVS调度情况 (139)第15章卸载GREATTURBO CLUSTER SERVER 10 (140)1.卸载G REAT T URBO C LUSTER S ERVER 10 (140)2.卸载DRBD (141)3.卸载G REAT T URBO C LUSTER S ERVER10 REALSERVER包 (142)4.卸载GUIADMIN客户端 (142)附录 GREATTURBO CLUSTER SERVER 10 的维护 (143)1.G REAT T URBO C LUSTER S ERVER 10的日志信息 (143)2.FAQ (143)3.L OG收集工具的使用方法 (146)4.联系拓林思软件有限公司 (147)介绍注意事项在您开始使用GreatTurbo Cluster Server 10之前,请您全面仔细的阅读本用户手册!否则,可能会因为您的疏忽而使得安装过程出现不必要的问题!GreatTurbo Cluster Server 10介绍GreatTurbo Cluster Server 10是北京拓林思软件有限公司推出的为满足Linux 平台企业级应用的高可用和负载均衡产品。
资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用
资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用李会民(hmli@)中国科学技术大学网络信息中心2008年1月目录1资源管理软件TORQUE的安装与设置21.1服务节点安装TORQUE (2)1.2服务节点初始化并设置TORQUE (2)1.3计算节点上安装TORQUE (4)1.4计算节点配置TORQUE (4)2安装与配置作业调度软件:Maui52.1服务节点上安装Maui (5)2.2服务节点上配置Maui (5)3作业运行63.1串行作业 (7)3.2并行作业 (8)3.3常用作业管理命令 (8)3.3.1查看队列中的作业状态:qstat (9)3.3.2挂起作业:qhold (10)3.3.3取消挂起:qrls (10)3.3.4终止作业:qdel和canceljob (10)3.3.5查看作业状态:checkjob (11)3.3.6交换两个作业的排队顺序:qorder (12)3.3.7选择符合特定条件的作业的作业号:qselect (12)3.3.8显示队列中作业的信息:showq (13)3.3.9显示节点信息:pbsnodes和qnodes (13)1资源管理软件TORQUE的安装与设置TORQUE和Maui可以从上下载。
以下仅是粗略配置,详细配置请参考相关手册:•TORQUE:/torquedocs21/•Maui:/products/maui/docs/mauiusers.shtml1.1服务节点安装TORQUE这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.1.tar.gzroot@kd50#cd torque-2.2.1root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcp上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。
安装服务器群集的硬件、软件和网络要求
安装服务器群集的硬件、软件和网络要求服务器群集是一个由多台服务器组成的集群系统,用于提高系统性能、可用性和可扩展性。
安装服务器群集需要满足一系列硬件、软件和网络要求,本文将详细介绍这些要求。
一、硬件要求1.服务器服务器是构建服务器群集的核心硬件设备,需要选择具备高性能和可靠性的服务器。
以下是服务器的硬件要求:- 处理器:服务器应搭载支持多核心、高频率的处理器,以确保处理能力和响应速度。
- 内存:服务器应配备足够的内存容量,以满足高并发和大规模数据处理的需求。
- 存储:服务器应具备高速、大容量的存储设备,例如固态硬盘(SSD)或RAID阵列。
- 网络接口:服务器应支持高速网络接口,例如千兆以太网或光纤通信接口,以实现快速数据传输。
2.网络设备服务器群集需要依赖网络设备进行通信和数据传输。
以下是网络设备的硬件要求:- 交换机:选择支持高速数据传输和多个端口的交换机,以满足服务器之间的连接需求。
- 路由器:安装具备高性能和稳定性的路由器,确保网络连接的可靠性和安全性。
- 防火墙:配置防火墙确保服务器群集的网络安全,阻止未经授权的访问。
二、软件要求1. 操作系统服务器群集需要在操作系统上进行配置和管理。
以下是操作系统的软件要求:- 服务器操作系统:选择支持服务器集群的操作系统,例如Windows Server、Linux等。
- 高可用性软件:安装支持服务器群集高可用性功能的软件,如Windows Server Failover Clustering或Linux Heartbeat。
2.应用程序根据实际需求,在服务器群集上安装相应的应用程序。
以下是应用程序的软件要求:- 数据库软件:如果需要部署数据库服务器群集,选择适应的数据库软件,如Microsoft SQL Server集群或MySQL集群。
- 应用程序服务:安装支持群集的应用程序服务,如Web服务器群集或文件共享群集。
三、网络要求服务器群集的性能和可靠性受网络的影响,需要满足一定的网络要求。
OpenPBS-Torque安装手册
OpenPBS/Torque安装手册原文出处:/blog/?p=65WebHPC官方网站:/PBS是由NAS(National Academy of Sciences)开发的面向批作业调度以及系统资源管理的软件包。
它主要用于管理使用UNIX或Linux的同构或异构的机群系统。
PBS是一个商用软件,拥有完善的解决方案和技术支持,但是价格昂贵。
OpenPBS是对PBS系统的开源实现,遵循开源软件的相关约定,所以任何个人和组织都可以自由获得其源代码并修改之。
OpenPBS目前的最新版本为2.3.16。
本文介绍的对象即为OpenPBS 2.3.16版,为简洁起见,本文下面不再另行说明版本,默认是2.3.16版。
请注意,在使用OpenPBS 2.3.16提交作业时,提交者用户名长度不能大于15个字符。
一、 OpenPBS的结构OpenPBS主要由三个主要部件组成:PBS服务守护进程: pbs_server 负责接收作业提交,位于服务节点PBS调度守护进程: pbs_sched 负责调度作业,位于服务节点PBS MOM守护进程: pbs_mom 负责监控本机并执行作业,位于所有计算节点二、在单个节点上安装OpenPBS本节介绍的是通过编译源代码的方式安装OpenPBS。
由于整个OpenPBS都被安装在一台计算机上,所以上述pbs_server、pbs_mom 和pbs_sched都会被安装在一起。
具体步骤如下:1. 安装前提:a)机器上安装有合适版本的Linux(包括Redhat9、AS3、AS4等)、gcc编译器以及其他所需的包;b)安装者能以root帐户登录计算机;c)下载合适的源码形式安装包,如pbs.tar.gz2. 以root帐号登录计算机3. 用tar zxf pbs.tar.gz命令释放安装包到指定位置,譬如:/opt/OpenPBS_2_3_16/4. 进入解压得到的目录,执行命令:a)./configure –disable-gui –set-server-home={YOUR_PBS_HOME}说明:有的环境下可能是—with-server-home,具体可以通过./configure –-help查看b) ./configure –enable-docs –disable-gui其中:–disable-gui:说明不安装GUI组件,因为该组件不常用,且对linux的tcl 等库的版本颇为挑剔,往往使安装进程无法继续–set-server-home:指定OpenPBS的工作目录,默认是 /usr/spool/PBS/5. 执行make6. 执行make install,这样就可以把OpenPBS安装到指定工作目录中7. 下面设置OpenPBS(假设工作目录为/usr/spool/PBS/)a)设置服务器名:编辑/usr/spool/PBS/server_name文件,填写本机机器名(如cngrid217)b)设置机群所有机器名:编辑/usr/spool/PBS/server_priv/nodes文件,填写本机机器名c)设置MOM进程配置文件:编辑 /usr/spool/PBS/mom_priv/config文件,写入如下内容$logevent 0×1ff$clienthost server_host其中server_host是本机的机器名,譬如mydemocluster8. 启动OpenPBSa)启动mom进程:(任意路径下)执行命令 pbs_momb)启动调度器进程:执行命令 pbs_schedc)启动OpenPBS服务器进程,创建pbs数据库执行命令 pbs_server -t create其参数 -t create 只在首次启动server进程时才需要9. 创建并设置作业队列:a) 用qmgr创建队列normalqmgr -c “c q normal”其中:-c 表示其后是命令c 表示创建q 表示队列b) 设定队列的类型为可执行队列qmgr -c “s q normal queue_type=Execution”其中s表示设置。
Torque在Linux集群上的安装配置
Torque在Linux集群上的安装配置服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。
操作系统为CentOS 5.3 x86_64版本的Linux系统。
NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。
所有的应用软件都安装在此共享磁盘上。
1.ssh免密码登录.对每个用户都要设置。
2.下载Torque,解压缩,编译。
目前,torque 2.3是稳定版本,2.4是beta版本。
为了稳定,我下载的是2.3.9版本。
下载地址:/doc/5b17756210.html,/downloads/t orque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。
将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。
或者手工写一个脚本来完成这些工作。
3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。
torque创建队列
Torque创建队列安装完torque后默认只有一个batch队列,所有节点都属于batch队列有些情况下客户需要创建不同队列,来限制节点资源的使用以一个18节点的集群为例创建一个short队列,队列节点资源限制在node11,node12,node13,node14此4台机器1,创建队列[root@m1 server_priv]# qmgr -c "create queue short queue_type=execution"2,定义队列必须属性[root@m1 server_priv]# qmgr -c "set queue short enabled = True"[root@m1 server_priv]# qmgr -c "set queue short started = True"3,指定可用节点资源修改/usr/local/inspur/server_priv/nodes文件如下node1 np=12node2 np=12node3 np=12node4 np=12node5 np=12node6 np=12node7 np=12node8 np=12node9 np=12node10 np=12node11 np=12 shortnode12 np=12 shortnode13 np=12 shortnode14 np=12 shortnode15 np=12node16 np=12node17 np=12node18 np=12执行命令[root@m1 server_priv]# qmgr -c "set queue short =short"要使操作生效需要重启pbs_server先停掉pbs_server[root@m1 server_priv]# qterm -t quick再启动pbs_server[root@m1 server_priv]# pbs_server4,测试队列,向队列里提交作业[inspur@m1 wtk]$ qsub -q short查看状态[inspur@m1 wtk]$ watch qstat -nEvery : qstat -n Wed Jun 22 15:38:54 2011m1:Req'd Req'd ElapJob ID Username Queue Jobname SessID NDS TSKMemory Time S Time-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----inspur short hello 2531 4 -- -- 12:00 R --node14/1+node14/0+node13/1+node13/0+node12/1+node12/0+node11/1+node11/05,删除队列用以下命令删除[root@m1 server_priv]# qmgr -c "del queue short"对于队列其他资源限制,可以参考手册,以下也列出一些队列最大作业数量(包含运行的和排队的):qmgr -c "set queue short max_queuable=20"队列最大运行作业数量(不包含排队的):qmgr -c "set queue short max_running=20"一个用户最大作业数量qmgr -c "set queue short max_user_queuable=20"一个用户最大运行作业数量(不包含排队的):qmgr -c "set queue short max_user_run=10"一个用户单个作业最大使用cpu核心数量(不包含排队的):set queue long = 2指定队列的优先级:qmgr -c "set queue short priority=20"指定队列中所有作业可用的最大计算节点数量:qmgr -c "set queue short =20"指定队列中单个提交的作业的最大计算节点数量:qmgr -c "set queue short =16"允许提交作业的机器qmgr -c "set queue batch acl_hosts=h1+h2+h3" qmgr -c "set queue batch acl_host_enable=true"set server acl_hosts = snset server acl_hosts += jnset server acl_hosts += mnset server acl_roots = rootset server managers = root@mnset server operators = daihj@*set server operators += inspur@* 让普通用户qsta 查看所有作业set server operators += liqing@*set server operators += root@*set server operators += sunych@*set server operators += zhjx@*set server default_queue = batchset server log_events = 511set server mail_from = admset server scheduler_iteration = 600set server node_check_rate = 150set server tcp_timeout = 6set server keep_completed = 30set server submit_hosts = mnset server submit_hosts += jnset server submit_hosts += snset server auto_node_np = Trueset server next_job_number = 458mqmgr -c "set server operators -= zhangyun@*" 减去一个属性。
Windows2003下群集cluster详细配置过程
Windows2003下群集cluster详细配置过程目录一、环境的准备 (3)1.AD活动目录的安装 (3)2.SCSI软件的安装和配置 (8)A.服务端配置 (8)B.客户端安装和配置 (13)二、windows2003 cluster建立和配置 (18)1.配置网络适配器 (18)2.群集cluster的安装 (20)3.添加节点RPT-DB服务器 (24)4.配置心跳网络 (27)三、SQL2005 cluster安装和sp3补丁安装和相关配置 (29)1.磁盘管理 (29)2.新建MSDTC组和资源 (30)A.打开群集管理器,新建组MSDTC GROUP (31)B.新建磁盘资源--G盘 (32)C.新建ip资源 (33)D.新建网络名称 (35)E.新建分布式事务协调器DTC (36)3.添加MES-SQL组和RPT-SQL组 (38)4.安装IIS (SQL2005需IIS的支持,2个节点都要安装) (39)5.安装SQL2005 (40)6.安装sql2005 sp3补丁 (50)四、群集故障自动回复的相关配置 (53)五、hp服务器双网卡的绑定以及群集cluster的相关修改和配置 (58)1.网卡的绑定 (58)2.网卡绑定后群集的相关配置 (62)六、群集管理器dhcp和文件服务的cluster配置 (68)1.DHCP服务cluster的配置 (68)A.在2个节点MES-DB和RPT-DB上分别安装DHCP服务 (68)B.打开群集管理器 (69)C.打开开始-管理工具-DHCP管理器 (75)D.然后用客户端验证一下,客户端设置ip自动获取,打开cmd,输入ipconfig/release,再ipconfig/renew获取 (78)2.文件服务的cluster设置 (79)A.新建资源 (79)B.客户端用UNC路径来测试 (81)七、exchange群集的安装和cluster配置 (83)1.安装前的准备 (83)2.安装exchange2003 (85)3.群集cluster的配置 (92)4.测试exchange (97)一、环境的准备一台hpdl160G6服务器做为域控,域名为,域控ip为172.23.8.15 掩码:255.255.248.0;一台hpdl160G6服务器做为文件服务器,本次文件服务器不做讲解,主要讲解sql服务器的cluster群集;两台hpdl380G6服务器做为群集主机,主要应用为sql2005,网卡用的双线绑定,以达到冗余(操作系统为windows2003 enterprise sp2版本);两台Cisco mds 9124光纤交换机,以达到冗余;一台hp msa2312做为后台存储,当前客户要求为raid5,划分3个卷,800G 供fileserver;700G供mes app应用程序;300G供rpt app应用程序;存储用双控,以达到冗余;群集账户为cluadmin;sql cluster账户:sqladmin;2个sql cluster组:rptgroup和mesgroup(可以是本地域组或全局组,但必须是安全组);两台db服务器用一条交叉线直连,作为心跳线,相关ip见图所示1.AD活动目录的安装AD服务器的ip设置:开始-运行-dcpromo到这里AD安装完成了,提示重启,按确定。
pbs torque 安装过程
单机安装torque PBS过程(广石化应用物理系XU)去torque官网下载安装包,以最新的6.1.1为例。
使用系统为最新的centos7。
首先设置hostname。
Vi/etc/hosts修改成如下:(我的hostname是wuzhou509)127.0.0.1wuzhou509wuzhou509localhost4localhost4.localdomain4::1localhost localhost.localdomain localhost6localhost6.localdomain6 Vi/etc/hostname修改成wuzhou509然后,重新登录。
输入命令hostname,看是否修改成功。
解压torque./configure(如果要改目录,在这里加参数)MakeMake install如何提示缺少/etc/lib/ld那是因为有些依赖包没装。
libxml2-devel package(package name may vary)openssl-devel package(package name may vary)Tcl/Tk version8or later if you plan to build the GUI portion of TORQUE or use a Tcl based schedulerIf your configuration uses cpusets,you must install libhwloc;thecorresponding hwloc-devel package is also required.See4.6Linux Cpuset Support.用yum install libtool openssl-devel libxml2-devel boost-devel gcc gcc-c++安装上面的东西。
安装完成后。
设置。
Red Hat6-based systems[root]#cp contrib/init.d/trqauthd/etc/init.d/[root]#chkconfig--add trqauthd[root]#echo/usr/local/lib>/etc/ld.so.conf.d/torque.conf[root]#ldconfig[root]#service trqauthd startSUSE11-based systems[root]#cp contrib/init.d/suse.trqauthd/etc/init.d/trqauthd[root]#chkconfig--add trqauthd[root]#echo/usr/local/lib>/etc/ld.so.conf.d/torque.conf[root]#ldconfig[root]#service trqauthd startRed Hat7-based and SUSE12-based systems[root]#cp contrib/systemd/trqauthd.service/usr/lib/systemd/system/[root]#systemctl enable trqauthd.service[root]#echo/usr/local/lib>/etc/ld.so.conf.d/torque.conf[root]#ldconfig[root]#systemctl start trqauthd.service接下来继续:1.Verify that the/var/spool/torque/server_name file exists and contains thecorrect name of the server.[root]#echo<pbs_server's_hostname>>/var/spool/torque/server_name2.By default,TORQUE installs all binary filesto/usr/local/bin and/usr/local/sbin.Make sure the path environmentvariable includes these directories for both the installation user and the root user.[root]#export PATH=/usr/local/bin/:/usr/local/sbin/:$PATH3.Initialize serverdb by executing the torque.setup script.[root]#./torque.setup root这一步如果出错,检查hostname是否按照上面修改hosts新建/var/spool/torque/server_priv/nodes内容为:wuzhou509np=32all新建/var/spool/torque/mom_priv/config内容为:$pbsserver wuzhou509#hostname running pbs server$logevent225#bitmap of which events to log修改walltimeqmgr-c"set queue batch resources_default.walltime=900:00:00"然后qterm填加自动启动:*If RHEL distribution,do the following*[root]#cp contrib/init.d/pbs_server contrib/init.d/pbs_mom contrib/init.d/pbs_sched /etc/init.d[root]#chkconfig--add pbs_server[root]#chkconfig--add pbs_sched[root]#chkconfig--add pbs_mom[root]#service pbs_server restart[root]#service pbs_sched restart[root]#service pbs_mom start完成。
作业调度系统PBS(Torque)的设置
作业调度系统PBS(Torque)的设置1、修改/var/spool/torque/server_priv/⽬录下的nodes⽂件##Node1 np=16 gpus=4Node2 np=16 gpus=4...其中Node1为计算节点名字,np为逻辑核数,gpus为显卡数该⽂件给出了计算集群的最⼤可⽤资源2、重新启动pbs##\#service pbs_mon restart\#service pbs_server restart\#service pbs_sched restart注意要按照顺序重启服务3、 qmgr 是Torque⽤户对队列进⾏管理的交互界⾯##在root账户下进⼊qmgr\#qmgrQmgr:list queue QueueName //查看队列属性Queue QueueNamequeue_type = Executionmax_user_queuable = 100total_jobs = 0state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0resources_max.ncpus = 12resources_default.ncpus = 12resources_default.nodes = 1resources_default.walltime = 01:00:00mtime = Tue Jan 30 16:14:38 2018resources_assigned.ncpus = 4resources_assigned.nodect = 1max_user_run = 1enabled = Truestarted = True如要启⽤队列Qmgr:set queue QueueName enabled=True相应的设置项在中给出max_user_queuable :队列中⼀个⽤户能提交的最⼤作业数max_user_run :队列中⼀个⽤户同时运⾏的作业数resources_max.ncpus :最⼤可⽤逻辑核数total_jobs :当前提交的作业数如果要求⼀次执⾏⼀个任务,该任务占⽤12个核,其余任务需要排队,则设置max_user_run=1.然后在作业提交脚本.pbs中 -np 12qmgr不需要重新启动pbs服务4、如何将pbs_mom, pbs_server 和 pbs_sched ,并添加为系统服务,设置为开机启动##cd /usr/local/src/torque-2.5.12/contrib/init.d/cp pbs_mom pbs_server pbs_sched /etc/init.d/chkconfig --add pbs_momchkconfig --add pbs_serverchkconfig --add pbs_sched。
torque使用指南
torque使用指南tip1:bydefault,jobsubmissionisallowedonlyonthetorqueserverhost(hostonwhichpbs_ serverisrunning).enablementofjobsubmissionfromotherhostsisdocumentedinconfigur ingjobsubmithosts.masternode:node3submitajob:qsub查询作业状态:qstat/qstatcf查询节点状态:pbsnodesca第一步:安装yuminstalltorque*安装之后的路径:/var/torque第二步:布局布局掌控节点:1.执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。
命令:./torque.setup(选定一个非root用户名)qmgr-c'ps'//查阅布局信息2.具体内容选定排序节点在目录torque_home/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。
简单示例如下:#nodes001and003-005areclusternodes#node001np=2cluster01racknumber22##node002willbereplacedsoonnode002:tswaitingtobereplaced#node002willbereplaceds oon#node003np=4cluster01racknumber24node004cluster01racknumber25node005np=2cluster01racknumber26ram16gbnode006node007np=2node008:tsnp=4布局排序节点:在计算节点的torque_home/mom_priv/config文件中修改$pbsserverheadnode#note:hostnamerunningpbs_server$logevent255#bitmapofwhicheve ntstologpbsserver为你的集群中的管理节点的hostname.3.重启节点排序节点:pbs_mom控制节点:>qterm-tquick>pbs_server注意事项:1.在torque中在继续执行mpi程序时。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集群资源管理器Torque安装配置
Torque有三个重要的可执行文件,运行在主节点上的pbs_server和pbs_sched(对于比较简单的情况,这里使用这个Torque自带的调度器)及运行在计算节点上的pbs_mom,提交任务前要先启动这三个服务。
为方便阅读,命令及在需要编辑文件的内容以兰色字体显示。
如果没有说明路径,操作(如cp)是在/root/software/torque-2.5.4进行的。
1.编译安装
1.1 解压源文件包
假设解压的文件放在/root/software
# cd /root/software
# tar -xvf torque-2.5.4.tar.gz
1.2 编译配置
# cd torque-2.5.4
#./configure --enable-docs --with-scp --enable-syslog --with-default-server=xxx(headnode-name)
其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下(其实直接./configure应该也可以)。
1.3 编译安装
# make
# make install
2.参数设置
2.1在Server端设置队列管理员
在torque的安装源文件根目录中,执行
#./torque.setup root
上面的命令以root作为torque的管理员账号创建作业队列,也可以指定其它的用户作管理员。
如果此处添加失败,有可能是机器用户名不对,执行这步之前要确认用户名,如果出现BS_Server: LOG_ERROR::pbsd_main, unable to determine local server hostname - gethostbyname(pbsmaster.localdomain) failed, h_errno=1
解决方法:
add a line in /etc/host:
192.168.1.101 pbsmaster pbsmaster.localdomain
2.2 Server端资源管理配置(指定计算节点)
为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes 文件中指定,一行一个节点,对于只有一个节点的情况只用增加一行就行。
#vim /var/spool/torque/server_priv/nodes
amaxit np=8 gpus=2
上面由两个空格隔开的三项,分别是主机名,每个主机的cpu数(这里是8核),gpu卡数(根据机器的具体配置,这里是两张卡,支持gpu调度是Torque从2.5.4开始的新功能)
2.3 调度策略的设置(根据客户的情况改动,一般默认设置就能满足,这里不改变默认值)
#vim /var/spool/torque/sched_priv/sched_config
2.4 在计算节点上配置(对于只有一台机器的情况,管理节点和计算节点指的是同一台机器)
在每个计算节点,必须配置可以通过编辑/var/spool/torque/server_name来实现,把amaxit写入该文件即可。
#vim /var/spool/torque/server_name
amaxit
其余的配置参数写入/var/spool/torque/mom_priv/config 文件。
#vim /var/spool/torque/mom_priv/config (好像只需要输入粗体字部分)
# MOM server configuration file
# if more than one value, separate
## rule is defined by the name
## host allowed to connect to mom server on privileged port
# note: IP address of host running pbs_server it by comma.
$logevent 0x1ff
$pbsserver amaxit
$clienthost amaxit
#ideal processor load and max processor load
$ideal_load 7
$max_load 8
2.5 指定提交任务的节点
#qmgr -c 'set server submit_hosts = amaxit' (好像头节点才能执行,而且好像只需要头节点执行)3.服务启动设置
在torque-2.5.4/contrib目录下有一些pbs的启动脚本,将它们复制到/etc/.init.d。
下面这三个服务必须启动才能进行作业的提交与管理。
#cp contrib/init.d/pbs_server /etc/init.d/
#cp contrib/init.d/pbs_mom /etc/init.d/
#cp contrib/init.d/pbs_sched /etc/init.d/
查看pbs_servert,pbs_sched和pbs_mom确保里面有如下两个变量(默认是有的):
#cat /etc/init.d/pbs_server
PBS_DAEMON=/usr/local/sbin/pbs_server
PBS_HOME=/var/spool/torque
这样我们就可以象管理其它服务一样启动、停止、重启pbs的服务。
设置开机自动启动:
#chkconfig --level 35 pbs_server on (头节点需要启动)
#chkconfig --level 35 pbs_sched on (头节点需要启动)
#chkconfig --level 35 pbs_mom on
开启所需服务以后利用#pbsnodes –a 查看状态
如果执行此命令,提示出错pbsnodes -a
pbsnodes: Server has no node list MSG=node list is empty - check 'server_priv/nodes' file
将服务重启一下。
再查看
4.编辑一个提交任务的脚本
注意其中的第4行,用来指定队列需要的gpu数的语法,前面nodes指在集群中申请的节点数,ppn指每个节点使用的核数。
#vim test.pbs
#PBS -S /bin/bash
#PBS -o script.out
#PBS -j oe
#PBS -l nodes=1:ppn=1:gpus=1
cd /root/NVIDIA_GPU_Computing_SDK/C/bin/linux/release
./FDTD3d
qsub xxx.pbs 提交任务
qstat 查看任务队列。