Torque在Linux集群上的安装配置
GPU集群Torque排队系统使用手册
GPU集群Torque排队系统使⽤⼿册多媒体计算与通讯实验室GPU集群Torque排队系统使⽤⼿册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利⽤GPU计算资源,我们利⽤Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下⾯说明使⽤本GPU集群的⼏个步骤。
1.申请帐号.本集群有⼀个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使⽤集群的学⽣需要给我发⼀个申请邮件,同时cc给⾃⼰的导师,在导师批准后相应的帐号会被建⽴。
2.建⽴job脚本⽂件Torque管理系统不能直接提交⼆进制可执⾏⽂件,需要编写⼀个⽂本的脚本⽂件,来描述相关参数情况。
⼀个⽰例脚本⽂件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本⽂件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运⾏的标准输出⽂件,如程序中printf打印信息,相当于stdout;-e 定义程序运⾏时的错误输出⽂件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表⼀个结点,⼀般申请⼀个结点,除⾮采⽤mpi并⾏作业;gpus=1定义了申请的GPU数量,根据应⽤实际使⽤的gpu数量来确定,S表⽰job类型,后⾯有详细描述。
资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用
资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用李会民(hmli@)中国科学技术大学网络信息中心2008年1月目录1资源管理软件TORQUE的安装与设置21.1服务节点安装TORQUE (2)1.2服务节点初始化并设置TORQUE (2)1.3计算节点上安装TORQUE (4)1.4计算节点配置TORQUE (4)2安装与配置作业调度软件:Maui52.1服务节点上安装Maui (5)2.2服务节点上配置Maui (5)3作业运行63.1串行作业 (7)3.2并行作业 (8)3.3常用作业管理命令 (8)3.3.1查看队列中的作业状态:qstat (9)3.3.2挂起作业:qhold (10)3.3.3取消挂起:qrls (10)3.3.4终止作业:qdel和canceljob (10)3.3.5查看作业状态:checkjob (11)3.3.6交换两个作业的排队顺序:qorder (12)3.3.7选择符合特定条件的作业的作业号:qselect (12)3.3.8显示队列中作业的信息:showq (13)3.3.9显示节点信息:pbsnodes和qnodes (13)1资源管理软件TORQUE的安装与设置TORQUE和Maui可以从上下载。
以下仅是粗略配置,详细配置请参考相关手册:•TORQUE:/torquedocs21/•Maui:/products/maui/docs/mauiusers.shtml1.1服务节点安装TORQUE这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.1.tar.gzroot@kd50#cd torque-2.2.1root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcp上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。
linux服务器集群的详细配置
linux服务器集群的详细配置一、计算机集群简介计算机集群简称集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
在某种意义上,他们可以被看作是一台计算机。
集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。
集群计算机通常用来改进单个计算机的计算速度和/或可靠性。
一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。
二、集群的分类群分为同构与异构两种,它们的区别在于:组成集群系统的计算机之间的体系结构是否相同。
集群计算机按功能和结构可以分成以下几类:高可用性集群 High-availability (HA) clusters负载均衡集群 Load balancing clusters高性能计算集群 High-performance (HPC) clusters网格计算 Grid computing高可用性集群一般是指当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。
还指可以将集群中的某节点进行离线维护再上线,该过程并不影响整个集群的运行。
负载均衡集群负载均衡集群运行时一般通过一个或者多个前端负载均衡器将工作负载分发到后端的一组服务器上,从而达到整个系统的高性能和高可用性。
这样的计算机集群有时也被称为服务器群(Server Farm)。
一般高可用性集群和负载均衡集群会使用类似的技术,或同时具有高可用性与负载均衡的特点。
Linux虚拟服务器(LVS)项目在Linux操作系统上提供了最常用的负载均衡软件。
高性能计算集群高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能力,因而主要应用在科学计算领域。
比较流行的HPC采用Linux操作系统和其它一些免费软件来完成并行运算。
这一集群配置通常被称为Beowulf集群。
这类集群通常运行特定的程序以发挥HPC cluster的并行能力。
torque安装步骤
一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
Linux命令行中的系统安装和配置技巧
Linux命令行中的系统安装和配置技巧在Linux命令行中,系统安装和配置是非常重要的技巧。
通过正确的安装和配置,我们可以提高系统的性能,增强系统的稳定性,并满足个性化需求。
本文将介绍一些Linux命令行中的系统安装和配置技巧,帮助您更好地管理和运维您的系统。
1. 系统安装在Linux命令行中,系统安装是第一步。
通常情况下,我们会从官方网站下载适合自己需求的Linux发行版镜像文件,然后通过命令行进行安装。
首先,将镜像文件写入到USB设备上,可以使用dd命令(例如:dd if=镜像文件 of=/dev/sdX bs=4M),注意将X替换为您的USB设备代号。
然后,将USB设备连接到需要安装系统的计算机,并重启计算机。
在启动过程中,按下相应的按键(通常是F2、F9、F12或Del键),进入计算机的启动菜单,选择从USB设备启动。
最后,根据安装界面的提示,进行具体的操作(选择安装目标、分区、设置密码等)。
完成安装后,重新启动计算机,您的Linux系统就成功安装了。
2. 系统更新与软件安装安装完成后,第一步就是进行系统更新和软件安装。
这可以确保系统拥有最新的补丁和功能,并且配备您所需的软件。
在命令行中,可以使用以下命令更新系统软件包:```sudo apt update # 更新软件包列表sudo apt upgrade # 升级已安装的软件包```要安装特定的软件包,可以使用以下命令:```sudo apt install 软件包名称 # 安装指定软件包sudo apt remove 软件包名称 # 卸载指定软件包```3. 系统配置与优化在安装和更新完系统后,我们需要进行一些系统配置和优化,以满足我们的需求和提高系统的性能。
首先,我们可以编辑配置文件来修改系统行为和参数。
通过vi或nano等文本编辑器打开配置文件:```sudo vi /etc/配置文件路径 # 编辑指定的配置文件```然后,根据需要修改文件中的参数,并保存文件。
Linux操作系统的安装与配置
Linux操作系统的安装与配置Linux是一种非常可靠和安全的操作系统,并且是许多企业和组织首选的操作系统。
与其他操作系统相比,Linux的主要优势在于它是开源的,这意味着每个人都可以查看和修改Linux的源代码。
如果你正在考虑安装和配置Linux操作系统,本文将在以下三个方面给出详细的指导:预备工作、Linux的安装和Linux的基本配置。
预备工作在安装Linux之前,您需要进行几项预备工作,以确保安装顺利完成。
首先,您需要了解自己的硬件规格。
确定您需要安装的Linux版本,并进行相应的硬件升级。
例如,如果您需要安装CentOS 7,则需要确定CPU和内存是否满足要求。
通常,建议至少使用2GB内存和8GB磁盘空间。
其次,您需要根据自己的需求选择正确的Linux发行版。
通常,Ubuntu和CentOS是最受欢迎的Linux发行版。
Ubuntu是一个用户友好的发行版,适合初学者和桌面用户。
而CentOS则是一个更加强大和稳定的发行版,适合服务器和企业级应用程序。
Linux的安装安装Linux的第一步是从Linux发行版的官方网站下载ISO文件,并将其刻录到DVD或USB随身碟。
安装程序的启动将在BIOS或UEFI固件中的“引导顺序”中配置。
一旦启动后,你会看到Linux的安装界面。
安装界面的第一步是选择您的语言。
然后,您将看到一些重要的选项,例如时区和键盘布局。
在这些选项中选择适合您的选项,并单击“下一步”。
接下来,您需要选择安装的磁盘,并确定分区方案。
建议使用自动分区,特别是如果您是Linux新手。
完成分区后,选择您要安装的软件包。
如果您只是一个桌面用户,请选择“标准系统工具”和“桌面环境”。
完成上述步骤后,您需要设置root用户密码和创建其他用户。
这些用户将用于登录Linux系统。
然后,系统将开始安装软件包。
Linux的基本配置一旦您成功安装Linux,您需要进行进一步的配置。
以下是一些基本配置建议:更新软件包:运行“sudo apt-get update && sudo apt-get upgrade”(适用于Ubuntu)或“sudo yum update”(适用于CentOS)来获取最新的软件包。
linux集群使用指南
linux集群使用指南Linux集群使用指南。
一、啥是Linux集群。
Linux集群呢,就像是一群小伙伴一起干活。
把好多台Linux计算机连接起来,让它们协同工作。
这就好比是一群超级英雄组成联盟,每个英雄都有自己的本事,合起来就能干大事啦。
比如说,有的计算机负责处理数据,有的负责存储,有的负责管理网络。
这样做的好处可多了去了。
就像大家一起抬重物,一个人可能抬不动,但是好多人一起就轻松搞定。
在处理大量数据或者需要高可靠性的任务时,Linux集群就超级有用。
二、硬件准备。
要搭建Linux集群,硬件可不能马虎。
首先得有几台计算机吧。
这些计算机的配置也有讲究哦。
如果是处理简单任务的小集群,普通配置的计算机就可以。
但要是处理大数据或者复杂计算,那就得要配置高一点的啦,像是有大容量内存、快速的CPU 还有大硬盘的计算机。
另外,这些计算机之间得能互相通信,这就需要网络设备啦。
像交换机之类的,就像它们之间的传声筒,把各个计算机连接起来,让它们能互相“聊天”。
而且呀,电源供应也很重要,要是突然断电,那可就麻烦了,所以最好有稳定的电源保障。
三、安装Linux系统。
有了硬件,就该给这些计算机装上Linux系统啦。
这就像是给每个小伙伴穿上合适的衣服一样。
可以选择一些流行的Linux发行版,像Ubuntu、CentOS之类的。
安装的时候要注意一些小细节哦。
比如说分区,要合理分配磁盘空间,给系统、数据和交换空间都留好地方。
要是分区不合理,就像衣服穿得不合身,干活的时候就会不舒服。
安装过程中,设置好用户名和密码也很重要,这就像是给你的小房子上把锁,只有你有钥匙才能进去。
而且呀,要把网络设置好,这样计算机们才能在网络的世界里找到彼此。
四、集群配置。
这可是个关键步骤呢。
要让这些计算机知道它们是一个团队。
可以使用一些工具来配置集群,像Puppet或者Ansible。
这些工具就像是指挥棒,告诉每台计算机该怎么做。
比如说,要配置好共享存储,这样大家都能访问到同样的数据。
GPU集群Torque排队系统使用手册
多媒体计算与通讯实验室GPU集群Torque排队系统使用手册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利用GPU计算资源,我们利用Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下面说明使用本GPU集群的几个步骤。
1.申请帐号.本集群有一个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使用集群的学生需要给我发一个申请邮件,同时cc给自己的导师,在导师批准后相应的帐号会被建立。
2.建立job脚本文件Torque管理系统不能直接提交二进制可执行文件,需要编写一个文本的脚本文件,来描述相关参数情况。
一个示例脚本文件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本文件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运行的标准输出文件,如程序中printf打印信息,相当于stdout;-e 定义程序运行时的错误输出文件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表一个结点,一般申请一个结点,除非采用mpi并行作业;gpus=1定义了申请的GPU数量,根据应用实际使用的gpu数量来确定,S表示job类型,后面有详细描述。
队列系统的默认job请求时间是一周,如果运行的job时间估计会超过,则可以使用下面的参数:#PBS -l nodes=1:gpus=1:S,walltime=300:00:00表示请求300小时的job时间。
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+硬盘空间及核心限制)异常详细版
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+用户硬盘空间限制和核心使用限制设置)异常详细版制作者:甄江苏单位:湘潭大学材料科学与工程本教程假设你已经在多台电脑上安装了CentOS 7.x 或RedHat 7.x版本的系统(建议每个机器上的root用户登录密码相同),并且强烈建议安装系统时选择系统语言选择英文。
本教程主要分为这几个方面:1.IP设置、计算机名称设置及hosts文件修改2.SSH双向免验证登录及其相关设置3.防火墙设置4.节点间共享文件夹(NFS服务)设置5.NIS服务设置6.Torque安装及其设置7.Maui安装及其设置8.用户硬盘使用容量限制9.并行运行相关说明(比较重要!!!)1.IP设置、计算机名称设置及hosts文件修改1.1IP设置(所有节点都要设置,只有主节点必须设置两个,外网和内网):一般服务器电脑都有两个网络接口(至少主节点上面有两个接口吧),我们可以把主节点上的一个网络接口连接外网,以便在其他电脑上通过远程ssh来进行相关操作,比如修改配置,提交任务等。
另一个接口来连接内网,以便和其他子节点相互通信。
外网IP是网络管理中心分配的,内网IP可以自己分配。
用图形桌面的方式进入系统,点击右上角,会看见网络接口名称(比如我的这个显示enp2s0和enp3s0两个接口),前提是你的两个接口已经连上了网线。
然后点击进去,会看见关闭(或打开)选项和设置选项,点击进去进行设置,我们现在先设置内网IP(我用enp2s0接口作为内网接口),像上面说的那样选择一个接口进去设置:进去后,点击右下角的齿轮状图标进行设置,然后出现一个菜单,会发现左边有6项,选择第三项,进去后为左中下角的第一个“Connect automatically”打钩,然后选择左边的第四个选项(也就是“IPV4”那个选项),然后选择右上角的“ON”,“ON”的下边那个(有DHCP的那个)用鼠标点击一下,选择中间的选项(“Manual”选项),然后在出来的地方填写IP相关信息,第一行是IP地址,可以填比如:192.168.1.1(不能是192.168.1.0),其他节点可以是.2,.3……等;第二行是掩码,所有节点都填写:255.255.255.0;第三个是网关,可以填:192.168.1.1(所有节点网关都一样),然后点击应用就可以了,而外网IP跟上面的设置方法差不多,只不过是在连接外网的网络接口里填写由网络管理中心给你的相关数据而已。
turbolinux GreatTurbo Cluster Server 10 用户快速安装手册
GreatTurbo Cluster Server 10用户快速安装手册版权所有 (c) 2006北京拓林思软件有限公司目录GREATTURBO CLUSTER SERVER 10介绍 (1)1.G REAT T URBO C LUSTER S ERVER 10的使用限制 (1)2.G REAT T URBO C LUSTER S ERVER 10的相关术语 (2)3.G REAT T URBO C LUSTER S ERVER 10快速安装手册的使用方法 (4)4.G REAT T URBO C LUSTER S ERVER 10快速安装的主体过程 (4)第1章安装GREATTURBO CLUSTER SERVER 10前的准备工作 (5)1.了解和分析您的应用 (5)2.准备G REAT T URBO C LUSTER S ERVER 10需要的硬件环境 (6)3.准备G REAT T URBO C LUSTER S ERVER 10需要的软件环境 (7)4.安装G REAT T URBO C LUSTER S ERVER 10前需要准备的操作系统的配置 (8)5.安装G REAT T URBO C LUSTER S ERVER 10前需要准备用户的应用程序 (8)6.安装G REAT T URBO C LUSTER S ERVER 10的配置示例 (9)第2章安装GREATTURBO CLUSTER SERVER 10 (11)1.确认您所使用的G REAT T URBO C LUSTER S ERVER 10产品的类型 (11)2.安装G REAT T URBO C LUSTER S ERVER 10 (11)3.注册G REAT T URBO C LUSTER S ERVER 10产品 (13)第3章系统配置 (16)1.选择其中一节点进行系统配置 (16)2.在对方节点上同步配置 (23)3.运行G REAT T URBO C LUSTER SERVER 10 (23)第4章用户脚本和检测脚本 (24)1.用户脚本 (24)2.检测脚本 (27)第5章配置HA服务--使用共享磁盘 (30)1.配置工具 (30)2.配置条件 (30)3.配置命令 (30)4.配置服务 (32)5.修改服务 (37)6.删除服务 (38)7.启动服务 (38)8.停止服务 (39)9.切换服务 (39)第6章配置HA服务--不使用共享磁盘 (40)1.配置工具 (40)2.配置条件 (40)3.配置命令 (40)4.配置服务 (42)5.修改服务 (45)6.删除服务 (46)7.启动服务 (46)8.停止服务 (47)9.切换服务 (47)第7章配置HA服务--使用磁盘镜像设备KERNEL2.4 (49)1.安装磁盘镜像软件(DRBD) (49)2.注册具有磁盘镜像功能的LICENSE (50)3.配置磁盘镜像设备 (50)4.添加使用磁盘镜像设备的服务 (52)5.修改服务 (57)6.删除服务 (58)7.启动服务 (59)8.停止服务 (59)9.切换服务 (59)第8章配置HA服务--使用磁盘镜像设备KERNEL2.6 (61)1.安装磁盘镜像软件(DRBD) (61)2.注册具有磁盘镜像功能的LICENSE (62)3.配置磁盘镜像设备 (62)4.添加使用磁盘镜像设备的服务 (65)5.修改服务 (70)6.删除服务 (71)7.启动服务 (71)8.停止服务 (72)9.切换服务 (72)第9章配置LB服务--DR方式 (73)1.配置工具 (73)2.配置条件 (73)3.配置REALSERVER环境 (73)4.配置调度节点环境 (74)5.配置命令 (74)6.配置单端口服务 (76)7.修改服务 (81)8.删除服务 (82)9.启动服务 (82)10.停止服务 (83)11.切换服务 (83)第10章配置LB服务--TUN方式 (85)1.配置工具 (85)2.配置条件 (85)3.配置REALSERVER环境 (85)4.配置调度节点环境 (86)5.配置命令 (87)6.配置单端口服务 (88)7.修改服务 (93)8.删除服务 (94)9.启动服务 (94)10.停止服务 (95)11.切换服务 (95)第11章配置LB服务--NAT方式 (97)1.配置工具 (97)2.配置条件 (97)3.配置REALSERVER环境 (97)4.配置调度节点环境 (98)5.配置命令 (99)6.配置单端口服务 (100)7.修改服务 (105)8.删除服务 (106)9.启动服务 (106)10.停止服务 (107)11.切换服务 (107)第12章配置LB服务--多端口DR方式 (109)1.配置工具 (109)2.配置条件 (109)3.配置REALSERVER环境 (109)4.配置调度节点环境 (110)5.配置命令 (111)6.配置多端口服务 (112)7.修改服务 (117)8.删除服务 (118)9.启动服务 (118)10.停止服务 (119)11.切换服务 (119)第13章使用GUIADMIN来配置GREATTURBO CLUSTER SERVER 10 (121)1.GUIADMIN说明 (121)2.配置条件 (122)3.安装、启动GUIADMIN的命令 (122)4.连接G REAT T URBO C LUSTER S ERVER 10服务器 (123)5.GUIADMIN功能介绍 (125)6.停止GUIADMIN (131)7.卸载GUIADMIN (131)第14章检查GREATTURBO CLUSTER SERVER 10的运行状态 (132)1.检查各守护进程的运行状态 (132)2.检查集群与服务的运行状态 (132)3.检查DRBD的运行状态 (136)4.检查IPVS调度情况 (139)第15章卸载GREATTURBO CLUSTER SERVER 10 (140)1.卸载G REAT T URBO C LUSTER S ERVER 10 (140)2.卸载DRBD (141)3.卸载G REAT T URBO C LUSTER S ERVER10 REALSERVER包 (142)4.卸载GUIADMIN客户端 (142)附录 GREATTURBO CLUSTER SERVER 10 的维护 (143)1.G REAT T URBO C LUSTER S ERVER 10的日志信息 (143)2.FAQ (143)3.L OG收集工具的使用方法 (146)4.联系拓林思软件有限公司 (147)介绍注意事项在您开始使用GreatTurbo Cluster Server 10之前,请您全面仔细的阅读本用户手册!否则,可能会因为您的疏忽而使得安装过程出现不必要的问题!GreatTurbo Cluster Server 10介绍GreatTurbo Cluster Server 10是北京拓林思软件有限公司推出的为满足Linux 平台企业级应用的高可用和负载均衡产品。
OpenPBS-Torque安装手册
OpenPBS/Torque安装手册原文出处:/blog/?p=65WebHPC官方网站:/PBS是由NAS(National Academy of Sciences)开发的面向批作业调度以及系统资源管理的软件包。
它主要用于管理使用UNIX或Linux的同构或异构的机群系统。
PBS是一个商用软件,拥有完善的解决方案和技术支持,但是价格昂贵。
OpenPBS是对PBS系统的开源实现,遵循开源软件的相关约定,所以任何个人和组织都可以自由获得其源代码并修改之。
OpenPBS目前的最新版本为2.3.16。
本文介绍的对象即为OpenPBS 2.3.16版,为简洁起见,本文下面不再另行说明版本,默认是2.3.16版。
请注意,在使用OpenPBS 2.3.16提交作业时,提交者用户名长度不能大于15个字符。
一、 OpenPBS的结构OpenPBS主要由三个主要部件组成:PBS服务守护进程: pbs_server 负责接收作业提交,位于服务节点PBS调度守护进程: pbs_sched 负责调度作业,位于服务节点PBS MOM守护进程: pbs_mom 负责监控本机并执行作业,位于所有计算节点二、在单个节点上安装OpenPBS本节介绍的是通过编译源代码的方式安装OpenPBS。
由于整个OpenPBS都被安装在一台计算机上,所以上述pbs_server、pbs_mom 和pbs_sched都会被安装在一起。
具体步骤如下:1. 安装前提:a)机器上安装有合适版本的Linux(包括Redhat9、AS3、AS4等)、gcc编译器以及其他所需的包;b)安装者能以root帐户登录计算机;c)下载合适的源码形式安装包,如pbs.tar.gz2. 以root帐号登录计算机3. 用tar zxf pbs.tar.gz命令释放安装包到指定位置,譬如:/opt/OpenPBS_2_3_16/4. 进入解压得到的目录,执行命令:a)./configure –disable-gui –set-server-home={YOUR_PBS_HOME}说明:有的环境下可能是—with-server-home,具体可以通过./configure –-help查看b) ./configure –enable-docs –disable-gui其中:–disable-gui:说明不安装GUI组件,因为该组件不常用,且对linux的tcl 等库的版本颇为挑剔,往往使安装进程无法继续–set-server-home:指定OpenPBS的工作目录,默认是 /usr/spool/PBS/5. 执行make6. 执行make install,这样就可以把OpenPBS安装到指定工作目录中7. 下面设置OpenPBS(假设工作目录为/usr/spool/PBS/)a)设置服务器名:编辑/usr/spool/PBS/server_name文件,填写本机机器名(如cngrid217)b)设置机群所有机器名:编辑/usr/spool/PBS/server_priv/nodes文件,填写本机机器名c)设置MOM进程配置文件:编辑 /usr/spool/PBS/mom_priv/config文件,写入如下内容$logevent 0×1ff$clienthost server_host其中server_host是本机的机器名,譬如mydemocluster8. 启动OpenPBSa)启动mom进程:(任意路径下)执行命令 pbs_momb)启动调度器进程:执行命令 pbs_schedc)启动OpenPBS服务器进程,创建pbs数据库执行命令 pbs_server -t create其参数 -t create 只在首次启动server进程时才需要9. 创建并设置作业队列:a) 用qmgr创建队列normalqmgr -c “c q normal”其中:-c 表示其后是命令c 表示创建q 表示队列b) 设定队列的类型为可执行队列qmgr -c “s q normal queue_type=Execution”其中s表示设置。
作业提交系统Torque个人安装
PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。
PBS的目前包括openPBS,PBS Pro和T orque三个主要分支。
其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro 是PBS的商业版本,功能最为丰富。
T orque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。
一、Torque安装在master(管理结点上)1、解压安装包[root@master tmp]# tar zxvf torque-2.3.0.tar.gz2、进入到解压后的文件夹./configure --with-default-server=mastermakemake install3、(1)[root@master torque-2.3.0]#./torque.setup <user><user>必须是个普通用户(2)[root@master torque-2.3.0]#make packages把产生的 tpackages , torque-package-clients-linux-x86-64.sh,torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
(3)[root@master torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install[root@master torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install(4)编辑/var/spool/torque/server_priv/nodes(需要自己建立)加入如下内容master np=4node01 np=4........node09 np=4(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。
Torque在Linux集群上的安装配置
Torque在Linux集群上的安装配置服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。
操作系统为CentOS 5.3 x86_64版本的Linux系统。
NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。
所有的应用软件都安装在此共享磁盘上。
1.ssh免密码登录.对每个用户都要设置。
2.下载Torque,解压缩,编译。
目前,torque 2.3是稳定版本,2.4是beta版本。
为了稳定,我下载的是2.3.9版本。
下载地址:/doc/5b17756210.html,/downloads/t orque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。
将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。
或者手工写一个脚本来完成这些工作。
3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。
linux集群系统的安装及cluster的配置
第一部分系统的安装及cluster的配置:1. linux Redhat 5.4系统的安装安装前准备:Redhat linux AS5 update 4两台HP p580存储一台注意事项:安装Red Hat Enterprise Linux 5.4时会要求输入安装号,这时请输入:49af89414d147589,如果不输Cluster和Virtualization组件将不会出现。
2. Redhat 5.4 系统配置:2.1 关闭系统安全配置为了配置方便我们可以把Cluster各节点的防火墙和SELinux关掉:关闭防火墙:service iptables stopchkconfig iptables off关闭Selinux:“系统”-“管理”-“SELinux Managerment”,把“System Default Enfocing Mode”设为“Permissive”或“Disabled”2.2主机信息配置2.2.1 修改服务器主机名编辑/etc/sysconfig/network服务器1的network修改如下:NETWORKING=yesNETWORKING_IPV6=noHOSTNAME=CX-Server-A服务器2的network修改如下:NETWORKING=yesNETWORKING_IPV6=noHOSTNAME=CX-Server-A修改后需要重新启动两台服务器,以下我们将用服务器的hostname来标示两台服务器。
2.2.2 修改主机信息配置/etc/hosts 文件包含IP地址到主机名的转换表。
编辑CX-Server-A的hosts文件,修改内容如下:127.0.0.1 localhost.localdomain localhost10.23.1.241 CX-Server-A10.23.1.242 CX-Server-B10.23.1.240 CX-Server192.168.112.13 ILO-CX-Server-A192.168.112.14 ILO-CX-Server-B编辑编辑CX-Server-B的hosts文件,内容如CX-Server-A的一致即可。
linux集群配置过程详解
1、规划与部署(Planning&Deployment)1.1安装1.安装前JA VA版本升级:如果java版本号小于1.6,请安装新版jdk,步骤如下:a.b.c.Jdk-6u7-linux-i586.bin会出现许可协议,按空格键一直往下,到文件末时,输入yes,回车开始安装d.e.在文件末尾加入JA VA_HOME=/JAV A/PA TH=$JAV A_HOME/bin:$PATHCLASSPATH=.:$JA VA_HOME/lib/tools.jar:$JA VA_HOME%/lib/dt.jarexport JA VA_HOME PATH CLASSPATH下划线处为JA V A的安装路径,默认为当前目录下,文件夹名为“jdk1.6.0_07”,如:/usr/java/ jdk1.6.0_07/f.g.检查java版本号是否已升级成功。
h.注销系统,重新登陆,OK。
2.安装LanderV ault:找到LanderV ault-1-001.i386.rpm屏幕上如出现如下字幕则表示安装成功:默认安装在/etc/LanderV ault/安装完成后会自动执行LV agent后台程序,并打印调试信息到该终端,如需看到调试信息请保留此终端。
2升级找到LanderV ault-1-002.i386.rpm升级后如须生效请重新执行LanderV ault各模块程序。
3卸载不建议在程序运行时卸载,可能会因为xml类型配置文件丢失而造成LV agent程序出错。
卸载完成后,在原安装目录下生成的日志和部分临时文件不会被自动清除。
4配置查询LV agent是否在后台运行。
若不存在则进入LV agent目录下。
[root@lindev etc]# cd /etc/LanderV ault/LV agent[root@lindev LV agent]# ./LV agent &[root@lindev LV agent]# cd /etc/LanderV ault/LDV ault[root@lindev LV agent]# ./LDV ault开启图形管理界面在Default上点击右键添加服务器:将两台集群均添加完成,在主机IP地址上右键登陆:输入密码:“admin”进入。
作业调度系统PBS(Torque)的设置
作业调度系统PBS(Torque)的设置1、修改/var/spool/torque/server_priv/⽬录下的nodes⽂件##Node1 np=16 gpus=4Node2 np=16 gpus=4...其中Node1为计算节点名字,np为逻辑核数,gpus为显卡数该⽂件给出了计算集群的最⼤可⽤资源2、重新启动pbs##\#service pbs_mon restart\#service pbs_server restart\#service pbs_sched restart注意要按照顺序重启服务3、 qmgr 是Torque⽤户对队列进⾏管理的交互界⾯##在root账户下进⼊qmgr\#qmgrQmgr:list queue QueueName //查看队列属性Queue QueueNamequeue_type = Executionmax_user_queuable = 100total_jobs = 0state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0resources_max.ncpus = 12resources_default.ncpus = 12resources_default.nodes = 1resources_default.walltime = 01:00:00mtime = Tue Jan 30 16:14:38 2018resources_assigned.ncpus = 4resources_assigned.nodect = 1max_user_run = 1enabled = Truestarted = True如要启⽤队列Qmgr:set queue QueueName enabled=True相应的设置项在中给出max_user_queuable :队列中⼀个⽤户能提交的最⼤作业数max_user_run :队列中⼀个⽤户同时运⾏的作业数resources_max.ncpus :最⼤可⽤逻辑核数total_jobs :当前提交的作业数如果要求⼀次执⾏⼀个任务,该任务占⽤12个核,其余任务需要排队,则设置max_user_run=1.然后在作业提交脚本.pbs中 -np 12qmgr不需要重新启动pbs服务4、如何将pbs_mom, pbs_server 和 pbs_sched ,并添加为系统服务,设置为开机启动##cd /usr/local/src/torque-2.5.12/contrib/init.d/cp pbs_mom pbs_server pbs_sched /etc/init.d/chkconfig --add pbs_momchkconfig --add pbs_serverchkconfig --add pbs_sched。
torque使用指南
torque使用指南tip1:bydefault,jobsubmissionisallowedonlyonthetorqueserverhost(hostonwhichpbs_ serverisrunning).enablementofjobsubmissionfromotherhostsisdocumentedinconfigur ingjobsubmithosts.masternode:node3submitajob:qsub查询作业状态:qstat/qstatcf查询节点状态:pbsnodesca第一步:安装yuminstalltorque*安装之后的路径:/var/torque第二步:布局布局掌控节点:1.执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。
命令:./torque.setup(选定一个非root用户名)qmgr-c'ps'//查阅布局信息2.具体内容选定排序节点在目录torque_home/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。
简单示例如下:#nodes001and003-005areclusternodes#node001np=2cluster01racknumber22##node002willbereplacedsoonnode002:tswaitingtobereplaced#node002willbereplaceds oon#node003np=4cluster01racknumber24node004cluster01racknumber25node005np=2cluster01racknumber26ram16gbnode006node007np=2node008:tsnp=4布局排序节点:在计算节点的torque_home/mom_priv/config文件中修改$pbsserverheadnode#note:hostnamerunningpbs_server$logevent255#bitmapofwhicheve ntstologpbsserver为你的集群中的管理节点的hostname.3.重启节点排序节点:pbs_mom控制节点:>qterm-tquick>pbs_server注意事项:1.在torque中在继续执行mpi程序时。
Linux集群cluster详细实战配置过程(双节点)及问题解答
Linux集群cluster详细配置过程(双节点)一、配置环境:HP_DL388G7服务器(ILO3)两台,交换机一台。
由于安装系统时已安装集群服务,因此不用再次安装集群包。
1、配置ILO3信息:a)启动时按F8进入ILO配置界面,配置IP,用户名及密码信息。
2、配置主机名、IP地址及hosts文件。
a)将两台主机加入hosts文件,以便能互相解析。
二、配置自启动检查:Chkconfig --del acpidService acpid stopChkconfig –level 2345 cman onChkconfig –level 2345 rgmanager onChkconfig –level 2345 luci onChkconfig –level 2345 ricci onChkconfig –level 2345 iptables offChkconfig –level 2345 NetworkManager off三、使用图形界面(conga)配置cluster1、启动luci服务(conga user interface server)Service luci start2、启动ricci服务(在RHEL6中,ricci替代ccsd,运行于每个节点,传播集群配置的更新)Service ricci start首次启动需配置密码,使用命令passwd ricci 以更新密码,ricci使用端口号11111,配置防火墙以允许。
3、输入https://主机名(主机IP):8084下图所示输入用户名root,密码登录进入集群配置主界面点manage clusters开始创建集群, 在创建新的集群对话框中输入相应信息,此处认证密码为Ricci的密码(创建方法为passwd ricci回车),配置过程中如果开启了防火墙记得允许11111端口,否则添加将会失败。
创建好的节点如下图所示:(此处创建两个节点)注意:创建过程中出现名称临时解析错误,后通过使用IP地址添加一遍成功。
集群资源管理器Torque安装配置
集群资源管理器Torque安装配置Torque有三个重要的可执行文件,运行在主节点上的pbs_server和pbs_sched(对于比较简单的情况,这里使用这个Torque自带的调度器)及运行在计算节点上的pbs_mom,提交任务前要先启动这三个服务。
为方便阅读,命令及在需要编辑文件的内容以兰色字体显示。
如果没有说明路径,操作(如cp)是在/root/software/torque-2.5.4进行的。
1.编译安装1.1 解压源文件包假设解压的文件放在/root/software# cd /root/software# tar -xvf torque-2.5.4.tar.gz1.2 编译配置# cd torque-2.5.4#./configure --enable-docs --with-scp --enable-syslog --with-default-server=xxx(headnode-name)其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下(其实直接./configure应该也可以)。
1.3 编译安装# make# make install2.参数设置2.1在Server端设置队列管理员在torque的安装源文件根目录中,执行#./torque.setup root上面的命令以root作为torque的管理员账号创建作业队列,也可以指定其它的用户作管理员。
如果此处添加失败,有可能是机器用户名不对,执行这步之前要确认用户名,如果出现BS_Server: LOG_ERROR::pbsd_main, unable to determine local server hostname - gethostbyname(pbsmaster.localdomain) failed, h_errno=1解决方法:add a line in /etc/host:192.168.1.101 pbsmaster pbsmaster.localdomain2.2 Server端资源管理配置(指定计算节点)为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes 文件中指定,一行一个节点,对于只有一个节点的情况只用增加一行就行。
Linux中安装配置hadoop集群详细步骤
Linux中安装配置hadoop集群详细步骤⼀. 简介参考了⽹上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。
下⾯就把详细的安装步骤叙述⼀下。
我所使⽤的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。
(前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置⽂件有所不同,后边会有详细说明)⼆. 准备⼯作2.1 创建⽤户创建⽤户,并为其添加root权限,经过亲⾃验证下⾯这种⽅法⽐较好。
sudo adduser hadoopsudo vim /etc/sudoers# 修改内容如下:root ALL = (ALL)ALLhadoop ALL = (ALL)ALL给hadoop⽤户创建⽬录,并添加到sudo⽤户组中,命令如下:sudo chown hadoop /home/hadoop# 添加到sudo⽤户组sudo adduser hadoop sudo最后注销当前⽤户,使⽤新创建的hadoop⽤户登陆。
2.2 安装ssh服务ubuntu中默认是没有装ssh server的(只有ssh client),所以先运⾏以下命令安装openssh-server。
安装过程轻松加愉快~sudo apt-get install ssh openssh-server2.3 配置ssh⽆密码登陆直接上代码:执⾏完下边的代码就可以直接登陆了(可以运⾏ssh localhost进⾏验证)cd ~/.ssh # 如果找不到这个⽂件夹,先执⾏⼀下 "ssh localhost"ssh-keygen -t rsacp id_rsa.pub authorized_keys注意:三. 安装过程3.1 下载hadoop安装包有两种下载⽅式:1. 直接去官⽹下载:2. 使⽤wget命令下载:复制代码代码如下:wget /apache/hadoop/core/stable/hadoop-2.7.1.tar.gz3.2 配置hadoop1. 解压下载的hadoop安装包,并修改配置⽂件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。
操作系统为CentOS 5.3 x86_64版本的Linux系统。
NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。
所有的应用软件都安装在此共享磁盘上。
1.ssh免密码登录.对每个用户都要设置。
2.下载Torque,解压缩,编译。
目前,torque 2.3是稳定版本,2.4是beta版本。
为了稳定,我下载的是2.3.9版本。
下载地址:/downloads/torque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。
将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。
或者手工写一个脚本来完成这些工作。
3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。
写脚本来完成吧!比如for i in `seq 1 9`doecho tccl0$issh tccl0$i "some command"done4.配置torque1)ldconfig2) Specify Compute Nodes编辑文件/var/spool/torque/server_priv/nodes内容如下(注意,这里使用的都是机器的简称,与使用免密码登录时的机器名称相同):tccl01 np=8 smallmemtccl02 np=8 smallmemtccl03 np=8 bigmemtccl04 np=8 bigmemtccl05 np=8 bigmemtccl06 np=8 24G_Mem fastcputccl07 np=8 24G_Mem fastcputccl08 np=8 20G_Mem fastcputccl09 np=8 24G_Mem fastcpu3)Configure TORQUE on the Compute Nodes按照系统的情况,配置如下:在计算节点上编辑文件/var/spool/torque/mom_priv/config内容如下:$pbsserver tccl_frontarch x86_64opsys RHEL$logevent 255$ideal_load 4.0$max_load 8.0$tmpdir /tmp4)初始化torque.setup root这会生成最基本的一个设置,有一个batch队列。
如果需要比较复杂的队列,建议自己写一个配置文件,比如queue.conf文件。
下面是一个有short,medium,long 共3个队列的配置文件:## Create queues and set their attributes.### Create and define queue batch##create queue batch#set queue batch queue_type = Execution#set queue batch resources_default.nodes = 1#set queue batch resources_default.walltime = 01:00:00#set queue batch enabled = True#set queue batch started = True#Short queuecreate queue shortset queue short queue_type = Executionset queue short resources_default.nodes=1set queue short Priority = 1000set queue short max_running=20set queue short max_queuable=40set queue short max_user_run=10set queue short max_user_queuable=20set queue short resources_min.walltime=00:00:10set queue short resources_max.walltime=12:00:00set queue short resources_default.walltime = 12:00:00 set queue short resources_default.neednodes = smallmem set queue short enabled = Trueset queue short started = True#Medium queuecreate queue mediumset queue medium queue_type = Executionset queue medium resources_default.nodes=1set queue medium Priority = 100set queue medium max_running=12set queue medium max_queuable=20set queue medium max_user_run=4set queue medium max_user_queuable=8set queue medium resources_min.walltime=12:00:10set queue medium resources_max.walltime=48:00:00set queue medium resources_default.walltime = 24:00:00 set queue medium enabled = Trueset queue medium started = Trueset queue medium resources_default.neednodes = fastcpu #Long queuecreate queue longset queue long queue_type = Executionset queue long resources_default.nodes=1set queue long Priority = 10set queue long max_running=10set queue long max_queuable=12set queue long max_user_run=3set queue long max_user_queuable=6set queue long resources_min.walltime=48:00:00set queue long resources_max.walltime=480:00:00set queue long resources_default.walltime = 72:00:00set queue long resources_default.neednodes = bigmem set queue long enabled = Trueset queue long started = True## Set server attributes.#set server scheduling = Trueset server acl_hosts = tccl_frontset server acl_hosts += tccl_front.tccl_groupset server acl_hosts += "tccl01,tccl02,tccl03,tccl04,tccl05,tccl06,tccl07,tccl08,tccl09"set server acl_host_enable = trueset server managers = root@tccl_front.tccl_groupset server operators = root@tccl_front.tccl_groupset server default_queue = shortset server log_events = 511set server mail_from = admset server scheduler_iteration = 10set server node_check_rate = 120set server tcp_timeout = 6set server mom_job_sync = Trueset server keep_completed = 120#set server next_job_number = 0set server query_other_jobs = True运行qmgr <queue.conf即可完成两个队列(long,short)的基本设置。
需要注意的问题:/etc/hosts设置# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1 localhost localhost::1 tccl_front6.tccl_group localhost6192.168.1.218 tccl_front.tccl_group tccl_front192.168.1.3 tccl01.tccl_group tccl01192.168.1.2 tccl02.tccl_group tccl02192.168.1.4 tccl03.tccl_group tccl03192.168.1.5 tccl04.tccl_group tccl04192.168.1.6 tccl05.tccl_group tccl05192.168.1.7 tccl06.tccl_group tccl06192.168.1.8 tccl07.tccl_group tccl07192.168.1.9 tccl08.tccl_group tccl08192.168.1.10 tccl09.tccl_group tccl09包含tccl_front的应该是192.168.*.*的IP,而不能是外网IP或者127.0.0.1的IP,切记!5.安装mpiexec,这个是为了方便运行nwchem等程序。