资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用
曙光作业管理-调度系统安装配置手册
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
xCAT2.1实验_
使用xCAT 2.x进行Linux集群的布署xCAT是Extreme Cluster Administration Toolkit的缩写,它是一套开源的集群管理软件。
许多IBM的集群用户都已经在使用通过xCAT来布置以及管理的集群系统,现在,xCAT已经发布了2.0和2.1版本,与以前的1.x版本不同,新的xCAT2.0采用了全新的Client/Server架构,所有代码全部重新编写,并且所有的通讯都是经过加密的。
如果我们并不是高性能计算的用户,也可以利用xCAT来帮助我们进行Linux操作系统的安装,由于xCAT是通过网络安装Linux操作系统,与传统的通过本地的光盘安装方式要方便有效得多。
下面,我们就一起来体验一下xCA T2.1实验环境:分组:管理节点,计算节点IP地址管理节点主机名计算节点主机名刀片中心管理模块计算节点槽位第一组192.168.1.100,192.168.1.101cnode100 cnode101 bc09 4第二组192.168.1.102,192.168.1.103cnode102 cnode103 bc09 6第三组192.168.1.104,192.168.1.105cnode104 cnode105 bc09 8第四组192.168.1.106,192.168.1.107conde106 cnode107 bc09 10第五组192.168.1.108,192.168.1.109cnode108 cnode109 bc09 12第六组192.168.1.110,192.168.1.111cnode110 cnode111 bc09 14第七组192.168.1.112,192.168.1.113cnode112 cnode113 bc10 3第八组192.168.1.114,192.168.1.115cnode114 cnode115 bc10 5第九组192.168.1.116,192.168.1.117cnode116 cnode117 bc10 7第十组192.168.1.118,192.168.1.119cnode118 cnode119 bc10 9管理模块:bc09 192.168.1.219bc10 192.168.1.220系统光盘的映像文件在每个管理节点的/tmp目录下RHEL5.1-Server-20071017.0-x86_64-disc1-ftp.isoRHEL5.1-Server-20071017.0-x86_64-disc2-ftp.isoRHEL5.1-Server-20071017.0-x86_64-disc3-ftp.isoRHEL5.1-Server-20071017.0-x86_64-disc4-ftp.isoRHEL5.1-Server-20071017.0-x86_64-disc5-ftp.isoRHEL5.1-Server-20071017.0-x86_64-disc6-ftp.iso集群管理软件xCAT也在/tmp目录下xcat-core-2.1.1.tar.bz2xcat-dep-2.1.tar.bz2首先,我们要完成管理节点的安装在这里,我们在每一组的第一台刀片服务器HS21上安装了RedHat Enterprise Linux Server 5 Update 1 的x86_64版本。
1-Torque1.5中文教程
Torque 1.5 – 介绍教程欢迎来到Torque的世界祝贺你买了我们的Torque 游戏引擎。
这个教程会带领你参观大部分Torque的基本功能,也是你开始自己做游戏的一个起点。
做完这个教程时,我们已经做好了一个简单的3D游戏!在我们进入Torque世界以前,有两点值得注意。
在这个教程中,当你看到诸如“Select File > Open Mission”,它意味着点击File菜单中的“Open Mission”选项。
至于文件的位置,我们假定你把Torque安装在了某个硬盘根目录的/Torque/SDK目录。
第2点,这个教程是写给PC平台用户的,如果你使用的是苹果系统,我们强烈建议你使用两个按键的鼠标,同时用Option键代替Ctrl键的操作。
另外,应用程序文件在Mac中被叫做“二进制文件”的,我们在这里叫“可执行文件”。
开始页在Torque/SDK/example目录下,你会发现名为torqueDemo可执行文件。
当你运行torqueDemo的时候,你会发现如下的开始页面:那顶上的一群图标是到TGE工具和文档的快捷方式。
GUIEditor是制作图形用户界面的工具。
World Editor是创造你的游戏世界并添加物体。
Console是提供通过文字界面访问和控制游戏引擎的脚本。
在这个教程中,我们将要探索GUI和World编辑器,并且我们会快速浏览一下Console。
至于TDN,News,Docs,和Forums图标是关于Torque信息的网页的链接。
Tutorial是本教程的链接。
Options让你能设置普通的图形和声音选项,比如屏幕分辨率或音量等。
最后,Exit 就像你想象中的那样,退出这个引擎。
我们在这个教程中不会深入介绍Torque 的Consol (控制台),只是让你知道它能做什么,点击这个图标,在Consol 窗口你可以看到引擎启动后的一些进程记录。
你不仅仅可以用它来得到文字反馈,你也能直接在文字输入框中输入命令,举个例子,输入“quit();”,当然,这个命令退出了TGE 。
MAUI实验指导书
MAUI实验指导书1.MAUI简介Maui是一个高级的作业调度器,它采用积极的调度策略优化资源的利用和减少作业的响应时间。
Maui的资源和伏在管理允许高级的参数配置:作业优先级(Job Priority)、调度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshare)、预留策略(Reservation Policy)。
Maui的QoS机制允许资源和服务的直接传递、策略解除(Policy Exemption)和指定特征的受限访问。
Maui采用高级的资源预留架构可以保证精确控制资源何时、何地、被谁、怎样使用。
Maui的预留架构完全支持非入侵式的元调度。
在集群系统中,作业管理系统是很重要的一个部分。
好的作业管理系统能够公平、合理地分配计算资源,杜绝资源浪费。
在小型的集群系统中,人们一般用Torque PBS作为作业管理系统,它本身自带一个管理工具——pbs_sched,该管理工具能够根据先进先出的原则安排作业,对一般的集群管理应该是足够了。
但如果集群有几十个节点,分成若干个队列,则pbs_sched就力不从心了。
为此,Torque推出了一个免费的管理软件maui,它能够实现多个队列、多个用户的作业管理,允许管理人员建立各种作业排队的规则,是一款很好的小型集群系统作业管理软件。
2.安装MAUI下面是它的安装简介,前提是先安装调试好Torque PBS 后,用maui替代pbs_sched。
①在管理节点上安装maui。
# /home/tgz/torque/maui-3.2.6p21/configure --with-pbs=usr/local# make# make install②修改ui的守护程序,并修改MAUI_PRFIX指定maui 所在路径。
# cp /home/tgztorque-3.2.6p21 /etc/maui.d /etc/init.d/# vi /etc/init.d/maui.dMAUI_PREFIX=/usr/local/maui③启动maui的守护程序。
PBS作业调度使用方法
PBS作业调度使用方法:1.IBM HPC Platform 作业提交流程用户需要使用集群资源进行作业计算时,需要使用作业调度系统。
IBM HPC Platform集群采用的是开源的Torque+Maui作业调度系统。
●任何用户都需要产生Job_que.sh任务作业脚本:>> genQue当前文件夹下会产生一个Job_que.sh 的shell作业脚本文件●编辑Job_que.sh任务作业脚本:>> vi Job_que.sh●提交Job_que.sh任务作业脚本:>> qsub Job_que.sh注意:在Job_que.sh中,所有任务的运行时间超过120小时的情况下,job作业将会被自动停止!如果有疑问和延长作业运行时间的需要请直接联系管理员。
具体的更多关于任务作业脚本的说明、使用和提交请参考vi和本章第2小节:Torque PBS作业调度系统使用说明。
2.Torque PBS作业调度系统使用说明Torque PBS 提供对批处理作业和分散的计算节点(Compute nodes)的控制。
PBS是Protable Batch System的缩写,是一个任务管理系统。
当多个用户使用同一个计算资源时,每个用户用PBS脚本提交自己的任务,由PBS对这些任务进行管理和资源的分配。
●matlab作业的PBS脚本说明:#!/bin/sh#PBS -N JOB#PBS -l nodes=1:ppn=8#PBS -l feature=xe#PBS -l naccesspolicy=singlejob#PBS -o RunJob.out#PBS -e RunJob.err#PBS -l walltime=120:00:00#PBS -q batchecho --------- `date` ----------echo HomeDirectory is $PWDechoecho Current Dir is $PBS_O_WORKDIRechocd $PBS_O_WORKDIRecho "------------This is the node file -------------"cat $PBS_NODEFILEecho "-----------------------------------------------"cat $PBS_NODEFILE > host.mpdnp=$(cat $PBS_NODEFILE | wc -l)echo The number of core is $npechoecho#-----------------------------------------------------## OpenMPI Job Submitting Example ### mpirun -np $np -machinefile host.mpd $BINPATH ...###-__--------------------------------------------------## -__- have fun! #matlab –nojvm –nodesktop < test.m > log将这个脚本保存成为Job_que.sh后,使用然后qsub Job_que.sh就将这个任务提交给了系统。
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+硬盘空间及核心限制)异常详细版
集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+用户硬盘空间限制和核心使用限制设置)异常详细版制作者:甄江苏单位:湘潭大学材料科学与工程本教程假设你已经在多台电脑上安装了CentOS 7.x 或RedHat 7.x版本的系统(建议每个机器上的root用户登录密码相同),并且强烈建议安装系统时选择系统语言选择英文。
本教程主要分为这几个方面:1.IP设置、计算机名称设置及hosts文件修改2.SSH双向免验证登录及其相关设置3.防火墙设置4.节点间共享文件夹(NFS服务)设置5.NIS服务设置6.Torque安装及其设置7.Maui安装及其设置8.用户硬盘使用容量限制9.并行运行相关说明(比较重要!!!)1.IP设置、计算机名称设置及hosts文件修改1.1IP设置(所有节点都要设置,只有主节点必须设置两个,外网和内网):一般服务器电脑都有两个网络接口(至少主节点上面有两个接口吧),我们可以把主节点上的一个网络接口连接外网,以便在其他电脑上通过远程ssh来进行相关操作,比如修改配置,提交任务等。
另一个接口来连接内网,以便和其他子节点相互通信。
外网IP是网络管理中心分配的,内网IP可以自己分配。
用图形桌面的方式进入系统,点击右上角,会看见网络接口名称(比如我的这个显示enp2s0和enp3s0两个接口),前提是你的两个接口已经连上了网线。
然后点击进去,会看见关闭(或打开)选项和设置选项,点击进去进行设置,我们现在先设置内网IP(我用enp2s0接口作为内网接口),像上面说的那样选择一个接口进去设置:进去后,点击右下角的齿轮状图标进行设置,然后出现一个菜单,会发现左边有6项,选择第三项,进去后为左中下角的第一个“Connect automatically”打钩,然后选择左边的第四个选项(也就是“IPV4”那个选项),然后选择右上角的“ON”,“ON”的下边那个(有DHCP的那个)用鼠标点击一下,选择中间的选项(“Manual”选项),然后在出来的地方填写IP相关信息,第一行是IP地址,可以填比如:192.168.1.1(不能是192.168.1.0),其他节点可以是.2,.3……等;第二行是掩码,所有节点都填写:255.255.255.0;第三个是网关,可以填:192.168.1.1(所有节点网关都一样),然后点击应用就可以了,而外网IP跟上面的设置方法差不多,只不过是在连接外网的网络接口里填写由网络管理中心给你的相关数据而已。
MauiMETA工具数据导出、导入操作指引
MauiMETA工具数据导出、导入操作指引MauiMETA工具安装1.将驱动压缩包Driver_Auto_Installer_EXE_v5.1524.03.zip解压,在解压好的文件中找到DriverInstall.exe文件运行安装好驱动,安装好驱动后将开机的样机连接电脑,进行样机驱动安装。
2.将工具压缩包MauiMETA_v8.1512.0.zip解压,在解压出来的文件中找到MauiMETA_exe_3G_v8.1512.0文件夹并进入,双击运行setup.exe文件,按提示安装好Maui META 3G ver 8.1512.0.0工具。
3.将软件包V92_HUN_COMMON_HU_V1.03_20151119.zip进行解压4.桌面点击Maui META 3G ver 8.1512.0.0工具的快捷方式,进入软件界面,如图1所示图1注意:MauiMETA工具与SP_Flash_Tool_exe_Windows下载工具不能同时打开MauiMETA工具配置参数5.点击options 勾选如图2所示选项,勾选好先点击Disconnect,再点击Reconnect,将样机关机连接上电脑,连接成功后如图3所示,需切换模式如图4所示,切换后如图5所示图2 图3 图4图56.点击Change NVRAM DB如图6所示,选择软件V92_HUN_COMMON_HU_V1.03_20151119解压包中的BPLGUInfoCustomAppSrcP_MT6735_S00_MOLY_LR9_W1444_MD_LWTG_MP _V8_P18_1_lwg_n文件,如图7所示图6图7导出数据7.将Download Parameter列表勾选如图8所示,勾选完后点击Upload from flash。
图88.待Download Parameter列表中变成蓝色字体,如图9所示图99.点击Save to file 导出数据,选择数据保存路径地址,需给保存数据命名,如图10所示图10导入数据10.先执行MauiMETA工具配置参数步骤( 5和6),点击Load form file 选择需导入的数据,如图11所示图1111.选择导入的数据后,Download Parameter列表成蓝色字,如图12图1212.点击Download to flash 后待Download Parameter列表变成黑色字,数据导入成功如图13所示图13。
Tesla GPU 集群服务器使用手册
T esla GPU集群服务器使用手册v0.93 (2010-1-11)一、系统环境简介T esla GPU集群服务器域名为,IP地址为159.226.49.76(暂定),内部用户可以在办公网内直接使用SSH登录该集群,外部用户同样需要经过防火墙身份认证之后(认证过程请参见《深腾7000远程登录指南》)再进行SSH登录。
数据的上传与下载仍然是通过scp或者sftp方式进行。
T esla GPU集群服务器的系统环境如下: 1)硬件环境:● 头节点1个,机器名console,配备一颗Intel Xeon E5504四核处理器,2.0GHz 主频,2*4MB缓存,8G内存,6块300GB SAS硬盘,工作于Raid5模式。
● 计算节点90个,存在两种不同硬件配置,其机器名分别如下:c0101-c0110、c0201-c0203、c0301-c0305(共18个节点)以上节点配置一颗AMD Phenom 9850四核处理器,2.5GHz主频,4*256KB 二级缓存,4MB三级缓存,3块T esla C1060 GPU处理器,8GB内存,一块500GB SATA硬盘。
c0204-c0233、c0401-0442(共72个节点)以上节点配置一颗Intel Xeon E5410四核处理器,2.33GHz主频,2*6MB二级缓存,2块T esla C1060 GPU处理器,8GB内存,一块500GB SATA硬盘。
各节点间通过DDR 4X Infiniband高速网络和千兆以太网进行连接,分别用于计算数据和系统管理信息的通讯。
2)软件环境:RHEL 5.3 x64操作系统,内核版本2.6.18-128.el5。
GNU C/C++/Fortran编译器。
Nvidia CUDA T oolkit 2.1开发工具。
Mvapich/OpenMPI并行编程环境。
Atlas/GotoBlas数学函数库。
T orque/Maui资源管理系统及作业调度器。
xCAT 1.3.0+Torque+Maui的安装实施
xCAT 1.3.0+Torque+Maui的安装实施(基于IBM BLADECENTER H 及HS21)目的: (2)关于内容组织: (2)此文档的物理连接拓朴图如下: (2)相关的一些图片: (3)关于节点: (5)关于互联设备及网络: (6)xCAT安装 (6)1.安装管理节点 (6)2.将xCAT包解压/opt目录下 (6)3.第一次运行setupxcat,此次运行,xCAT将配置自身的运行环境 (6)4.用户登出系统重新登录 (6)5.配置网络时间同步服务器(NTP) (7)6.定义集群.(注意每个设备都是节点,包括交换机,服务器,管理模块等)下面是相关需要定义的文件 (7)1)site.tab文件,下面是此文件的详细说明。
范例中有些选项是官方文档中没有提到。
(7)2)nodehm.tab文件 (12)3)nodelist.tab文件,定义节点及所属组 (13)4)nodepos.tab文件,内容为空即可,定义各个节点的物理位置,比如在那个房间,那个机架上等等。
(14)5)noderes.tab文件,定义节点或组所使用的资源. 详见man noderes.tab (14)6)nodetype.tab文件,定义节点的系统类型,架构,及使用的映像类型 (14)7)passwd.tab文件,定义各种管理设备使用的用户及密码 (15)8)postscripts.tab文件,定义kickstar等安装结束后配置节点的相关脚本 (16)9)postdeps.tab文件,定义postscripts中脚本的相互依存关系 (17)10)snmptrapd.conf文件,使用默认即可。
(17)11)networks.tab文件,定义节点所使用的网段,掩码,网关,DNS信息。
(17)12)mac.tab文件,定义节点名与mac地址的对应关系,对于管理设备可手动添加,其它的可用getmacs命令来获取 (18)13)conserver.tab文件,定义节点通过何种方式转发console信息.这里我们使用的是sol方式 (19)14)conserver.tab文件,定义节点使用的conserver,及在conserver.cf中定义的console名 (20)15)mp.tab文件,定义节点的管理设备及在插槽位置。
作业提交系统Torque个人安装
PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。
PBS的目前包括openPBS,PBS Pro和T orque三个主要分支。
其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro 是PBS的商业版本,功能最为丰富。
T orque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。
一、Torque安装在master(管理结点上)1、解压安装包[root@master tmp]# tar zxvf torque-2.3.0.tar.gz2、进入到解压后的文件夹./configure --with-default-server=mastermakemake install3、(1)[root@master torque-2.3.0]#./torque.setup <user><user>必须是个普通用户(2)[root@master torque-2.3.0]#make packages把产生的 tpackages , torque-package-clients-linux-x86-64.sh,torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
(3)[root@master torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install[root@master torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install(4)编辑/var/spool/torque/server_priv/nodes(需要自己建立)加入如下内容master np=4node01 np=4........node09 np=4(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。
torque安装步骤
一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
MAUI Studio安装手册说明书
MAUI Studio安装手册概要本文档介绍如何下载、安装和注册MAUI Studio软件。
简介MAUI® Studio软件可以将力科示波器的高级用户界面体验带到您的PC 上。
可以将力科示波器上保存的波形、设置和LabNotebook文件导入软件中,进行查看和分析,就像在示波器上操作一样。
注册完成后,免费的MAUI Studio软件默认将模拟HDO4000A示波器的GUI和功能。
MAUI Studio + Bundle Upgrade可以模拟任何一款力科示波器的GUI和功能,支持更高带宽和更多软件选件,并且在2020年全年免费提供。
PC配置要求:操作系统: x64 Windows®10 Pro operating system处理器: Intel®CoreTM i7 Processor or better, 2.4 GHz or higher内存: 4 GB RAM or better硬盘: 至少2 GB的可用空间显示器分辨率: 最低 1280x780 pixel display, 推荐1920x1080注意:主机PC必须连接互联网才能下载和注册MAUI Studio软件。
下载软件1. 从PC进入链接:/mauistudio2.点击Download Software,按照提示,将安装文件保存到PC主机上安装软件1. 在PC上, 双击安装文件图标2. 查看并接受最终用户许可协议3. 按照安装程序提示并安装XStream DSO组件,注意要同时选择安装WavePulser组件4. 安装程序完成后,单击完成并继续注册以激活它。
Teledyne LeCroy MAUI Studio注册软件需要注册才能激活MAUI Studio软件,需要安装与主机PC匹配的许可证文件,该许可证文件包含对应的MAUI功能,PC必须连接Internet才能完成注册过程。
1. 启动MAUI Studio软件,可以通过桌面图标或者从Windows开始菜单LeCroy > Start DSO启动,您应该会看到“激活MAUI Studio许可证”的对话框,保持打开状态,直到完成注册。
浪潮HPC集群作业调度系统使用培训
PBS命令
qsub 作业提交脚本 qstat [参数] qdel 作业号
Inspur group 2017/04/1110集群作业调度统使用方法PBS命令详解
提交作业的命令 qsub 作业提交脚本 此命令执行后,会给出个作业号 查询作业命令 qstat [参数]
13
集群作业调度系统使用方法
PBS命令详解
作业删除命令 qdel 作业号 其中作业号为qsub提交后系统所给出的一个号码
注意事项
1、非管理员只能删除自己提交的作业 2、在提交作业时估计自己需要运行的时间把其写进作业提交脚 本里。 3、Maui里的策略一但制定了,对于作业的优先级,普通用户是 不可见且不可调的。
Inspur group 2017/04/11
14
PBS脚本写作
脚本包含三部分:
资源声明:即规定所需要的节点数,核数,作业名,所要递交的队列
环境变量:即运行作业时,需要的各个节点的基本属性,比如某些软件的路径等
可执行程序:即需要通过MPI来运行的并行程序
如下例子说明
脚本声明部分:
#PBS -N vasp
Inspur group 2017/04/11
8
集群作业调度系统说明
Maui是Cluestering公司为了弥补torque自带的调度器 pbs_shced的调度策略而开发了一款调度器软件 。 Maui优先级系统
Inspur group 2017/04/11
9
集群作业调度系统使用方法
Torque应该如何使用?
PBS历史:
Inspur group 2017/04/11
5
Torque说明文档
Torque 3.0使用指南原文地址:/mandy/articles/1982.htmlTorque 3.0使用指南 (1)原文地址: (1)1 使用简明流程 (5)1.1 从已经存在的数据库生成schema XML文件 (5)1.1.1 编辑build.properties (5)1.2 根据schema XML文件生成java object model模型源代码 51.3 在项目中整合torque (5)1.3.1 编辑Torque.properties (5)1.3.2 在项目的初始化代码中添加一下代码: (6)1.4 增加新表 (6)1.4.1 备份shx3-schema.xml (6)1.4.2 ant –f build-torque.xml jdbc (6)1.4.3 将新的表的XML文本块粘贴到备份的shx3-schema.xml (6)1.4.4 备份src/java/* (7)1.4.5 ant –f build-torque.xml om (7)1.4.6 将新的表对应的java文件添加到项目中。
(7)1.5 删除旧表 (7)1.5.1 删除表 (7)1.5.2 删除项目中该表相关联的java源代码 (7)1.6 修改数据库表结构 (7)1.6.1 (7)注意如果修改的表对应的java文件有添加了自定义的方法,含有该方法的java文件需要事先备份。
待增加新表操作完成后,再将这些java文件复制过来,覆盖生成的文件。
其实,torque在生成java文件时,不会覆盖从base基类继承来的类。
所以,在保证安全的情况下,可以直接在修改的package上直接生成java代码。
(7)1.6.2 先执行删除旧表,然后执行增加新表 (7)1.7 包管理及缺省基类 (7)2 torque结构说明 (9)3 编码 (10)3.1 在生成的java源码中添加自定义方法 (10)3.2 初始化 (10)3.3 ID生成器的使用 (10)3.4 INSERT (10)3.5 SELECT (11)3.6 UPDATE (11)3.7 DELETE (12)3.8 简单查询 (12)3.9 复杂查询 (12)3.10 关联查询 (13)3.11 DISTINCT (13)3.12 排序 (14)3.13 GROUP BY AND DISTINCT (14)3.14 条件查询 (15)3.15 自定义查询条件 (15)3.16 在查询中使用两次同一字段 (16)3.17 翻页 (16)3.18 事务处理 (17)4、模板文件 (18)4.1 Torque.properties (23)1 使用简明流程1.1 从已经存在的数据库生成schema XML文件1.1.1 编辑build.propertiestorque.project = shx3torque.database = oracletorque.targetPackage = net.emedchina.omtorque.database.createUrl = jdbc:oracle:thin:@172.25.3.201:1521:devgbk torque.database.buildUrl = jdbc:oracle:thin:@172.25.3.201:1521:devgbk torque.database.url = jdbc:oracle:thin:@172.25.3.201:1521:devgbk torque.database.driver = oracle.jdbc.OracleDriverer = shx3torque.database.password = shx3torque.database.host = 172.25.3.201# 下面一行至关重要torque.database.schema = SHX31.1.1.1ant –f build-torque.xml jdbc1.1.1.2生成:schema/shx3-schema.xml,该文件用于生成模型源代码。
maurice 操作手册
maurice 操作手册Maurice 是一种功能强大的操作工具,旨在提高工作效率和简化任务操作。
本操作手册将为您提供详细的使用指南和技巧,帮助您充分利用 Maurice 的特性和功能。
请按照以下内容逐步了解如何操作Maurice。
1. Maurice 的安装和启动在开始使用 Maurice 之前,您需要首先安装它并进行启动。
请按照以下步骤进行操作:1. 下载 Maurice 的安装文件,并在计算机上进行安装。
2. 在安装完成后,双击打开 Maurice 的应用程序。
3. 程序启动后,您将看到 Maurice 的主界面。
2. Maurice 的主界面Maurice 的主界面提供了简洁直观的用户界面,方便您快速访问各项功能。
让我们一起来了解主界面的各个部分:a. 导航栏:位于主界面顶部,包含了各功能模块的快捷入口,方便您切换不同的功能页面。
b. 左侧侧边栏:包含了更多的操作选项和设置功能,如文件管理、用户设置等。
c. 中心工作区:显示当前所选功能模块的详细内容和操作界面。
3. Maurice 的常用功能Maurice 提供了多种强大的功能模块,用于不同的操作需求。
以下是一些常用功能的介绍:a. 文件管理:Maurice 提供了灵活而强大的文件管理功能,允许您轻松组织、浏览和编辑文件。
您可以通过导航栏或左侧侧边栏中的文件管理入口进入该功能模块。
b. 数据分析:Maurice 的数据分析功能可帮助您快速进行数据分析和可视化。
您可以导入数据文件,并使用内置的分析工具进行数据处理和展示。
在导航栏或左侧侧边栏中寻找数据分析功能入口即可。
c. 任务计划:Maurice 的任务计划功能可帮助您安排和跟踪任务的完成情况。
您可以创建任务清单、设定截止日期,并随时查看任务进度。
访问导航栏或左侧侧边栏中的任务计划入口以进入该模块。
4. Maurice 的高级功能和定制设置除了基本功能外,Maurice 还提供了一些高级功能和定制设置,以满足更个性化的需求。
euleros使用手册
EulerOS使用手册一、安装与启动1. 下载EulerOS安装程序,并按照提示进行安装。
确保选择正确的安装位置和配置参数。
2. 安装完成后,启动EulerOS系统。
通常,系统会自动启动并进入登录界面。
二、登录与权限1. 使用管理员账户登录系统。
默认情况下,管理员账户具有最高权限。
2. 如果需要其他用户访问系统,请创建新用户并分配适当的权限。
三、系统配置1. 进入系统设置,对系统进行个性化配置,如修改桌面背景、设置主题等。
2. 根据需要配置网络连接,包括有线和无线网络。
3. 安装必要的软件和工具,以满足日常使用需求。
四、文件管理1. 使用文件管理器浏览和管理系统中的文件和目录。
2. 在文件管理器中,可以执行复制、移动、删除等操作。
3. 设置文件和文件夹的权限,以确保安全性和访问控制。
五、软件安装与卸载1. 使用软件管理器安装新的应用程序和工具。
在软件管理器中搜索所需的应用程序,并按照提示进行安装。
2. 如果需要卸载不再使用的应用程序,可以在软件管理器中找到相应的应用程序并卸载。
六、系统更新与维护1. 定期检查系统更新,确保系统安全性和功能得到及时更新。
2. 进行系统维护操作,如清理垃圾文件、优化系统性能等。
3. 备份重要数据,以防意外情况发生。
七、常见问题与解决方案1. 如果遇到任何问题或错误,可以参考EulerOS的官方文档或在线社区寻求帮助。
2. 定期备份系统数据,以防数据丢失或损坏。
3. 遵循最佳实践,确保系统的安全性和稳定性。
请注意,本手册提供的是一般性的指导,具体操作可能会因EulerOS版本和配置而有所不同。
建议参考官方文档或在线资源以获取更详细和准确的信息。
PBS+Torque+Maui使用篇
PBS部分:qsubqstatqdelqmove qorderqdel canceljobchangeparam checkjob checknode diagnose mbal mclientmdiag mjobctl mnodectl mprof mschedctl mstat releasehold releaseres resetstats runjob schedctlsethold setqossetressetspri showbf showconfig showgrid showhold showq showres showstart showstate showstatsTorque部分:chk_tree hostnnqs2pbspbs-config pbsdsh pbsnodespbs_tclshpbs_track printjob printserverdbprinttracking qalterqchkptqdelqdisable qenableqholdqmgrqmoveqmsgqnodesqorderqrerunqrlsqrunqselectqsigqstartqstatqstopqsubqtermtracejobMaui部分# maui.cfg 3.2.6p19##define SERVERHOST,this specifies where maui will run#SCHEDCFG[0] SERVER=node8:42559 MODE=NORMAL# primary admin must be first in listADMIN1 root## Resource Manager Definition#RMCFG[0] TYPE=PBS HOST=node8# Allocation Manager DefinitionAMCFG[bank] TYPE=NONE# full parameter docs at/mauidocs/a.fparameters.html# use the 'schedctl -l' command to display current configuration## Set Torque server polling interval. If you have short queues or/and jobs it# is worth to set a short interval. (10 seconds)#RMPOLLINTERVAL 00:00:30SERVERPORT 42559SERVERMODE NORMAL# Admin: /mauidocs/a.esecurity.html## a max. 10 MByte log file in a logical location#LOGFILE /var/log/maui.logLOGFILEMAXSIZE 10000000LOGLEVEL 3# Job Priority:/mauidocs/5.1jobprioritization.html QUEUETIMEWEIGHT 1# Throttling Policies:/mauidocs/6.2throttlingpolicies.html# NONE SPECIFIED# Add by dolphin =======================================#NODEACCESSPOLICY SINGLEUSERJOBNODEMATCHPOLICY EXACTNODENODEACCESSPOLICY SHARED#NODECFG[DEFAULT] PRIORITYF='-JOBCOUNT'ENABLEMUITINODEJOBS TRUEENABLEMULTIREQJOBS TRUE# ended ================================================## Set the delay to 1 minute before Maui tries to run a job again, # in case it failed to run the first time.# The default value is 1 hour.#DEFERTIME 00:01:00## Set preempt policy to suspend if possible#PREEMPTPOLICY SUSPENDRESERVATIONPOLICY CURRENTHIGHEST## Backfill: /mauidocs/8.2backfill.html#BACKFILLPOLICY FIRSTFIT## Node Allocation:/mauidocs/5.2nodeallocation.html##NODEALLOCATIONPOLICY MINRESOURCENODEALLOCATIONPOLICY FIRSTAVAILABLE#NODEALLOCATIONPOLICY PRIORITY#NODEALLOCATIONPOLICY MINRESOURCE## Fair share policy# FairShare: /mauidocs/6.3fairshare.html#FSPOLICY DEDICATEDPSFSINTERVAL 24:00:00FSQOSWEIGHT 2## In order to configure premption activate the QOSWEIGHT,# to do this set the variable QOSWEIGHT to a number greater than 1. #QOSWEIGHT 1QOSCFG[preemptor] QFLAGS=PREEMPTOR#QOSCFG[preemptee] QFLAGS=PREEMPTEE## Once you have defined which queues are preemptors and which are preemptees# you the use the CLASSCFG to define priorities. As with the QOSCFG options you# need to turn on the CLASSCFG options by setting the CLASSWEIGHT#CLASSWEIGHT 1CLASSCFG[high] QDEF=preemptor PRIORITY=11000CLASSCFG[middle] QDEF=preemptee PRIORITY=9000CLASSCFG[low] QDEF=preemptee PRIORITY=6000#CONSUMEDWEIGHT 3CREDWEIGHT 1GROUPWEIGHT 1USERWEIGHT 1SRCFGWEIGHT 2# QOS: /mauidocs/7.3qos.html# QOSCFG[hi] PRIORITY=100 XFTARGET=100 FLAGS=PREEMPTOR:IGNMAXJOB# QOSCFG[low] PRIORITY=-1000 FLAGS=PREEMPTEE## Standing Reservations:/mauidocs/7.1.3standingreservations.html## Creds: /mauidocs/6.1fairnessoverview.htmlUSERCFG[DEFAULT] MAXJOB=4 MAXNODE=1 MAXPROC=8USERCFG[root] MAXJOB=100 MAXNODE=100 MAXPROC=400USERCFG[administrator] MAXJOB=4 MAXNODE=4 MAXPROC=32# 这里指定默认的每个帐户最大可以运行2个job,每个job所申请的节点总数不能超## 过3个。
torque使用指南
Tip1:By default, job submission is allowed only on the TORQUE server host (host on which pbs_server is running). Enablement of job submission from other hosts is documented in Configuring Job Submit Hosts.Master node:node3Submit a job:Qsub查询作业状态:qstat/qstat –f查询节点状态:pbsnodes –a第一步:安装Yum install torque*安装之后的路径:/var/torque第二步:配置配置控制节点:1.执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。
命令:./torque.setup <username>(指定一个非root用户名)qmgr -c 'p s' //查看配置信息2.具体指定计算节点在目录TORQUE_HOME/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。
简单示例如下:# Nodes 001 and 003-005 are cluster nodes#node001 np=2 cluster01 rackNumber22## node002 will be replaced soonnode002:ts waitingToBeReplaced# node002 will be replaced soon#node003 np=4 cluster01 rackNumber24node004 cluster01 rackNumber25node005 np=2 cluster01 rackNumber26 RAM16GBnode006node007 np=2node008:ts np=4配置计算节点:在计算节点的TORQUE_HOME/mom_priv/config文件中修改$pbsserver headnode # note: hostname running pbs_server $logevent 255 # bitmap of which events to log Pbsserver为你的集群中的管理节点的hostname.3.重启节点计算节点:pbs_mom控制节点:> qterm -t quick> pbs_server注意事项:1.在torque中在执行mpi程序时。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用李会民(hmli@)中国科学技术大学网络信息中心2008年1月目录1资源管理软件TORQUE的安装与设置21.1服务节点安装TORQUE (2)1.2服务节点初始化并设置TORQUE (2)1.3计算节点上安装TORQUE (4)1.4计算节点配置TORQUE (4)2安装与配置作业调度软件:Maui52.1服务节点上安装Maui (5)2.2服务节点上配置Maui (5)3作业运行63.1串行作业 (7)3.2并行作业 (8)3.3常用作业管理命令 (8)3.3.1查看队列中的作业状态:qstat (9)3.3.2挂起作业:qhold (10)3.3.3取消挂起:qrls (10)3.3.4终止作业:qdel和canceljob (10)3.3.5查看作业状态:checkjob (11)3.3.6交换两个作业的排队顺序:qorder (12)3.3.7选择符合特定条件的作业的作业号:qselect (12)3.3.8显示队列中作业的信息:showq (13)3.3.9显示节点信息:pbsnodes和qnodes (13)1资源管理软件TORQUE的安装与设置TORQUE和Maui可以从上下载。
以下仅是粗略配置,详细配置请参考相关手册:•TORQUE:/torquedocs21/•Maui:/products/maui/docs/mauiusers.shtml1.1服务节点安装TORQUE这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.1.tar.gzroot@kd50#cd torque-2.2.1root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcp上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。
利用rcp或者scp传输需要配置节点间无须密码访问,具体请参看相关文档。
root@kd50#makeroot@kd50#make install1.2服务节点初始化并设置TORQUE将TORQUE的可执行文件所在的目录放入系统的路径中,修改/etc/profile:§TORQUE=/opt/torque−2.2.1MAUI=/opt/maui−3.2.6p20if[”`id−u`”−eq0];thenPATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbinelsePATH=”/usr/local/bin:/usr/bin:/bin:/usr/games:$TORQUE/bin:$MAUI/bin”PATH=$PATH:$TORQUE/bin:$MAUI/binfi¦¥上面将同时设置Maui的路径,如在这里已经设置了,并且Maui安装路径为上面的话,后面就无需再设置Maui的路径。
修改后使设置的环境变量生效:source/etc/profile将root设置为TORQUE的管理帐户:root@kd50#./torque setup root在/var/spool/torque/server priv/nodes中添加计算节点的机器名,类似:§kd50node0101¦¥如果服务节点不参与计算的话,需要将服务节点的机器名去掉。
如果node0101上有两个处理单元,就设置为node0101np=2。
如果/var/spool/torque下的目录spool和undelivered的权限不是drwxrwxrwt的话,需要chmod1777spool undelivered。
创建作业队列:root@kd50#pbs server-t createroot@kd50#qmgr输入下面Qmgr:后的内容,将设置一个默认队列dque:§Qmgr:create queue dque queue type=executionQmgr:set server default queue=dqueQmgr:set queue dque started=trueQmgr:set queue dque enabled=trueQmgr:set server scheduling=true¦¥可以通过下面的代码来检查pbs server是否正常运行,若pbs server没有运行,则首先运行该程序,然后执行下面的代码:§#shutdown serverqterm−t quick#start serverpbs server#verify all queues are properly configuredqstat−q#view additional server configurationqmgr−c'p s'#verify all nodes are correctly reportingpbsnodes−a#submit a basic jobecho”sleep30”|qsub#verify jobs displayqstat¦¥1.3计算节点上安装TORQUE先在服务节点上的编译TORQUE的目录下执行下面命令生成所需要的包:root@kd50#make packages该命令执行之后一共产生五个包,分别为:•torque-package-clients-linux-i686.sh•torque-package-devel-linux-i686.sh•torque-package-doc-linux-i686.sh•torque-package-mom-linux-i686.sh•torque-package-server-linux-i686.sh然后将这些包传送给机群中的所有计算节点并在各计算节点上执行安装,比如:root@node0101#./torque-package-clients-linux-i686.sh–install1.4计算节点配置TORQUE/var/spool/torque是TORQUE的配置目录,只要在该目录下创建一个文件server name,其内容是服务节点的机器名。
对于NFS文件共享系统来说,还必须告诉TORQUE这种共享的用户目录,编辑/var/spool/torque/mom priv/config,其内容类似:§$pbsserver kd50#note:hostname running pbs server$logevent255#bitmap of which events to log$usecp kd50:/home/home¦¥其中$pbsserver后指定服务节点的主机名,$usecp后面的表示的共享home。
在/etc/profile中设置环境变量:§TORQUE=/opt/torque−2.2.1if[”`id−u`”−eq0];thenPATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”PATH=$PATH:$TORQUE/bin:$TORQUE/sbinelsePATH=”/usr/local/bin:/usr/bin:/bin:/usr/games”PATH=$PATH:$TORQUE/binfi¦¥source/etc/profile后,可以直接运行pbs mom启动计算节点的守护进程。
2安装与配置作业调度软件:MauiTORQUE自带的作业调度进程pbs sched非常简单,建议不要启动此服务,而是在服务节点上安装Maui来进行作业调度,注意:在计算节点上无须安装Maui。
2.1服务节点上安装Mauiroot@kd50#tar zxvf maui-3.2.6p20-snap.1182974819.tar.gzroot@kd50#cd maui-3.2.6p20root@kd50#./configure–prefix=/opt/maui-3.2.6p20–with-pbs=/opt/torque-2.2.1root@kd50#makeroot@kd50#make install2.2服务节点上配置Maui修改/usr/local/maui/maui.cfg,主要为下面几项:SERVERHOST kd50#primary admin must befirst in listADMIN1root#Resource Manager DefinitionRMCFG[KD50]TYPE=PBS@RMNMHOST@RMTYPE[0]PBS¦¥在/etc/profile中设置环境变量:§TORQUE=/opt/torque−2.2.1MAUI=/opt/maui−3.2.6p20if[”`id−u`”−eq0];thenPATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbinelsePATH=”/usr/local/bin:/usr/bin:/bin:/usr/games”PATH=$PATH:$TORQUE/bin:$MAUI/binfi¦¥source/etc/profile后启动Maui:root@kd50#maui注意不要在服务节点上启动pbs sched。
3作业运行系统利用TORQUE和Maui进行资源和作业管理,所有需要运行的作业无论是用于程序调试还是业务计算均必须通过qsub命令提交,提交后可以利用TORQUE和Maui的相关命令查询作业状态等。
为了利用qsub提交作业,用户需针对此作业创建提交脚本,在脚本里面设定需要运行的作业参数等。
在此分别给出串行和并行的简单脚本,用户可以修改此脚本以适用于自己的作业,如需要更加高级的功能请参考TORQUE手册。
3.1串行作业对于串行程序,用户可编写命名为serial job.pbs(此脚本名可以按照用户喜好命名)的串行作业脚本,其内容如下:§#!/bin/sh#PBS−N job name#PBS−o job.log#PBS−e job.err#PBS−q dquecd yourworkdirecho Running on hosts`hostname`echo Time is`date`echo Directory is$PWDecho This job runs on the following nodes:cat$PBS NODEFILEecho This job has allocated1node./yourprog¦¥注意1,TORQUE建立在PBS作业管理系统之上,PBS的参数需在作业提交脚本中利用#PBS设置。