曙光高性能集群系统使用及管理-201408
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运行程序的命令及PBS环境变量设置组成PBS作业脚本,格式如下: • • • • 注释以“#”开头 PBS指令以“#PBS”开头 SHELL命令 运行程序的命令及PBS #PBS -N test #PBS -l nodes=1:ppn=1 #PBS -l walltime=12:00:00 #PBS -q batch cd $PBS_O_WORKDIR mpirun ./test.exe
cd $PBS_O_WORKDIR LOGFILE=openmpi.log NP=`cat $PBS_NODEFILE|wc -l`
echo my job id is $PBS_JOBID | tee $LOGFILE echo run nodes is following: | tee -a $LOGFILE cat $PBS_NODEFILE | tee -a $LOGFILE
export PATH=/home/your_account/your_workdir:$PATH
并行程序的编译运行(openmpi)
OpenMPI 提供了C/C++,Fortran等语言的MPI编译器,如下表: 语言类型 C C++ Fortran77 Fortran90 MPI编译器 mpicc mpicxx mpif77 mpif90
并行程序的编译运行(openmpi)
编译程序: $ source /public/software/profile.d/openmpi-intel-env.sh $ mpicc -o hello hello.c $ mpif90 -o hello hello.f90 运行程序:OpenMPI 使用自带的 OpenRTE 进程管理器,启动命令为 mpirun/mpiexec/orterun,基本格式如下:
echo begin time is `date` | tee -a $LOGFILE mpirun -np $NP -hostfile $PBS_NODEFILE --mca orte_rsh_agent ssh --mca btl self,openib,sm ./cpi 2>&1 | tee -a $LOGFILE echo end time is `date` | tee -a $LOGFILE
Windows 用户推荐使用RealVNC软件,登录时输入集群 登录节点IP地址加VNC会话号即可:
$ vncviewer [登录节点IP地址]:[session number]
Linux 用户可直接在命令行终端中执行 vncviewer 命令
Gridview Web 登录
普通用户可通过Web方式登入曙光GridView集群管理系统, 进行查看、监控、和使用等操作。 在浏览器中输入以下URL即可出现登录界面:
普通用户可通过Web方式登入曙光GridView集群管理系统, 进行查看、监控、和使用等操作。 在浏览器中输入以下URL即可出现登录界面:
http://*.*.*.*:6080/gridview_portal
needed
使用 Gridview 和 Clusportal
普通用户可以做什么?
普通用户可以做什么?
PBS的基本命令
qmgr -c 'p s' 此命令可以查看作业调度系统的配置信息; qstat –q 该命令可以查看系统中存在的队列,qstat还有其他参数比较常用:
-B:列出PBS服务器的相关信息 -Q:列出队列的一些限制信息 -an:列出队列中的所有作业及其分配的节点 -r:列出正在运行的作业 -f jobid:列出指定作业的详细信息 -Qf queue:列出指定队列的所有信息
曙光高性能集群管理及使用
解决方案中心 2014 年 8 月
目录
集群系统的登录方式
程序编译与作业提交 使用 Gridview和ClusPortal 提交和管理作业 集群系统的管理与维护
命令行终端登录
Windows 用户可以用SSH Secure Shell Client,Xshell, PuTTY,SecureCRT 等 SSH客户端软件登录。 推荐使用SSH Secure Shell Client
$ cat TORQUEHOME/server_priv/nodes
node01 np=4 server dualcore ib
node02 np=8 bigmem matlab ib ……
#PBS -l nodes=2:blue:ppn=2+red:ppn=3+b1014
#PBS -l nodes=4:ppn=4,mem=200mb #PBS -l other=matlab
目录
使用 Gridview和ClusPortal 提交和管理作业
集群系统的管理与维护 集群系统的登录方式 程序编译与作业提交
使用 Gridview 和 Clusportal
应用模板
队列管理
策略管理 作业提交
用户记账
作业管理
调度器管理 用户管理 节点管理
使用 Gridview 和 Clusportal
pestat 该命令可以查看节点的状态信息,其中
excl:所有CPU资源已被占用; busy:CPU已接近满负荷运行; free:全部或部分CPU空闲; offl:管理员手动指定离线状态;
PBS的基本命令
qdel <作业号> 此命令可以删除队列中的作业,普通用户只能删除自己的作业; pbsnodes 此命令也可以查看节点的状态,该命令常用以下参数:
#PBS -l nodes=1:ppn=1 表示申请1个节点上的1颗CPU。
#PBS -q serial 表示提交到集群上的serial队列。
并行脚本示例(openmpi for cpi)
#PBS #PBS #PBS #PBS -N -l -j -l openmpi nodes=1:ppn=8 oe walltime=2:00:00
qorder <作业号1> <作业号2> qmove <队列名> <作业号> qalter -l <所需资源> <作业号> qhold <作业号> qrls <作业号> qsub -N <作业名> -l <所需资源> -q <队列名> <PBS作业脚本>
PBS 资源的申请
#PBS -l mem=200mb #PBS -l walltime=01:00:00 #PBS -l nodes=1:ppn=4 #PBS -l nodes=4:ppn=2 #PBS -l nodes=node01+node02+node03 #PBS -l nodes=server:ib+3:bigmem:ib
PBS 常用环境变量
变量名 登陆SHELL继承来的变量 $PBS_O_HOST $PBS_O_QUEUE $PBS_O_WORKDIR $PBS_JOBID $PBS_JOBNAME $PBS_NODEFILE 说 明
$HOME,$LANG,$PATH,$MAIL,$SHELL等
qsub 提交的节点名称 qsub 提交的作业的最初队列名称 qsub 提交的作业的绝对路径 作业被PBS系统指定的作业号 用户指定的作业名,可以在作业提交的时候用qsub –N <作业名 >指定,或者在PBS脚本中加入#PBS –N <作业名>。 PBS系统指定的作业运行的节点名。该变量在并行机和机群中使 用。当在PBS脚本中用#PBS –l nodes=2:ppn=2指定程序运 行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS 系统指定的作业运行的节点名。比如: #PBS –l nodes=2:ppn=2 mpirun –np 4 –machinefile $PBS_NODEFILE <程序名> PBS脚本在执行时的队列名
http://*.*.*.*:6080/gridview_portal
needed
目录
程序编译与作业提交 使用 Gridview和ClusPortal 提交和管理作业 集群系统的管理与维护 集群系统的登录方式
串行程序的运行
方法一: $ cd /home/your_account/your_workdir $ ./your_code 方法二: $ cd $HOME $ vim .bashrc $ your_code
MPI编译器是对底层编译器的一层包装,通过-show参数可以查看实际 使用的编译器: $ mpicc -show icc -I/public/software/mpi/openmpi-16-intel/include -pthread L/public/software/mpi/openmpi-16-intel/lib -lmpi -ldl -lm -lnuma Wl,--export-dynamic -lrt -lnsl -lutil
$ mpirun -np N -hostfile <filename> <program>
其中 -np N:表示运行N个进程 -hostfile:指定计算节点,
文件格式如:
node1 slots=8 node2 slots=8
创建脚本并提交作业
在PBS系统中,可以使用qsub命令提交作业
$ qsub xxx.pbs
简单脚本提交示例:
$ vim test.pbs $ qsub test.pbs
PBS 作业提交步骤
准备:编写描述改作业的脚本,包括作业名,需要的资源等。 提交:使用qsub命令将该作业提交给PBS服务器
排队:服务器将该任务排入适当的队列
调度:服务器检查各工作节点的状态是否符合该作业的要求,并进 行调度。 执行:当条件满足时,作业被发给相应的执行服务器执行。程序运 行时执行服务器会收集程序的标准输出和标准错误流,等程序结束 时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。 用户发现作业提交错误时,可以使用qdel删除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及 错误信息显示。
普通用户可以做什么?
普通用户可以做什么?
使用 Clusportal 提交作业
多ห้องสมุดไป่ตู้集群
完善的 参数
$PBS_QUEUE
串行脚本示例
#PBS #PBS #PBS #PBS #PBS -N -l -j -l -q serial nodes=1:ppn=1 oe walltime=60:00:00 serial
echo "This jobs is "$PBS_JOBID@$PBS_QUEUE cd ${PBS_O_WORKDIR} echo begin time is `date` sleep 100 hostname echo end time is `date`
$ scp 文件名 username@登录节点IP地址:文件路径
Linux 用户可直接在命令行终端中执行scp命令登录
图形界面登录(远程桌面)
远程图形界面登录推荐使用VNC方式。
第一次使用VNC登录前,需要先以命令行终端方式登录到集群登录节点,执行 vncserver命令,会提示用户输入VNC登录密码,输入后会得到一个VNC会话, 一般是“主机名:VNC会话号”格式,如“node32:4”。
-a:列出所有结点及其属性,属性包括“state”和“properties” -l:以行的方式列出被标记的结点的状态,如 -l free,-l offline -o:将指定结点的状态标记为“offline”(管理员) -c:清除结点列表中的“offline”状态设置,使结点可用(管理员) -r:重设“offline”或“down”的节点的状态,如果可用,设为free(管理员)
$ ssh username@登录节点IP地址
Linux 用户可直接在命令行终端中执行ssh命令登录
文件上传下载
Windows 用户可使用SSH Secure Shell Client,Xftp, WinScp 等软件实现文件的上传下载 推荐使用SSH Secure Shell Client
cd $PBS_O_WORKDIR LOGFILE=openmpi.log NP=`cat $PBS_NODEFILE|wc -l`
echo my job id is $PBS_JOBID | tee $LOGFILE echo run nodes is following: | tee -a $LOGFILE cat $PBS_NODEFILE | tee -a $LOGFILE
export PATH=/home/your_account/your_workdir:$PATH
并行程序的编译运行(openmpi)
OpenMPI 提供了C/C++,Fortran等语言的MPI编译器,如下表: 语言类型 C C++ Fortran77 Fortran90 MPI编译器 mpicc mpicxx mpif77 mpif90
并行程序的编译运行(openmpi)
编译程序: $ source /public/software/profile.d/openmpi-intel-env.sh $ mpicc -o hello hello.c $ mpif90 -o hello hello.f90 运行程序:OpenMPI 使用自带的 OpenRTE 进程管理器,启动命令为 mpirun/mpiexec/orterun,基本格式如下:
echo begin time is `date` | tee -a $LOGFILE mpirun -np $NP -hostfile $PBS_NODEFILE --mca orte_rsh_agent ssh --mca btl self,openib,sm ./cpi 2>&1 | tee -a $LOGFILE echo end time is `date` | tee -a $LOGFILE
Windows 用户推荐使用RealVNC软件,登录时输入集群 登录节点IP地址加VNC会话号即可:
$ vncviewer [登录节点IP地址]:[session number]
Linux 用户可直接在命令行终端中执行 vncviewer 命令
Gridview Web 登录
普通用户可通过Web方式登入曙光GridView集群管理系统, 进行查看、监控、和使用等操作。 在浏览器中输入以下URL即可出现登录界面:
普通用户可通过Web方式登入曙光GridView集群管理系统, 进行查看、监控、和使用等操作。 在浏览器中输入以下URL即可出现登录界面:
http://*.*.*.*:6080/gridview_portal
needed
使用 Gridview 和 Clusportal
普通用户可以做什么?
普通用户可以做什么?
PBS的基本命令
qmgr -c 'p s' 此命令可以查看作业调度系统的配置信息; qstat –q 该命令可以查看系统中存在的队列,qstat还有其他参数比较常用:
-B:列出PBS服务器的相关信息 -Q:列出队列的一些限制信息 -an:列出队列中的所有作业及其分配的节点 -r:列出正在运行的作业 -f jobid:列出指定作业的详细信息 -Qf queue:列出指定队列的所有信息
曙光高性能集群管理及使用
解决方案中心 2014 年 8 月
目录
集群系统的登录方式
程序编译与作业提交 使用 Gridview和ClusPortal 提交和管理作业 集群系统的管理与维护
命令行终端登录
Windows 用户可以用SSH Secure Shell Client,Xshell, PuTTY,SecureCRT 等 SSH客户端软件登录。 推荐使用SSH Secure Shell Client
$ cat TORQUEHOME/server_priv/nodes
node01 np=4 server dualcore ib
node02 np=8 bigmem matlab ib ……
#PBS -l nodes=2:blue:ppn=2+red:ppn=3+b1014
#PBS -l nodes=4:ppn=4,mem=200mb #PBS -l other=matlab
目录
使用 Gridview和ClusPortal 提交和管理作业
集群系统的管理与维护 集群系统的登录方式 程序编译与作业提交
使用 Gridview 和 Clusportal
应用模板
队列管理
策略管理 作业提交
用户记账
作业管理
调度器管理 用户管理 节点管理
使用 Gridview 和 Clusportal
pestat 该命令可以查看节点的状态信息,其中
excl:所有CPU资源已被占用; busy:CPU已接近满负荷运行; free:全部或部分CPU空闲; offl:管理员手动指定离线状态;
PBS的基本命令
qdel <作业号> 此命令可以删除队列中的作业,普通用户只能删除自己的作业; pbsnodes 此命令也可以查看节点的状态,该命令常用以下参数:
#PBS -l nodes=1:ppn=1 表示申请1个节点上的1颗CPU。
#PBS -q serial 表示提交到集群上的serial队列。
并行脚本示例(openmpi for cpi)
#PBS #PBS #PBS #PBS -N -l -j -l openmpi nodes=1:ppn=8 oe walltime=2:00:00
qorder <作业号1> <作业号2> qmove <队列名> <作业号> qalter -l <所需资源> <作业号> qhold <作业号> qrls <作业号> qsub -N <作业名> -l <所需资源> -q <队列名> <PBS作业脚本>
PBS 资源的申请
#PBS -l mem=200mb #PBS -l walltime=01:00:00 #PBS -l nodes=1:ppn=4 #PBS -l nodes=4:ppn=2 #PBS -l nodes=node01+node02+node03 #PBS -l nodes=server:ib+3:bigmem:ib
PBS 常用环境变量
变量名 登陆SHELL继承来的变量 $PBS_O_HOST $PBS_O_QUEUE $PBS_O_WORKDIR $PBS_JOBID $PBS_JOBNAME $PBS_NODEFILE 说 明
$HOME,$LANG,$PATH,$MAIL,$SHELL等
qsub 提交的节点名称 qsub 提交的作业的最初队列名称 qsub 提交的作业的绝对路径 作业被PBS系统指定的作业号 用户指定的作业名,可以在作业提交的时候用qsub –N <作业名 >指定,或者在PBS脚本中加入#PBS –N <作业名>。 PBS系统指定的作业运行的节点名。该变量在并行机和机群中使 用。当在PBS脚本中用#PBS –l nodes=2:ppn=2指定程序运 行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS 系统指定的作业运行的节点名。比如: #PBS –l nodes=2:ppn=2 mpirun –np 4 –machinefile $PBS_NODEFILE <程序名> PBS脚本在执行时的队列名
http://*.*.*.*:6080/gridview_portal
needed
目录
程序编译与作业提交 使用 Gridview和ClusPortal 提交和管理作业 集群系统的管理与维护 集群系统的登录方式
串行程序的运行
方法一: $ cd /home/your_account/your_workdir $ ./your_code 方法二: $ cd $HOME $ vim .bashrc $ your_code
MPI编译器是对底层编译器的一层包装,通过-show参数可以查看实际 使用的编译器: $ mpicc -show icc -I/public/software/mpi/openmpi-16-intel/include -pthread L/public/software/mpi/openmpi-16-intel/lib -lmpi -ldl -lm -lnuma Wl,--export-dynamic -lrt -lnsl -lutil
$ mpirun -np N -hostfile <filename> <program>
其中 -np N:表示运行N个进程 -hostfile:指定计算节点,
文件格式如:
node1 slots=8 node2 slots=8
创建脚本并提交作业
在PBS系统中,可以使用qsub命令提交作业
$ qsub xxx.pbs
简单脚本提交示例:
$ vim test.pbs $ qsub test.pbs
PBS 作业提交步骤
准备:编写描述改作业的脚本,包括作业名,需要的资源等。 提交:使用qsub命令将该作业提交给PBS服务器
排队:服务器将该任务排入适当的队列
调度:服务器检查各工作节点的状态是否符合该作业的要求,并进 行调度。 执行:当条件满足时,作业被发给相应的执行服务器执行。程序运 行时执行服务器会收集程序的标准输出和标准错误流,等程序结束 时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。 用户发现作业提交错误时,可以使用qdel删除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及 错误信息显示。
普通用户可以做什么?
普通用户可以做什么?
使用 Clusportal 提交作业
多ห้องสมุดไป่ตู้集群
完善的 参数
$PBS_QUEUE
串行脚本示例
#PBS #PBS #PBS #PBS #PBS -N -l -j -l -q serial nodes=1:ppn=1 oe walltime=60:00:00 serial
echo "This jobs is "$PBS_JOBID@$PBS_QUEUE cd ${PBS_O_WORKDIR} echo begin time is `date` sleep 100 hostname echo end time is `date`
$ scp 文件名 username@登录节点IP地址:文件路径
Linux 用户可直接在命令行终端中执行scp命令登录
图形界面登录(远程桌面)
远程图形界面登录推荐使用VNC方式。
第一次使用VNC登录前,需要先以命令行终端方式登录到集群登录节点,执行 vncserver命令,会提示用户输入VNC登录密码,输入后会得到一个VNC会话, 一般是“主机名:VNC会话号”格式,如“node32:4”。
-a:列出所有结点及其属性,属性包括“state”和“properties” -l:以行的方式列出被标记的结点的状态,如 -l free,-l offline -o:将指定结点的状态标记为“offline”(管理员) -c:清除结点列表中的“offline”状态设置,使结点可用(管理员) -r:重设“offline”或“down”的节点的状态,如果可用,设为free(管理员)
$ ssh username@登录节点IP地址
Linux 用户可直接在命令行终端中执行ssh命令登录
文件上传下载
Windows 用户可使用SSH Secure Shell Client,Xftp, WinScp 等软件实现文件的上传下载 推荐使用SSH Secure Shell Client