高性能集群作业调度系统PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.
13
2.3 PBS系统服务
•Server的系统启动脚本 /etc/init.d/pbs_server Scheduler系统启动脚本 /etc/init.d/pbs_sched Mom系统启动脚本 /etc/init.d/pbs_mom
•Torque服务端 chkconfig pbs_server on chkconfig pbs_sched on service pbs_server start service pbs_sched start
echo =====node$i===== ssh node$i /public/sourcecode/torque-2.5.12/ \
torque-package-mom-linux-*.sh --install Done
.
12
2.3 PBS Server配置
以root作为torque的管理员账号创建作业队列 在torque的安装源文件根目录中,执行 ./torque.setup root
动作 对象类型 对象名 属性 操作符 值(,属性 操作符 值)……
✓qmgr动作
create set print
创建一个对象 设置对象的属性 打印对象的属性
delete unset list
删除一个对象 除去对象的属性 列出对象的属性
✓对象类型和操作符
server queue
服务器 队列
= +=
node
➢ 用户权限的管理 –对用户进行各类权限控制
.
4
1.3 作业调度系统的组成
➢ 资源管理器: 管理集群的软硬件资源及认证信息等
➢ 队列管理器: 管理当前所有已提交但还未完成的作业
➢ 调度器: 为作业分配资源
.
5
1.3 作业调度系统的组成
作业调度系统的结构
.
6
1.4 作业调度系统的发展历史
.
7
提纲
一.作业调度系统概述 二.PBS作业调度系统 三.Maui调度器 四.曙光Gridview作业调度中间件 五.Q&A
.
8
2.1 PBS作业调度系统
PBS(Portable Batch System), 最初由NASA的Ames研究中心开 发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处 理的初始化和调度执行的控制,允许作业在不同主机间的路由。
设置默认队列
set server default_queue=队列名
.
17
2.4.1 PBS的队列设置
➢ 导入server配置文件 qmgr < queue.conf
➢ 备份配置文件 qmgr -c “print server” > queue.conf
➢ 配置文件例子
create queue default set queue default queue_type = execution set queue default max_running = 10 set queue default enabled = True set queue default started = True
高性能集群作业调度系统
曙光信息产业股份有限公司
提纲
一.作业调度系统概述 二.PBS作业调度系统 三.Maui调度器 四.曙光Gridview作业调度中间件 五.Q&A
1. 1 集群使用中存在的问题
.
3
1.wk.baidu.com 作业调度系统的功能
➢ 系统资源整合 –异构资源,软硬件资源的整合
➢ 任务综合管理 –用户提交的任务的统一安排
• 编译和安装
make make install
.
11
2.3 PBS的安装(Torque Client端)
节点操作系统相同,可以用如下SHELL脚本在计算节点(torque 客户端)上安装
#在管理节点上 make packages
#!/bin/bash
for i in `seq 1 20`; do
节点
-=
.
16
2.4.1 PBS的队列设置
下面是让PBS可以正常运行的基本设置
创建队列
create queue 队列名 queue_type = execution
打开和启动队列
set queue 队列名 enable=t, started=t
打开调度
set server scheduling=t
--with-server-home= /var/spool/torque \ --enable-syslog \ --with-scp \ --enable-docs
默认情况下,TORQUE将可执行文件安装在/usr/local/bin和 /usr/local/sbin下。其余的配置文件和运行时环境将安装在 /var/spool/torque下
PBS的开源版本为OpenPBS,目前已经停止开发。 PBS的商业版为PBS Pro,由Altair公司开发和维护。 TORQUE( Tera-scale Open-source Resource and Queue manager )为 OpenPBS的后续开源版本,修正了OpenPBS的很多 bug,功能和可扩展性都有很大提高。
Server配置目录 /var/spool/torque/server_priv/
计算节点列表及属性:/var/spool/torque/server_priv/nodes
node2 np=12 amd chem node3 np=12 amd chem node4 np=8 intel chem node5 np=8 intel chem node6 np=4 intel bio gpu node7 np=4 intel bio gpu
.
9
2.2 PBS的组成
服务器: pbs_server 调度器: pbs_sched 执行器: pbs_mom
.
10
2.3 PBS的安装(Torque Server端)
• 解压源文件包
tar zxvf torque-2.5.12.tar.gz
• 编译设置
cd torque-2.5.12 ./configure --prefix= /usr/local \
•Torque客户端 chkconfig pbs_mom on service pbs_mom start
.
14
2.4 PBS主要操作
队列设置 节点查看 提交作业 查看作业 作业其他操作
.
15
2.4.1 PBS的队列设置
PBS要能正常运行还需要通过qmgr命令在server进行配置, 设置一些属性。输入qmgr命令进入配置交互命令,格式为