集群作业管理系统简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ASIPP
2 作业管理系统---PBS
最初由NASA在20世纪90年代早期开发
面向集群系统提供有效的作业管理服务 目前有两个版本:OpenPBS(开源)和PBSPro(商业) CHESS集群管理系统集成了PBS系列管理软件TORQUE。
PBS:
Portable Batch System
TORQUE:Tera-scale Open-source Resource and QUEue manager
TORQUE:
基于PBS项目的开源软件,可以认为是开源的OpenPBS的改进版。其优点 有: 扩展性强:TORQUE可以支持超过1500个节点 容错性好:修正了大量的bug,提供更多故障支持
ASIPP
2 作业管理系统---PBS结构
PBS Server:运行于集群的管理节点。创建并接受作业、修改作业、 激活调度器(PBS Scheduler)以及通知PBS执行器(PBS Moms)执行 作业
6
mom
mom
3
mom
client
7
mom
2
4
scheduler
ASIPP
2 作业管理系统---PBS常用命令
作业提交命令---qsub 命令格式: qsub my_script 返回信息: 作业ID号
ASIPP
2 作业管理系统---PBS常用命令
作业状态检查命令—qstat 命令格式:qstat -f
ASIPP
2 作业管理系统---PBS常用命令
作业挂起命令---qhold 命令格式: qsub job_id
作业删除命令---qdel
命令格式: dsel job_id
详细信息请查询PBS使用指南
ASIPP
3 作业脚本示例—runefit.pbs
#PBS -S /bin/bash #PBS -o out_runefit #PBS -e err_runefit #PBS -l nodes=4:ppn=2 echo ------------------------------------------------echo -n 'Job is running on node '; cat $PBS_NODEFILE echo -------------------------------------------------echo PBS: qsub is running on $PBS_O_HOST echo PBS: originating queue is $PBS_O_QUEUE echo PBS: executing queue is $PBS_QUEUE echo PBS: working directory is $PBS_O_WORKDIR echo PBS: execution mode is $PBS_ENVIRONMENT echo PBS: job identifier is $PBS_JOBID echo PBS: job name is $PBS_JOBNAME echo PBS: node file is $PBS_NODEFILE echo PBS: current home directory is $PBS_O_HOME echo --------------------------------------------------cd $PBS_O_WORKDIR ./efitd129d
ASIPP
பைடு நூலகம்
2 作业管理系统---PBS特点
易用性:PBS为所有资源提供统一的借口,易于配置,作业调度灵活
移植性:用于shell和批处理等各种环境
适配性:适配与各种管理策略,提供可扩展的认证和安全模型 灵活性:支持交互、批处理、串行及并行作业 扩展性:标准PBS支持约300个节点,满足集群需要
ASIPP
集群作业管理系统简介
报告人:罗正平 导 师:肖炳甲研究员
ASIPP
报告主要内容
1、集群简介
2、作业管理系统PBS简介 3、作业脚本示例
ASIPP
1 集群简介
集群是一组独立的计算机(节点)的集合体,节点间 通过高性能的互连网络连接;各节点除了可以作为一个单 一的计算资源供交互式用户使用外,还可以协同工作并表 现为一个单一的、集中的计算资源供并行计算任务使用。 特征:
不必要部分
ASIPP
------------------------------------------------输出文件 Job is running on node chess_004.localdomain out_runefit chess_004.localdomain chess_003.localdomain chess_003.localdomain chess_002.localdomain chess_002.localdomain chess_005.localdomain chess_005.localdomain -------------------------------------------------PBS: qsub is running on chess_001.localdomain PBS: originating queue is default PBS: executing queue is verysmall PBS: working directory is /home/lzp/efit/efitht7u PBS: execution mode is PBS_BATCH PBS: job identifier is 270.chess_001.localdomain PBS: job name is runefit.pbs PBS: node file is var/chess/torque/aux//270.chess_001.localdomain PBS: current home directory is /home/lzp ---------------------------------------------------
机群的各节点都是一个完整的系统:工作站,PC机或SMP机器; 互连网络通常使用商品化网络,如以太网、FDDI、ATM等; 网络接口与节点的I/O总线松耦合相连; 各节点通常有一个本地磁盘; 各节点有自己的完整的操作系统。 各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可 以 协同工作并表现为一个单一的、集中的计算资源供并行计算任务使 用。
PBS Scheduler:根据资源管理器获知各个节点的资源状况和系统的 作业信息生成相应的作业优先级列表 PBS Moms:每个节点均有一个后台进程,该进程真正启动和停止提 交到该节点的作业
ASIPP
2 作业管理系统---PBS作业会话实现
mom
5
mom mom
mom
1 qsub
mom
server
ASIPP
1 集群简介—Ctrldata Cluster(.8)
• 管理节点配置: – CPU:Intel(R) Xeon(R) 1.6G – 内存:4G(41.0G) – 系统:Linux AS4.0
Internet
•
计算节点配置: – CPU: Intel(R) Xeon(R) 3.0G – 内存: 4G(41.0G) – 系统:Linux AS4.0