高性能计算作业管理系统.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Batch Systems
• 主节点 - 系统核心 - 与计算节点进行交互 - 专注或者兼职 • 提交/交互节点 - 用户接口 - 查询作业 - 跟踪作业
• 计算节点 - 系统主干 - 与主节点进行通讯 - 管理作业
•
资源
- 计算机 - 高速网络资源 - 许可证管理等等
Batch Systems
Batch Systems
Resource Manager
资源管理器提供了作业 底层的开始、持有、取 消和监控操作。如果没 有这些底层开销,仅仅 靠单一的调度器无法完 成对作业的控制。
scheduler
调度器应该确保作业在什 么时间什么地点什么方式 运行能够保证整个系统运 行最佳。
Resource Manager Flow
PBS (Portable Batch System)
• PBS最初由NASA的Ames研究中心开发, 为了提供一个能满足异构计算网络需要 的软件包,特别是满足高性能计算的需 要。它力求提供对批处理的初始化和调 度执行的控制,允许作业在不同主机间 的路由。
PBS的技术特色
• 力求控制对批处理的初始化和调度执行,允许 作业在不同主机间的路由。 • 独立的调度模块存有各个可用的排队作业、运 行作业和系统资源使用信息,并且允许系统管 理员定义资源和每个作业可使用的数量。 • 在作业调度策略上,PBS提供了默认的公平共 享和独占FIFO调度策略,还提供了TCL、BACL、 C三种过程语言和调度类,并定义了一些调度 需要的函数和完整的API,方便实现新的调度策 略。 • 提供文件传送,File Stage-in 和Stage-out。 • 满足POSIX1003.2d 标准,支持作业依赖,和完 整的安全认证。 • 提供用户映射功能,使PBS 能用于用户不一致 的系统中。
running jobs
kernel new running jobs
主节点A
mom
running jobs
计算节点B
作业的生命周期
结束
执行
• 查看运行结果 • 默认会在提交作业的目录下生成报告文件
• 依照各种参数以及调度策略执行 • 可用qstat查看作业详细状态
提交
• qsub命令来提交作业 • 提交后进入调度等待执行
• 为了某种特定的用途,我们才会 去建立一个集群。这些用途或者 主要目标,往往需要定义许多不 同的规则。例如这个系统应该如 何被使用或者谁可以使用它。那 么一个高效的调度器应该提供一 系列策略来满足这些要求。
Optimizations
• 一个集群的计算能力是一项有限 的资源,随着时间的推移必然会 超出供给。智能调度决策可以更 好的提高集群的工作效率,可以 执行更多的作业以及快速的作业 切换。综合流量控制和任务策略 ,优化以保证无论何时计算的计 算性能能够得到最大化。
Traffic Control
Traffic Control
• 调度器应该确保提交的作业都是 相互独立的。如果允许作业互相 抢占资源,那么必然会导致性能 的降低、作业执行时间的增长, 还可能导致一个或者多个作业执 行的失败。所以调度器应该确保 已申请资源的作业的独立性。
Mission Policies
Batch Systems
• 批处理系统将资源进行整合,极大的降低了 资源管理的难度,并且给用户提供了一个统 一的视图。 • 合适的配置将抽象出更多细节,这些细节包 括运行和管理工作,将允许更高级别的资源 利用。 • 例如用户只需要定义需求,而不需要知道自 己所提交的作业具体在哪些机器上运行。 • 这种统一透明的抽象视图,系统可以同时执 行成千上万的作业。
PBS的组成
• pbs command:用于提交、监视、修 改和删除作业。 • pbs server: 提供基本的批处理服务 ,例如接收/创建一个批处理作业 ,管理维护作业队列,管理输出结 果等。 • pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队 列中等待执行。 • scheduler(maui): 对用户提交的作业 进行调度。
1.加载整体资源信息 2.加载指定节点信息 3.加载作业信息 4.加载队列/策略信息
5.依照集群的调度 策略来对作业做相 应的取消/修改/抢 占操作
7.响应用户提交 的命令
6.在可用资源和 策略的限制下开 始执行作业
scheduler
衡量一个调度器好坏的三个方面
Optimizations
Mission Policies
PBS单机环境作业流程
kernel
events
policy
server mom scheduler
running jobs
jobs
PBS集群环境作业流程
kernel
mom
计算 节点 C
client
客户端D
running jobs
kernel
policy
events
mom源自文库
scheduler
server
Maui
• Maui 是一个高级的作业调度器。它采用积极 的调度策略优化资源的利用和减少作业的响 应时间。Maui的资源和负载管理允许高级的 参数配置:作业优先级(Job Priority)、调度和 分配(Scheduling and Allocation)、公平性和公 平共享(Fairness and Fairshare)和预留策略 (Reservation Policy)。Maui的QoS机制允许资 源和服务的直接传递、策略解除(Policy Exemption)和指定特征的受限访问。Maui采 用高级的资源预留架构可以保证精确控制资 源何时、何地、被谁、怎样使用。Maui的预 留架构完全支持非入侵式的元调度。
高性能计算作业管理及其应用
赵广鹏 河南理工大学现教中心计算中心
目录
• • • • Batch Systems PBS 实例 高性能计算与云计算
Batch Systems
• 批处理系统是集计算机和其他资源 (网络、存储系统、存储器服务等等) 为整体的系统,即整体效能是大于部 分之和的系统。
• 目前主要分为两类:一类是单机批处 理系统,用户自己管理整个系统;另 一类则是有成千上万的机器在执行用 户作业的同时来跟踪软件许可证、获 得硬件设备和存储系统。