上海超级计算中心三期--作业调度系统软件方案需求书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上海超级计算中心三期--作业调度系统软件项目需求书
一、项目概况
上海超级计算中心三期配套工程项目是引进峰值速度为200Tflops的高效能可信计算系统提供满足其运营和应用的机房环境、网络平台、存储系统、商业和半商业软件、主机信息系统、综合布线、系统安全建设、网格服务环境和网格应用平台、主机计算前后处理系统、培训等内容,并继续承担国家863网格主结点建设任务。
二、软件技术指标要求
所采购作业调度系统,其配置满足如下指标要求:
(一)基本指标
(1)安装要求:可在上海超级计算中心三期200T主机系统全机范围内调度所有计算资源。
(2)高可靠性:具有大规模集群商业系统可靠运营的成功案例,在国内具有可靠运营的大规模集群成功案例
(3)作业运行正确性:在大规模集群的并行作业运行环境中,作业调度和运行正确性达到99.99%以上
(4)高可扩展性:单一机群具有可管理5000个以上节点、10000个以上CPU的能力;
可同时支持1000个以上作业并行运行
(5)良好的可操作性:可支持系统管理员根据实际需求变化,在线动态调整系统配置参数,不影响作业运行和用户使用,同时确保作业运行统计准确性
(6)多集群管理能力:可以同时在同一作业管理系统下管理多个物理或逻辑分割的集群系统,作业可以在不同集群间根据条件自动迁移
(7)统一的系统级管理平台:提供系统监控、计费、作业调度等功能的统一管理平台,可通过web方式管理,并可同时管理多个集群
(8)Linux及windows 混合机群的支持:具备统一管理单一机群中的WINDOWS服务器、LINUX服务器以及其它UNIX服务器等混合异构平台的能力
(9)多路多核CPU的调度和支持:支持自定义调度策略,支持应用程序在多路多核CPU 上运行的情况,可自动扩展调度策略处理
(10)作业控制能力:可对作业的运行时间、CPU 时间、内存大小、数据区大小、CPU 数量、文件大小等进行设置和控制
(11)支持并行文件系统,并可根据并行文件系统的技术架构特点灵活部署:支持如Lustre、PVFS、CXFS、GPFS、PFS等主流并行文件系统。
(12)Web Portal开发支持:支持二次开发与用户自行开发,可根据用户需求进行二次开发
(13)基于X Windows的交互式图形支持:提供基于X Windows的交互式作业的提交和管理,且具有实际成熟客户案例
(14)动态服务器(即无须重启服务):支持服务器对调度规则的手工、自动移出或者加入,而无须重启服务或配置,操作不影响实际业务运行
(15)支持网格计算环境,如863国家网格环境的Globus网格计算平台:支持主流网格计算平台,提供详细技术规范要求。
(16)支持同构、异构机群系统互相提交作业:支持在同一的机群内具有不同的操作系统
的机器统一调度。用户可根据情况,从Linux提交作业到windows机器上执行或者相反。
(17)与主机厂商建立良好合作关系;
(18)支持并提供与如下系统软件及商业应用软件的集成接口:
仿真分析领域:ANSYS、Start CD/StartNet、FLUENT、Abaqus、LS-DYNA、
NASTRAN、ISIGHT、PATRAN、PAM-CRASH、Analysis Manager、
MARC、FEKO、HyperWorks、ICEM-CFD、AI*ENVIRONMENT、
GEFEP-P、CADEM-P等
生命科学领域:SRS、Mascot、QicProp、Macromodel、Impact、Glide、Pipeline Pilot
等
石油物探领域:Paradigm、CGG、Omega、FOCUS、ProMAX、Grisys、JASON、
Eclipse、VIP。
科学计算领域:Amber、Gaussian03、Dock、V ASP、NWCHEM、matlab、CPMD、
EGO、DOCK、BLAST、WIEN 2000、NAMD、ABINIT、MM5、
WRF、ARPS、GRAPES、FDS。
电子设计行业:ADS、@Verifier、Creative Genius、Explorer、Taurus-Workbench、
Hspice、Xcite、SPW、NC-VHDL、Verifault、NC-Verilog、NC-Sim、
Analog Artist、Ambit Buildgates、Mercury & MercuryPlus、MMA V (二)调度策略指标
调度系统提供的所有调度策略均可进行一定程度的自由组合,且都可以对某个队列进行单独控制,包括:
(1)先来先服务FCFS:最基本、常用调度策略,可配置成单一的调度策略。
(2)公平调度及份额控制Fair share:对主机资源进行公平竞争。也可对用户资源进行一定的预分配,保证某些资源对特定用户的需求。
(3)抢占式调度Preemption:用户按照不同的权限可进行对主机资源的抢占式调度。尤其可采用抢占的计算资源来满足特定需求(工程商业软件)的用户使用。
(4)独占式调度Exclusive:需支持
(5)主机公平调度Host Paration:需支持
(6)资源预约调度Resource Reservation:需支持
(7)高级处理器预约Advance Reservation:需支持
(8)提供作业控制能力:对作业的运行时间、CPU 时间、内存大小、数据区大小、CPU 数量、文件大小等进行控制。
(三)软件许可证管理指标
(1)许可证可预约:应用程序启动前,可预约程序所需的许可证,避免互相冲突。(2)许可证抢占式调度:高优先级的作业可抢占低优先级作业正在使用的许可证。而低优先级作业将被挂起直到有许可证可用为止。
(3)许可证所有权控制:用户可保留自己的许可证,确保需要时能立即获得所需要的许可证。
(4)使用份额控制:每个用户可使用所分配的许可证份额。
(四)统计报表分析指标
作业管理系统可查询所有计算节点和许可证的运行和使用信息,并将所有运行数据收集起来,通过数据库管理,同时充分考虑所有数据的备份与容灾。
(1)、统计报表
a)提供系统各种资源(CPU、内存、许可证等)的全面使用情况统计报表