高性能计算集群项目
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能计算集群项目需求说明书
中国科学院地质与地球物理研究所
2009年4月
1建设目标
随着中国科学院地质与地球物理研究所相关课题研究的不断深入和扩展,现有计算集群提供的计算资源已经不能满足日益增长的科研任务需求。为保证相关研究的顺利开展,我们需要建造一套新的高性能计算集群以便提供海量计算资源。该设备的主要目标如下:(一)大幅降低课题软件V ASP的计算耗时;
(二)可支持后期扩展,如增加计算节点等;
(三)整体架构的所有层次具备高可靠性和易管理性。
2功能需求
本项目中所建立的Cluster集群系统是高性能计算的硬件基础。为了保证计算集群的高效、稳定地运行,需要采用物理上的刀片集群服务器,实现硬件支撑平台的高效集中管理,而管理上采用分层架构,即计算层面采用高性能的刀片集群、后台的管理层可以实现应用的快速部署和扩展。
各层面功能上的需求具体如下:
2.1计算需求
(一)计算层应具备高可扩展性;
●可以根据具体计算应用的情况,增加或者减少参与计算的进程数;
●在进程数增加的同时,体现出良好的加速比;
●确保能够完全适应当前及今后不断变化的应用需求。
(二)计算层应具备高可靠性
●针对计算集群系统软件的调优应使所有的计算节点稳定高效的并行计算;
●整体计算支撑系统应具备较高冗余度以确保稳定运行;
●对计算节点的控制机制具备冗余能力,保证对计算节点操作的延续性;
2.2管理需求
●与计算硬件平台高度整合的系统管理软件平台,可对系统进行全面的监控和管理;
●具备高易用性,功能全面的集群的部署系统;确保对计算系统的快速部署;
3技术要求
3.1 cluster集群系统技术
根据可扩展性和可靠性,以及通过性原则,此次计算平台应使用目前主流的Cluster集群技术搭建;同时通过高速网络(20Gb/s InfiniBand)提高松散耦合系统之间的通讯能力,在并行计算环境下支持统一调度的并行系统。从而在具备高性能的同时兼顾系统的灵活伸缩性;
3.2 Infiniband高速交换技术
随着课题计算规模的增加,用于Cluster并行计算系统的网络会有较大的数据交换压力,因此要求使用20Gb/s 带宽的Infiniband高速交换网技术,以有效地扩展网络带宽,增加网络数据交换能力,提高网络的可用性。
Infiniband高速交换技术能够完成以下任务:缩小网络交换延时,解决千兆网络面临的拥塞问题,大幅缩短科研算例总体计算时间等。
3.3 计算集群系统软件优化技术
高性能集群的高效率运转,一定程度上依靠硬件平台与编译运行环境和并行运行环境,以及数学函数库的融合优化程度;为了集群的高效运行,硬件计算平台应与计算集群系统软件高度融合,并针对应用进行性能优化,确保充分发挥硬件系统平台的性能;
3.4集群统一管理技术
为了简化系统管理工作,提高整个硬件平台的运行效率,需要有一个管理系统来对整个服务器集群需要实现统一的管理。能够基于系统映象的计算集群备份和一致性,对计算集群软件进行快速部署;
包括分布式文件管理技术,基于IP管理技术、Hosts管理技术、进程管理技术、服务管理到并行命令等集群管理技术;应具有对所有计算节点通过网络IE页面形式进行管理;实时的状态监控,故障预警技术等。以便于管理人员掌握和调整机群的运行状态,及时的对可能的故障进行处理;
4系统架构
整个高性能计算支撑系统分为计算系统和管理软件系统两部分,其中各部分的功能,以及对各部分所需设备的要求如下:
4.1计算系统
4.1.1刀片服务器
随着课题计算规模的不断增大,计算支撑平台需要更高性能的集群才能满足日益增长的计算规模的需求。面临不断增加的设备,机房容量和设备管理上都面临了新的压力;因此,对集群的空间、功耗、可管理性等都提出了一些特殊要求,如下:
●占用空间较小;
●功耗尽可能地低;
●易于部署和管理,要求尽可能地实现模块化。
综合上述要求,我们要求计算集群采用刀片式的集群架构,最好是采用2组各10片的刀片服务器,在符合应用需要的同时,节省机柜空间,降低机房的功耗,也能实现物理上的“即插即用”和“即购即换”,保证系统处理的高效性,而且部署所须线缆也可以大规模地减少。
4.2管理/软件系统
4.2.1高性能集群整体监控管理系统
构建一套高性能集群系统涉及到多个层面的内容:最底层的是硬件平台,它是完成任务的最基础设施;其次是OS平台,包括节点机的操作系统以及mpi环境、编译器等;最后是应用环境平台。一套高效率的集群整体监控管理系统可使几个层面紧密耦合,协调工作;
4.2.2 计算节点配套操控软件
承担高性能计算任务的计算刀片,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,管理人员需要通过WEB页面的形式管理系统的运行,提供所有组件的最新状态及图形标示的详细信息供管理人员参考,实时状态监控、故障预警,动态优化调整资源配给和节点工作策略。
4.2.3 节点机OS
根据集群计算的应用特点,以及高可靠性高稳定性原则;节点机操作系统应采用正版SUSE 10 Linux企业版操作系统;
5软硬件设备需求
5.1计算刀片节点需求
为了满足实际需求,并使硬件支撑平台具有良好的性能和可用性,对计算刀片部分具有如下的要求:
(一)低能耗
随着服务器性能越来越高,应用环境越来越高密度化,服务器的电源功率也越来越重要。高功耗不仅意味着会耗费更多的电能,同时也会带来在电源布线、机房通风、空调散热等各方面的巨大压力,大大增加了运营成本。目前社会上的计算节能意识已经越来越强烈,节能型服务器产品将成为企业信息化建设的又一趋势。因此,本项目中要求刀片服务器必须具备较低的耗电能力,从而可以节省整个硬件支撑平台的用电量。