发电企业高性能计算中心的建设与实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
发电企业高性能计算中心的建设与实践
摘要:随着国华电力研究院海水淡化、燃煤效能分析等一批自主科研项目的深入开展,普通计算终端已经无法满足专业设计与仿真软件的配置要求。为满足技术人员对高速计算的需求,研究院建设高性能计算中心。本文就计算中心的网络架构、高性能计算集群的配置、作业调度与集群管理系统,信息安全管控措施与机制,以及最终的平台性能测试情况进行介绍。该中心已经成为企业技术研发的基础平台,有效提高企业自主设计、自主创新能力,实现了知识产权的保护与核心技术的保密。
关键词:高性能计算;集群;并行计算、网格计算、计算中心中图分类号:tp393
随着信息技术在科学领域的不断发展发展,高性能计算已经成为理论科学和实验科学以后科技创新的主要工具[1],也成为科技研发能力新的竞争点[2].90年代后期以来,一些传统行业和高性能计算结合的交叉学科不断涌现。在能源领域,随着技术水平和技术难度的不断提高,工程设计和设备制造对于计算机性能的要求越来越高。在电力行业,高性能计算已经被应用于电力系统的潮流计算、短路计算、稳定计算[3],以及大电网系统的可靠性评估[4]。高性能计算通过将多台机器连接起来同时处理复杂的计算问题,是一种并行计算(parallelprocessing)集群的实现方法,平台主要功能是利用所有的计算资源同时运行在并行环境下开发的并行应用程序,以解决单个计算机系统不能解决的问题(如问题规模大、单机
运行速度慢)[5]。运行在高性能的软件需要支持并行计算机制,大量应用的有cae(computeraidedengineering)工程仿真分析软件、cfd(computationalfluiddynamics)流体力学计算软件等[6]。高性能计算中心建设是构建高性能计算能力的系统工程,要从业务需求出发,考虑软件、硬件的合理投入与综合管理。
1 工作背景
神华国华(北京)电力研究院(以下简称“研究院”)作为技术支持与服务单位,承担了国华电力技术研究职能。近年,研究院自主设计、自主研发和自主创新的力度不断加大,科研工作复杂度进一步提高。一方面,热机、电控、化学、土建、脱硫、脱硝等发电专业性研究都对高速计算提出了新的要求。例如在海水淡化产业化及大型化研究中,低温多效海水淡化技术热力计算软件、蒸汽压缩喷射器模拟计算程序的自主研发和应用,是海水淡化工艺流程和主要设备选型的重要依据。其计算过程比较复杂,需借助大型商业cfd 流体力学计算软件来完成,且多采用划分计算单元的方法进行迭代计算,计算量是普通终端计算机难于负担的。另一方面,自主开发的计算软件集成了研究院多年来的关键技术,花费了巨大的财力和人力。核心技术的保密工作以及知识产权的保护工作一直以来都十分受到重视。这就需要一个统一的技术平台,实现集中式管理。为此,研究院组织建设高性能计算中心,作为技术研发的基础技术平台,助力企业创新发展。
2 整体网络架构
高性能计算中心采用集群技术实现并行计算,其建设思路是“按需配置、逐步扩展”,即根据业务实际需要构建计算能力,预留充分的扩展空间,减少初期投入,避免资源浪费。它的整体架构由网络系统、服务器集群及计算系统、存储备份系统、计算中心内用户管理系统、机房配套系统五部分组成。
网络系统是计算中心的骨架,是业务人员访问数据资源的基础平台,为了保证网络数据安全,防范一些恶意攻击、人为破坏或者非法操作,将部署严密的安全方案,保证计算中心的数据安全。服务器集群系统:部署在研究院高性能计算中心机房,实现计算资源和并行计算软件的配置与管理,提供硬件监控与管理功能,为各业务部门提供高性能、高质量的计算服务。存储备份系统:分为存储和备份两个部分,其中存储系统为服务器集群系统提供共享数据存储空间,并提供高可用和高可靠性的存储环境,保证存储系统的数据安全;备份系统负责将业务系统的重要数据定期的备份到磁带中,当业务系统需要恢复数据时,可以通过备份系统自动恢复,减少由于数据丢失给用户带来的损失。计算中心内用户管理系统:计算中心内部用户仅允许访问计算中心内部授权使用的资源,不允许访问计算中心以外的任何资源。为了保证内部资源和数据的安全,需要提供良好的安全策略配置,保证用户接入的安全。机房配套系统:机房配套系统主要包括两部分的功能,一是设置ups电源保护;二是用于数据展示的投影和显示设备。
3 高性能计算集群
高性能计算服务器集群系统是高性能计算和高可用技术有机结
合的性能强大、高可用的集群系统[7],是整个高性能计算平台的核心。按照业务实际需要,研究院高性能计算集群配置刀片服务器作为计算节点;配置高性能服务器节点作为i/o节点,配置高性能服务器同时复用为登录节点和集群管理节点,负责整个集群系统的软、硬件管理、维护与监控。所有节点服务器通过infiniband网络连接,使得这些节点可以高速访问。
cluster1是并行计算节点,它提供核心计算能力,即各种系统资源,包含处理器、内存及i/o设备。cluster1一方面连接到登陆/管理节点,接收执行指令,一方面通过infiniband交换机,实现进程之间高速消息通信;同时访问i/o节点上的文件系统,从而获得较好的i/o性能。i/o节点为计算节点提供共享文件系统、数据传送等功能[8]。与i/o系统相关的网络包括三部分:一是共享文件系统控制支撑网络,在i/o节点上建立网络文件系统(nfs),作为服务器共享存储,实现统一数据访问。它控制支撑网络,用来传递共享文件系统nfs的控制信息,是支撑计算节点和i/o节点间数据交换的管理网络。当多个计算节点同时访问某个建立在共享存储上的共享文件系统时,共享文件系统需要通过该网络系统在多个节点间进行协调和管理。共享文件系统控制支撑网络传输的只是些控制信息,而非数据本身,所以网络负载非常小。二是节点间数据传输网络,用来支持计算节点和i/o节点间的数据传输,即通过infiniband网络实现进程之间高速消息通信。三是存储备份网络,
实现数据的转移与备份。本项目中未配置单独备份,而是在i/o节点上配置磁盘阵列,通过raid实现磁盘冗余,在满足存储要求的情况下,提高了读写效率。登陆/管理节点完成集群系统的监控、管理、登录、作业调度等任务,用户登录到这个节点上编译源程序,并提交作业。该节点上部署的作业调度与集群管理系统是管理员与用户主要使用的应用软件系统,将在下一章节具体介绍。cluster2是非并行计算资源,包含高性能图形计算机等,它主要是为了满足特定计算要求,尤其是对图形性能要求较高的计算任务,为用户提供相应的计算能力。与并行计算集群分开,更加有利于调度与管理。infiniband技术是一种开放标准的、目前全球带宽最高的高速网络互联技术,它的传输协议具有高带宽、低时延、系统扩展性好的特点,最高理论带宽可以达到120gb/s,最小延时不超过4us。另外infiniband标准支持rdma(remotedirectmemoryaccess),使得在使用infiniband构筑服务器、存储器网络时比万兆以太网具有更高的性能、效率和灵活性。
4 作业调度与集群管理系统
在并行计算环境中,为了更充分的利用和安排计算资源,必须要有作业调度软件对用户发起的计算请求分配相应的计算资源,在接收到来自用户的资源请求后,分配详细的硬件资源给应用程序,进行后台运算,并对多个业务进行负载分担和排队。研究院计算中心作业调度与集群管理系统主要由两部分组成,即内核信息基础架构和管理工具集,内核信息基础架构处理底层系统配置,实时监控系