Matlab高性能计算方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Matlab 高性能计算服务平台
建设方案
北京天云融创科技有限公司
2012年7月
目录
1项目概述 (2)
2需求分析 (2)
3建设目标 (2)
4总体方案 (3)
4.1逻辑架构 (4)
4.1.1相关产品 (4)
4.1.2部署说明 (5)
4.1.3设备配置 (6)
4.1.4并行计算支持 (8)
4.2实施内容 (9)
4.3实施人员 (9)
4.4实施计划 (10)
5系统培训 (11)
5.1现场实施培训和用户使用培训 (11)
6经费概算 (11)
1项目概述
伴随信息技术与网络技术的高速发展和广泛应用,信息化已经成为现代社会发展的强大动力,数值仿真技术在设计和制造行业也得到广泛应用,诸如结构与过程优化设计、强度与寿命评估、运动及动力学仿真,以验证未来工程/产品的可用性与可靠性。
数值仿真技术,在提高工程/产品的设计质量,降低研究开发成本,缩短开发周期方面都发挥了重要作用,成为实现工程/产品创新的支撑技术。
随着设计精度和计算的要求越来越高,系统结构越来越复杂,需要评估的角度也越来越多,不仅需要使用更多的Matlab计算,而且也需要通过多核、多处理器和并行计算等高性能计算技术提高Matlab计算效率、减少计算时间。
同时,也需要屏蔽系统复杂性,让设计人员能简单方便使用。
2需求分析
通过交流了解到需要更高配置和更大规模的计算资源提高计算能力,需要Matlab并行计算能力提高计算效率,需要共享计算资源提高机器的利用率,需要集中管理计算资源和数据。
这样就需要提供一个平台将计算资源统一的进行管理,同时提供高性能计算平台将Matlab进行集成,完成分布式计算,提供Matlab的计算效率,同时构建一个统一的、高效的集群系统解决方案。
3建设目标
建设开放式和初步规模的高性能计算服务平台,使用更高配置的硬件设备和更先进的软件平台,将Matlab运行环境进行统一规划和实施,为研究人员
提供统一、高效、安全、可靠的高性能计算环境和使用平台,实现软硬件最大程度的共享,从而提高IT投资回报,提高生产效率。
4总体方案
搭建一个集群系统,用作业调度软件将集群进行集中的管理,同时将Matlab和作业调度系统进行集成,通过作业调度系统来调度Matlab,实现分布式计算,从而提供Matlab的计算效率。
解决方案立足点如下:
❑集中管理:支持多种异构硬件平台、操作系统和应用程序,提供单一系统镜像,可以实现计算节点的集中管理和统一调度。
❑负载均衡:提供强有力的负载均衡能力,保证计算服务器的任务分配尽可能均匀,避免出现机器忙闲不均的现象。
并且可以根据服务器的负载
指标(如:CPU利用率、可用内存数、IO等),采取保护性措施,避
免因为任务过多导致系统忙而无效甚至死机。
无需用户干预自动分配计
算资源。
❑资源的有效利用:避免计算任务之间出现冲突而导致任务失败或计算时间延长;计算任务通过资源可用情况(许可证和CPU利用率)排队,保
证许可证资源7x24使用。
❑资源的合理分配:包括许可证和硬件资源,如果没有合理分配机制,开放式高性能计算服务平台建成后将不可避免出现各部门间和人员对资源
使用的无序竞争,资源使用效率和合理性将无法保证。
❑优先级管理:保证当资源不足(包括许可证和服务器)时,紧急的项目或任务可以获得更高的优先级,从而更快速地启动,避免影响设计和工
程的进度。
❑避免无效占用:设置应用使用限制和生命周期,防止应用无效占用资源。
❑并行能力:采用公认的计算方法,支持多种MPI和网络协议,支持大型软件的分布并行计算能力。
❑跨平台性、稳定性要求:系统跨平台性强,支持各种UNIX/Linux平台,能够最佳地跨越各种平台管理并行作业处理,这些平台包括HP-UX,
IBM AIX, SGI IRIX, Solaris,Windows,linux。
系统提供的功能全,稳定
性高,使用方便,容错能力强。
❑用户友好:简化用户的使用,并尽量尊重用户的使用习惯。
同时,系统也对系统管理员提供便利工具,方便系统管理。
❑先进性:充分考虑其先进性,使整个系统不仅满足用户目前业务的需要,还能适应未来技术发展的趋势和需要。
❑扩展性:不仅能提供单节点较高的运算能力及整体效率,还考虑到将来可根据业务需求和技术发展特点方便地增加节点。
❑开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。
4.1逻辑架构
针对需求,首先,提供一套基于Web的用户端接口,方便用户使用高性能计算相关的软硬件资源。
再次,将Matlab集成的作业调度系统中,通过作业调度系统对Matlab的计算作业进行管理(例如提交、运行、暂停、关闭),同时对作业的数据进行集中管理,并提供上传和下载功能。
4.1.1相关产品
本方案的实现将基于如下所列的产品与服务:
✓作业调度系统
针对高性能计算领域推出的集群管理系统,支持异构的、分布式Uinx/Linux,Windows计算环境,提供可靠的集群管理、负载共享、复杂的作业管理及调度功能和大规模并行计算的能力,可以有效提高大型计算任务的资源利用率。
✓Web Portal
Web Portal 提供了一个可定制的、简单易用的面向高性能计算Web Portal,通过与作业调度系统及应用软件的集成,最终用户可通过Web方式统一使用计算资源,大大简化了应用人员使用的复杂性,提高了高性能计算的安全性、可管理性。
Web Portal提供VNC集成功能,用户可以通过Web 运行基于X Windows的应用程序。
Matlab
针对Matlab的分布式计算,在每个节点上都需要运行Matlab的计算,所以可将Matlab安装到共享的文件系统,通过作业调度系统来集中分配和调度。
4.1.2部署说明
体系结构如下所示。
1)整个系统将向用户提供四种访问方式,即用户可以通过浏览器、命令行、
API、集成后的应用程序,访问开放式高性能计算服务平台的许可证和
计算服务器资源。
这四种访问方式中,Web访问作为公司的推荐配置,
而客户端命令行、API、应用程序集成功能作为选项,可以根据具体需
求配置。
2)开放式高性能计算服务平台将配置两台Linux管理服务器,一台作为主
节点用于调度服务;另一台作为容错节点,当管理节点发生故障时,自
动切换为管理节点,以提供更高的可靠性,容错节点还运行Reports的
数据收集服务。
3)一台Linux的机器作为报表服务器,提供统计分析报表。
报表服务器可
以视需求与管理节点或容错节点合二为一。
4)其他计算服务器将运行计算服务,根据主节点的调度指令,运行用户作
业。
5)在开放式高性能计算服务平台的客户端配置一台Web服务器。
运行Web
Portal有关服务。
提供基于Web的作业的运行和管理,Web服务器可
以视需求与管理节点或容错节点合二为一。
4.1.3设备配置
4.1.4并行计算支持
作业调度系统针对MPI(Message Passing Interface)标准的不足,在标准的MPI结构中增加了PAM(Parallel Application Manager)和RES(Remote Execution Server)来增强对并行程序的控制和管理,使得并行程序能像串行程序(单进程程序)一样被管理。
具有如下优势:
❑作业调度系统提供了一套MPI的增强机制,MPI并行程序可以实现像单进程作业一样的控制和管理。
例如:
通过简单命令挂起/恢复运行在不同节点上的所有并行进程。
当并行程序的一个进程失败时(意味着整个并行程序失败),自动清除所有的其他进程,避免系统中留下进程垃圾。
这样的并行控制
是MPI标准实现无法提供的,在没有LSF的情况下,并行作业只能
做到“发送完不管”,作业提交后用户就失去了对作业的控制。
这样,
在集群运行中,系统将累积越来越多的进程垃圾,导致越来越多系
统资源无效占用,最终集群不得不频繁地重新启动。
目前,与大多数主流MPI实现集成,包括:LAMMPI,Myrinet,OpenMP,IBM POE,SUN MPI,SGI MPI。
❑提供基于负载平衡的并行运算调度,能为并行作业选择负载最轻,性能一致的CPU/节点,并可限制其他作业抢夺这些CPU资源,从而使并行
的效率最大化。
避免因并行作业的无序分配而产生的木桶效应,即:并
行程序的运行效率取决于运行速度最慢的那个并行进程,某个进程效率
低下可能导致所有其它进程空转。
❑还提供并行作业优先级管理,使优先级高的并行作业能通过挂起低优先级作业,而抢占到所需要的计算资源,从而优先以最高效率执行。
当高
优先级作业执行完成后,将自动恢复运行被挂起的作业。
下图演示了使用作业调度系统,并行作业跨节点执行的全过程。
并行计算示意图
4.2实施内容
本项目具体实施内容简述如下:
•产品安装配置
•Matlab系统集成
•系统现场培训
•文档提供
•项目验收
4.3实施人员
在项目正式实施前,由用户和天云公司指定人员共同成立项目实施团队。
其职责包括:
•确定项目实施的要求和目标
•制定项目实施的具体计划
•项目实施前期准备
•项目实施
•项目验收
客户项目管理团队的密切配合是本次系统成功实施的关键。
双方需要确定并安排必要的人力资源,保障各项现场活动能够及时而顺利地展开。
参与实施的人员包括系统管理员和使用人员。
客户实施团队:
•项目负责人1名
•应用操作1~2名
天云实施团队:
•项目经理1名
•实施顾问1名
4.4实施计划
针对项目要求和天云公司经验,公司将提供15天的现场服务。
工程师将和用户一道确定项目实施的具体目标,包括调度策略、软件集成、现场培训等并制订相应的实施计划,确保项目成功。
5系统培训
系统培训包括现场培训和非现场培训两个部分。
其中,现场培训由现场实施人员根据用户现场实施情况进行的有针对性的培训,其目的是让用户掌握与其需求相关的关键技术和知识。
非现场服务由天云专职培训师提供的标准培训课程,其目的是让管理员及用户掌握相关的全面知识,以便于更好的管理、维护和使用作业调度系统,使其发挥更好的性能。
同时,在标准培训课程实施时,还可以根据用户需要及具体情况,安排有经验的开发或测试人员与学员进行技术交流以解决用户一些特定的具体
问题。
5.1现场实施培训和用户使用培训
天云现场实施培训,由天云现场实施工程师,结合项目实施进行,边实施边培训。
其目的是让系统管理员比较全面了解实施相关的技术和经验,便于以后系统扩展。
用户使用培训是指在项目实施完毕后,在现场进行的用户使用培训和交流,其目的是让用户能够方便、简单地使用该系统。
用户现场使用培训一般2个小时。
6经费概算
根据目前硬件配置和软件配置,初步估算项目费用如下:。