国家超算中心建设的重大意义

国家超算中心建设的重大意义
国家超算中心建设的重大意义

国家超算中心建设的重

大意义

Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

国家超算中心

浪潮天梭TS10K高性能服务器

浪潮集团有限公司

目录

1.前言

1.1. 国家超算中心建设的重大意义

2014年11月,全球超级计算机TOP500排行正式放榜。中国高性能计算机载誉而归,“天河二号”连续四次名列第一,创造了中国高性能计算机在全球的最佳成绩,打破了美国对此项目的长期垄断,实现了历史性的突破。

在500强榜单上,北美入围的超级计算机数量最多,达到237个;欧洲国家有125个超级计算机入围;亚洲已经迎头赶上有120个,其中中国达到61个。沙特目前有4

的重要性越来越明显,计算科学已经成为21世纪最重要的技术领域之一,它在石油勘探、气象预报、航空航天、信息研究、生命科学、材料工程和基础科学研究、行业的信息化、数据大集中等方面都具有重要的意义,它对整个社会的进步起着基础性的作用。国家超算中心的建设对国家保持科学研究领导地位、提高经济竞争力以及维护国土安全、提升国际地位发挥将会发挥重要作用。

1.1.1.国家超算中心可提高国家经济竞争力

近日,由中国石油集团东方地球物理勘探有限责任公司(BGP)与浪潮集团合作完成CPU/GPU异构并行叠前时间偏移地震信息处理软件(PSTM)成功应用于中石油国家站点,由浪潮提出的“CPU-GPU协同计算”的HPC计算架构,成功打造了坚持应用创新引领高性能发展的经典案例,为中石油集团参与国际竞争,提升中国在国际石油市场话语权奠定了坚实的基础。

国家近年来科研水平不断提升,在科研的众多方面都对计算能力有个强大的需求。通过建造这套国家高性能计算中心,可以广泛的应用于各行各业,尤其是石油勘探行业,为国家经济发展带来新的增长点。

石油行业是高性能计算机(HPC)应用最为广泛的领域,为了了解和模拟出地下数千米的地质构造,需要通过地震波反射的方式来收集海量数据(一般二维数据1-2TB,三级数据高达几百TB甚至PB级),然后进行大量的密集计算和模拟,计算结果出来后还要转换成直观的可视画面,方便专家对数据进行解释,为油气钻井定位提供参考。由于本身数据量和计算量过于巨大,同时为了寻找深层、隐伏和岩性油气藏,对计算精度和实时性的要求越来越高。因此,石油行业对于计算能力的需求可谓是永无止境的。要知道今天打一口井的代价非常高昂,一般要花费千万元,而在有些地区动辄需要上亿元,强大的高性能计算地震模拟可以帮助专家缩小误差,避免损失。

通过国家超算中心千万亿次的集群系统,沙特可以充分发挥本国在石油勘探、石油开采等领域的实力,提高本国石油产品在国际上的竞争力。有了这套高性能系统,可以进一步发挥国家在石油行业的优势,充分利用国内的石油资源,提高国家经济竞争力。

1.1.

2.国家超算中心可提升国家科研实力

数值模拟与理论和实验三位一体是促进21世纪科学研究和技术开发的三大支柱。高性能计算正在变得与计算密集型应用越来越密不可分,已成为石油勘探、量子力学物理、天气预报、气候研究、分子建模、物理仿真、密码分析等领域的重要手段,而只有千万亿次级别的高性能计算系统才能帮助这些领域取得更加精湛的成就。

1.1.3.国家超算中心提升CAE行业应用实力

CAE即计算机辅助工程设计,自二十世纪六十年代以来CAE技术得到飞速发展,其原动力是不断增长的工业需求,其中航天航空、能源动力等领域是其发展的强大的推动力。目前在航空、航天、能源动力等工业领域,利用CAE进行反复设计、分析、优化已成为标准的必经步骤和手段。如大型复杂飞行器结构的流-固耦合计算,涉及计算空气动力学、计算燃烧学、计算传热学、计算结构力学等众多学科。

航空航天业是应用CAE最为广泛的行业。究其原因,主要是航空航天器结构复杂(通常需要进行十万以上自由度的计算),力传递路线多,工作在多变的流体环境下(流体力学本身就需要大量的复杂计算),对可靠性、耐久性和损伤容限的要求很高,以及实验条件无法完全模拟真实环境(有的实验甚至根本无法进行)等。这些原因都使航空航天业的发展离不开CAE仿真,并且越来越依赖于CAE仿真。

在航空航天领域,重大力学问题、高超声速科技工程、大型飞机工程中,计算科学对复杂空气流动力学原理的精细认识、飞行器布局设计、机翼等关键部件的参数设计和性能优化、气动声学和气动光学、返回舱黑障区电磁耦合、流固耦合、发动机内流、多学科设计优化等方面,具有极其重要的支撑作用。在美国和欧盟大量采用高性能数值模拟提升飞行器设计能力的今天,体现核心竞争力的关键技术和优化设计也必须依赖于计算科学。

1.1.4.国家超算中心可提高国家在国际上的影响力

从世界超级计算机Top500分布情况来看,超级计算能力与一个国家(地区)经济社会发展水平密切相关。因此,美、欧、日等发达国家(地区)长期投入巨大的人力、财力、物力发展超级计算能力,并几乎垄断全球超级计算机研发和应用。

在沙特,在Top500榜单中,近三年共六期的排名中,共有4次进入Top500中。在

心的建立,可以力争成为行业计算能力最强的超级计算机,满足为国家服务的同时,也可以大大提高国家在国际上面的影响力。

1.1.5.国家超算中心提升行业高性能计算机应用水平

在浪潮集团为国家设计建设的国家超算中心过程中,浪潮集团带来的不仅是系统本身,更是和系统相关的技术和应用经验,这也可以大幅度提升国家在高性能领域的技术实力,并且能够极大的提升在CAE行业的高性能计算应用水平。

目前,新技术层出不穷并飞速发展,在国防工业的各个领域(如航空、航天、车辆、船舶等)中,各学科(如工程力学、机械制造等)间通常要进行跨行业、跨学科的交叉,因此工程师们要掌握多方面的知识,这也扩展了不同学科运用CAE的深度和广度。很大一部分用户已经从使用CAE软件进行单一类型、单一学科的分析向使用软件进行综合型分析转变,有40%的受调查者正在用CAE软件灵活地进行多个类型、多个学科的仿真分析,以解决各种实际的工程问题。

目前精通CAE的人才数量还很有限,很多老一代研究人员对CAE的接触很少,而年轻人因为设计经验不足,对仿真条件的假设不准确,因此分析出的数据参考价值不高。有设计经验的人没有CAE的操作使用经验;而有软件操作经验者却缺乏设计经验,这正是目前研发及工程领域的一个突出问题。建设一套百万亿次的超算中心,能够让年轻人借助有经验的设计人员的设计思想修正自己在CAE使用中可能产生的疏漏,对于沙特航空航天的人才培养起到了非常重要的意义。

1.2. 国家超算中心建设与运营

1.2.1.国家超算中心建设

国家超算中心的建设是一个复杂的系统工程,需要一个完善的规划和实施方案。浪潮集团作为中国领先的高性能计算系统提供商,可以提供一整套完善的解决方案,包括计算系统、制冷系统、机房装修等整个方案。

浪潮天梭TS10000是一个技术含量高,结构复杂的系统产品,专业的服务与全面的技术培训对用户是十分必要的,这将有助于用户更好地应用高性能计算机系统,更好的维护系统,保证业务的稳定、高效运行。由于此次项目的特殊性,系统能快速有效的建立并稳定运行、用户使用方便好用、使用过程中得到浪潮及时有效的技术支持和相关服务,最后达到用户满意,我们对此项目制定专门的实施方案。详细实施验收方案根据浪潮集团多年来高性能服务器系统的项目实施经验,结合本次项目的需求,实施部分从总体上为三个阶段:

?山东济南预安装系统

?用户现场实施

?用户现场调优阶段

每个阶段都将作为一个独立的子项目运作,并且三个阶段将有机的结合起来,最终完成整个项目的建设,达到用户的建设目标。

1.1.1.1.山东济南预安装

为确保系统稳定运行,万无一失,我们的货物在发出前会在山东济南先期组装和试运行,并进行压力测试,确保不产生意外。试运行阶段进行各项测试,以便及早发现存在的问题,将其解决,使项目后期实施顺利进行。

1.1.1.

2.用户现场实施

国内试运行阶段完成后,将货物发送至用户,且随货发出的还有常见易损备件。等货物到达后,我们将会派出专业的高性能团队到现场进行安装调试,并协助用户完成应用软件的移植工作。具体安排根据与客户协商结果确定。由于前期预安装阶段已经配置好基本环境,在现场实施阶段的工作重点是将整套系统重新组装上架,硬件搭建,及客户应用软件的移植和调优工作。

1.1.1.3.用户现场系统调优

为了发挥系统潜力,浪潮在系统实施完成后,将根据系统特点以及客户的应用进行系统级的调优。调优主要工作有:

节点BIOS级调优:

1)高性能计算中,为了充分利用CPU的计算资源,往往在BIOS里关掉超线程功

能。

2)打开系统BIOS缓存:SystemBIOSCacheable,也叫SystemBIOSShadow(系统BIOS

遮罩),打开该功能,系统性能可以得到很大提高。

3)打开视频BIOS遮罩:VideoBIOSShadow功能将把显卡的基本BIOS功能存储到内

存里,在任何时候都能被方便的调用,使CPU能以更高的速度读取这些功能。

打开该功能将在很大程度上提高系统性能。

4)关闭不必要的IDE通道:OnboardIDEController,通过关闭不必要的IDE通道,可

以提升系统IO效率。

微架构调优:

针对特定的处理器架构做指令级优化——数据对齐、数据结构,分支、高速缓存的使用等。微架构优化可实现非常显着的性能提升——在其他优化手段完成后再实施,需要经验丰富的底层结构优化工程师,深入持续的支持。

应用程序层调优:

确定围绕关键执行路径的可优化的代码段。关键执行路径指耗用最长执行时间的函数群。通过对下列常见问题区域的性能改善可以缩短关键路径执行时间,从而降低整体执行时间:

?常见的可线程化区域

?线程数据交互和同步

?数据结构的选择

?循环例程和系统API调用的结果

?在分散存储的集群系统中MPI消息传递造成的应用性能扩展问题.

系统层优化:

确认由系统访问延迟造成的性能限制。

通常考虑的系统性能因素包括磁盘IO、网络IO、存储访问、处理器带宽/利用率,总线带宽/延迟。

1.1.1.4.用户项目技术培训

针对于本次集群项目,浪潮公司专门做出了一套完善的技术培训计划。技术培训对高性能集群用户是十分必要的,这将有助于用户更好的维护系统,保证业务的稳定运行,更好地应用高性能计算机系统。通过一系列的主题培训,使系统管理人员能较熟练的掌握集群系统的安装、使用和维护,使整个系统能够正常、安全的运行;使系统使用人员能够了解各种应用的安装、调试过程,对并行程序的运行、调优有更加深入的认

识。我们将组织专门的培训人员和合作伙伴,集中力量根据用户集群系统建设项目的应用特点和用户的实际情况编写适合的培训教材。

本次项目培训方式采用山东济南集中授课培训、预安装操作培训和用户现场培训三种方式。

●集中授课培训

本次培训对最终用户进行集中理论培训,教学采用课堂授课方式。通过集中授课培训,让学员掌握硬件设备的架构、原理,平台技术、应用选型和安全维护,以及常见故障的判断分析;整体系统的架构、平台技术;各种操作系统、软件系统、应用软件的基础知识、原理介绍、系统调优、应用软件迁移等知识。

●现场操作培训

在预安装阶段,客户可以安排人员参与我们的工作,我们将通过对整个系统的安装、调试,让用户管理员有一个感性的认识,并能够对硬件设备进行一般的操作、维护和常见故障的判断分析。对软件系统有深入的理解,可以自主使用应用软件功能。在上述的实践培训和实际操作过程中,我们将和您一起分析遇到的问题,并对您进行故障判断、排除等方面的现场培训。

●用户现场培训

在用户现场培训阶段,我们的工程师将主要培训客户如果管理和使用这套集群系统,尤其是集群管理,作业任务提交,系统维护等方面能够熟练使用。在上述的实践培训和实际操作过程中,我们将和您一起分析遇到的问题,并对您进行故障判断、排除等方面的现场培训。

1.2.2.国家超算中心运营

目前,随着越来越多的高性能计算机的面世,超算中心关键设施的运营和维护

(O&M)正受到与建设和设计这些复杂场所同等地位的对待。由于关键基础设施变得更加复杂,提高了容错性和并行维护能力,建立同等的O&M实践管理这些设施的重要性变得日益明显。研究显示,有60%甚至更多的事故都与人类的活动相关,包括例行的维护和关键系统的重新配置,维护任务以及人为失误。

支持连续运营的必要人员和程序必须在数据中心运行第一天到位,这需要在数据中心开始运营之前就做好这些准备工作,最好在规划和需求定义阶段就开始准备。

用户国家超算中心的建设是一个非常重大的项目,面对一个如此大规模的系统,后期的运营和维护将是一个很大的挑战。

后期工作主要包括:

?维护超算系统稳定高效运行

?.定期对超算系统进行巡检,发现问题及时排除。

?定期检查用户作业运行情况,必要时进行处理。

?负责超算中心扩充建设

?适时扩充超算平台,满足众多用户对超级运算的需求。

?及时更新及新添编译器、数学函数库等,充分发挥性能。

?及时更新超算中心主页,增加必要的文档。

?负责受理超算用户的开户销户申请、办理开户销户手续

?确定用户开户类型,用户填写相应开户申请表格。

?重点用户直接开户,并记录于相应学科名义下。

?非重点用户要求提供具体题目细节,并提交管理委员会审查通过。

?在系统上开户,按用户资料与帐户的对应关系,设置相应使用权限。

?对超算用户提供技术支持

?及时响应用户问题,判断问题原因。

?简单的常见问题应做到随时解答,引导用户经常查阅超算中心主页文档,减少此

类问题的出现频率。

?定期举行用户培训,宣传超级计算。

?统计用户机时使用情况,生成报表

?定期统计超算系统使用情况,为管理决策提供依据。

针对这种情况,浪潮集团制定了详细的运营维护方案,以保证系统的良好运行和高效率的使用。在超算中心建成后1年内,浪潮集团将派出浪潮集团最优秀的高性能团队驻扎在现场与客户一起来维护系统,并且在维护的过程中培养用户自己的维护团队,让用户掌握超算中心日常运行过程中的维护知识和遇到急发事件的处理方法。

1.2.3.项目售后服务方案

浪潮公司将针对本项目特专门设立VIP专家服务,向使用方及时提供与本设备相关的安装、检验、调试、验收、运行、检修等相应的技术指导、技术配合、技术培训等全过程的服务。针对本项目,浪潮会安排专门工程师驻守在国家提供VIP服务,保证用户在系统出现故障是及时提供各种服务,免去用户后顾之忧。

浪潮向用户提供免费升级服务、调优、故障排除和故障排除所需的备件更换(含备件本身)等。浪潮承诺设备原厂商为项目建设单位提供免费的技术协助,技术协助的内容包括产品的安装部署上线、与其他系统的集成等。技术协作的方式包括电话支持、电子邮件支持、文档提供、现场支持等多种以解决实际问题为目的的方式。

相关主题
相关文档
最新文档