高性能计算应用领域介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Benchmark
processo CHARMMc29b1 rs 1 1332 2 685 (1.9) 4 356 (3.7) processors CHARMMc29b1 AMBER7 Namd2.4 1 1332 1020 8 217 (6.1) 7501385 2 685 (1.9) 460 (2.2) (1.8) 4 356 (3.7) 250 (4.1) 390 (3.6) 8 217 (6.1) 150 (6.8) 198 (7.0) 16 142 (9.4) 105 (13.2) 16 142 (9.4) 100 (10.2) 32 32 108 (12.3) 70 (12.3) 61 (22.7) 108 (14.6) 64 128 98 (13.6) 104 (12.8) AMBER7 1020 460 (2.2) 250 (4.1) 150 (6.8) 100 (10.2) 70 (14.6) 60 (17) Namd2.4 1385 750 (1.8) 390 (3.6) 198 (7.0) 105 (13.2) 61 (22.7) 40 (34.6) 23(60.2)
Materials Studio软件方案 软件方案 • 多路服务器性能较好 • 由于license的昂贵,可以采用如下方案:
–八路SMP服务器解决方案 –小规模机群,配合其他软件运行
• 不建议推高速网
曙光公司部分成功案例( ) 曙光公司部分成功案例(1)
• 中科院物理所 中科院力学所 中科院物数所 中国地质大学材化学院 中国地质大学数物学院 中科院长春应用化学所 曙光3000 曙光3000 曙光4000L 8节点 曙光4000L 16节点 曙光4000L 16节点 曙光4000L 曙光4000A 16CPU 曙光4000A 64CPU 曙光4000A 曙光4000A 曙光4000L 48CPU 曙光4000L 曙光4000A 36CPU 曙光4000A 曙光4000L 32CPU 曙光4000L 曙光4000A 32CPU 曙光4000A 128CPU 曙光4000A 曙光4000A 曙光4000A 128CPU 曙光4000A
CAE软件可扩展性
• 隐式结构力学
– – – – – – – – – – – – – MSC.NASTRAN MARC ANSYS ABAQUS/Standard LS-DYNA AutoDyn Dytran ABAQUS/Explicit Fluent STAR-CD/HPC PowerFLOW CFX CFD-Fastran • 计算电磁学 – Feko • 矩量法/FMM < 16cpu • PO/UTD > 128cpu • 声学分析 – sysnoise
2.3 生物
• 分子动力学 (Molecular Dynamic MD) • 序列比对 (Sequence Aligning) • 分子对接(Molecular Docking) [药物设计 (Drug Designing)] • 仪器后处理 测序仪,质谱仪,电镜
分子动力学
• 分子动力学是一套分子模拟方法,该方法在定义 原子之间作用势的基础上,依靠牛顿力学来模拟 分子体系的运动 ,从而探索体系的动力学特性和 热力学特性。
Vasp软件特点 软件特点
• 由宏剑公司总代,license没有处理器限制
–现在有5.0版本,但是4.6应用比较广泛 –可以获得源代码
• • • •
需要用Fortran90(PGI、Intel)编译器 可以通过数学库(ACML、MKL)调优 支持高性能网络(InfiniBand、Myrinet) 扩展性非常好,可以做大规模机群
前处理
采用各种CAD工具,建立几 采用各种CAD工具,建立几 何模型,划分计算网格
后处理
显示计算结果,评估产品性能
求解
指定荷载和边界条件,提交给计算服务器进行分析
CAE应用的软件 应用的软件
• 结构分析软件 – 隐式:Ansys、 Nastran、Abaqus – 显式:Ls-dyna、 Pam-crash、 Radioss • 流体分析软件 – Fluent、CFX、 Fastran、StarCD
• 显式结构力学
• 计算流体力学
SMP and 集群
• SMP服务器适用的领域 SMP服务器适用的领域 服务器适用的
– 基于OpenMP/多线程 – 需要大量I/O操作 – Nastran、Ansys、Abaqus/Standard、Sysnoise、 FEKO
• 集群服务器适用的领域 集群服务器适用的领域
能源动力领域成功案例
• 清华大学热能系动力机械研究所64CPU集群千兆网,CFX和 Numeca软件 • 清华大学汽车系16cpu集群两套,Fluent、Dyna和Fire • 哈尔滨工业大学能源学院64cpu,Fluent、CFX和Nastran 等 • 西北工业大学叶栅实验室21节点I620r-F,Fluent,CFX, Numeca和Nastran等 • 西北工业大学能动学院13节点I620r-F,Fluent,CFX, Numeca和Nastran等 • 吉林一汽4节点R4380AD共32CPU集群,Fluent和StarCD等 • 中科院工程热物理所32节点A610r-F,Infiniband,Fluent
• 对于Ansys、Nastran、Abaqus等应用
– 并行度不高,扩展性一般小于16CPU – 单个作业对内存的要求很大 – 单个作业对I/O的空间和性能要求很高
• 以ANSYS为例
– SPARSE----DSPARSE
• 10 GB/MDOF(in-core) • 10 GB/MDOF I/O
曙光高性能应用领域解决方案
Leabharlann Baidu
技术支持中心 戴荣 马少杰 曙光信息产业(北京)有限公司
目录
• 曙光应用领域解决方案
− 2.1 CAE仿真 − 2.2 物理化学 − 2.3 生物 − 2.4 动漫多媒体 − 2.5 石油勘探 − 2.6 气象、海洋及环境
2.1 CAE仿真 仿真
分析的过程: 分析的过程
–现在版本:2003,没有源代码
• 需要Red Hat AS4 update 2版本以上的操作系 统 • 针对不同处理器有不同编译版本 • 只能通过输入文件设置调优,或者系统级调优 • Gauss以共享内存并行方式运行 • 不支持高速网络 • 扩展非常差,主要是2个节点并行
Gaussian软件方案 软件方案 • • • • • 四路和八路节点机具有很强竞争力 跨节点性能不好 不建议采用高速网 操作系统版本需要注意 内存对于性能影响较大
– PCG----DPCG
• 1 GB/MDOF • 0.5 GB/MDOF I/O
• 对于Fluent、CFX、LS-Dyna等应用
– 并行效果好
• 能够在集群环境下并行到超过128个cpu
– 对内存的需求不强烈
• 通常1 个cpu core配置1GB 内存即可满足需要。
– 对本地交换硬盘性能要求不高
• 一般采用SCSI/SATA硬盘即可
– 采用高速互联设备可以大幅度提高性能
• 以Fluent 为例,8个双路计算节点时采用Infiniband 互联设备的性能会比千兆以太网好50%以上。
• 对于Feko等电磁场分析应用
– 采用PO/UTD方法,并行效果很好,能够在集 群环境下并行到超过128个cpu – 采用MoM/FMM方法,并行扩展性不高,小于 16cpu – 对内存和I/O的要求比隐式有限元程序还要高得 多
• • • • •
• 云南大学 • 烟台师范大学物理系
曙光公司部分成功案例( ) 曙光公司部分成功案例(2)
• 华东理工大学 • 郑州大学材料物理实验室 • 武汉大学纳米设计实验室 • • • • • • 武汉大学空间物理实验室 华中师范大学化学系 中山大学物理系 山东师范大学: 山东师范大学: 湘潭大学: 湘潭大学: 南京航空航天大学: 南京航空航天大学: 128CPU 曙光 曙光4000A 68CPU 曙光 曙光4000L 34CPU 曙光 曙光4000L 64CPU 曙光 曙光4000L 128CPU 曙光 曙光4000L 32CPU 曙光 曙光4000L 64CPU 曙光 曙光4000L 64CPU + Infiniband 128 dual core+Myrinet + 128 dual core+Myrinet +
序列比对
蛋白质(Protein)序列 核算(DNA)序列
蛋白质(Protein)序列
核算(DNA)序列
序列搜寻
DFPLAGHIFDWY
HIPDWYLAGHIF
DFPLAGHIFDWY HGFL--AGHIFAWY--------PLAGHIFDWHGH
HIPDWYLAGHIF
序列比对常用软件
• BLAST (MPIBLAST), FASTA 序列搜寻 • ClustalW (ClustalW-MPI) 多序列比对 • Palm,Paup,进化发育分析 • Hmmer(SPEC CPU2006 INT) • Mummer,,TIGR, PHYLIP , RepeatMasker
主要软件
CHARMM (商业软件,基于CHARMM势场) AMBER (商业软件,基于AMBER 势场) GROMACS (免费软件,基于GROMACS势场 )(SPEC CPU2006 CFP 17种基准测试之一) NAMD (免费软件,主要使用CHARMM势场, 也可用AMBER势场和GROMACS势场,有非常 高的并行效率)(SPEC CPU2006 CFP 17种基 准测试之一)
Materials Studio软件特点 软件特点
• 由创腾公司总代,license有处理器的限制
–现在版本:4.3,没有源代码 –License极其昂贵,一般买8个节点(30万RMB)
• • • •
软件结构为C/S结构,部署非常复杂 支持高速网络,但效率提高10~20% 只能通过系统级调优 扩展性一般,并行规模主要受到license的限制
– – – – 基于MPI的多进程 扩展性较好 需要分布式任务 Fluent、CFX、 Ls-Dyna、Abaqus/Explicit、FEKO
航天航空领域成功案例
• 航天三院某所40节点R210A,千兆网络, Fluent,CFX • 航天三院某所65节点R210A,Infiniband网络, Fluent,CFX • 中国第一飞机设计研究院16节点R4280, Myrinet,Fluent,CFX,Nastran等 • 北航流体力学国家重点实验室65节点,千兆网, fluent和自编程序 • 哈尔滨工业大学理论推进研究室33节点R220A, 千兆网,Fluent等
–以太网16~20核,InfiniBand 48核
• OPENPBS不能清除干净vasp作业
–需要手工干预
Vasp软件方案 软件方案 • • • • 标准的高性能机群结构 在方案中需要添加Fortran 90编译器 对于网络时延要求比较高 多路节点性能好
Gaussian软件特点 软件特点
• 由宏剑公司总代,license没有处理器的限制
Gromacs 32 进程加速比达到 22 ,之后效率下降。
解决方案
• 高密度的多节点集群加 高密度的多节点集群加infiniband高速网 高速网 AMD刀片(2路或4路)加infiniband高速网 1U或2U的AMD机架式服务器加infiniband高 速网
方案的优势 • 非常高的并行加速比,用户可以买尽可能多的节点。 • 很多软件免费,也没有License的限制,所有成本可 花费的硬件采购上。 • 非常大的网络数据交换量,推荐高速网。 • 软件开放源代码,技术支持中心可以可以提供软件优 化的编译,并且编译针对Infiniband的版本,使硬件 效率最大化。
2.2 物理化学
领域内主要计算方法: 领域内主要计算方法
• 量子力学第一性原理(Schrödinger方程) 量子力学第一性原理( 方程) ö 方程
• 从头算方法(电子结构) • 密度泛函(DFT)方法
• 分子力学 分子动力学方法 分子力学/分子动力学方法 • 蒙特卡罗方法
量子力学计算软件 • • • • • • GAUSSIAN03 VASP ABINIT SIESTA WIEN2K CPMD