高性能集群性能评测

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

HPL ：针对大觃模幵行计算系统的测试，其名称为 High
Performance Linpack (HPL)，是第一个标准的公开版本幵行 Linpack测试软件包，
用于TOP500与国内TOP100排名依据。
使用者可以改变问题觃模。有相当大的优化空间。
4IO性能测试
5内存带宽性能测试
6其它测试
1高性能集群性能评价概述
高性能计算架构变化
高性能计算网络发展
高性能集群操作系统份额
系统管理与用户管理
控制台本地KVM
作业运行
存储系统
并行存储系统
数据访问与存储
高性能计算作业的工作流程
高速Inifiniband交换机
千兆交换机
算例上传作业提交
GPU峰值：
每C2050卡双精度峰值＝0.515TFLOPS 单精度峰值＝1.03TFOPS 双精度峰值＝0.515* GPGPU卡数目（TFLOPS）
单精度峰值＝1.03* GPGPU卡数目（TFLOPS）
衡量高性能系统性能的评价指标
-----实测峰值（FLOPS）
HPL(Linpach)测试 ---对系统进行整体计算能力的评价
基于CPU的Linpack测试步骤
intel编译器修改第171行为CCFLAGS = -O3 -xHost -ip -funrollloops gnu 编译器修改第171行为CCFLAGS = -pipe -O3 -fomit-framepointer -march=native -funroll-loops -ffast-math pgi编译器修改第171行为CCFLAGS = -Bstatic -V -fastsse Munroll=n:4 -Mipa=fast,inline 修改第174行为LINKER = mpicc，intelmpi修改为mpiicc e) 载入环境变量，确认自己使用的编译器环境以及MPI source /public/software/mpi/openmpi-1.4.3-gnu.sh f) make arch=gcc_openmpi g) cd bin/gcc_openmpi 此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件
主流高性能应用介绍
气象海洋环境科学
气象预报：WRF，MM5，Graphes 海洋科学：roms
石油勘探 Omega，cgg等劢漫渲染 3dmax，Maya等
高性能应用典型特征
应用类别典型应用 gaussia 计算化学 n 、A D F 计算物理 vasp，材料科学 cpmd dock,au 药物设计 todock MPIBLAS 生物信息 T 、B W A 分子动力 namd，学 gromacs WRF，环境科学 Grapes Fluent 流体力学、C F X Ansys，结构力学 Abaques Fecko、电磁仿真 Comsol 地震资料 omega，处理 cgg CPU 5 5 5 5 5 5 5 5 5 5 内存容量内存带宽 5 2 2 4 2 3 4 4 5 4 4 5 2 4 2 3 4 4 4 4 存储 5 2 2 5 2 3 2 5 4 5 网络 4 5 2 2 5 5 5 3 5 2 扩展性 3 4 5 5 5 5 5 2 3 5
运行linpack
修改HPL.dat，一般需要修改3处 1.问题规模的组数及大小，一般为1组： 1 # of problems sizes (N) 40000 Ns 占用内存=N*N*8字节，一般占用所有测试节点物理内存总和的75%左右性能较优比如N=40000，占用物理内存=40000*40000*8 Byte=12800000000 Byte=11.92GB 2.NB值，即矩阵分块大小，这个是经验值，一般设置为 128、192、232 2 # of NBs 128 192 NBs 这里表示运行2组，NB值分别为128和192
局域网
登陆/管理节点
防火墙
以太网交换机
内网
Infiniband网
计算系统
路由器
以太网
外网
Internet
远程控制
光纤网
KVM管理网
本地建模
SMP胖节点刀片集群
GPGPU节点
机房环境
本地建模
高性能计算机系统架构
PC机笔记本瘦客户端网络应用软件层 CAE仿真物理化学生命科学气象海洋石油勘探动漫渲染平板电脑工作站
显然，当 p→∞时，S=1/f，即对于固定规模的问题，并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪
Gustafson定律
S‘=（WS+pwp）/（WS+WP） =p-f（p-1）=f+p（1-f）
并行计算是为了解决大规模并行问题，可并行部分的比例是可扩大的加速比与处理器数成斜率为（1-f）的线性关系这样串行比例f就不再是程序扩展性的瓶颈，当然，f越低，斜率会越大，加速性能越好。
Leabharlann Baidu
基于CPU的Linpack测试步骤
修改第97行为LAlib = -Wl,--start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a $(MKLROOT)/lib/intel64/libmkl_sequential.a $(MKLROOT)/lib/intel64/libmkl_core.a -Wl,--endgroup -lpthread 如果选用gotoblas库修改第97行为LAlib = /public/software/mathlib/goto2/libgoto2.a 修改第169行为CC = mpicc（如果选用intelmpi,此处需要更改为mpiicc）
高性能集群性能评价
曙光信息产业股份有限公司解决方案中心
目录
1高性能集群性能评价概述
2集群性能评价 – 2.1计算性能测试linpack – 2.2 NPB（NASA Parallel Benchmarks）测试 – 2.3 SPEC测试套件 – 2.64可靠性测试HPCC包 3集群网络性能评价
系统软件层操作系统作业调度软件、管理系统 IT核心硬件层计算系统功能节点存储系统网络系统并行环境编译器、数学库、MPI
基础设施层
空调系统配电系统防雷系统机房装修机柜及KVM
高性能计算机中的关键技术
高性能集群三要素
统一的文件印象统一的系统印象无密码访问配通
• 网络全通
基于CPU的Linpack测试步骤
d) 编辑Make.gcc_openmpi 修改第64行为ARCH = gcc_openmpi (和 Make.icc_openmpi保持一致) 修改第70行为TOPdir = /public/sourcecode/hpl-2.0 （此处目录为hpl-2.0所在的目录，根据具体情况修改）修改第84行为MPdir = （或者注释此行）修改第85行为MPinc = （或者注释此行）修改第86行为MPlib = （或者注释此行）修改第95行为LAdir = （或者注释此行）如果blas选用MKL库，可以参考 http://software.intel.com/en-us/articles/intel-mkllink-line-advisor/，本例中使用MKL10.3，静态链接 MKL库
对于普通用户来说
，所有节点看到的某一个文件都是相
通过NIS或同步用户
信息来实现。
• rsh或ssh无密码访问配通
同的文件。通过
nfs或者并行文件系统实现。
高性能计算在国内的六大应用领域
计算机辅助工程，广泛应用于工业生产中
物质的物理化学材料属性的科研工作中
CAE （CFD）物理化学材料
1011000110101001000100 100100100110001101010010 0010010011000110101001000 1001001100011010100100010 0100001001001100011010100 0010010011000110101000010 0100110001101010000100100 110001101010
高性能应用软件的编程模型
串行程序
大多数用户的自编程序，但是由于无法可以实现单节点内并行，无法利用多核的并行，支持多节点的优势，所以 openmp，编程较为无法实现海量计算。简单，核心数太多效率降低，同时无法实现多节点大规模并行
多线程程序
消息传递并行程序
MPI并行程序（目前主流的高性能应用普遍采用的并行方式，效率高，性能好）
Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。 HPL ：针对大规模并行计算系统的测试，其名称为 High Performance Linpack (HPL)，是第一个标准的公开版本并行 Linpack测试软件包。用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。
高性能集群性能评测的目的
1定量测试系统的性能指标
2验证整个系统配置的正确性
3给系统加压，考量系统的可靠性
高性能集群综合性能测评
综合性能测评指标 1Linpack测试 2NPB测试 3SPEC测试 4可靠性测试HPCC包
Linpack测试
HPL(Linpach)测试 ---对系统进行整体计算能力的评价 Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方秳组，结果按每秒浮点运算次数（flops）表示。
PVM并行程序
任务级并行程序
衡量高性能系统性能的评价指标
-----理论峰值（FLOPS）
FLOPS（浮点运算每秒）
1、如何计算理论峰值：峰值＝主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数＝10×2×12＝240 峰值＝2.2×240×4＝2112GFLOPS＝2.1TFLOPS=2.1万亿次。
在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比；加速比是衡量“并行收益”的重要指标；
Amdahl定律适用于固定计算规模的加速比性能描述，Gustafson定律适用于可扩展问题。
Amdahl定律
S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p))
基于CPU的Linpack测试步骤
1 依赖环境：编译安装标准MPI秳序，openmpi、intelmpi、 mvapich2或mpich2均可编译安装优化的blas库，一般建议对于Intel平台，使用 MKL，对于AMD平台，使用Gotoblas。 2 下载hpl-2.0.tar.gz源码包。 3 编译linpack秳序。 a) tar -zxf hpl-2.0.tar.gz b) cd hpl-2.0 c) cp setup/Make.Linux_ATHLON_FBLASMake.gcc_openm pi (gcc_openmpi只是一个名字，可以随便叏)
生命科学
基因科学、蛋白质科学的研究以及新药的研发
石油勘探
地震资料处理，用于油气勘探
六大应用领域
图像渲染
气象环境海洋
气象环境海洋的数值预报
动画、电影、图像的高逼真效果制作其它：卫星图像处理、金融计算等
主流高性能应用介绍
物理化学材料：计算物理材料：vasp，cpmd，Material Studio。计算化学：gaussian、gamess，ADF。 CAE领域：结构计算：ansys、abaques,nastran 流体计算：fluent，CFX 电磁仿真：Fecko 生命科学：生物信息学：MPIBLAST，BWA等分子劢力学：Namd，gromacs，lammps。药物设计：dock，autodock，DiscoveryStudio。
衡量高性能系统性能的评价指标 -----系统效率
系统效率=实测峰值/理论峰值
如何提高效率：（1）通过优化网络（2）通过优化测试程序的编译与设置（3）通过优化内存的配置与容量
（4）通过优化运行参数及系统参数！
目前:一套通过Infiniband网络互连的集群，效率一般在70%以上。
加速比定律