高性能集群性能评测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HPL : 针 对 大 觃 模 幵 行 计 算 系 统 的 测 试 , 其 名 称 为 High
Performance Linpack (HPL),是第一个标准的公开版本幵行 Linpack测试软件包,
用于TOP500与国内TOP100排名依据。
使用者可以改变问题觃模。 有相当大的优化空间。
4IO性能测试
5内存带宽性能测试
6其它测试
1高性能集群性能评价概述
高性能计算架构变化
高性能计算网络发展
高性能集群操作系统份额
系统管理与用户管理
控制台 本地KVM
作业运行
存 储 系 统
并行存储系统
数据访问与存储
高性能计算作业的工作流程
高速Inifiniband交换机
千兆交换机
算例上传 作业提交
GPU峰值:
每C2050卡 双精度峰值=0.515TFLOPS 单精度峰值=1.03TFOPS 双精度峰值=0.515* GPGPU卡数目(TFLOPS)
单精度峰值=1.03* GPGPU卡数目(TFLOPS)
衡量高性能系统性能的评价指标
-----实测峰值(FLOPS)
HPL(Linpach)测试 ---对系统进行整体计算能力的评价
基于CPU的Linpack测试步骤
intel编译器修改第171行为CCFLAGS = -O3 -xHost -ip -funrollloops gnu 编译器修改第171行为CCFLAGS = -pipe -O3 -fomit-framepointer -march=native -funroll-loops -ffast-math pgi编译器修改第171行为CCFLAGS = -Bstatic -V -fastsse Munroll=n:4 -Mipa=fast,inline 修改第174行为LINKER = mpicc,intelmpi修改为mpiicc e) 载入环境变量,确认自己使用的编译器环境以及MPI source /public/software/mpi/openmpi-1.4.3-gnu.sh f) make arch=gcc_openmpi g) cd bin/gcc_openmpi 此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件
主流高性能应用介绍
气象海洋环境科学
气象预报:WRF,MM5,Graphes 海洋科学:roms
石油勘探 Omega,cgg等 劢漫渲染 3dmax,Maya等
高性能应用典型特征
应用类别 典型应用 gaussia 计算化学 n 、A D F 计算物理 vasp, 材料科学 cpmd dock,au 药物设计 todock MPIBLAS 生物信息 T 、B W A 分子动力 namd, 学 gromacs WRF, 环境科学 Grapes Fluent 流体力学 、C F X Ansys, 结构力学 Abaques Fecko、 电磁仿真 Comsol 地震资料 omega, 处理 cgg CPU 5 5 5 5 5 5 5 5 5 5 内存容量 内存带宽 5 2 2 4 2 3 4 4 5 4 4 5 2 4 2 3 4 4 4 4 存储 5 2 2 5 2 3 2 5 4 5 网络 4 5 2 2 5 5 5 3 5 2 扩展性 3 4 5 5 5 5 5 2 3 5
运行linpack
修改HPL.dat,一般需要修改3处 1.问题规模的组数及大小,一般为1组: 1 # of problems sizes (N) 40000 Ns 占用内存=N*N*8字节,一般占用所有测试节点物理内 存总和的75%左右性能较优 比如N=40000,占用物理内存=40000*40000*8 Byte=12800000000 Byte=11.92GB 2.NB值,即矩阵分块大小,这个是经验值,一般设置为 128、192、232 2 # of NBs 128 192 NBs 这里表示运行2组,NB值分别为128和192
局域网
登陆/管理节点
防火墙
以太网 交换机
内网
Infiniband网
计 算 系 统
路由器
以太网
外网
Internet
远程控制
光纤网
KVM管理网
本地建模
SMP胖节点 刀片集群
GPGPU节点
机房环境
本地建模
高性能计算机系统架构
PC机 笔记本 瘦客户 端 网络 应用软件层 CAE仿真 物理化学 生命科学 气象海洋 石油勘探 动漫渲染 平板电 脑 工作站
显然,当 p→∞时,S=1/f,即对于固定规模的问 题,并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪
Gustafson定律
S‘=(WS+pwp)/(WS+WP) =p-f(p-1)=f+p(1-f)
并行计算是为了解决大规模并行问题,可并行部分的比 例是可扩大的 加速比与处理器数成斜率为(1-f)的线性关系 这样串行比例f就不再是程序扩展性的瓶颈, 当然,f越低,斜率会越大,加速性能越好。
Leabharlann Baidu
基于CPU的Linpack测试步骤
修改第97行为LAlib = -Wl,--start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a $(MKLROOT)/lib/intel64/libmkl_sequential.a $(MKLROOT)/lib/intel64/libmkl_core.a -Wl,--endgroup -lpthread 如果选用gotoblas库 修改第97行为LAlib = /public/software/mathlib/goto2/libgoto2.a 修改第169行为CC = mpicc(如果选用intelmpi,此处需 要更改为mpiicc)
高性能集群性能评价
曙光信息产业股份有限公司 解决方案中心
目录
1高性能集群性能评价概述
2集群性能评价 – 2.1计算性能测试linpack – 2.2 NPB(NASA Parallel Benchmarks)测试 – 2.3 SPEC测试套件 – 2.64可靠性测试HPCC包 3集群网络性能评价
系统软件层 操作系统 作业调度软件、 管理系统 IT核心硬件层 计算系统 功能节点 存储系统 网络系统 并行环境 编译器、数学库、MPI
基础设施层
空调系统 配电系统 防雷系统 机房装修 机柜及KVM
高性能计算机中的关键技术
高性能集群三要素
统一的文件印象 统一的系统印象 无密码访问配通
• 网络全通
基于CPU的Linpack测试步骤
d) 编辑Make.gcc_openmpi 修改第64行为ARCH = gcc_openmpi (和 Make.icc_openmpi保持一致) 修改第70行为TOPdir = /public/sourcecode/hpl-2.0 (此处目录为hpl-2.0所在的目录,根据具体情况修改) 修改第84行为MPdir = (或者注释此行) 修改第85行为MPinc = (或者注释此行) 修改第86行为MPlib = (或者注释此行) 修改第95行为LAdir = (或者注释此行) 如果blas选用MKL库,可以参考 http://software.intel.com/en-us/articles/intel-mkllink-line-advisor/,本例中使用MKL10.3,静态链接 MKL库
对于普通用户来说
,所有节点看到的 某一个文件都是相
通过NIS或同步用户
信息来实现。
• rsh或ssh无密码访 问配通
同的文件。通过
nfs或者并行文件 系统实现。
高性能计算在国内的六大应用领域
计算机辅助工程,广 泛应用于工业生产中
物质的物理化 学材料属性的 科研工作中
CAE (CFD) 物理化学 材料
1011000110101001000100 100100100110001101010010 0010010011000110101001000 1001001100011010100100010 0100001001001100011010100 0010010011000110101000010 0100110001101010000100100 110001101010
高性能应用软件的编程模型
串行程序
大多数用户的自编 程序,但是由于无法 可以实现单节点内 并行,无法利用多核 的并行,支持 多节点的优势,所以 openmp,编程较为 无法实现海量计算。 简单,核心数太多效 率降低,同时无法实 现多节点大规模并行
多线程程序
消息传递并行程序
MPI并行程序(目前 主流的高性能应用普 遍采用的并行方式, 效率高,性能好)
Linapck测试:采用主元高斯消去法求解双精度稠密线性代数 方 程组,结果按每秒浮点运算次数(flops)表示。 HPL : 针 对 大 规 模 并 行 计 算 系 统 的 测 试 , 其 名 称 为 High Performance Linpack (HPL),是第一个标准的公开版本并行 Linpack测试软件包。 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相当大的优化空间。
高性能集群性能评测的目的
1定量测试系统的性能指标
2验证整个系统配置的正确性
3给系统加压,考量系统的可靠性
高性能集群综合性能测评
综合性能测评指标 1Linpack测试 2NPB测试 3SPEC测试 4可靠性测试HPCC包
Linpack测试
HPL(Linpach)测试 ---对系统进行整体计算能力的评价 Linapck测试:采用主元高斯消去法求解双精度稠密线性代数 方 秳组,结果按每秒浮点运算次数(flops)表示。
PVM并行程序
任务级并行程序
衡量高性能系统性能的评价指标
-----理论峰值(FLOPS)
FLOPS(浮点运算每秒)
1、如何计算理论峰值: 峰值=主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如:10个AMD双路12核刀片(CPU6174,主频2.2) 总核心数=10×2×12=240 峰值=2.2×240×4=2112GFLOPS=2.1TFLOPS=2.1万亿次。
在并行计算系统,并行算法(并行程序)的执行 速度相对于串行算法(串行程序)加快的倍数, 就是该并行算法(并行程序)的加速比; 加速比是衡量“并行收益”的重要指标;
Amdahl定律适用于固定计算规模的加速比性能 描述,Gustafson定律适用于可扩展问题。
Amdahl定律
S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p))
基于CPU的Linpack测试步骤
1 依赖环境: 编译安装标准MPI秳序,openmpi、intelmpi、 mvapich2或mpich2均可 编译安装优化的blas库,一般建议对于Intel平台,使用 MKL,对于AMD平台,使用Gotoblas。 2 下载hpl-2.0.tar.gz源码包。 3 编译linpack秳序。 a) tar -zxf hpl-2.0.tar.gz b) cd hpl-2.0 c) cp setup/Make.Linux_ATHLON_FBLASMake.gcc_openm pi (gcc_openmpi只是一个名字,可以随便叏)
生命科学
基因科学、蛋 白质科学的研 究以及新药的 研发
石油勘探
地震资料处理, 用于油气勘探
六大应 用领域
图像渲染
气象环境 海洋
气象环境海洋 的数值预报
动画、电影、图像的高 逼真效果制作 其它:卫星图像处理、金融计算等
主流高性能应用介绍
物理化学材料: 计算物理材料:vasp,cpmd,Material Studio。 计算化学:gaussian、gamess,ADF。 CAE领域: 结构计算:ansys、abaques,nastran 流体计算:fluent,CFX 电磁仿真:Fecko 生命科学: 生物信息学:MPIBLAST,BWA等 分子劢力学:Namd,gromacs,lammps。 药物设计:dock,autodock,DiscoveryStudio。
衡量高性能系统性能的评价指标 -----系统效率
系统效率=实测峰值/理论峰值
如何提高效率: (1)通过优化网络 (2)通过优化测试程序的编译与设置 (3)通过优化内存的配置与容量
(4)通过优化运行参数及系统参数!
目前:一套通过Infiniband网络互连的集群,效 率一般在70%以上。
加速比定律