高性能计算机性能评测基准HPCC应用研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性能预测是对应用程序和高性能计算机建立合适的模 型 ,然后使用其模型预测系统的性能 。性能预测主要有基 于模拟的方法和基于分析的方法 。基于模拟的方法主要通 过模拟器来模拟系统的 Cache 、 内存 、 网络 、 I/ O 等行为 , 从 而实现对系统性能的预测 。基于分析的方法主要是对系统 和程序建立数学模型 ,通过对数学模型进行求解 ,得到程序 的性能预测 ,从而实现对系统的性能预测 。系统性能预测 技术可用来比较不同的系统设计方案 ,分析系统性能瓶颈 , 为优化系统提供依据 , 在高性能计算机的研制过程中扮演 着重要的角色 。
m
3 HPCC 简介
H PCC 是在 美 国 政 府 的 资 助 下 以 美 国 田 纳 西 大 学 Do ngarra J 博士为主 , 由日美两国的 H PC 人员参与研制
yk =
j =1
∑x e
j
π -2 i jk/ m
,1 ≤k ≤ m
其中 , x j , y k ∈ Cm , 1 ≤ j , k ≤ m 。
的 ,目的是对业界最流行的高性能计算机排名 TO P500 使 用的基准 Linpack 进行补充 , 以便从各个角度对高性能计 算机进行评测 。 H PCC 基准由 H PL 、 P TRAN 、 STR EAM 、 Rando mAccess 、 D GEMM 、 FF T 、 Latency2Bandwidt h 等七类 测试组成 ,除计算性能外 ,它还对计算机的内存访问 、 网络 传输等性能进行综合评测 。
1 引言
高性能计算被普遍认为是人类认识自然的三大支柱之 一 ,是一个国家综合实力的体现 。作为提供高性能计算环 境的基础设施 ,高性能计算机的研制进展迅速 。十一五期 间 ,我国已立项研制千万亿次计算机系统 。 众所周知 ,高性能计算机硬件性能指标并不代表用户 可获得的实际性能 ,系统瓶颈往往严重影响系统的整体性 能 ; 此外 ,不同的应用领域对计算机有不同的要求 。高性能 计算机性能评测技术不仅有助于发现系统瓶颈 ,对系统提 出改进意见 ,而且可以根据用户对系统的浮点计算性能 、 通 信性能 、 存储访问性能 、 I/ O 性能 、 系统可扩展性等特殊要 求 ,帮助设计出满足不同领域用户需求的高性能计算机 ,还 可以对基于不同架构和配置的高性能计算机进行性能评 测 ,帮助不同应用领域用户选择更适用的系统配置 。随着 高性能计算机研制的迅速发展 ,其性能评测显得越来越重 要和具有挑战性 。
α scale : b ← c
ad d :c ← a + b tri a d : a ← b +α c
其中 , a , b, c ∈ R m ,α ∈ R 。
3. 4 Random Access
通过下面的操作对单环境和多重负荷时的内存随机访 问性能及进程之间的数据访问性能进行测试 :
x ← f ( x)
3
2 高性能计算机性能评测技术
2. 1 构建面向专用领域的基准测试程序集
高性能计算机研制的主要动力来自于用户需求 , 反映 用户需求的测试程序不仅可以帮助研制单位进行设计和选 择 ,研制出用户满意的系统 ,而且在用户挑选适合自己需求 的系统时将发挥重要作用 。基准测试程序集的构建主要包 括: ( 1) 用户需求收集 。通过对应用领域进行分析 , 选取 有代表性的应用程序 ,为应用程序特征分析做好准备 。典 型应用的征集主要集中在对高性能计算需求较大的一些领 域 ,如核武器研制 、 气象预报 、 国防安全 、 生物信息学 , 石油 勘探 、 地震预测 、 计算流体力学等领域也都对超级计算机有 着巨大的需求 。用户需求的收集是基准测试程序集构建的 基础 。 (2) 应用程序特征分析 。通过对典型应用程序的特征 进行分析 ,为测试程序集的构建提供科学依据 。应用程序
Address :School of Co mp uter Science ,National Universit y of Defense Technology ,Changsha , Hunan 410073 ,China
279
特征分析主要分析程序的访存特性 、 通信特性 、 I/ O 特性 、 可扩展性等 。应用程序特征分析是基准测试程序集构建的 一个关键步骤 。 ( 3) 基准测试程序集构造 。根据需求 , 采用有代表性 的程序构建基准测试程序集 。构建时主要从以下几个方面 考虑 : 程序的重要性 、 程序性能特征 、 程序的可移植性等 。 此外 ,还需要考虑数据集以及运行规模等各方面的问题 ,它 是用户理解系统性能最直接的方式 , 因此在性能评测中是 一个很重要的研究内容 。
高性能计算机性能评测基准 H PCC 应用研究
3
Research o n Applicatio n of Perfo r mance Eval uatio n Benchmar k H PCC fo r High2Perfo r mance Co mp uter
晏益慧 , 张 辉
YAN Yi2hui , ZHANG Hui ( 国防科技大学计算机学院 , 湖南 长沙 410073) ( School of Computer Science , National University of Defense Technology ,Changsha 410073 ,China)
3. 2 PTRANS
通过矩阵的转置操作 , 测试系统的网络传输性能 。具 体操作如下 :
A ←A T + B
其中 , A , B ∈ R n×n 。
3. 3 STREAM
通过下面四种简单的向量计算 ,对单环境和多重负荷 时的内存访问性能进行测试 :
cop y :c ← a
2. 2 Hale Waihona Puke Baidu 系统性能预测
摘 要 : 随着高性能计算机研制的迅速发展 ,其性能评测显得越来越重要 。基准 H PCC 集计算 、 存储访问 、 网络传输 等性能评测功能于一体 ,用于对高性能计算机进行综合评价 。本文在高性能计算机性能评测技术研究的基础上 , 对基准 H PCC 的应用进行了深入探讨 。 Abstract : The performance evaluatio n of high2performance comp uter becomes more and more important along wit h it s develop ment . The H PCC is a benchmark for performance evaluatio n of comp uting , storage access and netwo rk t ransmis2 sio n , etc. In t his paper , we focus on technology of perfo rmance evaluatio n of high2performance co mp uter and applicatio n of perfo rmance evaluatio n benchmark H PCC. 关键词 : 性能评测 ; 基准 H PCC ; TO P500 Key words :performance evaluation ; benchmark H PCC ; TO P500 doi :10. 3969/ j. issn. 10072130X. 2009. A1. 079 中图分类号 : TP302 文献标识码 :A
CN4321258/ TP ISSN 10072130X
计算机工程与科学
COMPU TER EN GIN EERIN G & SCIENCE
2009 年第 31 卷第 A1 期
Vol1 31 ,No1 A1 ,2009
文章编号 :10072130X ( 2009) A120279203
P TRAN 的规模和分块大小等 。在实际测试中 , 为了使获
其中 , P 是排列矩阵 ,U 是上三角矩阵 。解 x 则可通过求解 上三角线性方程组 :
Ux = y
取的性能最接近系统的最好性能 ,需要选择合适的参数 ,并 在运行时调整好进程与处理机间的映射方式 。
得到 。
280
4. 1 规模选取
n =
算负载和通信操作 ,通过避免计算负载过于集中于几个节 点、 避免两点间同时多对进程并发通信 、 尽可能使用节点内 通信等 ,可以减少通信网络的竞争 ,实现更快速的通信路径 和计算的负载平衡 。
f : x | →( x ⊕ a i ) , ai 是一伪随机数序列 ,其中 f : Zm →
Zm ; x ∈ Zm 。
2. 3 系统性能测试
性能测试是根据需要使用特定的程序并选择合适的参 数测试系统的性能 ,它是性能评测过程中非常重要的一环 。 采用面向应用领域的基准测试程序或使用标准基准测试程 序是常用的方法 , 如果使用得当也是最有效的 。Linpack 可以测试出并行机可发挥的最佳浮点计算能力 ,是最常用 的一个基准测试程序 ,作为 Linpack 的扩充 ,基准 H PCC 可 获取系统更全面的性能指标 。常用的基准测试程序还有 N PB 、 SP EC 、 STA P 、 PMB 、 PBB 等 。
通常问题规模越大 ,有效计算所占比例也越大 ,系统浮 点性能也就越高 。但问题规模的增大会导致内存消耗的增 加 ,一旦系统实际内存空间不够而使用缓存 ,性能会大幅降 低 ,因此 ,尽量增大问题规模的同时 , 又要保证不使用系统 缓存 。 设 H PL 的规模为 n ,则问题所需内存量为 8 n2 。若系 统的 CPU 个数为 P ,每个 CPU 内存量为 M ,因可供问题使 用的内存为总内存的 80 % ,可用内存总量即为 0. 8 M P 。令 8 n2 = 0 . 8 M P ,则 :
收稿日期 :2009207213 ; 修订日期 :2009209210 基金项目 : 国家 863 计划资助项目 (2008AA01Z137) ; 国家自然科学基金资助项目 (60673150 ,60603061) 作者简介 : 晏益慧 (19642) ,女 ,硕士 ,副研究员 ,研究方向为并行算法与数学软件 ; 张辉 ,硕士生 。 通讯地址 :410073 湖南省长沙市国防科技大学计算机学院 605 教研室 ; Tel :13627487063 ; E2mail :yanyihui99 @126. co m
3. 7 Latency2Bandwidth
利用进程之间的访问等待时间评测网络性能 , 并对节 点之间的传输性能进行测试 。 Latency2Bandwidt h 测试包 括两种不同的通信模式 : 一是进程对之间的乒乓通信模式 , 采用 M PI 的标准阻塞发送和接收方式 ,主要测试进程对间 乒乓通信的最大延迟 、 最小带宽 、 平均延迟和平均带宽 ; 二 是所有进程以环状拓扑 ( 自然序环和随机序环) 排列并各自 与其左 、 右进程进行通信的模式 , 采用 M PI 标准非阻塞发 送和接收方式 ,主要测试按自然序环和随机序环排列时每 个进程的平均延迟和平均带宽 。
3. 5 D GEMM
通过双精实矩阵乘对单环境和多重负荷时的运算性能 进行测试 。计算公式如下 : C =α A B +β C n× n 其中 , A , B , C ∈ R ,α,β ∈ R n 。
3. 6 FFT
通过计算一维双精 FF T , 对单环境 、 多重负荷时以及 总体性能进行测试 。FF T 的计算公式如下 :
3. 1 HPL
通过 L U 分解求解线性方程组 :
Ax = b
测试系统的计算性能 , 其中 A ∈ R n×n , x , b ∈ R n 。首 先通过行部分选主元法对 n ×( n + 1) 系数矩阵 A , b 进 行消元 ,得 :
P A ,b = U,y
4 HPCC 主要参数选择原则
运行 H PCC 需提供一组输入参数 ,这组输入参数主要 包括 H PL 的问题规模 、 所使用的进程网格 、 分块大小 、 通 信算法 ,还包括一些其他参数如 H PL 中计算方法的描述 、
m
3 HPCC 简介
H PCC 是在 美 国 政 府 的 资 助 下 以 美 国 田 纳 西 大 学 Do ngarra J 博士为主 , 由日美两国的 H PC 人员参与研制
yk =
j =1
∑x e
j
π -2 i jk/ m
,1 ≤k ≤ m
其中 , x j , y k ∈ Cm , 1 ≤ j , k ≤ m 。
的 ,目的是对业界最流行的高性能计算机排名 TO P500 使 用的基准 Linpack 进行补充 , 以便从各个角度对高性能计 算机进行评测 。 H PCC 基准由 H PL 、 P TRAN 、 STR EAM 、 Rando mAccess 、 D GEMM 、 FF T 、 Latency2Bandwidt h 等七类 测试组成 ,除计算性能外 ,它还对计算机的内存访问 、 网络 传输等性能进行综合评测 。
1 引言
高性能计算被普遍认为是人类认识自然的三大支柱之 一 ,是一个国家综合实力的体现 。作为提供高性能计算环 境的基础设施 ,高性能计算机的研制进展迅速 。十一五期 间 ,我国已立项研制千万亿次计算机系统 。 众所周知 ,高性能计算机硬件性能指标并不代表用户 可获得的实际性能 ,系统瓶颈往往严重影响系统的整体性 能 ; 此外 ,不同的应用领域对计算机有不同的要求 。高性能 计算机性能评测技术不仅有助于发现系统瓶颈 ,对系统提 出改进意见 ,而且可以根据用户对系统的浮点计算性能 、 通 信性能 、 存储访问性能 、 I/ O 性能 、 系统可扩展性等特殊要 求 ,帮助设计出满足不同领域用户需求的高性能计算机 ,还 可以对基于不同架构和配置的高性能计算机进行性能评 测 ,帮助不同应用领域用户选择更适用的系统配置 。随着 高性能计算机研制的迅速发展 ,其性能评测显得越来越重 要和具有挑战性 。
α scale : b ← c
ad d :c ← a + b tri a d : a ← b +α c
其中 , a , b, c ∈ R m ,α ∈ R 。
3. 4 Random Access
通过下面的操作对单环境和多重负荷时的内存随机访 问性能及进程之间的数据访问性能进行测试 :
x ← f ( x)
3
2 高性能计算机性能评测技术
2. 1 构建面向专用领域的基准测试程序集
高性能计算机研制的主要动力来自于用户需求 , 反映 用户需求的测试程序不仅可以帮助研制单位进行设计和选 择 ,研制出用户满意的系统 ,而且在用户挑选适合自己需求 的系统时将发挥重要作用 。基准测试程序集的构建主要包 括: ( 1) 用户需求收集 。通过对应用领域进行分析 , 选取 有代表性的应用程序 ,为应用程序特征分析做好准备 。典 型应用的征集主要集中在对高性能计算需求较大的一些领 域 ,如核武器研制 、 气象预报 、 国防安全 、 生物信息学 , 石油 勘探 、 地震预测 、 计算流体力学等领域也都对超级计算机有 着巨大的需求 。用户需求的收集是基准测试程序集构建的 基础 。 (2) 应用程序特征分析 。通过对典型应用程序的特征 进行分析 ,为测试程序集的构建提供科学依据 。应用程序
Address :School of Co mp uter Science ,National Universit y of Defense Technology ,Changsha , Hunan 410073 ,China
279
特征分析主要分析程序的访存特性 、 通信特性 、 I/ O 特性 、 可扩展性等 。应用程序特征分析是基准测试程序集构建的 一个关键步骤 。 ( 3) 基准测试程序集构造 。根据需求 , 采用有代表性 的程序构建基准测试程序集 。构建时主要从以下几个方面 考虑 : 程序的重要性 、 程序性能特征 、 程序的可移植性等 。 此外 ,还需要考虑数据集以及运行规模等各方面的问题 ,它 是用户理解系统性能最直接的方式 , 因此在性能评测中是 一个很重要的研究内容 。
高性能计算机性能评测基准 H PCC 应用研究
3
Research o n Applicatio n of Perfo r mance Eval uatio n Benchmar k H PCC fo r High2Perfo r mance Co mp uter
晏益慧 , 张 辉
YAN Yi2hui , ZHANG Hui ( 国防科技大学计算机学院 , 湖南 长沙 410073) ( School of Computer Science , National University of Defense Technology ,Changsha 410073 ,China)
3. 2 PTRANS
通过矩阵的转置操作 , 测试系统的网络传输性能 。具 体操作如下 :
A ←A T + B
其中 , A , B ∈ R n×n 。
3. 3 STREAM
通过下面四种简单的向量计算 ,对单环境和多重负荷 时的内存访问性能进行测试 :
cop y :c ← a
2. 2 Hale Waihona Puke Baidu 系统性能预测
摘 要 : 随着高性能计算机研制的迅速发展 ,其性能评测显得越来越重要 。基准 H PCC 集计算 、 存储访问 、 网络传输 等性能评测功能于一体 ,用于对高性能计算机进行综合评价 。本文在高性能计算机性能评测技术研究的基础上 , 对基准 H PCC 的应用进行了深入探讨 。 Abstract : The performance evaluatio n of high2performance comp uter becomes more and more important along wit h it s develop ment . The H PCC is a benchmark for performance evaluatio n of comp uting , storage access and netwo rk t ransmis2 sio n , etc. In t his paper , we focus on technology of perfo rmance evaluatio n of high2performance co mp uter and applicatio n of perfo rmance evaluatio n benchmark H PCC. 关键词 : 性能评测 ; 基准 H PCC ; TO P500 Key words :performance evaluation ; benchmark H PCC ; TO P500 doi :10. 3969/ j. issn. 10072130X. 2009. A1. 079 中图分类号 : TP302 文献标识码 :A
CN4321258/ TP ISSN 10072130X
计算机工程与科学
COMPU TER EN GIN EERIN G & SCIENCE
2009 年第 31 卷第 A1 期
Vol1 31 ,No1 A1 ,2009
文章编号 :10072130X ( 2009) A120279203
P TRAN 的规模和分块大小等 。在实际测试中 , 为了使获
其中 , P 是排列矩阵 ,U 是上三角矩阵 。解 x 则可通过求解 上三角线性方程组 :
Ux = y
取的性能最接近系统的最好性能 ,需要选择合适的参数 ,并 在运行时调整好进程与处理机间的映射方式 。
得到 。
280
4. 1 规模选取
n =
算负载和通信操作 ,通过避免计算负载过于集中于几个节 点、 避免两点间同时多对进程并发通信 、 尽可能使用节点内 通信等 ,可以减少通信网络的竞争 ,实现更快速的通信路径 和计算的负载平衡 。
f : x | →( x ⊕ a i ) , ai 是一伪随机数序列 ,其中 f : Zm →
Zm ; x ∈ Zm 。
2. 3 系统性能测试
性能测试是根据需要使用特定的程序并选择合适的参 数测试系统的性能 ,它是性能评测过程中非常重要的一环 。 采用面向应用领域的基准测试程序或使用标准基准测试程 序是常用的方法 , 如果使用得当也是最有效的 。Linpack 可以测试出并行机可发挥的最佳浮点计算能力 ,是最常用 的一个基准测试程序 ,作为 Linpack 的扩充 ,基准 H PCC 可 获取系统更全面的性能指标 。常用的基准测试程序还有 N PB 、 SP EC 、 STA P 、 PMB 、 PBB 等 。
通常问题规模越大 ,有效计算所占比例也越大 ,系统浮 点性能也就越高 。但问题规模的增大会导致内存消耗的增 加 ,一旦系统实际内存空间不够而使用缓存 ,性能会大幅降 低 ,因此 ,尽量增大问题规模的同时 , 又要保证不使用系统 缓存 。 设 H PL 的规模为 n ,则问题所需内存量为 8 n2 。若系 统的 CPU 个数为 P ,每个 CPU 内存量为 M ,因可供问题使 用的内存为总内存的 80 % ,可用内存总量即为 0. 8 M P 。令 8 n2 = 0 . 8 M P ,则 :
收稿日期 :2009207213 ; 修订日期 :2009209210 基金项目 : 国家 863 计划资助项目 (2008AA01Z137) ; 国家自然科学基金资助项目 (60673150 ,60603061) 作者简介 : 晏益慧 (19642) ,女 ,硕士 ,副研究员 ,研究方向为并行算法与数学软件 ; 张辉 ,硕士生 。 通讯地址 :410073 湖南省长沙市国防科技大学计算机学院 605 教研室 ; Tel :13627487063 ; E2mail :yanyihui99 @126. co m
3. 7 Latency2Bandwidth
利用进程之间的访问等待时间评测网络性能 , 并对节 点之间的传输性能进行测试 。 Latency2Bandwidt h 测试包 括两种不同的通信模式 : 一是进程对之间的乒乓通信模式 , 采用 M PI 的标准阻塞发送和接收方式 ,主要测试进程对间 乒乓通信的最大延迟 、 最小带宽 、 平均延迟和平均带宽 ; 二 是所有进程以环状拓扑 ( 自然序环和随机序环) 排列并各自 与其左 、 右进程进行通信的模式 , 采用 M PI 标准非阻塞发 送和接收方式 ,主要测试按自然序环和随机序环排列时每 个进程的平均延迟和平均带宽 。
3. 5 D GEMM
通过双精实矩阵乘对单环境和多重负荷时的运算性能 进行测试 。计算公式如下 : C =α A B +β C n× n 其中 , A , B , C ∈ R ,α,β ∈ R n 。
3. 6 FFT
通过计算一维双精 FF T , 对单环境 、 多重负荷时以及 总体性能进行测试 。FF T 的计算公式如下 :
3. 1 HPL
通过 L U 分解求解线性方程组 :
Ax = b
测试系统的计算性能 , 其中 A ∈ R n×n , x , b ∈ R n 。首 先通过行部分选主元法对 n ×( n + 1) 系数矩阵 A , b 进 行消元 ,得 :
P A ,b = U,y
4 HPCC 主要参数选择原则
运行 H PCC 需提供一组输入参数 ,这组输入参数主要 包括 H PL 的问题规模 、 所使用的进程网格 、 分块大小 、 通 信算法 ,还包括一些其他参数如 H PL 中计算方法的描述 、