魔方(曙光5000A)超级计算机的测试与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SP-M Z随着问题规模的增加(如从 C LA SS A 到 C LA SS E ),整个计算域被划分成多个相等大小的子 域,这样SP-M Z就易于达到负载均衡。相比之下, B T-M Z由于问题的特性产生的zone的大小变化很大, 使其更接近于真实的应用场景。而B T-M Z每个zone的 大小不相同,zone的大小变化跨度大,最大的zone和 最小的zone大小比接近20,这就使得B T-M Z相比SP- M Z更难以达到负载均衡。
4. B enchm ark结果及分析
4.1 S tream 测试结果及分析 在“魔方”刀片上使用16线程,测试规模
N =227,Stream 使用的内存为3G B ,使用 pgcc 7.0 编 译器,编译选项为-fast -m p -O 2 -tp barcelona-64 - m cm odel=m edium ,编译Stream 得到的数据如表1。
12a
C PU 0(0,1,2,3), C PU 1(0,1,2,3), C PU 2(0,1,2,3)
12b
C PU 0(0,1,2), C PU 1(0,1,2), C PU 2(0,1,2), C PU 3(0,1,2)
16
C PU 0(0,1,2,3), C PU 1(0,1,2,3), C PU 2(0,1,2,3), C PU 3(0,1,2,3)
N P B - M Z 软 件 包 提 供 两 种 不 同 的 H yb rid 模 式 的并行实现,一种是M P I+ O penM P 实现,一种是 SM P+O penM P实现。M PI+O penM P混合编程模式广泛 应用用科学计算应用中,且更适合“魔方”的系统 架构。在M PI+O penM P实现中,节点间使用M PI进行 通信,单个节点内部使用O penM P实现并行。更多的 有关N PB -M Z混合编程模式的实现可参考文献[6,7]。本 测试中选用N PB -M Z问题规模是C lass D 。B T-M Z和 SP-M Z的Zone数均为32 x 32,(1024个Zone),总的 计算网格大小(G x*G y*G z)为1632 x 1216 x 34(67.5 M illion个网格点)。C lass D Pure M PI运行所需内存 12.8G B ,内存的最小要求限制了单节点上可运行的 总进程数。
的函数。其中4096核数的情况下,B arrier函数所花 时间有比较明显的增加,小于2048核情况,从16到 2048核,耗费的时间增加了不到六倍。整体来看性 能较为出色。
图1 stream 测试结果 由测试结果(图1)可以看出,当采用8c方案时 (即每个C PU 的两个核绑定2个线程的情况)此时访 存的带宽达到最大值,比16线程的结果还要好。测 试结果说明,使用线程绑定技术能够提高应用程序 对内存的访问速度。
46
《高性能计算发展与应用》 2009年第三期 总第二十八期
进行测试,IM B -E X T和IM B -IO 是针对M PI2的测试, 分别测试M PI2的单边通信和I/O 性能。
IM B 既可以对M PI在集群中运行的效率做全面的 测试,也可以针对特定M PI进行测试。通过设定运行 时参数,IB M 可以对纪录运行时间,消息长度,通信 子的选择等进行调节。除此之外,IM B 还有有面向点 对点通信以及集合通信的测试项目。本次进行IM B 测 试针对的是M P I的集合通信,测试包含两个部分: B arrier和B cast,其中B cast针对不同的消息长度进行 了测试。
B T - M Z (uneven- sized zones)和SP - M Z ( even-sized zones)测试粗粒度(M PI)和细粒度( O penM P)混合情况下的并行度及负载均衡性。LU - M Z类似于SP-M Z,每个zone的大小相等,但zone的数 目固定,最大只能扩展到16个M PI进程(最大C ore数 为16×16=256)。考虑系统的可扩展性,所以只用 SP-M Z和B T-M Z来进行测试。
3. B enchm ark程序集简介
3.1 访存带宽测试S tream Stream benchm ark 用于单节点内测试内存访问的
持续带宽,它通过测试四种向量运算的性能来衡量 系统的性能,这四种运算是:(1)C O PY : a(i) = b(i);(2)SC A LE :a(i) = q*b(i);(3)SU M :a(i) = b(i) + c(i);(4)TR IA D : a(i) = b(i) + q*c(i)。Stream 的 并行版本基于O penM P 实现,可用于测试多核的 SM P节点。Stream 在设计上采用了远远大于C ache容量 的大数据集,因此其测试结果更能反映大型向量计 算类应用的性能。
文中,以“魔方”作为测试平台,选取单点内 存带宽测试程序Stream 进行单点性能测试,使用Intel M PI B enchm ark进行集群系统的组通信性能测试; 应用上,选取已被广泛用于评价高性能计算机系统 的N A S Parallel B enchm ark及N A S Parallel B enchm ark M ulti-Zone作为测试算例,研究在H PP架构下消息传 递编程模型、共享内存编程模型及混合编程模型下 应用的性能。
3.3 计算流体力学应用N P B N PB (N A S Parallel B enchm ark)[5]所包含的8个程序
来自计算流体动力学应用领域,它们可以很好的表 现出一般应用程序的实际性能,已经被普遍接受为 高性能计算机的性能测试标准。
N PB 程序包有5个核心程序,它们是应用较频繁 的一些算法,其主要测试特点为: IS(Integer Sort, 整数排序),主要测试整数运算性能和集合通信 性能,对通信延迟很敏感;E P (E m barrassingly P arallel,无通信并行),主要测试数序函数的浮点 运算性能;M G (3-D M ultigrid,三维多重网格), 采用多重网格算法求解三维P oisson方程,主要测试 规则的非连续存储访问集合通信和点到点通信; C G (C onjugate G radient,共轭梯度法),主要测试不 规则的集合通信和点到点通信;F T (F ast Fourier Transform ,快速傅立叶变换),用FFT求解三维偏微 分方程,主要测试集合通信。
面对如此庞大的高性能的计算系统,如何让它 的计算能力发挥到最大,更有效的进行利用,尤其 是如何利用其为大规模科学及工程计算模拟服务, 已经成为研究的热点。为了能有效利用高性能计算 资源并提高科学和工程应用的性能,本文从两个角 度对“魔方”的使用进行了考查,一方面是系统本 身可提供的性能,包括单点性能及集群系统性能; 另一方面则是典型应用大规模运行时的可扩展性及 加速性能。
测试中B T和SP要求处理器网格为方形,LU 和 M G 要求处理器数目为2的幂次。 3.4 混合编程应用N P B -M Z
N PB -M Z(N A S Parallel B enchm ark M ulti-Zone V ersion)是N PB 3.1版本以上的混合并行编程版本。 N PB -M Z程序包含3个应用的B enchm ark:B T-M Z, SP-M Z,LU -M Z。
本文分四部分,第二部分介绍“魔方”集
群系统,第三部分介绍所使用的测试程序及应用 B enchm ark,第四部分为测试结果及分析,最后一部 分为全文结论及未来要开展的工作。
2. “魔方”系统简介
测试平台为安装于上海超级计算中心的“魔 方”,系统为H PP体系结构,共1920个16计算核心的 刀片节点,每个节点通过Infiniband高速网络互联。 每个节点由4路Q uad-core A M D O pteron 8347@ 1.9G H z 构 成 , 6 4 G B 内 存 , 理 论 计 算 峰 值 达 到 1 2 8 G flop / node。“魔方”的计算节点分布在38个rack中,每个 rack包含有5箱刀片(每箱10个刀片),每箱刀片内 置有Infiniband交换模块和千兆以太网交换模块。
ห้องสมุดไป่ตู้
M ax tim e 0.1316 0.1319 0.2031 0.2037
魔方(曙光5000A )专辑
表2 S tream 测试线程绑定方案
ID
绑定方案
8a
C PU 0(0,1,2,3), C PU 1(0,1,2,3)
8b
C PU 0(0,1,2,3), C PU 3(0,1,2,3)
8c
C PU 0(0,1), C PU 1(0,1), C PU 2(0,1), C PU 3(0,1)
Function C opy: Scale: A dd: Triad:
表1 “魔方”S tream 测试
R ate (M B /s)
A vg tim e
16343.8599
0.1315
16298.0803
0.1319
15884.5363
0.203
15833.8643
0.2036
M in tim e 0.1314 0.1318 0.2028 0.2034
注:C PU 0(0,1,2,3), C PU 1(0,1,2,3)表示8个线程分别依次绑定到C PU 0和C PU 1的所有核。
47
由于O penM P线程在核间的迁移可能会导致应用 性能的下降,所以,同时测试了将线程绑定到核上 的情况,如表2所示,分别使用8、12和16个线程测 试Stream ,同时设置不同的绑定方案,绑定方案见表 2。
另外3个是计算流体力学常用的基本程序,其主 要测试特点为:LU (Low er-U pper Triangular,对称超 松弛求解块稀疏方程组),主要测试细粒度的非连 续存储访问点到点阻塞通信;B T(B lock Tridiagonal, 解5x5三对角块方程组),测试通信和计算的平 衡,以非连续存储访问点到点长消息通信为主;SP (Scalar Pentadiagonal,解五对角线方程组),测试 通信和计算的平衡,以非连续存储访问点到点长消 息通信为主,与B T的通信模式相似,但通信强度比 B T高。
魔方(曙光5000A )专辑
45
魔方(曙光5000A )超级计算机的测试与分析
徐莹 张丹丹 徐磊 张伟 姜恺 姚继锋
上海超级计算中心 上海 201203 yxu@ ssc.net.cn
摘要: 本文对“魔方”(曙光5000A )超级计算机系统从单点性能和应用在集群系统上的性能进行
3.2 组通信测试IM B IM B (Intel M PI B enchm ark)[4]是Intel C luster
Toolkit的一个组成部分,是由Intel开发维护的用于测 试M P I函数在实际运行中的性能的软件包。它包含 三个组成部份:(1)IM B -M PI1;(2)IM B -E X T; (3)IM B -IO 。其中IM B -M PI1针对不同的M PI1函数
了测试与分析。测试结果为在“魔方”超级计算机进行科学及工程计算应用提供参考。
1. 引言
2008年世界超级计算机TO P500中,采用SM P的 集群系统所占比例约82% ,采用多核处理器的SM P集 群系统所占比例近80% ,使用多核处理器的SM P集 群系统已经成为一种趋势。排名第10的曙光5000A , 在上海超级计算中心安装之后,取名为“魔方”( M agic C ube),采用的是新型的“超并行”(H yper Parallel Processing,简称H PP)系统架构,具有全局 地址空间和三级并行(C M P-SM P-D SM )的分布式 系统。这种体系结构结合了SM P和M PP的优点,同时 具备节点间分布式存储和节点内共享存储的层次结 构,支持节点间消息传递和节点间共享内存2级至多 级混合并行编程模型。目前,对于集群上不同并行 编程模型的研究[2,3]都基于某种类型的硬件系统,系 统的架构往往成为性能影响的最重要的因素。
4. B enchm ark结果及分析
4.1 S tream 测试结果及分析 在“魔方”刀片上使用16线程,测试规模
N =227,Stream 使用的内存为3G B ,使用 pgcc 7.0 编 译器,编译选项为-fast -m p -O 2 -tp barcelona-64 - m cm odel=m edium ,编译Stream 得到的数据如表1。
12a
C PU 0(0,1,2,3), C PU 1(0,1,2,3), C PU 2(0,1,2,3)
12b
C PU 0(0,1,2), C PU 1(0,1,2), C PU 2(0,1,2), C PU 3(0,1,2)
16
C PU 0(0,1,2,3), C PU 1(0,1,2,3), C PU 2(0,1,2,3), C PU 3(0,1,2,3)
N P B - M Z 软 件 包 提 供 两 种 不 同 的 H yb rid 模 式 的并行实现,一种是M P I+ O penM P 实现,一种是 SM P+O penM P实现。M PI+O penM P混合编程模式广泛 应用用科学计算应用中,且更适合“魔方”的系统 架构。在M PI+O penM P实现中,节点间使用M PI进行 通信,单个节点内部使用O penM P实现并行。更多的 有关N PB -M Z混合编程模式的实现可参考文献[6,7]。本 测试中选用N PB -M Z问题规模是C lass D 。B T-M Z和 SP-M Z的Zone数均为32 x 32,(1024个Zone),总的 计算网格大小(G x*G y*G z)为1632 x 1216 x 34(67.5 M illion个网格点)。C lass D Pure M PI运行所需内存 12.8G B ,内存的最小要求限制了单节点上可运行的 总进程数。
的函数。其中4096核数的情况下,B arrier函数所花 时间有比较明显的增加,小于2048核情况,从16到 2048核,耗费的时间增加了不到六倍。整体来看性 能较为出色。
图1 stream 测试结果 由测试结果(图1)可以看出,当采用8c方案时 (即每个C PU 的两个核绑定2个线程的情况)此时访 存的带宽达到最大值,比16线程的结果还要好。测 试结果说明,使用线程绑定技术能够提高应用程序 对内存的访问速度。
46
《高性能计算发展与应用》 2009年第三期 总第二十八期
进行测试,IM B -E X T和IM B -IO 是针对M PI2的测试, 分别测试M PI2的单边通信和I/O 性能。
IM B 既可以对M PI在集群中运行的效率做全面的 测试,也可以针对特定M PI进行测试。通过设定运行 时参数,IB M 可以对纪录运行时间,消息长度,通信 子的选择等进行调节。除此之外,IM B 还有有面向点 对点通信以及集合通信的测试项目。本次进行IM B 测 试针对的是M P I的集合通信,测试包含两个部分: B arrier和B cast,其中B cast针对不同的消息长度进行 了测试。
B T - M Z (uneven- sized zones)和SP - M Z ( even-sized zones)测试粗粒度(M PI)和细粒度( O penM P)混合情况下的并行度及负载均衡性。LU - M Z类似于SP-M Z,每个zone的大小相等,但zone的数 目固定,最大只能扩展到16个M PI进程(最大C ore数 为16×16=256)。考虑系统的可扩展性,所以只用 SP-M Z和B T-M Z来进行测试。
3. B enchm ark程序集简介
3.1 访存带宽测试S tream Stream benchm ark 用于单节点内测试内存访问的
持续带宽,它通过测试四种向量运算的性能来衡量 系统的性能,这四种运算是:(1)C O PY : a(i) = b(i);(2)SC A LE :a(i) = q*b(i);(3)SU M :a(i) = b(i) + c(i);(4)TR IA D : a(i) = b(i) + q*c(i)。Stream 的 并行版本基于O penM P 实现,可用于测试多核的 SM P节点。Stream 在设计上采用了远远大于C ache容量 的大数据集,因此其测试结果更能反映大型向量计 算类应用的性能。
文中,以“魔方”作为测试平台,选取单点内 存带宽测试程序Stream 进行单点性能测试,使用Intel M PI B enchm ark进行集群系统的组通信性能测试; 应用上,选取已被广泛用于评价高性能计算机系统 的N A S Parallel B enchm ark及N A S Parallel B enchm ark M ulti-Zone作为测试算例,研究在H PP架构下消息传 递编程模型、共享内存编程模型及混合编程模型下 应用的性能。
3.3 计算流体力学应用N P B N PB (N A S Parallel B enchm ark)[5]所包含的8个程序
来自计算流体动力学应用领域,它们可以很好的表 现出一般应用程序的实际性能,已经被普遍接受为 高性能计算机的性能测试标准。
N PB 程序包有5个核心程序,它们是应用较频繁 的一些算法,其主要测试特点为: IS(Integer Sort, 整数排序),主要测试整数运算性能和集合通信 性能,对通信延迟很敏感;E P (E m barrassingly P arallel,无通信并行),主要测试数序函数的浮点 运算性能;M G (3-D M ultigrid,三维多重网格), 采用多重网格算法求解三维P oisson方程,主要测试 规则的非连续存储访问集合通信和点到点通信; C G (C onjugate G radient,共轭梯度法),主要测试不 规则的集合通信和点到点通信;F T (F ast Fourier Transform ,快速傅立叶变换),用FFT求解三维偏微 分方程,主要测试集合通信。
面对如此庞大的高性能的计算系统,如何让它 的计算能力发挥到最大,更有效的进行利用,尤其 是如何利用其为大规模科学及工程计算模拟服务, 已经成为研究的热点。为了能有效利用高性能计算 资源并提高科学和工程应用的性能,本文从两个角 度对“魔方”的使用进行了考查,一方面是系统本 身可提供的性能,包括单点性能及集群系统性能; 另一方面则是典型应用大规模运行时的可扩展性及 加速性能。
测试中B T和SP要求处理器网格为方形,LU 和 M G 要求处理器数目为2的幂次。 3.4 混合编程应用N P B -M Z
N PB -M Z(N A S Parallel B enchm ark M ulti-Zone V ersion)是N PB 3.1版本以上的混合并行编程版本。 N PB -M Z程序包含3个应用的B enchm ark:B T-M Z, SP-M Z,LU -M Z。
本文分四部分,第二部分介绍“魔方”集
群系统,第三部分介绍所使用的测试程序及应用 B enchm ark,第四部分为测试结果及分析,最后一部 分为全文结论及未来要开展的工作。
2. “魔方”系统简介
测试平台为安装于上海超级计算中心的“魔 方”,系统为H PP体系结构,共1920个16计算核心的 刀片节点,每个节点通过Infiniband高速网络互联。 每个节点由4路Q uad-core A M D O pteron 8347@ 1.9G H z 构 成 , 6 4 G B 内 存 , 理 论 计 算 峰 值 达 到 1 2 8 G flop / node。“魔方”的计算节点分布在38个rack中,每个 rack包含有5箱刀片(每箱10个刀片),每箱刀片内 置有Infiniband交换模块和千兆以太网交换模块。
ห้องสมุดไป่ตู้
M ax tim e 0.1316 0.1319 0.2031 0.2037
魔方(曙光5000A )专辑
表2 S tream 测试线程绑定方案
ID
绑定方案
8a
C PU 0(0,1,2,3), C PU 1(0,1,2,3)
8b
C PU 0(0,1,2,3), C PU 3(0,1,2,3)
8c
C PU 0(0,1), C PU 1(0,1), C PU 2(0,1), C PU 3(0,1)
Function C opy: Scale: A dd: Triad:
表1 “魔方”S tream 测试
R ate (M B /s)
A vg tim e
16343.8599
0.1315
16298.0803
0.1319
15884.5363
0.203
15833.8643
0.2036
M in tim e 0.1314 0.1318 0.2028 0.2034
注:C PU 0(0,1,2,3), C PU 1(0,1,2,3)表示8个线程分别依次绑定到C PU 0和C PU 1的所有核。
47
由于O penM P线程在核间的迁移可能会导致应用 性能的下降,所以,同时测试了将线程绑定到核上 的情况,如表2所示,分别使用8、12和16个线程测 试Stream ,同时设置不同的绑定方案,绑定方案见表 2。
另外3个是计算流体力学常用的基本程序,其主 要测试特点为:LU (Low er-U pper Triangular,对称超 松弛求解块稀疏方程组),主要测试细粒度的非连 续存储访问点到点阻塞通信;B T(B lock Tridiagonal, 解5x5三对角块方程组),测试通信和计算的平 衡,以非连续存储访问点到点长消息通信为主;SP (Scalar Pentadiagonal,解五对角线方程组),测试 通信和计算的平衡,以非连续存储访问点到点长消 息通信为主,与B T的通信模式相似,但通信强度比 B T高。
魔方(曙光5000A )专辑
45
魔方(曙光5000A )超级计算机的测试与分析
徐莹 张丹丹 徐磊 张伟 姜恺 姚继锋
上海超级计算中心 上海 201203 yxu@ ssc.net.cn
摘要: 本文对“魔方”(曙光5000A )超级计算机系统从单点性能和应用在集群系统上的性能进行
3.2 组通信测试IM B IM B (Intel M PI B enchm ark)[4]是Intel C luster
Toolkit的一个组成部分,是由Intel开发维护的用于测 试M P I函数在实际运行中的性能的软件包。它包含 三个组成部份:(1)IM B -M PI1;(2)IM B -E X T; (3)IM B -IO 。其中IM B -M PI1针对不同的M PI1函数
了测试与分析。测试结果为在“魔方”超级计算机进行科学及工程计算应用提供参考。
1. 引言
2008年世界超级计算机TO P500中,采用SM P的 集群系统所占比例约82% ,采用多核处理器的SM P集 群系统所占比例近80% ,使用多核处理器的SM P集 群系统已经成为一种趋势。排名第10的曙光5000A , 在上海超级计算中心安装之后,取名为“魔方”( M agic C ube),采用的是新型的“超并行”(H yper Parallel Processing,简称H PP)系统架构,具有全局 地址空间和三级并行(C M P-SM P-D SM )的分布式 系统。这种体系结构结合了SM P和M PP的优点,同时 具备节点间分布式存储和节点内共享存储的层次结 构,支持节点间消息传递和节点间共享内存2级至多 级混合并行编程模型。目前,对于集群上不同并行 编程模型的研究[2,3]都基于某种类型的硬件系统,系 统的架构往往成为性能影响的最重要的因素。