高性能计算集群系统的设计和实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词:集群系统; N9=1/; 并行计算 中图分类号:N !,,( * # # 在科学领域里经常需要对大量数据进行多次重 复运算, 而单台计算机的处理能力远远达不到要求, 这就需要创建一个高性能计算集群系统, 即通过多 台计算机来协同完成一个任务( 集群是以网络技术连接起来的工作站或 RD 机 的组合, 这些工作站或 RD 机就像一个单独集成的 计算资源一样协同工作
厦门大学学报 ( 自然科学版) ! ! ! ! ! ! ! ! !
! ! ! ! ! ! ! ! 9AA3 年
! 图 9! 集群安装完成测试 ! 图 "! 集群系统结构设计 ! #$%& "! ’()*+, -. +/01*)2 1*20+*02) ! #$%& 9! ’)*0F +/01*)2 *)1*1
第 !" 卷# 第 $ 期 # *++! 年 ,, 月
厦门大学学报 ( 自然科学版)
-&./01’ &2 341560 70486/94:;( )1:./1’ <=460=6)
%&’( !"# )&( $ )&8( *++!#
・研究简报・
文章编号: +!">?+!@A ( *++! ) +$?+>@A?+"
! ( #" <6/86/ 端安装信息
操作系统为 O40.J P6FH1:A( + , 集群管理软件包 为 N9=1/?*( "( ,( :1/( GY, "( ,( N9=1/ 的一些重要安装 步骤如下: , )<6/86/ 端 P6FH1:A( + 的安装 * )拷贝 /6FH1:A( + 到 [ :2:E\&&: [ /E5 目录下 " )]:1/ YJ82 &9=1/?*( "( ,( :1/( GY
KJM *$>) 是指单个 KJM 上运行的时间, N/7F1)5 *$>) 3 )4+5 6 2--* 6 -1+7289& :& " ; )4& 6 +-<.$%02) = )4>7() $<1*7// ? )4& 6 $<1*7// -1+72@+/01*)2 )*,A 在第 ? 步后, 就会在 B8C$<5-D 下调出 E1+72 安 装图形界面& E1+72 的主体安装过程只要按顺序执行 1*)F" 到 1*)F? 就可以了, 最后可通过 1*)FG 来测试整 个 E1+72 集群管理软件包是否安装正确& 1*)FG 的测 试结果如图 9 所示, 从图 9 可以看出我们已成功安 装好 E1+72 集群管理软件包& 是指总的计算时间& 从表 " 中可以看出在小计算量 的情况下, 集群系统并不能表现出在高性能计算方 面上的优越性, 在多节点的情况下反而比串行计算 所表现的性能更差& 其主要原因在于集群系统采用 传输速率为 "AA O 的交换机和网卡, 在处理并行计 算时, 节点和节点之间的相互消息传递占用了一定 的时间& 如果在计算量相对较小的情况下, 这一因素 尤为突出, 同时由于任务在节点间的分割而导致的 复杂性也会进一步导致计算时间的增加& 单个节点 的并行程序与串行程序的运行时间较为接近, 当并 行程序在两个节点上运行时, 所需为串行所用时间 的 9 倍多& 原因就在于节点间的通迅花费较多时间, 因而出现纯 KJM 上所需时间下降, 但总的计算时间 反而大增的结果& 随着节点的增加, 纯 KJM 上所需 时间进一步下降, 与 9 个节点通迅所需的时间相比, 多个节点通迅所需的时间并不随着节点的增加而大 幅增大, 因而在整体上体现出 9 个节点后总计算时 间随节点数的增加而下降, 在 G 个节点时达到最优, 此时约为串行的 " 6 :& 因而集群系统在计算量比较 大的情况下能体现出优势, 而且在性能扩充方面要 比专用的并行超级计算机来得容易, 我们可以根据 计算能力的要求逐步扩充集群系统&
参考文献:
[!] " +(HI,0(J K,LL(, 编* 高性能集群计算: 结构与系统 (第 ! 卷) [ G] * 郑纬民, 石威, 汪东升, 译* 北京: 电子工业 DAA!* 出版社, [D] " +(HI,0(J K,LL(, 编* 高性能集群计算: 结构与系统 (第 D 卷) [ G] * 郑纬民, 石威, 汪东升, 译* 北京: 电子工业 出版社, DAA!* [C] " MJ1771 N, O(3%1J P* Q) -%-/-2 02514,=(J 5L%(0-47 32J =-RS ,-5 01/(=7 [ P] * 9TL7* +1U* , !BBC , K @F : EE8 V E?!* [@] " MJ1771 N, W,J/T0X==1J P* <33-4-1%/ -/1J(/-U1 74T1017 32J () -%-/-2 /2/(=S1%1J.L 4(=4,=(/-2%7 ,7-%. ( >=(%1SY(U1 )(7-7 [ P] * 9TL7* +1U* , !BB? , K E@ : !! !?B V !! !8?* 71/
高性能计算集群系统的设计和实现
何素贞, 李书平, 吴晨旭 !
( 厦门大学物理学系, 软凝聚态物理研究室, 福建 厦门 "$,++B )
摘要:主要论述了运用 N9=1/?*( "( , 集群管理软件设计和搭建基于 O40.J P6FH1:A( + 的高性能计算集群系统的过程,
通过对 > 个原子的立方结构 D 超原胞、 $! 个原子的立方结构 D 超原胞和 ,> 并以支持集群并行计算的 %Q<R 包为例, 个原子的六方结构 S0N 超原胞的自洽计算, 验证集群系统在计算性能上的优越性, 同时提出了进一步提高集群性能 的方案, 以满足大型的科学计算和数值模拟(
#" 小! 结
通过 E1+7289& :& " 软件包成功搭建了基于 P$<0Q 的计算集群系统& 目前集群系统有 G 个节点, 自搭建 以 来 运 行 正 常, 已 有 投 入 程 序 工 作& 用 支 持 集 群 计 算 的 HI’J 程 序 包 对 系 统 进 行 测 试 , 结果表
第 ? 期" " " " " " " " " " " " " " 何素贞等: 高性能计算集群系统的设计和实现 表 !" 立方 # 和 $%& 的计算时间 ’()* !" +,%%-%. /-01 23 4,)-4 # (%5 $%& 立方 # 62517 A ! D C @ E ? F 8 8 个原子 #9: /-01 ; 7 !@B* A@A !CC* B8A !AE* !8A FB* B8A ?!* BAA ?8* ECA EF* CDA EA* ?EA EA* @AA <=(>715 /-01 ; 7 !@B* ?A8 !C@* !A? CA@* B@D DFA* A8F DCF* @ED DFA* ECD D@D* 8!F DE!* E!88 DDF* E!! ?@ 个原子 #9: /-01 ; 7 CD8C* !EA CAEF* ?CA !@F@* F?A !AA8* DFA F8D* D!A ?EB* CBA EE?* FFA @8D* D@A @C!* ?AA <=(>715 /-01 ; 7 CD8C* !EA CA?E* DBB CEB8* E@F C?C?* ?F8 DBDF* D?F D@AB* ?F@ !F8C* E@C !C8@* 8?A !!BA* BD8 DA@B* ??A DEBC* 88A C8@8* !@A #9: /-01 ; 7 !@CD!* ?FA !E!BF* ?CA 8DAA* 8BA $%& !8 个原子
[ ,]
文献标识码: Q# # # # # # # # # # # # # # # 指通过把一个大的问题分解为彼此独立且又相关的 子问题, 然后再散列到各个计算节点上并发执行的 一种计算方法( W6&K.’2 集群编程通过使用消息传递 编程模型来实现( 在这种模型中, 并行程序由一系列 进程构成, 每个进程处理数据的一个子集( 进程使用 消息进行相互通信, 访问和修改属于其他进程的数
・ 88!・
<=(>715 /-01 ; 7 !@CBB* DC? !ED?F* 8BA DDEF@* EAD !8E@!* AF! !!8F?* ?DD ?ADC* EA
由于 $%& 的自洽计算所需要时间较多, 本文没有选择在 C , E, F 奇数个节点的情况下运行* " " " 注:
明, 随着计算量的增大, 总的自洽计算时间在 D 个节 点后随着节点数的增加而下降, 显示出计算量比较 大的情况下集群计算的整体优势* 在计算的过程中, 我们发现集群系统性能的进一步提高除了对并行程 序包进行优化外, 还应侧重于提高各节点间的通迅 能力* 目前提高性能的一个硬件方案是采用 ! AAA G 的交换机和 ! AAA G 的网卡, 虽然 ! AAA G 的交换机 与网卡目前还较贵, 但相对于专用的并行超级计算 机来说仍然具有很好的性价比, 而且集群系统在性 能扩充方面要比专用的并行超级计算机容易, 也可 以根据计算能力的要求逐步扩充集群系统*
[ *] 据, 比较常见的消息传递库 有消息传递界面 TRZ
, 这些单个的计算机就是
集群的节点 ( 0&F6) ( 目前集群系统主要有 " 种类型: (,) 高可用性集群系统; (*) 负载平衡集群系统; (") 高性能计算集群系统( 集群系统采用的主要操作系 统有 %T<、 704J、 U40F&K9)V 以及 O40.J( O40.J 高性 能集群系统有一个很著名的系统结构 W6&K.’2 集群系统, 它由计算节点和管理节点构成( 管理节点 为 <6/86/ 端, 计算节点为 D’460: 端, <6/86/ 端和 D’460: 端通过网络连接在一起( 基于 O40.J 上的计算系统 主要有 ! 种: NE60T&94J、 I0X.Y4&0、 N9=1/ 和 <;=’F, 其 中后两个是 W6&K.’2 系统中的一部分( 之所以选择 N9=1/, 是因为它不仅是一个开放源代码的包, 而且 是一个可Fra Baidu bibliotek效率创造和维护高性能 W6&K.’2 集群的 软件包( 计算集群系统运用的是并行计算的概念, 它是
( T6991G6 R19940G Z0:6/21=6 ) 和并行虚拟机 R%T ( R1/? 1’’6’ %4/:.1’ T1=H406) (
!" 高性能计算集群系统的设计和实现
! ( !" 高性能计算集群系统的设计
我们设计的高性能计算集群系统结构如图 , 所 示, 从图 , 中可以看出 D’460: 端有 > 个节点, 每个节 点都配单网卡( <6/86/ 端有一个节点, 配有双网卡, 一个负责实现与外部网络的连接, 另一个是通过交 换机实现与 D’460: 端计算机的连接( 先在 <6/86/ 端 安装 O40.J 操作系统, 然后在其上安装 N9=1/?*( "( , 集群管理软件, 通过 N9=1/?*( "( , 来实现各个节点上 操作系统的安装以及整个并行计算环境的实现(
!" 集群系统性能测试 ( 以支持集群并 行计算的 HI’J 包为例)
集群系统的整体性能不仅要看系统的硬件条 件, 也要看相关的并行程序包是否进行了良好的并 行化及所针对的计算任务是否适合并行计算, 因而 准确评估一个集群系统的性能不是件容易的事情&
[ :, 3] , 以 本文将以支持集群并行计算的 HI’J 程序包
收稿日期: *++"?+A?,$ 基金项目: 国家杰出青年科学基金 ( ,+**B!*+ ) 资助 作者简介: 何素贞 ( ,A@A C ) , 女, 硕士研究生( !D&//69E&0F40G 1.:H&/, # I?514’: =JK.L M40GJ410( J5.( 6F.( =0
万方数据
・ GGA・
在材料性质模拟计算中经常要计算的体材料自洽计 算所需时间为例来检验集群系统的性能& HI’J 程序包是可以进行从头量子力学分子动 力学仿真的模拟计算软件包, 可以用于新材料的设 计与模拟& 在体材料的自洽计算中, 计算量是随着所 构造超原胞的原子数增加而增大的& 本文选取 G 个 原子的立方结构 K 超原胞、 =3 个原子的立方结构 K 超原胞和 "G 个原子的六方结构 L<E 超原胞为例说 明集群系统的性能提高& 其具体的自洽计算所需要 时间如表 " 所示, 节点为 A 表示投入的是串行程序, 万方数据