拜访中国国防科技大学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的计算节点以及组成如下:每块主板包括2个节点, 每个机架包括16个主板,每个机柜包括4个机架, 125个机柜组成整套系统(图3-5)。计算主板的两 个节点由APU模块和CPM模块两部分组成。CPM部分 包括4颗Ivy Bridge处理器,内存和一块Xeon Phi,而 APU部分则由5块Xeon Phi协处理器组成。虽然APU模 块和CPM模块之间是通过CPU内部提供的PCI-E 3.0 16x接口来进行连接的,但是由于Xeon Phi的硬件限 制,其实际连接为PCI-E 2.0 16x,单信道数据传输速 率10Gbps。
2.0GHz, Tofu interconnect
Gflops/Watt 2.143 2.069 0.83
22
《高性能计算发展与应用》 2013年第二期 总第四十三期
4
DOE/SC/Argonne National Laboratory
5
Forschungszentrum Juelich (FZJ)
图1 计算节点 英特尔Ivy Bridge的每核周期浮点运算次数 为8,12个核(每个插槽)*8(周期浮点运算次 数)*2.2GHz=211.2 Gflops的峰值速度(每个插槽)。 由于每个天河二号节点包括2个Ivy Bridge插槽,因 此一个节点上的Ivy Bridge处理器理论峰值可以达到 422.4Gflops。
虽然天河二号系统采用了英特尔公司的多核以 及协处理器,但是我们还是能够在这台机器上看到 一些中国原创的烙印。其中包括:TH-Express二号网 络系统,银河FT-1500 十六核处理器,OpenMC编程 模型等。所有这些部件采用了高密度组装,而其稳 定性和可扩展性也显而易见。
计算节点
天河二号的每一个计算节点是由两个英特尔Ivy Bridge和三个Xeon Phi组成(见图1),而整套系统
能耗与冷却系统
天河二号的峰值电力消耗为17.6兆瓦,主要包 括:处理器、内存和网络连接的能耗。如果算上冷 却系统的话,整套系统的电力消耗为24兆瓦。天河 二号采用的冷却系统为配备定制液态水冷单元的封 闭耦合冰水冷却系统,该系统具有80千瓦的高冷却 能力,当天河二号部署在广州之后,该机器将使用
20
《高性能计算发展与应用》 2013年第二期 总第四十三期
图2 计算刀片的两种模块 图3 计算刀片模块连接
高性能计算系统
天河二号中使用的Xeon Phi协处理器每一块有57 个核。(正常来说,一块Xeon Phi应该包含61个核, 而天河二号之所以采用57个核,主要原因是该产品 为早期芯片)。57个核中的每一个都能够达到四个 执行线程,而每一个核的周期双精度浮点运算次数 为16。结合1.1GHz的周期时间,每一块Xeon Phi的 理论峰值可以达到1.003Tflops。在每一个节点上共有 2个Ivy Bridge*0.2Tflops + 3块Xeon Phi*1.003Tflops,进 行进一步换算,每个节点的运算速度为3.431Tflops。 由于天河二号的整套系统有16,000个节点,换句话 说其理论峰值速度可以达到54.9Pflops。天河二号占 地720平方米,见图6。由于该机器是在非常有限的 空间内建造的,因此其布局并没有达到最优化。但 是,当该机器被部署到广州之后,将会采用更为统 一的放置方式,见图7。
19
图6 天河二号在国防科技大学的布局
图4 计算机架 图5 节点主板构成的机架
图7 天河二号在广州的主机房效果图 天河二号的每个节点拥有64GB主存,而每块 Xeon Phi协处理器板载内存为8GB,所以每节点共有 88GB内存。16,000个节点的总计内存为1.404PB:Ivy Bridge部分1.024PB,Xeon Phi协处理器部分0.384PB( 8GB每块板,或者24GB每节点)。
18
《高性能计算发展与应用》 2013年第二期 总第四十三期
拜访中国国防科技大学
Jack Dongarra 橡树岭国家实验室 美国 张晓欣[译] 上海超级计算中心 上海 201203 xxzhang@ssc.net.cn
2013年5月28日至29日,国际高性能计算论坛(IHPCF)在中国长沙举办,该论坛由中国国 防科技大学(NUDT)主办,中国科学与技术部、中国国家自然基金以及国防科技大学赞助。
高性能计算系统
21
采和数据通讯提供指令。目前,Open-MC仍然处于 开发中。
此外,天河二号还使用了Intel ICC 13.0.0 编译 器,并据称拥有一个数学库。该数学库是国防科技 大学在Intel MKL 11.0.0以及基于Xeon Phi上GPU的 BLAS上进行优化的。
Leabharlann Baidu存储
天河二号采用容量为12.4PB以及使用H2FS混合 层文件系统的全局共享并行存储系统。
BlueGene/Q, Power
IBM
Mira
BQC 16C 1.60GHz, Custom
Interconnect
BlueGene/Q, Power
IBM
JUQUEEN
BQC 16C 1.600GHz, Custom
Interconnect
2.069 2.102
应用
据称,国防科技大学已在天河二号上部署了部 分应用软件,具体见以下内容:
LINPACK 基准测试(HPL)
在HPL基准测试中,总共使用了天河二号 14,336个计算节点,每个核内存大小为50GB。测试 完成时间为5个多小时,结果显示峰值速度达到30.65 Pflops,换句话说其效率达到了整机理论峰值速度的 62.3%。见图16
图15 系统软件 在Fortran、C、C++、Java编译器、OpenMP、以 及使用定制GLEX(Galaxy Express)并基于MPICH 3.0.4版本的MPI 3.0等多种语言环境下,天河二号能 否实现多通道信息数据传输,动态流量控制,以及 卸载集体操作。此外,国防科技大学还开发了一种 名为OpenMC的基于节点内编程模型的指令,用于替 代Open-MP、以及CUDA、OpenACC、或者OpenCL。 这种新的指令除了能够在包括CPU核以及Xeon Phi协 处理器在内的所有计算之上提供一个统一的逻辑层 外,还能够被扩展到类似ISA以及异构处理器的架构 中。他们能够为高效SIMD运行以及高效数据本地开
城市供水来提供冷却水。
图8 系统冷却 天河二号每一个机柜(机架)的门上安装了一 组指示灯。当机器开始运行时,门上的指示灯将不 断闪烁显示其处于活跃状态。在柜门上还装配了一 个水平条状灯,这些灯的颜色会随着机架电力负荷 的变化而变化,见图9、10。
连接
天河二号采用国防科技大学自主研发的胖树拓 扑结构网络连接系统,又称为TH Express-2,这是 一种光电混合传输技术。该网络顶层的576个端口每 一个都配备了13个交换机。在这套自主研发的网络 系统中所使用的芯片组是由国防科技大学自主研发 的。被称为NRC的高基数路由器使用90纳米制程: 17.16*17.16毫米管芯以及2577针。单个控制器的数据 吞吐量2.56Tbps。被称为NIC的终端网络接口ASIC规 格为:10.76*10.76毫米管芯,675针,并以PCI-E G2 16X接口连接,数据传输速度6.36GB/s。12,000核中 1K数据的延迟测试为9微秒。
图16 HPL测试表现 图16中显示的最快速度仅仅使用了整机90%的资 源。国防科技大学希望能否进一步进行改进,并在 测试中增加计算节点。根据目前的测试显示,在使 用14,336个计算节点,或者说整机90%资源时,天河 二号的功耗达到17.6兆瓦,其性能为30.65 Pflops,或 者说1.935Gflops/瓦。目前全球最快的五台计算机功 耗如下:
概述
天河二号(TH-2)由国防科大和浪潮公司共 同开发。浪潮公司是一家来自中国的跨国信息系统 公司,其总部位于中国山东省济南市。浪潮公司的 商业活动包括:服务器制造和软件开发等。在天河 二号项目中,浪潮公司主要完成了印制电路板的制 造,同时也参与系统安装与测试工作。天河二号的 组装及测试主要由国防科技大学完成,并将于年底 交付国家超级计算中心广州中心;完成后的系统理 论峰值达到54.9千万亿次/秒(Pflops)。该系统的核 心部分采用32,000颗英特尔公司Ivy Bridge中央处理器 和48,000个Xeon Phi协处理器(运算加速卡),总计 核数为三百十二万个;并通过自制网络系统来进行 连接。天河二号是目前全球英特尔Ivy Bridge和Xeon Phi处理器安装规模最大的一台超级计算机。相比 之下,美国能源部的下一台超级计算机将要等到 2015年才能够就位。
Rank
Site
Manufacturer
Name
1
DOE/SC/Oak Ridge National Laboratory
Cray Inc.
Titan
2
DOE/NNSA/LLNL
RIKEN Advanced
3
Institute for Computational
Science (AICS)
IBM
图9 天河二号的指示灯
图12 连接
图10 天河二号指示灯
前端处理器
除了计算节点外,天河二号还配备了由4096个 银河FT-1500中央处理器组成的前端系统,但是并不 被作为计算系统的一部分;该处理器是由国防科技 大学设计并开发的。FT-1500为16核SparcV9架构处 理器,采用40纳米制程,运作频率为1.8GHz。FT- 1500的峰值速度为144GFLOPS,每颗芯片设计功耗为 65瓦。FT-1500主要被用于运算任务计划管理。
图13 连接实体照片 图14 连接网络芯片
系统软件
天河二号的操作系统为国防科技大学开发的 Linux麒麟版本,该系统于2006年通过中国863高科 技研究与开发项目办公室审批,(更多信息请查阅 http://en.wikipedia.org/wiki/Kylin_(operating_system))。 麒麟能够与其他主流操作系统相兼容,并支持多种 微处理器和不同架构的计算机。麒麟软件包括标准 开源软件和公共软件包,该系统早在天河一号中已 被使用。基于SLURM的资源管理能够实现电源感知 资源分配,并使用多种自定义调度策略。
在本次论坛上,来自国防科技大学的廖湘科就天河二号,又名银河二号超级计算机进行了 较为详尽的介绍。天河二号项目的资金来源主要由中国政府863高科技项目,广东省政府以及广 州市政府提供,并计划于2013年底在国家超级计算中心广州中心部署就位;而该系统将被作为 公共服务平台为中国南方地区的研究和教育提供高性能计算服务。在IHPCF论坛第一天会议将 近结束时,所有与会者被安排参观了天河二号机房,并有机会近距离接触到这台全球第一的超 级计算机。通过这次参观,与会者对于天河二号的架构以及运作有了更深入的认识。
商业意见分析 o 在1024个计算节点上使用Hadoop存储并处
理600TB的结构化/非结构化数据 o 每天处理1亿条数据
安全电子政务云 o 512 个FT-1500 计算节点 o 将服务器使用从30%增加到71%
高阶CFD模拟:HostA o 整机复杂流动模拟:C919 o WCNS - 加权紧致非线性格式 o 100亿个网格点 o 超过1000个计算节点 o 1 MIC= 70% of 2 Ivy Bridge
回旋动力学环形代码:GTC o 移植到天河二号,并使用CPU+MIC (TH-1A: CPU+GPU) o 超过4096个计算节点 o 1 MIC= 80% of 2 Ivy Bridge
Sequoia
Fujitsu
K
System
Cray XK7, Opteron 6274 16C 2.200GHz
& NVIDIA K20x, Cray Gemini interconnect
BlueGene/Q, Power BQC 16C 1.60 GHz,
Custom
K computer, SPARC64 VIIIfx