超级计算机的进展与体系结构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.技术参数解析
天河二号型号为 TH-IVB-FEP 4.1.处理器
16,000 个运算节点,每节点配备两颗 Xeon E5 12 核心的中央处理器、三个 Xeon Phi 57 核心的协处理器(运算加速卡)。累计 32,000 颗 Xeon E5 主处理器和 48,000 个 Xeon Phi 协处理器,共 312 万个计算核心。
4.4 前端处理器 计算节点前端处理器为 4096 颗 FT-1500 16 核心 SPARC V9 架构的处理器,40 纳米制程,
运作时钟频率 1.8GHz,热设计功耗 65 瓦,峰值性能 144GFLOPS。 4.5 连接
使用光电混合传输技术(Optoelectronics Hybrid Transport Technology),使用自制的 TH Express-2 主干拓扑结构网络连接,以 13 个大型路由器通过 576 个连接端口以光电传输介质 与各个运算节点互联,控制器名为 NRC,使用 90 纳米制程,单个控制器的数据吞吐量 2.56Tbps,终端网络接口使用名为 NIC 的控制器,以 PCI-E 2.0 接口链接,数据传送速率 6.36GB/s。 4.6 操作系统
计算节点的前端处理器为 4096 个 FT-1500 处理器, FT-1500 处理器是由国 防科技大学为天河 1 研发,其可以说是天河 1 项目的最大收获,其为 16 核心的 Sparc V9 架构处理器,在 40nm 工艺情况下运行频率为 1.8Ghz,峰值性能为 144 Gflops/s,功耗为 65W,但相比英特尔 22nm 12 核 2.2GHz 211Gflops/s 性能的 Ivy Bridge 还是有明显差距。
【前端处理器(front end processor,FEP),通常也被称为通信控制器,其主要功能是释放 主机以运行应用程序。这样,主机就不会不断地被外部设备打扰,使得它能更有效地 处理
应用。它可以是复杂的前台大型计算机接口或者简单的设备如多路复用器、桥接器和路由器 等。这些设备把计算机的并行数据转换为通信线上传输的串行数据, 并完成所有必要的控 制功能、错误检测和同步。现代设备还完成数据压缩、路由选择、安全性功能,并收集管理 信息。】
RIKEN Advanced Institute for
K computer, SPARC64
705,024 10,510.0 11,280.4 12,660
Computational Science (AICS) VIHale Waihona Puke BaiduIfx 2.0GHz, Tofu
Japan
interconnect
Fujitsu
115,984 6,271.0
7,788.9 2,325
Centre (CSCS)
Xeon E5-2670 8C
Switzerland
2.600GHz, Aries
interconnect , NVIDIA
K20x
Cray Inc.
9
HLRS -
Hazel Hen - Cray XC40,
185,088 5,640.2
6
DOE/SC/Argonne National
Mira - BlueGene/Q,
Laboratory
Power BQC 16C
United States
1.60GHz, Custom
IBM
786,432 8,586.6 10,066.3 3,945
7
DOE/NNSA/LANL/SNL
United States
天河 2 互联方面采用自主研发的 Express-2 内部互联网络,其为有 13 个交 换机, 而每个交换机有 576 个端口。连接介质为光电混合。具体控制器是名为 NRC 的 ASIC 专用目的集成电路,其采用 90nm 工艺,封装尺寸为 17.16x17.16 mm, 共有 2577 引脚。单个 NRC 的吞吐能力为 2.56Tbps.而在终端方面网络接口也采 用类似结构的 NIC,但规模稍小,为 10.76x10.76 mm, 675 pin,其采用 PCIE 2.0 方式连接,传输速率为 6.36GB/s.并且在在 12000 节点的情况下延迟也很低,仅 为 85us.
3.体系结构
天河二号: 天河二号超级计算机系统由 170 个机柜组成,包括 125 个计算机柜、8 个服务机柜、13
个通信机柜和 24 个存储机柜 在每个主板上有 2 个计算节点,而每个框架则有 16 个主板,4 个框架组成一个机柜,
整个系统由 125 个机柜组成。 每个计算节点主板分为两块,一块 CPU 一块 APU,CPU 上有 4 核 Ivy Bridge、内存和一
interconnect, NVIDIA
K20x
Cray Inc.
4
DOE/NNSA/LLNL
United States
Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom IBM
1,572,864 17,173.2 20,132.7 7,890
5
1.最新 TOP10 榜单 2.中国进展 3.体系结构 4.技术参数解析
TOP 10 Sites for June 2016
For more information about the sites and systems in the list, click on the links or view the complete list.
排名第一 2010 年,中国国防科学技术大学研制的“天河一号”曾在第三十六届超级计算机 TOP500
榜单上名列第一,2011 年时排名第二,2012 年排名已下降至第五,我“天河二号”又重返 冠军领奖台。 二连冠 2013 年,在德国莱比锡举办的 2013 年度全球超级计算机技术大会,负责调查有关全球各国 研发大型超级计算机排行情况的国际大型超级计算机 TOP 500 组织,公布了最新全球超级计 算机 TOP 500 强排行榜榜单;在本次大会上由中国政府国家科技部与中国国防科学技术大学 共同研制的名为“天河二号(”又称银河 2 号)的大型超级计算机以每秒 33.86 千万亿次的 浮点运算速度成为全球最快的超级计算机。 三连冠 2014 年 6 月,由国防科技大学研制并落户国家超级计算广州中心的天河二号超级计算机, 23 日再次荣登全球超级计算机 500 强排行榜榜首,获得世界超算“三连冠”。天河二号超级 计算机是国防科技大学承担的国家“863”计划和“核高基”国家科技重大专项项目。 四连冠 2014 年 11 月,在美国新奥尔良市召开的世界超级计算机大会上,天河二号在国际 TOP500 组织首次正式发布的超级计算机高性能测试排行榜上位居世界第一。此前,由该组织发布的 第 44 届世界超级计算机 500 强排行榜中,天河二号以峰值计算速度达每秒 5.49 亿亿次、持 续计算速度达每秒 3.39 亿亿次位居榜首,获得“四连冠”。 五连冠 2015 年 7 月 13 日,国际 TOP500 组织在德国举行了 2015 年国际超级计算机大会,并在大会 上发布全球超级计算机 500 强最新榜单,中国“天河二号”以每秒 33.86 千万亿次的浮点运 算速度第五次蝉联冠军,获得“五连冠”。 六连冠 2015 年 10 月 16 日,新一期全球超级计算机 500 强榜单在美国公布,“天河二号”超级计算 机以每秒 33.86 千万亿次连续第六度称雄。
Rank Site
System
Cores
Rmax (TFlop/s)
Rpeak (TFlop/s)
Power (kW)
1
National Supercomputing
Center in Wuxi
China
Sunway TaihuLight Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway NRCPC
10,649,600
93,014.6 125,435.9 15,371
2
National Super Computer
Center in Guangzhou
China
Tianhe-2 (MilkyWay-2) TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P NUDT
4.2 存储 4.2.1 内存
每个节点拥有 64GB 主存,而每个 Xeon Phi 协处理器板载 8GB 内存,故每节点共 88GB 内存,整体总计内存 1.408PB。 4.2.2 外存 12.4PB 容量的硬盘阵列 4.3 主架
主板、机架与机柜均由浪潮集团制造,共有 125 个机柜,每个机柜容纳 4 个机架,每个 机架容纳 16 块主板,每个主板设置有两个计算节点。每个机柜还装有负载指示灯,根据机 柜内主机的运算负载变更发光二极管的发光颜色。
中央处理器为英特尔提供的,运作时钟频率为 2.2GHz 的 Xeon E5-2692 12 核心处理器, 基于英特尔 Ivy Bridge 微架构(Ivy Bridge-EX 核心),采用 22 纳米制程,峰值性能 0.2112TFLOPS。
运算加速上,使用基于英特尔集成众核架构的 Xeon Phi 31S1P 协处理器,运行时钟为 1.1GHz,每个使用 61 个核心中的 57 个(因为使用 61 个会存在运算周期协调问题),每核心 籍由特殊的超线程技术能运作 4 个线程,产生峰值性能为 1.003TFLOPS。
Trinity - Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries interconnect Cray Inc.
301,056 8,100.9 11,078.9
8
Swiss National Supercomputing Piz Daint - Cray XC30,
个 Xeon Phi 协处理器,而 APU 基板上则承载着 5 个 Xeon Phi 协处理器.CPU 和 APU 之间有 5 个水平插入的链接口,由 Ivy Bridge 内置的 PCI-E 2.0 进行连接,虽然 Ivy Bridge 内置为 PCI Express 3.0 接口,但 Xeon Phi 仅支持 2.0,单个通路为 10Gbps 带宽。
而在计算能力方面,使用 14336 个节点 总计 50GB 内存进行 LINPACK 测试, 理论性能为 49.19Pflops,而实际测试性能为 30.65Pflops,效率为 62.3%.这个 效率并不 算高,还有很大优化提升潜力。当然也可能是被 Xeon phi 仅支持 PCI Express 2.0 带宽不足限制。
7,403.5
Höchstleistungsrechenzentrum Xeon E5-2680v3 12C
Stuttgart
2.5GHz, Aries
Germany
interconnect
Cray Inc.
10
King Abdullah University of
Shaheen II - Cray XC40,
每块主板上分为 APU 模块和 CPM 模块两部分,APU 部分承载 5 块 Xeon Phi,CPM 部分 承载 1 块 Xeon Phi+4 颗 Xeon E5。
APU 模块和 CPM 模块之间以 CPU 内部提供的 PCI-E 3.0 16x 接口进行连接,但实际由于
Xeon Phi 的硬件限制,仅支持至 PCI-E 2.0 16x,单通道数据传输速率为 10Gbps。
3,120,000 33,862.7
54,902.4 17,808
3
DOE/SC/Oak Ridge National
Titan - Cray XK7 ,
560,640 17,590.0 27,112.5 8,209
Laboratory
Opteron 6274 16C
United States
2.200GHz, Cray Gemini
196,608 5,537.0
7,235.2 2,834
Science and Technology
Xeon E5-2698v3 16C
Saudi Arabia
2.3GHz, Aries
interconnect
Cray Inc.
2.中国进展
2009 年金秋时节,天河一号横空出世。2010 年 11 月,经过系统升级后的天河一号,在第 36 届国际超级计算机 500 强排行榜上位居世界第一。 天河二号——六连冠
天河二号型号为 TH-IVB-FEP 4.1.处理器
16,000 个运算节点,每节点配备两颗 Xeon E5 12 核心的中央处理器、三个 Xeon Phi 57 核心的协处理器(运算加速卡)。累计 32,000 颗 Xeon E5 主处理器和 48,000 个 Xeon Phi 协处理器,共 312 万个计算核心。
4.4 前端处理器 计算节点前端处理器为 4096 颗 FT-1500 16 核心 SPARC V9 架构的处理器,40 纳米制程,
运作时钟频率 1.8GHz,热设计功耗 65 瓦,峰值性能 144GFLOPS。 4.5 连接
使用光电混合传输技术(Optoelectronics Hybrid Transport Technology),使用自制的 TH Express-2 主干拓扑结构网络连接,以 13 个大型路由器通过 576 个连接端口以光电传输介质 与各个运算节点互联,控制器名为 NRC,使用 90 纳米制程,单个控制器的数据吞吐量 2.56Tbps,终端网络接口使用名为 NIC 的控制器,以 PCI-E 2.0 接口链接,数据传送速率 6.36GB/s。 4.6 操作系统
计算节点的前端处理器为 4096 个 FT-1500 处理器, FT-1500 处理器是由国 防科技大学为天河 1 研发,其可以说是天河 1 项目的最大收获,其为 16 核心的 Sparc V9 架构处理器,在 40nm 工艺情况下运行频率为 1.8Ghz,峰值性能为 144 Gflops/s,功耗为 65W,但相比英特尔 22nm 12 核 2.2GHz 211Gflops/s 性能的 Ivy Bridge 还是有明显差距。
【前端处理器(front end processor,FEP),通常也被称为通信控制器,其主要功能是释放 主机以运行应用程序。这样,主机就不会不断地被外部设备打扰,使得它能更有效地 处理
应用。它可以是复杂的前台大型计算机接口或者简单的设备如多路复用器、桥接器和路由器 等。这些设备把计算机的并行数据转换为通信线上传输的串行数据, 并完成所有必要的控 制功能、错误检测和同步。现代设备还完成数据压缩、路由选择、安全性功能,并收集管理 信息。】
RIKEN Advanced Institute for
K computer, SPARC64
705,024 10,510.0 11,280.4 12,660
Computational Science (AICS) VIHale Waihona Puke BaiduIfx 2.0GHz, Tofu
Japan
interconnect
Fujitsu
115,984 6,271.0
7,788.9 2,325
Centre (CSCS)
Xeon E5-2670 8C
Switzerland
2.600GHz, Aries
interconnect , NVIDIA
K20x
Cray Inc.
9
HLRS -
Hazel Hen - Cray XC40,
185,088 5,640.2
6
DOE/SC/Argonne National
Mira - BlueGene/Q,
Laboratory
Power BQC 16C
United States
1.60GHz, Custom
IBM
786,432 8,586.6 10,066.3 3,945
7
DOE/NNSA/LANL/SNL
United States
天河 2 互联方面采用自主研发的 Express-2 内部互联网络,其为有 13 个交 换机, 而每个交换机有 576 个端口。连接介质为光电混合。具体控制器是名为 NRC 的 ASIC 专用目的集成电路,其采用 90nm 工艺,封装尺寸为 17.16x17.16 mm, 共有 2577 引脚。单个 NRC 的吞吐能力为 2.56Tbps.而在终端方面网络接口也采 用类似结构的 NIC,但规模稍小,为 10.76x10.76 mm, 675 pin,其采用 PCIE 2.0 方式连接,传输速率为 6.36GB/s.并且在在 12000 节点的情况下延迟也很低,仅 为 85us.
3.体系结构
天河二号: 天河二号超级计算机系统由 170 个机柜组成,包括 125 个计算机柜、8 个服务机柜、13
个通信机柜和 24 个存储机柜 在每个主板上有 2 个计算节点,而每个框架则有 16 个主板,4 个框架组成一个机柜,
整个系统由 125 个机柜组成。 每个计算节点主板分为两块,一块 CPU 一块 APU,CPU 上有 4 核 Ivy Bridge、内存和一
interconnect, NVIDIA
K20x
Cray Inc.
4
DOE/NNSA/LLNL
United States
Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom IBM
1,572,864 17,173.2 20,132.7 7,890
5
1.最新 TOP10 榜单 2.中国进展 3.体系结构 4.技术参数解析
TOP 10 Sites for June 2016
For more information about the sites and systems in the list, click on the links or view the complete list.
排名第一 2010 年,中国国防科学技术大学研制的“天河一号”曾在第三十六届超级计算机 TOP500
榜单上名列第一,2011 年时排名第二,2012 年排名已下降至第五,我“天河二号”又重返 冠军领奖台。 二连冠 2013 年,在德国莱比锡举办的 2013 年度全球超级计算机技术大会,负责调查有关全球各国 研发大型超级计算机排行情况的国际大型超级计算机 TOP 500 组织,公布了最新全球超级计 算机 TOP 500 强排行榜榜单;在本次大会上由中国政府国家科技部与中国国防科学技术大学 共同研制的名为“天河二号(”又称银河 2 号)的大型超级计算机以每秒 33.86 千万亿次的 浮点运算速度成为全球最快的超级计算机。 三连冠 2014 年 6 月,由国防科技大学研制并落户国家超级计算广州中心的天河二号超级计算机, 23 日再次荣登全球超级计算机 500 强排行榜榜首,获得世界超算“三连冠”。天河二号超级 计算机是国防科技大学承担的国家“863”计划和“核高基”国家科技重大专项项目。 四连冠 2014 年 11 月,在美国新奥尔良市召开的世界超级计算机大会上,天河二号在国际 TOP500 组织首次正式发布的超级计算机高性能测试排行榜上位居世界第一。此前,由该组织发布的 第 44 届世界超级计算机 500 强排行榜中,天河二号以峰值计算速度达每秒 5.49 亿亿次、持 续计算速度达每秒 3.39 亿亿次位居榜首,获得“四连冠”。 五连冠 2015 年 7 月 13 日,国际 TOP500 组织在德国举行了 2015 年国际超级计算机大会,并在大会 上发布全球超级计算机 500 强最新榜单,中国“天河二号”以每秒 33.86 千万亿次的浮点运 算速度第五次蝉联冠军,获得“五连冠”。 六连冠 2015 年 10 月 16 日,新一期全球超级计算机 500 强榜单在美国公布,“天河二号”超级计算 机以每秒 33.86 千万亿次连续第六度称雄。
Rank Site
System
Cores
Rmax (TFlop/s)
Rpeak (TFlop/s)
Power (kW)
1
National Supercomputing
Center in Wuxi
China
Sunway TaihuLight Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway NRCPC
10,649,600
93,014.6 125,435.9 15,371
2
National Super Computer
Center in Guangzhou
China
Tianhe-2 (MilkyWay-2) TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P NUDT
4.2 存储 4.2.1 内存
每个节点拥有 64GB 主存,而每个 Xeon Phi 协处理器板载 8GB 内存,故每节点共 88GB 内存,整体总计内存 1.408PB。 4.2.2 外存 12.4PB 容量的硬盘阵列 4.3 主架
主板、机架与机柜均由浪潮集团制造,共有 125 个机柜,每个机柜容纳 4 个机架,每个 机架容纳 16 块主板,每个主板设置有两个计算节点。每个机柜还装有负载指示灯,根据机 柜内主机的运算负载变更发光二极管的发光颜色。
中央处理器为英特尔提供的,运作时钟频率为 2.2GHz 的 Xeon E5-2692 12 核心处理器, 基于英特尔 Ivy Bridge 微架构(Ivy Bridge-EX 核心),采用 22 纳米制程,峰值性能 0.2112TFLOPS。
运算加速上,使用基于英特尔集成众核架构的 Xeon Phi 31S1P 协处理器,运行时钟为 1.1GHz,每个使用 61 个核心中的 57 个(因为使用 61 个会存在运算周期协调问题),每核心 籍由特殊的超线程技术能运作 4 个线程,产生峰值性能为 1.003TFLOPS。
Trinity - Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries interconnect Cray Inc.
301,056 8,100.9 11,078.9
8
Swiss National Supercomputing Piz Daint - Cray XC30,
个 Xeon Phi 协处理器,而 APU 基板上则承载着 5 个 Xeon Phi 协处理器.CPU 和 APU 之间有 5 个水平插入的链接口,由 Ivy Bridge 内置的 PCI-E 2.0 进行连接,虽然 Ivy Bridge 内置为 PCI Express 3.0 接口,但 Xeon Phi 仅支持 2.0,单个通路为 10Gbps 带宽。
而在计算能力方面,使用 14336 个节点 总计 50GB 内存进行 LINPACK 测试, 理论性能为 49.19Pflops,而实际测试性能为 30.65Pflops,效率为 62.3%.这个 效率并不 算高,还有很大优化提升潜力。当然也可能是被 Xeon phi 仅支持 PCI Express 2.0 带宽不足限制。
7,403.5
Höchstleistungsrechenzentrum Xeon E5-2680v3 12C
Stuttgart
2.5GHz, Aries
Germany
interconnect
Cray Inc.
10
King Abdullah University of
Shaheen II - Cray XC40,
每块主板上分为 APU 模块和 CPM 模块两部分,APU 部分承载 5 块 Xeon Phi,CPM 部分 承载 1 块 Xeon Phi+4 颗 Xeon E5。
APU 模块和 CPM 模块之间以 CPU 内部提供的 PCI-E 3.0 16x 接口进行连接,但实际由于
Xeon Phi 的硬件限制,仅支持至 PCI-E 2.0 16x,单通道数据传输速率为 10Gbps。
3,120,000 33,862.7
54,902.4 17,808
3
DOE/SC/Oak Ridge National
Titan - Cray XK7 ,
560,640 17,590.0 27,112.5 8,209
Laboratory
Opteron 6274 16C
United States
2.200GHz, Cray Gemini
196,608 5,537.0
7,235.2 2,834
Science and Technology
Xeon E5-2698v3 16C
Saudi Arabia
2.3GHz, Aries
interconnect
Cray Inc.
2.中国进展
2009 年金秋时节,天河一号横空出世。2010 年 11 月,经过系统升级后的天河一号,在第 36 届国际超级计算机 500 强排行榜上位居世界第一。 天河二号——六连冠