InfiniBand高速网络互连技术
1.高速网络InfiniBand加速大数据应用介绍
高速网络InfiniBand加速大数据应用刘通Mellanox亚太市场开发总监Mellanox公司概况股票代码: MLNX ▪连接服务器、存储器的高带宽与低延迟网络的领导厂商•FDR 56Gb/s InfiniBand 与万兆/4万兆以太网•降低应用等待数据时间•大幅提升数据中心投资回报率▪公司总部:•美国加州以及以色列双总部•全球范围内约~1432名员工▪良好财务状况•2013年销售近3.9亿美元•现金与投资达3.4亿美元截至2013年9月世界领先的端到端网络互连设备提供商Virtual Protocol Interconnect存储前端 / 后端服务器交换机/ 网关56G IB & FCoIB 56G InfiniBand10/40/56GbE & FCoE 10/40/56GbEVirtual Protocol Interconnect芯片交换机、网关网卡网线、模块Metro / WAN完整的InfiniBand与以太网产品线▪InfiniBand 是高性能应用的首选网络▪采用Mellanox FDR InfiniBand 的系统同比增长1.8倍•加速63% 的InfiniBand系统是基于FDR (141 systems out of 225)超级计算机TOP500中最高占有率InfiniBand提供不可超越的系统效率▪InfiniBand是实现最高系统效率的关键,平均高于万兆以太网30% ▪Mellanox InfiniBand 实现最高效率99.8% 平均效率•InfiniBand: 87% •Cray: 79%•10GbE: 67% •GigE: 40%InfiniBand技术优势InfiniBand 技术的优势和特点▪InfiniBand Trade Association (IBTA) 协会制定规范•开放标准的高带宽、低延迟网络互连技术▪串行高带宽连接•SDR: 10Gb/s HCA连接•DDR: 20Gb/s HCA连接•QDR: 40Gb/s HCA连接–现在•FDR: 56Gb/s HCA连接– 2011年底•EDR: 100Gb/s HCA连接– 2014年▪极低的延迟•低于1 微妙的应用级延迟▪可靠、无损、自主管理的网络•基于链路层的流控机制•先进的拥塞控制机制可以防止阻塞▪完全的CPU卸载功能•基于硬件的传输协议•可靠的传输•内核旁路技术▪远端内存直接访问•RDMA-读和RDMA-写▪服务质量控制(QoS)•在适配器卡级提供多个独立的I/O通道•在链路层提供多条虚拟通道▪集群可扩展性和灵活性•一个子网可支持48,000个节点,一个网络可支持2128个节点•提供多种集群拓扑方式▪简化集群管理•集中路由管理•支持带内网络诊断和升级RDMA (远端内存直接访问技术) – 如何工作RDMA 运行于InfiniBand 或Ethernet内核硬件用户机架1OSNICBuffer 1 应用程序1应用程序2OSBuffer 1NICBuffer 1TCP/IP机架2HCAHCABuffer 1Buffer 1 Buffer 1Buffer 1Buffer 1Mellanox RDMA 远端内存直接访问技术零拷贝远程数据传输低延迟, 高速数据传输InfiniBand - 56Gb/sRoCE* – 40Gb/s内核旁路 通讯协议卸载* RDMA over Converged Ethernet应用程序应用程序用户层内核 硬件缓存缓存加速分布式数据库迈络思网络加速主流数据库▪Oracle 数据仓库•提供4倍闪存•写性能提升20倍•数据吞吐量提高33%•降低能耗10% 到 40%▪IBM DB2 Purescale 数据库:•需要低延迟高带宽的网络,同时满足高可靠性•RDMA 大大降低CPU负荷•实现DB2 Purescale 接近线性的可扩展性▪微软 SQL Server 数据仓库•更高性能,更低成本▪Teradata 数据仓库•相较以太网,跨机柜SQL查询速度提升2倍•数据加载性能提升4倍大幅提升性能与可扩展性,降低成本河南移动Oracle RAC数据库解决方案▪采用Mellanox InfiniBand交换机作为心跳网络连接设备;▪全线速无阻塞网络;▪采用高可用的冗余连接方式,避免单点故障;▪40Gb/s高通讯带宽、100纳秒超低延迟,全面加速Oracle RAC性能InfiniBand+PCI-e SSD新架构加速Oracle数据库生产环境:处理器:16 CPU Itanium21.6GHZ(双核)内存:192G数量:3新架构 RAC节点:AMD Quad-Core 83802.5GHZ 4 CPU (4核)内存:64G数量:2 分钟网络层40/10GbE 交换机应用及存储融合Oracle RAC Node 1 SDC PC Serverw/ ECSLSI NytroSDSOracle RAC Node 2 SDC PC Server w/ ECS LSI NytroSDSOracle RAC Node n SDC PC Server w/ ECS LSI NytroSDSSDC: ScaleIO 数据客户端SDS: ScaleIO 数据访问服务端 40/10 GbEMellanox 网络交换机Mellanox 40GbE 交换机+40GbE 网卡实现最佳Oracle 性能与扩展性Oracle RAC 数据库Oracle RAC 数据库SDC: ScaleIO 数据客户端SDS: ScaleIO 数据访问服务端 40/10 GbE EthernetSDSSDCSDCSDSSDS 网络层 40 GbE 互联PC Server w/ ECS LSI NytroPC Server w/ ECS LSI NytroPC Server w/ ECS LSI Nytro数据库应用层存储层Mellanox 网络交换机Mellanox 40GbE 交换机+40GbE 网卡实现最佳Oracle 性能与扩展性Mellanox加速分布式Oracle RAC性能Mellanox 40GbE 交换机+40GbE网卡实现最佳Oracle性能与扩展性加速大数据Data Intensive Applications Require Fast, Smart InterconnectHost/Fabric SoftwareICs Switches/GatewaysAdapter Cards Cables/Modules End-to-End & Virtual Network Ready InfiniBand and Ethernet PortfolioMetro / WANCertified Networking Gear河南移动大数据部署实例▪任意服务器之间进行40Gb/s无阻塞通信,消除节点间I/O瓶颈▪网络采用36口交换机堆叠的Fat-tree架构,最大幅度地降低网络开销,随着节点数量的增加,整体性能线性增加,提供最佳的线性扩展能力▪集群任意节点均与两个交换机互联,实现系统的高可靠性;▪全省上网行为数据每天8TB,大数据处理平台(90台)40秒完成忙时数据装载、5小时内完成日报表处理TCO大幅降低高达79.6%Hadoop缺陷调查•管理工具•性能•可靠性•SQL支持•备份与恢复451 Research 2013 Hadoop调查Hadoop 性能提升挑战•HDFS 本事的数据延迟问题 •不能支持大量小文件•Map Reduce, Hbase, Hive, 等等的效率.HDFS™(Hadoop Distributed File System)HBaseHivePigMap ReduceSQL(e.g. Impala)•性能提升需求 –实时操作–更快执行速度Map Reduce 工作进程▪开源插件▪支持Hadoop版本•Apache 3.0, Apache 2.2.x, Apache 1.3•Cloudera Distribution Hadoop 4.4内嵌支持Hadoop MapReduce RDMA优化HDFS™(Hadoop Distributed File System)Map Reduce HBaseDISK DISK DISK DISK DISK DISKHive Pig速度翻倍HDFS 操作ClientNameNodeDataNode1 48 DataNode48DataNode142 WriteReadReplicationReplicationHDFS FederationNameNode•HDFS Federation •更快硬盘•更快CPU 和内存IO 成为瓶颈▪HDFS 基于RDMA进行移植▪支持CDH5 和 HDP2.1 Hadoop HDFS RDMA优化HDFS ClientJXIO JXIO JXIO JXIOHDFS ClusterHadoop存储架构的限制•Hadoop 使用本地硬盘保持数据本地性和低延迟–很多高价值数据存在于外置存储–拷贝数据到HDFS, 运行分析, 然后将结果发到另外系统–浪费存储空间–随着数据源的增多,数据管理变成噩梦•直接访问外部数据,无需拷贝?–需要解决性能问题存储: 从Scale-Up 向 Scale-Out 演进 Scale-out 存储系统采用分布计算架构•可扩展,灵活,高性价比1000020000300004000050000600001Gb iSCSI 10Gb iSCSI 8Gb FC 16Gb FC40Gb iSCSITCP 40Gb iSER RoCEFDR IBWire speed Mb/sActual Single-Thread Throughput Mb/s顺序文件读性能 (单端口)iSER : iSCSI over RDMAiSER 实现最快的存储访问iSCSI (TCP/IP)1 x FC 8 Gb port4 x FC 8 Gb portiSER 1 x 40GbE/IBPort iSER 2 x 40GbE/IB Port (+Acceleration)KIOPs130200800110023005001000150020002500K I O P s @ 4K I O S i z e▪使用高性能网络和RDMA•避免性能瓶颈▪避免单点失败– HDFS Name Node▪节省33%磁盘空间!方案1: 使用并行文件系统替换HDFSLustre 作为文件系统方案Mellanox网络与RDMA技术实现最高 Lustre 性能Hadoop over Cloud?▪通常满负荷运转,而不是多虚机配置 ▪云存储慢且贵顾虑: •降低成本•弹性获得大量资源•与数据源更近•简化Hadoop 操作好处:?Performance?▪利用OpenStack 内置组件与管理功能•RDMA 已经内置在OpenStack▪RDMA 实现最快性能, 占用更低CPU 负荷最快的OpenStack 存储速度Hypervisor (KVM)OSVM OS VM OS VMAdapter Open-iSCSI w iSERCompute ServersRDMA Capable InterconnectiSCSI/iSER Target (tgt) Adapter Local DisksRDMA Cache Storage Servers OpenStack (Cinder)Using RDMA toaccelerate iSCSIstorage支持RDMA的高速网络大幅提升大数据应用性能4倍性能!Benchmark: TestDFSIO (1TeraByte, 100 files)2倍性能!Benchmark: 1M Records Workload (4M Operations)2X faster run time and 2X higher throughput2倍性能!Benchmark: MemCacheD Operations3倍性能!Benchmark: Redis Operations步入100G网络时代通过更快移动数据实现更大数据价值 20Gbs 40Gbs 56Gbs 100Gbs 2000 2020 2010 2005 2015 200Gbs10Gbs Gbs – Gigabit per secondMellanox 网络速度路线图引领网络速度的发展迈向更高网速进入100G时代36 EDR (100Gb/s) 端口, <90ns 延迟吞吐量7.2Tb/s100Gb/s 网卡, 0.7us 延迟1.5亿消息/秒(10 / 25 / 40 / 50 / 56 / 100Gb/s)Mellanox引领高速网络技术不止于InfiniBand端到端高速以太网Thank You。
InfiniBand 连接现在和未来
InfiniBand 连接现在和未来InfiniBand是致力于服务器端的高性能互联技术,它的使命是:使处理器级的带宽,从处理器到系统I/O、到存储网络,穿越整个数据中心,形成一张统一的、包括服务器互连、服务器与存储互连、存储网络在内的神经网络。
InfiniBand技术是一种开放标准的高带宽、高速网络互联技术。
目前,它的发展速度非常快,而且越来越多的大厂商正在加入或者重返到它的阵营中来,包括Cisco、IBM、HP、Sun、NEC、Intel等。
可以说,InfiniBand已经成为目前主流的高性能计算机互连技术之一。
而且,目前基于InfiniBand技术的网络卡的单端口带宽最大可达到20Gbps,基于InfiniBand的交换机的单端口带宽最大可达60Gbps,单交换机芯片可以支持达480Gbps的带宽,为目前和未来对于网络带宽要求非常苛刻的应用提供解决方案。
InfiniBand体系结构InfiniBand技术通过一种交换式通信组织(Switched Communications Fabric)提供了较局部总线技术更高的性能,它通过硬件提供了可靠的传输层级的点到点连接,并在线路上支持消息传递和内存映像技术。
InfiniBand技术通过连接HCA(Host Channel Adapters)、TCA(Target Channel Adapters)、交换机以及路由器来工作,其体系结构如图1所示。
目前,集群计算、存储区域网(SAN)、网格、内部处理器通信(IPC)等高端领域对高带宽、高扩展性、高QoS以及高RAS(Reliability、A vailability and Serviceability)等有迫切需求,InfiniBand技术可以为实现这些高端需求提供可靠的保障。
在I/O技术层面,InfiniBand 具有两个非常关键的特性:一是物理层设备低功耗,二是“箱外带宽”(Bandwidth Out of the Box)。
200G QSFP DD AOC在InfiniBand网络中的应用
200G QSFP DD AOC在InfiniBand网络中的应用随着数据中心的不断深入与高需求,人们对于此领域的拓展研究也在不断更迭最新技术与开发最优性能产品及解决方案。
前段时间易飞扬(Gigalight)发布了200G QSFP DD PSM8光模块,标志着基于NRZ调制的200G低成本数据中心内部平行光互连方案基本完成,也象征着公司在200G解决方案上的领先地位。
不同于业界主张的400G方案,易飞扬(Gigalight)坚持200G的数据中心解决方案,可为客户提供一站式的服务和解答。
本文主要根据现阶段超算中心的发展进程,来分析当前交换机之间InfiniBand技术的特征以及应用领域,其中以200G QSFP DD AOC为例,说明了超算中心互连技术的端口封装形式朝着更高工作带宽发展的现状。
超算系统里的InfiniBand技术根据2017年全球超级计算机500强榜单公布情况,我国无锡“神威--太湖之光”超级计算机以每秒125,435.9TFlop/s的峰值计算能力再次蝉联世界第一名,广州“天河二号”超算系统以每秒54,902.4TFlop/s的峰值计算能力位居世界第二名。
值得注意的是这些超算中心的交换互连技术均采用来自以色列InfiniBand的交换机和网络适配卡。
当前在超算中心互连技术阵营中有以色列的InfiniBand,高性能Ethernet,IBM的BlueGene,Cray和后起之秀Intel的OmniPath,这五大技术占据市场的重要份额,其中InfiniBand和高性能Ethernet占绝对领导地位。
超算中心的互连技术朝着更高带宽、更低延迟、更低功耗和更密的互联端口在发展,而InfiniBand互连技术在当前成为高性能存储互连方案的首选,正是因为其满足了大带宽和低时延的需求。
InfiniBand是一个统一的互连结构,既可以处理存储I/O、网络I/O,也能够处理进程间通信。
它可以将磁盘阵列、SANs、LANs、服务器和集群服务器进行互联,在相对短的距离内提供高带宽、低延迟的传输,而且在单个或多个互联网络中支持冗余的I/O通道,让数据中心在局部故障时仍能运转。
mellanox infiniband技术原理
Mellanox Infiniband是一种高速计算机网络技术,主要用于数据中心的互连。
其设计目的是为了提高数据传输的速度和效率,降低延迟,并提供更高的带宽。
Infiniband技术使用点对点通信,可以在服务器、存储设备和网络设备之间提供高带宽、低延迟的数据传输。
Infiniband技术的工作原理如下:
1. 基于通道化:Infiniband使用通道化技术,将数据传输划分为多个通道,每个通道可以独立进行数据传输。
这种方式可以提高带宽利用率,降低冲突和延迟。
2. 基于信用机制:Infiniband使用信用机制来管理数据传输。
发送方在发送数据之前,先发送一个请求,接收方收到请求后,返回一个信用。
发送方在收到信用后,才开始发送数据。
这种方式可以确保数据传输的顺序性和可靠性。
3. 具有流量控制:Infiniband技术具有流量控制功能,可以根据网络状况和接收方的能力来调整数据传输的速度和大小,避免网络拥塞和数据丢失。
4. 支持虚拟化:Infiniband支持虚拟化技术,可以在不同的虚拟机和应用程序之间提供高效的数据传输。
总之,Mellanox Infiniband技术通过通道化、信用机制、流量控制和支持虚拟化等技术,提供了高性能、高可靠性和高带宽的网络连接,适用于数据中心和云计算环境。
Infiniband介绍与使用
万兆以太网与Infiniband网络
万兆以太网 说明 优点 缺点 Infiniband 说明 优点 缺点 用于互联服务器和交换机的半专有技术 极低的延迟(不到100ns)和高吞吐量(高达120Gbps),使它成为数据 中心最强健的互联技术之一 在服务器硬件上需要昂贵的专有互联设备,并且在与数据中心或集群外 部进行通信时,需要交换设备在以太网和Infiniband之间进行转换 目前市场上最快的以太网技术,具有极低的延迟(不到500ns)的新适配 器和交换机正在进入市场 通常使用标准的以太网LAN设备、线缆和PC接口卡 延迟问题依然存在,因而可能把这种技术排斥在像集群和网格等对延迟 极其敏感的应用之外,速度仍落后于其它的一些互联技术
InfiniBand体系架构
InfiniBand标准定义了一套 用于系统通信的多种设备, 包括信道适配器、交换机和 路由器 信道适配器用于同其它设备 的连接,包括主机信道适配 器(HCA)和目标信道适配 器(TCA) 交换机是 InfiniBand结构中 的基本组件 点到点的交换结构:解决了 共享总线、容错性和可扩展 性问题 具有物理层低功耗特点和箱 外带宽连接能力
在管理节点启动子网管理服务
chkconfig opensmd on service opensmd restart
在所有的节点启动openibd服务
chkconfig ipenibd on service openibd restart
查看IP
ipconfig ib0
谢谢!
Infiniband驱动安装与配置
#tar xvfz OFED-1.5.2.tgz #cd OFED-1.5.2 #./install.pl
选择2
对于一个集群来说,在管理节点选择3,其他计算节点选择2安装,出现的余下选项,一路 Enter则可,即使在操作系统完全安装的情况下,通常至少会提示tcl-devel等依赖组件未 安装,到安装光盘里查找缺少的rpm包,在每节点都安装缺少的rpm包
InfiniBand
高速交换网络时间:2014-02-24 11:01 点击:441 次InfiniBand 技术是什么?InfiniBand是一种全新的基于通道和交换的开放互连结构标准。
它能够连接多个独立的处理器平台、I/O平台以及I/O设备,在同一物理网络上支持一个或者多个计算机系1.InfiniBand技术是什么?InfiniBand是一种全新的基于通道和交换的开放互连结构标准。
它能够连接多个独立的处理器平台、I/O平台以及I/O设备,在同一物理网络上支持一个或者多个计算机系统之间的I/O通信和内部处理器之间的通信。
InfiniBand技术不是用于一般网络连接的,它的主要设计目的是针对服务器端的连接问题的。
因此,InfiniBand技术将会被应用于服务器与服务器(比如复制,分布式工作等),服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN, WANs和the Internet)的通信。
InfiniBand架构采用的是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链接都可以达到2.5 Gbps的运行速率。
例如在采用QDR模式情况下,在一个链接通道的时候速率是10 Gbps ,四个链接通道的时候速率是40 Gbps,12个链接的时候速率可以达到120 Gbps。
2.为什么需要InfiniBand?采用Intel架构的处理器的输入/输出性能会受到总线的限制。
总线的吞吐能力是由总线时钟和总线的宽度决定的。
这种速度上的限制制约了服务器和存储设备、网络节点以及其他服务器通讯的能力。
而在InfiniBand的技术中,InfiniBand直接集成到系统板内,并且直接和CPU以及内存子系统互动,在传输层上,它提供了可靠的点对点连接,不同于PCI,Infiniband允许多个I/O外设无延迟、无拥塞地同时向处理器发出数据请求。
Infiniband技术与其他网络协议(如TCP/IP)相比,InfiniBand具有更高的传输效率。
采用Infiniband构建高性能计算平台
采用Infiniband构建高性能计算平台摘要:摩尔定律的一再验证残酷的揭示了一个现实:速度是技术发展的终极目标。
高性能计算领域也是一样,如何使高性能计算平台运行的更快、更高效一直是服务器厂商研究的方向,曙光作为中国高性能计算的领头羊,作为高端服务器厂商,也在为此做着不懈的努力。
Infiniband高速网络是近几年产生的一种新兴技术,因其具有高带宽、低延迟的特色,得到了计算领域的青睐。
本文介绍了Infiniband的硬件组成及其在不同应用中的选择依据,最后通过四个案例进行分析,构建一套符合用户需求的高性能计算网络。
关键字:Infiniband、点对点通信、CFD应用、加速比、全互联1.前言近年来,世界上的超级计算已经由价格昂贵、无扩展性的单片机架构转变为采用商业处理器而拥有无限扩展能力的集群系统,称为高性能计算机集群(HPC:High Performance Computing)。
美国组织每年分别两次排列出当今世界上最强大的超级计算机,该排名按照超级计算机的实际计算能力(FLOPS:每秒浮点运算)按递减顺序排列。
这个列表显示出集群架构正在逐渐取代单片机架构的趋势。
由于HPC系统能够快速准确计算出结果,有助于解决商业和科学研究中面临的问题,所以,HPC系统越来越多的被政府部门、商业组织和科学院所采用。
然而,有一些部门和组织所面临的是更具挑战性的计算问题,他们需要更强大、高性能价格比的HPC系统。
这就意味着人们必须要关注大集群的建设,这里的大集群是指规模超过100个节点,达到几百个、上千个甚至上万个节点的集群系统;将集群系统扩展到这样的规模而带来的困难和复杂程度是难以想象的;使这样规模的集群能够正常、稳定的工作也是一个痛苦的过程。
在超级计算机发展的道路上不乏失败了的大型HPC系统的“尸体”,也说明了这是一个值得研究的问题。
选择一个正确的互连网络是能否达到甚至超过您对集群性能预期的关键。
如上所述,一个集群中需要支持多种类型的数据流,所以,我们可以选择在同一集群中同时采用不同类型的互联网络,这些不同的网络将各自支持不同的网络协议,同时,这些不同的网络也拥有不同的网络性能和特性。
Infiniband高速互连网络(徐迪威)
InfiniBand高速互连网络徐迪威广州广东省计算中心,510033摘要:InfiniBand是目前发展最快的高速互连网络技术,具有高带宽、低延迟和易扩展的特点。
通过研究和实践,对InfiniBand技术的数据包、数据传输、层次结构、与以太网技术的对比、虚拟化、交换机制、发展愿景等进行了全面探索,提出了InfiniBand最终成为高速互连网络首选的观点。
关键词:InfiniBand;高速互连网络;数据包;结构模型;虚拟化;交换机制Research on Design of InfiniBand High Speed InterconnectionAbstract: InfiniBand is a fast growing technology of high speed interconnection (HSI), whose characteristics are high bandwidth, low latency and easy extension. Via researching and practicing, the paper explores on InfiniBand data packets, data transfer, multilevel architectures, comparing with Ethernet, virtualization, switching mechanism, roadmap, etc. The author presents the viewpoint that InfiniBand will become the first choice in setting up HSI.Keywords: InfiniBand(IB); High Speed Interconnection(HSI); Data Packet; Hierarchy Model; Virtualization; Switching Mechanism1引言随着中央处理器(CPU)运算能力的极速增长,高速互连网络(High Speed Interconnection, HSI)已成为高性能计算机研制的关键所在。
超算中心InfiniBand网络光互连解决方案
超算中心InfiniBand网络光互连解决方案高性能计算(High Performance Computing,以下简称HPC),即超算中心HPC市场正在朝着使用异质计算系统和提高能效比的方向发展:GPU、DSP和ARM处理器同时运行,以实现用更少的能耗带来更高的Petaflop(1千万亿次浮点计算/秒)值。
IDC预测,HPC服务器市场要实现在2017年达到150亿美元销售额的目标,每年的增速就必须要保持在7.3%左右。
超级计算(Supercomputing)的应用范围非常广泛,包括汽车制造模拟、天气预报、分子生物学研究、地球物理学等,在这些领域中往往需要并行计算和处理大量的数据、进行复杂的运算。
最近经常被讨论的大数据分析,也会用到超级计算。
高性能模拟需要最高效的计算平台。
计算集群(Cluster)技术平台由于其出色的生产力和灵活性,现已成为 HPC 模拟最常用的硬件解决方案。
而计算集群Cluster技术平台通常采用以下高速互联技术进行沟通,如:InfiniBand、高性能Ethernet(精简过的帧结构)、BlueGene、Gray等互联技术,其中41.2%的超算中心采用了infiniBand互连技术。
超算中心Top500中还有不少系统采用了以太网或者Cray的互连技术,但正是这些独特的优势让infiniband在超算中大行其道,据统计,全球超算中心Top500榜单中,有41.2%的系统采用了infiniband互连技术。
InfiniBand诞生的缘由:InfiniBand是一种输入输出(I/O)宽带结构,可以提高服务器各设备之间、网络子系统之间的通信速度,为将来的计算机系统提高更高性能和无限扩展性的宽带服务。
InfiniBand 技术不是用于一般网络连接的,它的主要设计目的是针对服务器端的连接问题的。
因此,InfiniBand技术将会被应用于服务器与服务器(比如复制,分布式工作等),服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN, WANs和the Internet)的通信。
干货:InfiniBand技术究竟是何方神圣?
干货:InfiniBand技术究竟是何方神圣?我们经常听到关于某超算中心又用了什么先进的技术,而在这些技术中,InfiniBand技术则是人们谈论最多的话题。
那么InfiniBand到底有多牛?关于更多Infiniband技术架构请参考:InfiniBand知识和架构。
文章内容:1、InfiniBand技术背景和现状2、InfiniBand为超算中心提供超强传输性能3、InfiniBand技术玩家和如今巨头4、盘点全球超算系统哪家强?①、超算为何被视为超级明星①、超算为何被视为超级明星③、采用的处理器类型和份额④、超级计算机中的核心数量⑤、各国的超算系统的数量⑥、各用途和超算供应商的总体处理能力⑦、处理器和各领域的总处理能力⑧、超算系统历史和未来发展去向简单来说,InfiniBand是一种支持多并发链接的转换线缆技术,它既可以处理存储I/O、网络I/O,也能够处理进程间通信(IPC),这样它即可以将磁盘阵列、SANs、LANs、服务器和集群服务器进行互联,也可以连接外部网络(比如WAN、VPN、互联网)。
1、InfiniBand技术背景和现状设计InfiniBand的目的主要是用于企业数据中心,大型的或超大型的数据中心,为了实现高的可靠性、可用性、可扩展性和高的性能。
并且InfiniBand可以在相对短的距离内提供高带宽、低延迟的传输,而且在单个或多个互联网络中支持冗余的I/O通道,因此能保持数据中心在局部故障时仍能运转。
Infiniband网络是一种高带宽低延时的网络,相比传统的以太网络,最新一代的Infiniband网络带宽可达100Gbps,点到点的延时低于0.6us。
Infiniband网络主要用于高性能计算场景,通过高速的Infiniband网络,将一台台多路服务器构建为一个高性能计算集群,集群性能基本上是单台服务器性能的线性叠加,可以说正是因为有Infiniband网络技术,才能催生出超算高性能集群架构。
InfiniBand高速网络互连技术
第十一页,共158页。
三大突破
• “天河一号”除了使用了英特尔处理器,还 首次在超级计算机中使用了2048个我国自主 设计的处理器。这款名为“飞腾-1000”的64 位CPU。它利用65纳米技术设计生产,共有8 个核心。
• 中国首创了CPU和GPU融合并行的体系结构。 • 制造了先进的通信芯片,设计了先进的互联
– 是一个可以分解和解答线性方程和线性最小平方问题 的Fortran子程序集.
– 于20世纪70年代到80年代初为超级计算机而设计 – 测试出的最高性能指标作为衡量机器性能的标准
3
第三页,共158页。
TOP500分析
• 中国TOP100总Linpack性能达到11.85 Pflops (2010年6.3PFlops),是2010年的1.88倍; • 跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer夺得,2010年
Roadrunner(走鹃)
Part 1: Opteron Blades
Opteron socket
Opteron core
Opteron
core
1.8 GHz 3.6 Gflop/s
64+64 KB L1 cache
2 MB L2 cache
Total cores:
Total flop/s:
第二十五页,共158页。
SIMD、每核心256位浮点寄存器、高级核心间硬件同步等等。 • 处理器数量是88128颗,核心数量为705024个,占据864个机柜。这些处理器通
过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起,带宽5GB/s。同时, “京”的峰值计算性能也达到了11.28PFlops,执行效率为惊人的93.2%
[整理版]Infiniband技术挑战与机遇
Infiniband技术挑战与机遇双核以及多核技术的采用使得处理器的性能不断提升,网络带宽也在不断增加,但是你是否注意到了,为什么我们依然会感觉服务器不够快?问题就在于I/O。
说到I/O,有关Infiniband 技术应该引起用户的足够重视。
身世InfiniBand是由InfiniBand行业协会(IBTA,InfiniBand Trade Association)定义的一项标准,它是一种基于通道的、采用交换结构的I/O体系。
IBTA成立于1999年8月31日,由Compaq、惠普、IBM、戴尔、英特尔、微软和Sun 七家公司牵头,共同研究发展的高速先进的I/O标准。
最初的命名为System I/O,1999年10月,正式改名为InfiniBand。
InfiniBand是一种长缆线的连接方式,具有高速、低延迟的传输特性。
据星盈科技李泌介绍,InfiniBand用于服务器系统内部,主要用于处理器/内存与I/O(如硬盘、网卡等)的连接,由于InfiniBand具有长缆线连接的特性,从而使得处理核心与I/O在保持运作一致性的同时,在实际的配置上,实现分离的配置。
据李泌介绍,星盈科技推出的超级刀片计算机,就采用了类似的技术。
但是InfiniBand用于服务器系统内部并没有发展起来,原因在于英特尔和微软在2002年就退出了IBTA。
在此之前,英特尔早已另行倡议Arapahoe,亦称为3GIO(3rd Generation I/O,第三代I/O),即今日鼎鼎大名的PCI Express(PCI-E),InfiniBand、3GIO经过一年的并行,英特尔终究还是选择了PCI-E。
因此,现在应用InfiniBand,主要是用于在服务器集群,系统之间的互联,做的比较成功的企业有MELLANOX公司。
需要说明的是,即使在系统之间的互联,InfiniBand也还面临着竞争对手,这是因为自英特尔、微软退出IBTA之后,IBM、惠普也在不久后退出,并在第二年提出RDMA(Remote Direct Memory Access,远程直接内存存取)技术,期望用10Gbps Ethernet搭配TOE(TCP/IP Offload Engine,TCP/IP负荷卸载引擎)的硬件加速设计,以更标准、低廉的方式与InfiniBand 进行竞争。
infiniband标准
infiniband标准InfiniBand标准。
InfiniBand是一种高速互连技术,旨在提供高性能、低延迟和高带宽的数据传输。
作为一种通用的系统互连架构,InfiniBand标准已经被广泛应用于数据中心、超级计算机、存储系统和其他高性能计算环境中。
本文将介绍InfiniBand标准的基本概念、特点和应用。
InfiniBand标准的基本概念。
InfiniBand标准是由InfiniBand Trade Association(IBTA)制定的,它定义了一种用于高性能互连的通信协议和接口标准。
InfiniBand架构采用了一种基于信道的通信模式,通过使用高速串行链路和专用的交换设备来实现数据传输。
与传统的以太网和Fibre Channel相比,InfiniBand具有更低的延迟和更高的带宽,适用于对性能要求较高的应用场景。
InfiniBand标准的特点。
InfiniBand标准具有多种特点,包括高性能、灵活性、可扩展性和可靠性。
首先,InfiniBand可以提供高达200Gb/s的数据传输速度,使其成为处理大规模数据和复杂计算任务的理想选择。
其次,InfiniBand架构支持多种拓扑结构和网络协议,能够满足不同应用场景的需求。
此外,InfiniBand还具有良好的可扩展性,可以轻松地扩展到数千个节点,适用于大规模集群计算和分布式存储系统。
最重要的是,InfiniBand还内置了多种错误检测和恢复机制,能够保障数据传输的可靠性和完整性。
InfiniBand标准的应用。
InfiniBand标准已经被广泛应用于多种领域,包括超级计算、云计算、大数据分析和人工智能等。
在超级计算领域,InfiniBand可以提供低延迟和高带宽的互连,满足复杂计算任务对通信性能的要求。
在云计算和大数据分析领域,InfiniBand可以构建高性能的分布式存储和计算系统,加速数据处理和分析的速度。
在人工智能领域,InfiniBand可以为深度学习和神经网络训练提供强大的计算和通信支持,实现大规模模型的训练和推理。
InfiniBand高速网络互连技术38796
单击添加章节标题
第一章
InfiniBand技术概述
第二章
InfiniBand技术的定义
InfiniBand是 一种高速、低 延迟的网络互
连技术
它被设计用于 服务器、存储 设备和网络设 备之间的连接
InfiniBand技 术具有高带宽、 低延迟和可扩
展性等特点
高效能、高可靠性
高带宽:InfiniBand技术提供高带宽,支持多个设备同时传 输数据,提高数据传输效率。
单击此处输入你的项正文,阐述观点
低延迟:InfiniBand技术采用高速网络互连技术,具有低延 迟特性,提高系统响应速度。 高可靠性
高可靠性
容错性:InfiniBand技术具有容错性,能够保证数据传输的 稳定性和可靠性。
单击此处输入你的项正文,阐述观点
可靠性:InfiniBand技术采用高速网络互连技术, 具有高可靠性,能够保证数据传输的安全性和稳定性。
单击此处输入你的项正文,阐述观点
易于扩展和部署
内容1: InfiniBand技术采 用模块化设计,易 于扩展
内容2: InfiniBand技术采 用分布式架构,易 于部署
安全性和可靠性:随着数据量的增长,InfiniBand技术需要更高的安全性 和可靠性来保护数据和系统免受攻击和损坏
InfiniBand技术的未来发展方向
更高的带宽和更低的延迟:InfiniBand技术将继续提高带宽和降低延迟,以满足不断增长的数 据传输需求。
更多的应用领域:随着InfiniBand技术的不断发展,其应用领域也将不断扩大,包括高性能计 算、云计算、大数据等领域。
企业数据中心中的InfiniBand应用
InfiniBand是一项为互连网架构而设计的支持IO连接的功
InfiniBand 技术InfiniBand是一项为互连网架构而设计的支持I/O连接的功能强大的体系结构。
主要OEM服务器厂商都支持InfiniBand,并以此为基点扩展和创建下一代服务器内I/O互连标准。
一个高带宽的符合工业标准的I/O连接方式首次将传统的箱内总线的角色进行了延伸。
InfiniBand在提供箱内背板解决方案,外部互连,和箱外带宽方面是独一无二的;也可以说,它提供了一种过去只能在传统网络连接中使用的连接方式。
以当前的技术现状,要把I/O和系统区域网络统一起来,需要发展一种新的体系结构,这种体系结构必须同时满足过去完全分开的两个领域的不同需求。
InfiniBand的推出填补了这种体系结构的空白,带来了一场关于I/O的技术变革,而支撑其完成使命的,是InfiniBand有能力支持互连网对可靠性,可用性和可服务性的需求。
与早期PCI总线和其它各厂商专有的交换网络及I/O解决方案相比,Infiniband更具有提供RAS(可靠性、可用性、可服务性)的能力,本文将就此对Infiniband的特性和能力进行讨论。
同时,本文还讨论了InfiniBand体系结构如何提供复杂的硅、软件和系统解决方案。
InfiniBand 拥有完善的规范,其中的InfiniBand 规范1.2详细定义了很多工业标准,如:电气接口、机械连接器、软件和管理界面等方面的内容。
本文对InfiniBand规范1.2做了概要介绍,以期读者可以了解InfiniBand体系结构的全貌。
文章分为四个部分。
介绍部分为读者搭建了一个InfiniBand的平台,并揭示了为什么主流服务器厂商会支持这个新标准。
第二部分介绍了Infiniband将会给当前这个被传统技术所统治的市场带来什么样的影响。
第三部分对基于交换的网络和基于总线的结构进行了一般性的比较;而对InfiniBand和PCI-X及其它专有解决方案的差异则做了详细论述。
最后一部分详细介绍了InfiniBand体系结构,并从宏观角度回顾了InfiniBand的重要特性。
收藏:InfiniBand体系架构和协议规范
收藏:InfiniBand体系架构和协议规范传统的TCP/IP协议的多层次结构使得复杂的缓冲管理带来很大的网络延迟和操作系统的额外开销,随着网络技术的发展,网络需要一种开放、高带宽、低延迟、高可靠以及满足集群无限扩展能力的以交换为核心的体系架构,在这种技术背景下,InfiniBand(简称IB)应运而生。
下载链接:InfiniBand技术体系研究系列《InfiniBand体系结构和协议规范》《InfiniBand高速互连网络设计的研究》根据IB高带宽、低延时、高可靠以及满足集群无限扩展能力的特点,IB主要定位于存储网络和计算网络的应用。
IB使用RDMA(Remote Direct Memory Access远程直接内存存取)技术,通过一个虚拟的寻址方案,让服务器知道和使用其他服务器的部分内存,无需操作系统的内核干预,既直接继承了总线的高带宽和低时延,又降低了CPU的处理负担,这对于像存储这样的集群来说很合适。
InfiniBand技术特点相比网络协议(如TCP/IP),IB具有更高的传输效率。
原因在于许多网络协议具有转发损失的数据包的能力,但是由于要不断地确认与重发,基于这些协议的通信也会因此变慢,极大地影响了性能。
需要说明的是,TCP协议是一种被大量使用的传输协议,从冰箱到超级计算机等各种设备上都可以看到它的身影,但是使用它必须付出高昂的代价:TCP协议极其复杂、代码量巨大并且充满了各种特例,而且它比较难卸载。
与之相比,IB使用基于信任的、流控制的机制来确保连接的完整性,数据包极少丢失。
使用IB,除非确认接收缓存具备足够的空间,否则不会传送数据。
接受方在数据传输完毕之后,返回信号来标识缓存空间的可用性。
通过这种办法,IB消除了由于原数据包丢失而带来的重发延迟,从而提升了效率和整体性能。
InfiniBand体系架构InfiniBand是一种网络通信协议,能为网络中的计算、存储等节点间提供高带宽、低时延的可靠传输。
Mellanox公司及InfiniBand技术简介
Mellanox Technologies公司简介----------------------------------------------------------------------------------------------------------------- Mellanox Technologies于1999年成立,总部设在美国加州的森尼维尔市和以色列的Yokneam。
Mellanox公司是服务器和存储端到端连接解决方案的领先供应商。
Mellanox公司致力于InfiniBand和以太网互联产品的研发工作,为客户提供具有高带宽,低延时、可扩展性,节能的产品。
2010年底Mellanox完成了对著名Infiniband交换机厂商Voltaire公司的收购工作,使得Mellanox在HPC、云计算、数据中心、企业计算及存储市场上获得拓展。
Mellanox的Infiniband系列产品:包括Infiniband/VPI系列网卡,Infiniband/VPI 系列交换机,以及相关软件及芯片。
截止2014年6月,在TOP500中有126个系统使用了Mellanox的FDR Infiniband 产品,这个数字是去年同期的1.9倍。
InfiniBand技术简介----------------------------------------------------------------------------------------------------------------- InfiniBand技术不是用于一般网络连接的,它的主要设计目的是针对服务器端的连接问题的,被应用于服务器与服务器,服务器和存储设备以及服务器和网络之间(比如LAN,WANs和the Internet)的通信。
InfiniBand是由InfiniBand行业协会所倡导的。
协会的主要成员是:康柏,戴尔,惠普,IBM,Intel,微软和Sun。
InfiniBand高速互连网络设计的研究
一
DrcMe r ces的形式得 以实现 。R i t mo A cs) e y DMA 服务可在 处 理器之 间进 行跨网络数据传 输, 数据 直接在暂 时 内存之 间传 递, 不需要操作 系统介入或数据 复制。R DMA通 过减少对 带 宽和 处理器开销 的需要 降低 了时延 , 这种 效果是通 过在 NI C 的硬件 中部署一项 可靠 的传输 协议 以及支持 零复制 网络 技
●
— — — —
●,,
数据包 —————一
、
’
, 、
、
, ~ 、
,
HC 具有 R MA 功 能, D A D R MA 通过 一个 虚拟 的寻 址方 案 ,
数 据 直 接 在 服 务 器 内存 中传 输 , 需涉 及 操 作 系 统 的 内核 , 无 这 对 于 集 群 来 说 很 适 合 [ 8 ] 。 传 输卸 载: D R MA 实 现 了 传 输 卸 载 , 数 据 包 路 由从 操 使
通信链 路 , 其支持 的可寻址 设备高达 6 0 0个【 n nB n 40 1 f iad ] i 。I
架 构 ( f ia dA ci c r,IA) 是 一 种 定 义 点 到 点 Ii B n rht t e B nn eu
(on— —on) p itop it t 交换 式的输入 / 输出框架 的行业 标准规范 , 通 常用 于服务器 、 信基础 设施 、 储设备 和嵌 入式系 统的互 通 存 连[。If ia d具有普适 、 2 n nB n ] i 低延迟 、 高带 宽、 理成本低 的特 管 性 , 单一连 接 多数据流( 类 、 是 聚 通信 、 存储 、 管理) 理想 的连 接 网络 , 互连 节点可达 成千上万 。 小的完整 I A单元是 子 最 B
高速数据传输接口简介
Infiniband的概貌Infiniband规范体系结构(简称IBA)包含一下重要核心内容:协议分层结构、面向多层的连接、基于包交换的通信、多播(组播)能力、包及单节点容错、子网管理能力、支持多种连接速度(单速-1X,4速-4X,12速-12X)、PCB,电缆和光纤传输媒介、远程DMA访问的支持、QOS问题的考虑。
Infiniband规范定义了三种连接速度,分别提供 2.5Gbit/s(单速)/10Gbit/s(4速)/30Gbit/s(12速)数据传输能力,双向能力则达到5G/20G/60Gbit/s,由于采用了8B/10B编码,有效数据通信能力为4G/16G/48Gbit/s。
Infiniband也是一种分层结构。
首先是物理层,在IBA的物理层中,IBA允许多路连接直到获得30Gbit/s的连接速度。
由于采用全双工串行通信方式,单速的双向连结只需要4根电缆,在采用12速的方式时,只需要48根电缆线,这是非常具有吸引力的,特别是和采用背板连接的90针PCI-X体系结构相比更富有吸引力。
IBA 还定义了自定义的背板I/O连接和热交换能力。
为了获得更好的性价比,IBA架构网络的互连将依赖于可从机架延伸很远的光纤和电缆,这样系统将更具有空间上的可扩展性。
链路层和传输层是IBA体系结构的最重要的方面,在包通信一级,指定了两种特殊的包类型,分别代表数据传输和网络管理数据包,管理数据包提供了设备枚举的操作控制、子网指示、容错等功能。
数据包用来传送实际的数据信息,每个包的最大长度为4KB,在每个特定的设备子网内,每个数据包的方向和交换通过本地的16位标识地址的子网管理器完成。
链路层可提供Infiniband架构的QOS功能的支持,主要的QOS功能的考虑是采用虚通道(Vlane)用于互连,即使是单个IBA数据通道也可以定义在硬件级别,虚通道方式允许16个逻辑链路,15个独立通道(VL0-14)和一个管理通道(VL15),这种能力对设置设备的优先级时是非常有利的,因为管理需要最高的优先级,VL15具有最高的优先级,这种优先级驱动的方式即保证了Qos又保证了高性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.8 GHz 3.6 Gflop/s 64+64 KB L1 cache 2 MB L2 cache
Total cores:
Total flop/s:
0 1 2
3,600,000,000 7,200,000,000 0
Roadrunner(走鹃)
Part 1: Opteron Blades
LS21 Blade Opteron socket Opteron core Opteron core HyperTransport 6.4+6.4 GB/s Opteron socket Opteron core Opteron core
• K Computer:
– 10.51 Petaflop/s on Linpack – 705024 SPARC64 cores (8 per die; 45 nm) (Fujitsu design) – Tofu interconnect (6-D torus) – 12.7 MegaWatt
• 日本理化研究所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制 • 每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了 10.51PFlops,也就是每秒钟1.051亿亿次浮点计算,这也是人类首次跨越1 亿亿次计算大关。 • 采用的处理器是富士通制造的SPARC64 VIIIfx,八核心,主频2.0GHz,二级 缓存6MB,热设计功耗58W,峰值浮点性能128GFlops。为了获得更高性 能,富士通还在其中加入了一系列高性能集群计算扩展,可以有效管理 其共享二级缓存,并支持SIMD、每核心256位浮点寄存器、高级核心间硬 件同步等等。 • 处理器数量是88128颗,核心数量为705024个,占据864个机柜。这些处 理器通过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起,带宽 5GB/s。同时,“京”的峰值计算性能也达到了11.28PFlops,执行效率为 惊人的93.2%
EIB, 204.8 GB/s SPE core SPE core SPE core
EIB, 204.8 GB/s SPE core SPE core SPE core SPE core
25.6 GB/s 4 GB DDR2 memory
FlexIO, 25.6 GB/s 25 GB/s 4 GB DDR2 memory
– 是一个可以分解和解答线性方程和线性最小平方问 题的Fortran子程序集. – 于20世纪70年代到80年代初为超级计算机而设计 – 测试出的最高性能指标作为衡量机器性能的标准
4
TOP500分析
• • • • • • 中国TOP100总Linpack性能达到11.85 Pflops (2010年6.3PFlops),是2010年的1.88倍; 跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer夺 得,2010年11月TOP500第一名的天河1A降为世界第二,但中国的机器份额首次取 得第二名,仅次于美国; 国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名,Linpack性 能2.57PFlops,峰值4.7PFlops; 国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺 得中国TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威蓝光是我 国历史上首台全国产的千万亿次超级计算机; 国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名,Linpack性 能771.7TFlops,峰值1.34PFlops。 全部机器的Linpack性能超过22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍 大幅提升。 全部系统的峰值超过25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大 幅提升; 排名前三的机器两套是CPU+GPU异构MPP; 97个(2010年98个)系统都是机群架构,机群继续占据主导地位,在前10名里4台是 CPU+GPU体系架构,在TOP100中共有13套CPU+GPU异构机群。
•
• •
近3年来的TOP5超级计算机系统
2009年 Rank1
美洲虎 Cray XT5-HE
2010年
2011年
NUDT TH-1A 美洲虎 Cray XT5-HE
K computer NUDT TH-1A
Rank2 IBM BladeCenter Rank3 Cray XT5-HE Rank4 IBM蓝色基因 Rank5 NUDT TH-1
神威蓝光拥有四大特点:
• 全部采用国产的CPU • Linpack效率高达74.4%,而一般的千万亿次 机都在50%左右 • 采用液冷技术,节能
• 高密度,在一个机仓(机柜)里可以装入 1024颗CPU,千万亿次规模仅需要9个这样 的机仓。
计算机节点,在1U高的机箱中可以放入4个 CPU板,每个板上可以装两颗16核的CPU。
Roadrunner Architecture
Part 2: Cell Blades
Roadrunner Architecture
Part 3: Nodes(Triblade= 1*Opteron +2*cell)
HT x16 6.4 GB/s HT2100 HT2100 IB 2 GB/s PCIe x8 2 GB/s
ASCI Springschool 2012
Henk Corporaal
(8)
K Computer的互连架构
• 6D-mesh/Tours
No 2:天河-1A,国防科技大学
• 这是超过美国橡树岭国家实验室产品高达40%的系统。达到每秒47 00万亿次的峰值性能和每秒2507万亿次的实测性能。 • 14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU,以及2048颗自主研发的八核飞腾FT-1000处理器 • 天河一号A将大规模并行GPU与多核CPU相结合,在性能、尺寸以及功 耗等方面均取得了巨大进步,是当代异构计算的典型代表。 该系统采 用了7168颗英伟达™(NVIDIA®)Tesla™ M2050 GPU以及14,336颗 CPU。如果单纯只使用CPU的话,要实现同等性能则需要50,000颗以上 的CPU以及两倍的占地面积。 • 更重要的是,如果完全采用CPU打造,可实现2.507 Petaflops(千万亿 次)性能的系统将消耗1200万瓦特的电力。 多亏在异构计算环境中运 用了GPU,天河一号A仅消耗404万瓦特的电力,节能效果高达3倍。 二者之间的功耗之差足够满足5000多户居民一年的电力所需。
InfiniBand高速网络互连技术
清风明月 2012年5月
内容提要
1. 超级计算机系统及其互连结构 2. Infiniband互连网络的体系结构
Lecture 1
3. 在HPC中的典型互连架构及应用 4. IB网络优化技术 5. 未来展望
Lecture 2
内容提要
1. 2. 3. 4. 5. 超级计算机系统及其互连结构 Infiniband互连网络的体系结构 在HPC中的典型互连架构及应用 IB网络优化技术 未来展望
13
TH-1A互连架构
• 超级胖树结构
NO.3 Jaguar美洲虎,2.331Pflops
Cray XT5-HE Opteron Six Core 2.6 GHz,近25万个内核
美洲虎的3D-Torus
CRAY 超级计算机的Roadmap
Future system: 1 EF Cray XT5: 1+ PF Leadership-class system for science
InfiniBand 4X DDR
InfiniBand 2:1 fat tree
BladeCenter
BladeCenter
BladeCenter
BladeCenter
Roadrunner Architecture
Part 4: Scaling Out
Roadrunner Architecture
国际超级计算机500强排名(TOP500)
• 是美国田纳西大学、伯克利 NERSC 实验室和德 国曼海姆大学一些专家为评价世界超级计算机 性能而搞的民间学术活动,每年2次排出世界上 实际运行速度最快的前500台计算机。(6月、11 月) • 排名的依据是线性代数软件包 Linpack 的实际测 试数据,而峰值浮点运算速度作为参考值列出。 • Linpack基准测试程序
Part 4: Scaling Out
Compute Unit (CU)
Total cores:
7,200
Total flop/s:
Total cores: Total flop/s:
10.7 GB/s 8 GB DDR2 memory
10.7 GB/s 8 GB DDR2 memory
Total cores:
Total flop/s:
2 4
14,400,000,000 7,200,000,000
Roadrunner(走鹃)
Part 1: Opteron Blades
Total cores:
FY 2009
DARPA HPCS: 20 PF Leadership-class system
FY 2011
100–250 PF
FY 2015
FY 2018
美洲虎
NO.4 曙光“星云”, 2.9843Pflops
• Infiniband互连
No14: 神威蓝光:全国产化的超级计算 机问世
• 该机器获得科技部863计划支持,由国家并行计算机工程 技术研究中心制造,于2011年9月安装于国家超算济南中 心,全部采用自主设计生产的CPU(ShenWei processor SW1600),系统共8704个CPU,峰值1.07016PFlops,持续 性能795.9TFlops, Linpack效率74.37%,总功耗1074KW。 • 国家超级计算济南中心是科技部批准成立的全国3个千万 亿次超级计算中心之一,由山东省科学院计算中心负责建 设、管理和运营。 • 是国内首台全部采用国产中央处理器(CPU)和系统软件 构建的千万亿次计算机系统,标志着我国成为继美国、日 本之后第三个能够采用自主CPU构建千万亿次计算机的国 家。