超级计算机的现状与发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
超级计算机的现状与发展
XXX
XXXX
摘要:超级计算机的研制受永无止境的探求复杂的物理世界与人类社会本身的
应用计算需求的驱动及研制者所处环境(人员、经验、经费等)及当时的可选择的实现使能技术的影响。回顾历史,任何时刻研制的最高性能的计算机总是服务于当时的科学计算的需求(材料模型、药物设计、气候模拟、核武器模拟、电磁学等)或者称是以科学计算为最初应用的靶子进行设计的(当前最快的日本Ear th Simulation 与IBM BLUE/Gene 两个项目是很好的例子),而超级计算机使用与发明的技术逐步向商用领域转移与转化(SMP、MPP、Cluster 等),计算性能(当前的设计目标是Petaflops)及与其相匹配的存储、带宽等指标成为高性能计算机设计者追求的持续性关键指标。高性能计算机的实现使能技术包括计算数学(计算模型与算法)、计算机体系结构与部件构成技术三部分,为保持每十年性能增加700-1000 倍左右的速度(远高于摩尔定律单芯片的发展速度)及高性能计算能力70%的年增长需求,高性能计算机设计师仅仅考虑体系结构与部件构成两部分已不能满足现实的需求,对计算数学有相当的了解已成为必然。本文以性能为叙述主线,介绍超级计算机研制的历史、现状与未来展望。
关键字:超级计算机现状发展
目前各种超级计算机的高速处理能力基本上都是利用并行体系结构实现的,并行计算(Parall el Computing)已成为提高处理性能的关键技术之一。简单地讲,并行计算技术就是用同时运行的多个处理机或计算机来处理同一任务,从而大幅度提高任务的处理速度、缩短了任务的处理时间。
超级计算机的五大形态
在超级计算机技术的发展历程中,先后出现过多种超级计算机并行体系结构,主要有如下5种。
1.并行向量处理(Parallel Vector Processing,PVP)系统
采用一定数量的、并行运行的向量处理器和共享式内存(Shared Memory,SM)结构的计算机系统。PVP系统的SM结构,也就是采用高带宽的交叉开关将各个向量处理器与其共享的内存模块连接。向量处理器(Vector Processor)的一条指令能够同时对多个数据项(向量矩阵)执行运算,而一般的通用CPU属于标量处理器(Scalar Processor),每次只能对一个数据项进行处理。其代表机型有Cray XMP、Cray YNP、NEC SX2、我国的银河一号和二号等。
2.对称式多处理(Symmetric Multi Processing,SMP)系统
采用一定数量、并行运行的微处理器和共享式内存(SM)结构的计算机系统,各处理器通过系统总线或交叉开关连接共享的内存模块,可“均等”或“对称”地共享内存和其它系统资源并由同一操作系统管理,提高整个系统的数据处理能力,因此SMP属于“一致性内存访问”(Uniform Memory Access,UMA)方式,SMP的代表机型有IBM R50、SGI Power Chal lenge、Sun SPARC Center 2000、曙光一号等。
3.分布式共享内存(DistributedShared Memory,DSM)系统
由一定数量的并行处理节点(Node)组成,每个节点都是一个相对完整的计算单元(配置有处理器和内存模块),各节点通过高速网络互连,系统由单一操作系统管理,分布于各个节点的全部内存被统一编址,可由所有用户共享。与SMP不同,DSM对内存资源的共享是非对称的,因为每个节点访问本地内存与远程节点内存时的延迟和带宽是不同的,故DS M系统属于“非一致性内存访问”(No n-Uniform Memory Access,NUMA)方式,其代表机型有SGI Origin 2000/3000、Sequent NUMA-Q、HP/Convex SPP 1600、银河三号和神威一号等。
4.大规模并行处理(Massive Parallel Processing,MPP)系统
由成百上千计算节点组成的并行处理计算机系统,每个计算节点配置一个或多个处理器,各个节点相对独立,有各自独立的内存模块和操作系统。MPP系统的特点是可以获得很高的峰值运算速度,且由于系统的内存分布于各个节点,所以MPP属于“分布式内存”(Di stributed Memory,DM)结构,具有易扩展性。MPP的易扩展性使其能够与SMP、DSM 等结合,于是出现了SMP-MPP(各个MPP节点采用SMP并行多处理机)和DSMMPP(各个节点采用DSM并行多处理机)等复合型超级计算机系统。MPP系统的代表机型主要有IBM SP2、Intel Paragon、CRAY T3E、曙光1000等。
5机群式超级计算机系统
上世纪90年代中后期,随着Intel芯片等造价低廉的微型计算机组件的出现和网络技术的迅速发展,使采用普通微型机或工作站作为计算节点并采用高速网络互连的并行计算系统成为了可能,超级计算机体系结构由此开始迈入工作站机群(Cluster of Workstations,CO W)或工作站网络(Network of Workstations,NOW)时代。2000年以后,又出现了节点采用商用级处理器的机群系统(Cluster),以及采用SMP并行机作为计算节点的SMP机群或
星群(Constellation)。从内存访问方式上看,机群系统采用了与MPP相同的分布式内存(D M)结构,因而具有很高的可扩展性。机群系统的代表机型有洛斯阿拉莫斯国家实验室的Av alon Cluster、ASCI Blue Mountain、深腾1800/6800和曙光2000/3000等。
机群式超级计算机概况
机群式超级计算机系统具有结构灵活、通用性强、安全性高、易于扩展、高可用性和高性价比等诸多优点,所以目前新建的超级计算机大都使用这种结构,只不过在具体采用的节点机型、拓扑结构及互连技术会有所不同。
高性能计算专业网站TOP500的全球超级计算机500强排名中,机群式系统所占比率连年上升,现已达到83%以上。机群是采用高速网络将大量的节点相互连接起来的系统,每个机群节点都是一个配置有处理器、内存、I/O设备、网卡和操作系统的计算机,各个节点以协同方式并行完成计算任务。机群系统与MPP一样,也是属于分布式内存结构,因而具有很强的可扩展性。具体而言,机群系统主要由节点计算机、高速互连网络、操作系统、单一系统映像等中间件、并行编程环境和应用程序等部分组成。
●机群节点的计算机
机群节点可以灵活采用高性能的微型机、工作站或SMP并行机等,节点机处理器的处理性能是影响机群系统整体性能的一个最关键的因素。理论上节点机处理器的主频和浮点运算速度是决定机群计算速度的主要因素(见后面介绍的峰值速度计算公式)。
由于图形加速处理器(GPU)具有很强的浮点和向量(矩阵数组)计算能力,所以在机群中采用一定数量以GPU作为处理器的计算加速节点,将能提升机群的性能,例如“天河一号”就采用GPU加速节点并提升了GPU的计算效率,实现了CPU与GPU融合的异构协同计算。
●机群的互联技术
机群系统一般可以采用高带宽的以太网、异步传输模式(ATM)、可扩展一致性接口(S CI)、QsNet、Myrinet和InfiniBand等网络技术实现节点机的互连,其中千兆/万兆级以太网、Myrinet和InfiniBand使用比较广泛,尤其是后者InfiniBand互连技术也被称为“无限带宽”InfiniBand最初由Mellanox公司提出,是一种基于输入输出总线的通用宽带互连技术,原本是为了解决因PCI等并行总线结构速度较慢而导致的服务器CPU输入输出瓶颈问题,这种瓶颈制约了服务器与存储设备、网络节点、其它服务器之间的通信能力,但由于Infini Band非常适合于高性能计算系统,所以后来便成为一种广泛应用于超级计算机系统的开放性高速互连网络技术标准。
InfiniBand规范中定义了交换机、通道适配卡、线缆和子网管理器等标准设备,Infini Band交换机在各个节点、各种设备之间建立点对点的串行连接并进行流量控制,可有效避