高性能计算机技术(01)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能计算机技术新进展及前沿热点
樊建平陈明宇
(中国科学院计算技术研究所)[/center]
一、高性能计算机发展现状
1.从“全球超级计算机500强”看高性能计算机发展现状
全球超级计算机500强(TOP500)是高性能计算机领域的权威性评测结果。该评比一年举行两次,从1993年至今已经进行了22届。评选活动由国际上几个著名的国家实验室和大学联合完成。评选的方法是通过运行一个标准测试程序――LINPACK得到的实际性能结果进行排名。虽然不是所有的高性能计算机都参加TOP500的评测,LINPACK也不能代表所有实际的高性能计算应用特征,但TOP500排名一直是高性能计算机发展现状的缩影。
表1是2003年11月16日发布的最新TOP500结果的一部分。在TOP500的列表中,排名第一的仍然是日本在2002年发布的地球模拟器,实际性能达到每秒35万亿次浮点运算,并且领先第2名2倍以上。不过排在前10名的其他计算机都来自美国,整个500强是85%以上是美国公司制作的,并且美国在TOP500的装机数中共占248台,显示了美国在高性能计算机制造和应用方面的实力。日本、德国、英国各有35台左右的系统入选,属第二梯队。中国共有9台系统入选,其中由中国联想公司研制的深腾6800以每秒4万亿次排名第14位,给国际高性能计算机带来了不小的震动。
(表1)
从表1可以看出,传统的高性能计算机制造厂商如IBM、HP、NEC、Cray等在2003年并没有突出的表现,而基于开放源码的LINUX机群技术的LINUX NETWORX公司,以及传统的PC机制造商如戴尔、联想却进入了顶尖的行列。但是,最令人吃惊的还是排名第3位的系统X是由美国弗尼亚工学院的一群师生采用商用部分,花了4个月左右的时间制造出来的。高性能计算技术真的已经成熟到了象PC机一样业余人员就可以组装的地步了吗?为什么2003年传统的高性能计算机制造厂商在“沉默”呢?
事实上,高性能计算机体系结构的发展正处于一个技术发展S曲线的平滑期,上一次结构变革带来的发展动力已经趋向平缓和成熟,而下一波技术突破正在酝酿之中,这一次变革很可能比上一次更为激烈。
在2004年,仍会有基于传统技术的更高性能的系统推出,如美国的ASCI P将达到每秒百万亿次,中国的十万亿次曙光4000A将落户上海超级计算中心。日本的“宇宙模拟器”也在加紧研制中。但人们更为关心的是,下一代高性能计算机系统将会是什么?
2.高性能计算机发展面临的主要问题
在集成电路工业界有一个著名的“摩尔定律”,即半导体芯片集成度和运行频率每18个月左右翻一番。摩尔定律在提出后的近30年与现实发展惊人的一致,并且预计还可能有效持续到2020年左右。这一定律深深地影响到高性能计算机体系结构的发展。现在一片最先进的微处理器处理能力很可能超过10年前的一台高性能计算机。
从20世纪80年代中期开始,由多个微处理器组成的并行化高性能计算机开始取代传统
的向量机,成为发展的主流。这一趋势从对称多处理机(SMP)、大规模并行处理机(MPP)一直发展到机群(Cluster)系统。近10年来,高性能计算机系统的性能增加了500倍左右,而其中摩尔定律的贡献就占了40倍以上。机群系统是以这种以微处理器为核心的设计趋势发展到了极致的产物。
机群系统是由多个以微处理器为核心的计算机节点通过高速网络互连构成。机群的节点一般是可以独立运行的商品化计算机,高速通信网络设备近年来也已经逐渐商业化,机群使用系统软件则多以开放式软件为基础。由于普遍采用标准化、商品化、开放式构件,机群系统具有其他高性能系统不可比拟的性能/价格比优势。同时伴随着摩尔定律的发展,机群系统的潜力还可以得到进一步发挥,具有良好的前景。在TOP500中,机群系统已经占了42%,前10位中就有7个是机群系统,中国的曙光、联想、浪潮等公司也相继推出了机群结构的高性能计算机并已经占有国内机群市场相当的份额。
这种发展趋势使得有人认为至少在摩尔定律失效之前,机群结构就是高性能计算机的终结,制造更高性能的计算机系统只需要将机群系统的规模进一步扩大就可以了。
但是机群系统正是在可扩展能力上遇到了麻烦。机群系统的节点本身并非为构造大规模并行处理系统而设计的,因此节点完成单位计算能力所需要的电能、空间和散热量等都比较大。当节点数在几百到几千的规模时,这些因素的累积效应已经非常突出。如果进一步扩大规模,这些原本的次要因素将成为主要问题。一个典型例子是日本的地球模拟器设计了专门的三层机房、专用通风系统,而且还专门配备了一个发电厂(如图1)
(图1)
机群系统扩展的另一个问题是其可靠性和可管理性。众所周知,并行系统的可靠性和节点数成反比:节点的数量提高10倍,可靠性就会下降10倍。原来一个系统可以连续运行1个月不出故障,现在3天就可能出一次故障。如果一个计算任务需要持续运行1星期以上,则在这样的系统上根本就无法完成。
因此,研制更大规模并行系统或者更有效利用资源的系统成为当前高性能计算机系统研究的一个主要方向。在2003年超级计算机国际会议上有一个讨论组的主题是“10万个处理器的挑战”,这种规模对机群系统来说是不可想象的。
3.应用对高性能计算机的需求和高性能计算机发展对应用的推动
虽然目前世界上最快的高性能计算机系统已经达到40万亿次/秒,但是企业界已经开始讨论下一个里程碑―――PETAFLOPS(每秒千万亿次浮点运算)。这种对高性能计算机性能的执着追求绝不是研究人员自身的冲动,而是具有非常现实的需求。
探求复杂的物理世界与人类社会本身的应用一直是驱动计算机和计算科学发展的动力。近年来,科学研究方法已经从传统的理论分析和实验分析逐步向计算分析过渡。一些复杂问题的研究已经很难通过实验方式进行,或者是因为系统本身过于庞大和复杂而根本无法实验,如全球气候模型;或者是因为成本过高,进行大量实验不现实,如燃烧过程;或者是实验活动自身受到限制,如核物理模拟等。对这些问题的研究构成了对计算能力永无止境的追求。相比之下,摩尔定律的发展远远不能满足应用的需求。
以生物计算为例,目前的亿万次计算机,大概可以模拟1万个原子规模的酶催化反应;未来的千万亿次计算机,可以模拟10万个原子规模的新陈代谢过程;即使计算能力再翻1000倍,达到每秒一百亿亿次,也刚刚能模拟DNA蛋白质折叠的初级阶段,不到1个微秒的物理过程。因此,应用对计算能力的需求远远超出现有高性能计算机的能力。
另一方面,随着高性能计算机性能的提高、价格的降低,高性能计算已经从传统的满足科研和国家战略需求走向更广泛的行业应用,成为其他领域发展的关键性支撑技术之一。已