计算机体系结构综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体系结构高性能的追求
计算机体系结构是选择并相互连接硬件组件的一门科学和艺术,在人们不断探索研究的过程中,一直在追求计算机的功能、性能、功率以及花费的高度协调,以期达到各方面的最佳状态,在花费、能量、可用性的抑制下,实现计算机的多功能、高性能、低功率、少花费的一个新时代。
根据当前体系结构的发展现状,要实现以上全部要求的一台计算机,还存在着诸多的限制条件,包括逻辑上的以及硬件上的。本篇综述针对2008年的ISCA会议上的几篇论文,经过仔细研读,深刻剖析,这些文章将现在计算机体系结构发展遇到的各种瓶颈列出,并给出了相关的意见及可行的解决方案。
计算机的体系结构范围很广,定义也很宽泛,它包含了指令集的设计、组织、硬件与软件的边界问题等等,同时涉及了应用程序、技术、并行性、编程语言、接口、编译、操作系统等很多方面。作为各项技术发展的中心,体系结构一直在不断地朝前发展。
纵观计算机体系结构一路发展的历史,从60年代中期以前,最早的体系结构发展的早期时代,计算机系统的硬件发展很快,通用硬件已经很普遍,但是软件的发展却很滞后,刚刚起步,还没有通用软件的概念。从60年代中期到70年代中期,体系结构有了很大进步。多道程序、多用户系统引入了人机交互的新概念,开创了计算机应用的新境界,使硬件和软件的配合上了一个新的层次,但是此时的软件由于个体化特性很难维护,出现了“软件危机”。从20世纪70年代中期开始,分布式系统开始出现并流行,极大地增加了系统的复杂性,出现了微处理器并获得了广泛应用。如今计算机的体系结构发展已经进入了第四代,硬件和软件得到了极大的综合利用,迅速地从集中的主机环境转变成分布的客户机/服务器(或浏览器/服务器)环境,新的技术不断涌现出来。尽管如此,计算机在总体上、功能上需要解决的问题仍然存在。随着RISC技术、Cache等创新技术的发展,不仅仅在专业领域,越来越多的PC机也在向此靠拢。在每一次进步与创新的同时使组件的成本降到最低成为最需要考虑的问题。
此次会议上发表的几篇论文,分别从以下几个方面对计算机体系结构的发展与改进进行了探究。
一、新一代服务器的发展
在《Understanding and Designing New Server Architectures for Emerging Warehouse-Computing Environments》一文中,提出了一个改善服务器性能的方案。这篇论文旨在试图理解和为新兴的“仓库计算”环境设计下一代服务器。文中有两个主要的
贡献。首先,放在一起的具体评价基础设施包括:为“仓库计算”工作量提供的一套新的基准,和详细的性能、成本、和权力模型,来定量描述瓶颈。其次,研究了一种新的解决方案,它在一种新的包装方案中,通过内存共享和以闪存为基础的硬盘缓存包含了大量的无服务器组件。结果表明,该方法已经承诺,将为该基准在性能上以平均2倍的速度来改善。
可以看出,该篇文章着力于改善服务器的性能,分析了影响性能的各种因素,并一一剖析,针对瓶颈所在,提出可行的解决方案。在互联网迅速发展的时代,服务器的性能也是如今计算机发展的一个重要方面,服务器的性能好坏直接关系到整个网络的运行情况,以及能否高效地利用计算机的各项资源,文中所述的方法为服务器的改善与优化提供了全新的发展方向。
二、通过线程级并行改善处理器性能
《Software-Controlled Priority Characterization of POWER5 Processor》是针对处理器的各种限制发表的。根据指令级并行性的限制,线程级并行成为改善处理器性能的一种流行的方法。文中以IBM的POWER5TM处理器为例子,这是一个双上下文的同时多线程芯片。在每一种表面组装技术的核心,IBM POWER5突出了两层线程资源的平衡和优化。第一层提供了自动的内嵌硬件资源平衡设备,而第二层是一种软件控制优化机制,它显示了线程优化的八层。现在,由于缺乏机制影响的性能描述,软件控制优先次序仅仅被应用在软件平台有限的几例上。在这项工作中,文中描绘了在几种不同工作量下基于软件优化的影响。通过显著地在核心依靠工作量,展示了优化的影响。通过优化正确的任务,与基线相比,可能会为综合的工作量得到超过两倍的生产能力改善。同时也把两个不同的性能度量作为目标,介绍两个应用学习案例:第一个学习案例增加了整个工作量的23.7%,第二个学习案例减少了整个执行时间的9.3%。此外,文中还展示了当一个背景线程没有影响前景线程的性能时能够明显地运行时的环境。
通过并行性来改善处理器的性能,已经不是新的技术,但是该篇文章中将并行性细化到线程级,大大提高了并行度,并且克服了通常指令级并行的限制,不失为一个有较大发展全景的方法。以POWER5TM处理器为例子,更加形象直观地给出了该方法的优点及特性,用具体的量化实验给出了可行性的证明,这在计算机体系结构今后的发展中将起到重要的作用,也给出了很多方面的启迪。
三、并行性意识分批处理时序
《Parallelism-Aware Batch Scheduling: Enhancing both Performance and Fairness of Shared DRAM Systems》:在一个芯片多重处理器系统中,动态随机存储器是在内核中共享的。在一个共享的动态随机存储器系统中,要求一个线程不仅延迟来自其
他线程的由于边界、总线、行缓冲器冲突的请求,而且还会破坏其他线程动态随机存储器边界层的并行性。请求那些存在潜在因素否则被重叠能够有效地序列化。由于公平性和系统工作量的下降,一些线程的扫描需要很长的一段时间。这篇论文从根本上提出了一个设计动态随机存储器控制器的新方法,为线程提供了服务质量,同时也改善了系统的工作量。文中的并行意识分批处理时序(PAR-BS)基于两个关键的观点。首先,PAR-BS分批地处理DRAM 请求来提供公平并且避免请求的饿死。其次,优化系统工作量,PAR-BS采用并行意识DRAM 时序安排策略,目标在于处理来自一个在DRAM边界的并行线程的请求,从而通过线程减少内存关联,拖延时间经验。PAR-BS无缝地包含了对系统级线程优先级的支持,并且能够对不同优先级的线程提供不同的服务层,包括纯粹投机的服务。我们评价涉及PAR-BS的设计权衡,并且在4、8、16核系统上把它与4个以前提出的DRAM调度程序设计比较。文中评估显示,平均每4核超过100的工作量,PAR-BS改善了1.11X的公平性,而且系统通过与以前最好的时序、延时公平内存时序安排(STFM)技术比较改善了8.3%。基于简单的优先次序规则请求,PAR-BS比实施STFM更简单。
文中提出了一个叫做并行意识分批处理时序(PAR-BS)的方法,这是一种设计动态随机存储器控制器的新方法,通过分批处理请求以及优化系统工作量,为线程提供服务质量,同时也改善了系统的工作量。再一次利用并行的方法,处理并行的线程请求,可以看做在上一文的基础之上,对处理器做了进一步的优化,从存储器的方面来并行处线程,既节省了内存空间,又不影响程序运行的并行性。
四、内嵌磁盘并行性
《Intra-disk Parallelism: An Idea Whose Time Has Come 》一文中,服务器存储系统使用大量的磁盘来实现高性能,因此消耗大量的能量。在这篇论文中,我们建议由这样的存储系统通过内嵌磁盘并行性显著地减少能量,在I/O请求流中磁盘驱动器能够开发并行性。内嵌磁盘并行性能够帮助一个大的磁盘阵列替换一个较小的,用满足容量需求的磁盘最小数目。我们展示了内嵌磁盘并行性的设计空间很大,而且呈现了用这样的空间来规划特定的实现的一个分类学。用一整套商业工作量,我们执行了一个限制性学习来鉴定关键性能瓶颈,这在我们用一个调整用于提供高性能的存储阵列来替代一个单独的高内存的磁盘驱动器。我们展示了这是可能匹配的,甚至超越,通过使用一个拥有足够的空间的单磁盘驱动器的一个存储阵列的性能,开发了内嵌磁盘并行性。而通过存储系统显著地减少能量消耗。我们计算由内嵌磁盘并行驱动器组成的磁盘阵列的性能和能量消耗,并且讨论实现和调度这样的磁盘驱动器的工程和花费问题。
这又是一个并行性的优化方法,与前面所述的两种并行性不同,该文是针对磁盘提出的