第11章_指令级并行技术

合集下载

计算机系统结构课后习题答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。

这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。

虚拟机:用软件实现的机器。

翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。

执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。

计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。

在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。

计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。

系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。

Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。

程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。

包括时间局部性和空间局部性。

CPI:每条指令执行的平均时钟周期数。

测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。

存储程序计算机:冯·诺依曼结构计算机。

其基本点是指令驱动。

程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。

系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

指令级并行的概念

指令级并行的概念
目录
• 指令级并行简介 • 指令级并行技术 • 指令级并行应用场景 • 指令级并行面临的挑战与解决方案 • 指令级并行未来展望
01
指令级并行简介
定义与特点
定义
指令级并行是指计算机在执行程序时，通过同时执行多个指令来提高处理速度的一种并行处理技术。
特点
指令级并行主要依赖于处理器中的指令流水线，通过并行执行多个指令，实现处理速度的提升。
详细描述
超线程技术允许在一个物理处理器核心上同时运行多个线程，从而实现指令级的并行处理。通过精细的调度和管理，超线程技术可以有效地利用处理器资源，提高处理器的整体性能。
VLIW（Very Long Instruction Word）技术
总结词
VLIW技术是一种将多个操作码和操作数组合到一个长指令中，由处理器一次执行的方法。
VS
详细描述
EPIC技术强调在编译阶段对程序进行并行化处理，通过分析程序中的指令关系和数据依赖关系，自动地生成并行执行的代码。EPIC技术的目标是最大化处理器的并行执行能力，从而提高程序的执行效率。
03
指令级并行应用场景
科学计算
科学计算是利用计算机进行大规模数值计算以解决科学研究和工程领域中的复杂问题。指令级并行技术可以提高科学计算的效率和精度，例如在气候模拟、流体动力学模拟、物理模拟等领域的应用。
指令缓存失效问题
指令缓存失效问题
由于指令的执行结果可能被缓存在缓存中，当指令并行执行时，缓存失效可能导致指令重新读取数据，从而影响并行执行的效率。
解决方案
通过缓存行对齐技术，将并行执行的指令对齐到同一缓存行，以减少缓存失效的次数。此外，可以使用写回策略来将指令的执行结

微处理器系统结构与嵌入式系统设计(第二版)答案全

“微处理器系统结构与嵌入式系统设计”第一章习题解答1.2 以集成电路级别而言，计算机系统的三个主要组成部分是什么？中央处理器、存储器芯片、总线接口芯片1.3 阐述摩尔定律。

每18个月，芯片的晶体管密度提高一倍，运算性能提高一倍，而价格下降一半。

1.5 什么是SoC？什么是IP核，它有哪几种实现形式？SoC：系统级芯片、片上系统、系统芯片、系统集成芯片或系统芯片集等，从应用开发角度出发，其主要含义是指单芯片上集成微电子应用产品所需的所有功能系统。

IP核：满足特定的规范和要求，并且能够在设计中反复进行复用的功能模块。

它有软核、硬核和固核三种实现形式。

1.8 什么是嵌入式系统？嵌入式系统的主要特点有哪些？概念：以应用为中心，以计算机技术为基础，软硬件可裁剪，适应应用系统对功能、可靠性、成本、体积和功耗的严格要求的专用计算机系统，即“嵌入到应用对象体系中的专用计算机系统”。

特点：1、嵌入式系统通常是面向特定应用的。

2、嵌入式系统式将先进的计算机技术、半导体技术和电子技术与各个行业的具体应用相结合的产物。

3、嵌入式系统的硬件和软件都必须高效率地设计，量体裁衣、去除冗余，力争在同样的硅片面积上实现更高的性能。

4、嵌入式处理器的应用软件是实现嵌入式系统功能的关键，对嵌入式处理器系统软件和应用软件的要求也和通用计算机有以下不同点。

①软件要求固体化，大多数嵌入式系统的软件固化在只读存储器中；②要求高质量、高可靠性的软件代码；③许多应用中要求系统软件具有实时处理能力。

5、嵌入式系统和具体应用有机的结合在一起，它的升级换代也是和具体产品同步进行的，因此嵌入式系统产品一旦进入市场，就具有较长的生命周期。

6、嵌入式系统本身不具备自开发能力，设计完成以后用户通常也不能对其中的程序功能进行修改，必须有一套开发工具和环境才能进行开发。

第二章习题答案2.2 完成下列逻辑运算（1）101+1.01 = 110.01（2）1010.001-10.1 = 111.101（3）-1011.0110 1-1.1001 = -1100.1111 1（4）10.1101-1.1001 = 1.01（5）110011/11 = 10001（6）(-101.01)/(-0.1) = 1010.12.3 完成下列逻辑运算（1）1011 0101∨1111 0000 = 1111 0101（2）1101 0001∧1010 1011 = 1000 0001（3）1010 1011⊕0001 1100 = 1011 01112.4 选择题（1）下列无符号数中最小的数是( A )。

计算机体系结构试题及答案

计算机体系结构试题及答案12008年01月23日22:211、计算机高性能发展受益于：(1)电路技术的发展；(2)计算机体系结构技术的发展。

2、层次结构：计算机系统可以按语言的功能划分为多级层次结构，每一层以不同的语言为特征。

第六级：应用语言虚拟机-> 第五级：高级语言虚拟机-> 第四级：汇编语言虚拟机-> 第三级：操作系统虚拟机-> 第二级：机器语言(传统机器级) ->第一级：微程序机器级。

3、计算机体系结构：程序员所看到的计算机的属性，即概括性结构与功能特性。

For personal use only in study and research; not for commercial use4、透明性：在计算机技术中，对本来存在的事物或属性，从某一角度来看又好像不存在的概念称为透明性。

5、Amdahl提出的体系结构是指机器语言级程序员所看见的计算机属性。

6、经典计算机体系结构概念的实质3是计算机系统中软、硬件界面的确定，也就是指令集的设计，该界面之上由软件的功能实现，界面之下由硬件和固件的功能来实现。

7、计算机组织是计算机系统的逻辑实现；计算机实现是计算机系统的物理实现。

8、计算机体系结构、计算机组织、计算机实现的区别和联系？答：一种体系结构可以有多种组成，一种组成可以有多种物理实现，体系结构包括对组织与实现的研究。

9、系列机：是指具有相同的体系结构但具有不同组织和实现的一系列不同型号的机器。

10、软件兼容：即同一个软件可以不加修改地运行于系统结构相同的各机器，而且它们所获得的结果一样，差别只在于运行时间的不同。

11、兼容机：不同厂家生产的、具有相同体系结构的计算机。

12、向后兼容是软件兼容的根本特征，也是系列机的根本特征。

13、当今计算机领域市场可划分为：服务器、桌面系统、嵌入式计算三大领域。

14、摩尔定律：集成电路密度大约每两年翻一番。

15、定量分析技术基础（1）性能的评测：（a）响应时间：从事件开始到结束之间的时间；计算机完成某一任务所花费的全部时间。

archit44

系统结构
4.3 动态分支预测技术

指令并行
处理器可达到的指令级并行度越高，控制相关的影响越大动态解决技术利用硬件对程序运行时分支的行为进行预测，提前对分支操作做出反应，加快分支处理的速度。分支预测的效果不仅取决于其准确性，而且与分支预测时的开销密切相关。分支转移的最终延迟取决于流水线的结构、预测的方法和预测错误后恢复所采取的策略动态分支预测技术要记录分支指令的历史、并据此决定预测的分支，还要尽快找到分支目标地址，从而避免控制相关造成流水线停顿
4.4 多指令流出技术

指令并行
将等于1的理想CPI减小，必须实现一个时钟周期流出（发射issue）多条指令
超标量(Superscalar)处理器：每个时钟周期流出多条指令（1～8），可以采用编译器进行静态调度顺序执行，也可以采用硬件动态调度乱序执行超长指令字(VLIW: Very Long Instruction Word)：通过编译器调度无关的多条指令（4～16）形成一条长指令，每个时钟周期流出一条长指令超级流水线(Super pipelining)：将每个功能部件进一步流水化，使得一个功能部件在一个时钟周期中可以处理多条指令（可以简单地理解为很长的流水线）

WAW 冲突（输出相关引起）如果在SUB.D写入F10 之前 ADD.D 执行结束，会出现问题
寄存器换名可以消除WAR和WAW冲突
指令并行
DIV.D F4,F0,F2 SUB.D F10,F4,F6 ADD.D F8,F12,F14

DIV.D F4,F0,F2 SUB.D F10,F4,F6 ADD.D F8,F6,F14
① 根据历史记录（预测位状态）进行分支预测 ② 根据实际分支情况修改预测位

2022年成都理工大学计算机应用技术专业《计算机系统结构》科目期末试卷B(有答案)

2022年成都理工大学计算机应用技术专业《计算机系统结构》科目期末试卷B（有答案）一、选择题1、系列机软件应做到( )。

A.向前兼容，并向上兼容B.向后兼容，力争向上兼容C.向前兼容，并向下兼容D.向后兼容，力争向下兼容2、除了分布处理、MPP和机群系统外，并行处理计算机按其基本结构特征可分为流水线计算机，阵列处理机，多处理机和（）四种不同的结构。

A.计算机网络B.控制流计算机C.机群系统D.数据流计算机3、全相联地址映象是指（）。

A.任何虚页都可装入主存中任何实页的位置B.一个虚页只装进固定的主存实页位置C.组之间是固定的，而组内任何虚页可以装入任何实页位置D.组间可任意装入，组内是固定装入4、Cache存贮器常用的地址映象方式是( )。

A.全相联映象B.页表法映象C.组相联映象D.段页表映象5、以下说法不正确的是( )A.线性流水线是单功能流水线B.动态流水线是多功能流水线C.静态流水线是多功能流水线D.动态流水线只能是单功能流水线6、传统机器语言机器级，是用（）来（）机器指令。

A.硬件，翻译B.编译程序，翻译C.微指令程序，解释D.微指令程序，翻译7、与流水线最大吞吐率高低有关的是( )A.各个子过程的时间B.最快子过程的时间C.最慢子过程的时间D.最后子过程的时间8、下列关于虚拟存贮器的说法，比较正确的应当是( )A.访主存命中率随页面大小增大而提高B.访主存命中率随主存容量增加而提高C.更换替换算法能提高命中率D.在主存命中率低时，改用堆栈型替换算法，并增大主存容量，可提高命中率9、推出系列机的新机器，不能更改的是( )A.原有指令的寻址方式和操作码B.系统总线的组成C.数据通路宽度D.存贮芯片的集成度10、下列说法中不正确的是( )A.软件设计费用比软件重复生产费用高B.硬件功能只需实现一次，而软件功能可能要多次重复实现C.硬件的生产费用比软件的生产费用高D.硬件的设计费用比软件的设计费用低二、判断题11、要使线性流水线的实际吞吐率接近于理想的最大吞吐率，应将子过程数分得越多越好。

单片机指令的并行执行技术

单片机指令的并行执行技术单片机指令的并行执行技术是一种提高单片机性能和效率的重要方法。

通过同时执行多个指令，可以大大加快程序运行速度，提高系统的响应能力。

本文将介绍单片机指令的并行执行技术以及其应用。

一、指令的并行执行原理指令的并行执行是指在一个时钟周期内同时执行多个指令。

实现指令的并行执行需要满足以下几个条件：1. 数据无相关性：同时执行的指令之间不能有数据相关性，即后续指令不依赖于前面指令的结果。

否则会导致数据错误。

2. 硬件支持：需要具备支持并行执行的硬件结构，包括有多个执行单元和数据通路。

基于以上原理，下面将介绍几种常见的单片机指令并行执行技术。

二、指令级并行执行技术指令级并行执行技术是指在一个时钟周期内同时执行多条指令的技术。

常见的指令级并行执行技术包括：1. 流水线技术：将指令执行过程分为多个阶段，每个阶段由不同的硬件执行，实现多个指令的同时执行。

比如Fetch（取指令）、Decode （解码）、Execute（执行）和Write Back（写回）等阶段。

2. 超标量技术：通过增加硬件资源，同时从指令存储器中提取多条指令并行执行。

不同于流水线技术，超标量技术可以并行执行多个指令的某个或全部阶段。

三、循环级并行执行技术循环级并行执行技术是指在一个循环中同时执行多条指令的技术。

常见的循环级并行执行技术包括：1. 向量处理器：通过并行处理多个数据元素来加速程序运行速度。

向量处理器可以一次性处理多个相同类型的指令，提高程序的执行效率。

2. SIMT技术：Single Instruction Multiple Thread，即单指令多线程技术。

通过将多个线程分配给不同的处理单元，实现多个线程的同时执行。

这种技术广泛应用于图形处理器（GPU）等领域。

四、应用领域指令的并行执行技术在多个领域都有广泛应用，特别是对于对计算能力要求较高的应用场景。

下面列举几个典型的应用领域：1. 数字信号处理（DSP）：在音频和视频处理等领域，需要高效处理大量数据，指令的并行执行技术可以提高处理速度和实时性。

体系测试题及答案

体系测试题及答案一、选择题（每题2分，共20分）1. 体系结构中，以下哪一项不是基本构件？A. 处理器B. 总线C. 存储器D. 打印机2. 在计算机体系结构中，下列哪个选项是衡量性能的关键指标？A. 内存大小B. CPU频率C. 硬盘容量D. 显示器分辨率3. 以下哪个不是计算机体系结构的分类？A. 冯·诺依曼体系结构B. 哈佛体系结构C. 网络体系结构D. RISC体系结构4. 计算机体系结构中的流水线技术主要用于：A. 提高内存访问速度B. 减少数据传输延迟C. 提高指令执行效率D. 增强图形处理能力5. 以下哪个不是计算机体系结构中的并行技术？A. 指令级并行B. 数据级并行C. 线程级并行D. 磁盘阵列6. 在计算机体系结构中，缓存的目的是：A. 存储操作系统B. 存储临时文件C. 减少CPU与内存之间的速度差异D. 存储用户数据7. 以下哪个是衡量计算机体系结构性能的指标？A. 像素B. 分辨率C. 时钟频率D. 硬盘转速8. 计算机体系结构中的多核处理器技术主要用于：A. 减少能耗B. 提高计算速度C. 增加存储容量D. 改善图形显示9. 以下哪个是计算机体系结构中的虚拟化技术？A. 多任务处理B. 多线程处理C. 多核处理D. 虚拟内存10. 在计算机体系结构中，以下哪个技术可以提高系统的可靠性？A. 冗余设计B. 电源管理C. 热插拔技术D. 网络通信答案：1.D 2.B 3.C 4.C 5.D 6.C 7.C 8.B 9.D 10.A二、填空题（每空1分，共10分）1. 计算机体系结构中的______是指将指令和数据分开存储和处理。

2. 计算机体系结构中的______技术可以提高指令的执行速度。

3. 计算机体系结构中的______技术允许多个指令在不同的阶段同时执行。

4. 计算机体系结构中的______是指使用多个处理器来提高计算能力。

5. 计算机体系结构中的______是指通过软件来模拟硬件的功能。

体系结构试题及答案

一．名词解释计算机系统结构：传统机器程序员所看到的计算机属性，即概念性结构与功能特性。

在计算机技术中，把这种本来存在的事物或属性，但从某种角度看又好像不存在的概念称为透明性。

系列机：由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

同构型多处理机系统：由多个同类型或至少担负同等功能的处理机组成，它们同时处理同一作业中能并行执行的多个任务。

堆栈型机器：CPU 中存储操作数的单元是堆栈的机器。

累加器型机器：CPU 中存储操作数的单元是累加器的机器。

通用寄存器型机器：CPU 中存储操作数的单元是通用寄存器的机器。

数据相关：考虑两条指令i和j，i在j的前面，如果下述条件之一成立，则称指令j与指令i数据相关：（1）指令j使用指令i产生的结果；（2）指令j与指令k数据相关，而指令k又与指令i数据相关。

定向：用来解决写后读冲突的。

在发生写后读相关的情况下，在计算结果尚未出来之前，后面等待使用该结果的指令并不见得是马上就要用该结果。

如果能够将该计算结果从其产生的地方直接送到其它指令需要它的地方，那么就可以避免停顿。

向量处理机：指令级并行：简称ILP。

是指指令之间存在的一种并行性，利用它，计算机可以并行执行两条或两条以上的指令。

指令的动态调度：是指在保持数据流和异常行为的情况下，通过硬件对指令执行顺序进行重新安排，以提高流水线的利用率且减少停顿现象。

是由硬件在程序实际运行时实施的。

指令的静态调度：是指依靠编译器对代码进行静态调度，以减少相关和冲突。

它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。

失效率：CPU访存时，在一级存储器中找不到所需信息的概率。

失效开销：CPU向二级存储器发出访问请求到把这个数据调入一级存储器所需的时间。

强制性失效：当第一次访问一个块时，该块不在Cache中，需要从下一级存储器中调入Cache，这就是强制性失效。

容量失效：如果程序在执行时，所需要的块不能全部调入Cache中，则当某些块被替换后又重新被访问，就会产生失效，这种失效就称作容量失效。

系统结构测试题及答案

1.4 测试题及参考答案（一）单项选择题（在下列每小题的四个备选答案中，只有一个答案是正确的，请把你认为是正确答案的题号，填入题后的（）内，多选不给分）1、计算机系统多级层次中，从下层到上层，各级间相对顺序正确的应当是（）。

①汇编语言机器级——操作系统机器级——高级语言机器级②微程序机器级——传统机器语言机器级——汇编语言机器级③传统机器语言机器级——高级语言机器级——汇编语言机器级④汇编语言机器级——应用语言机器级——高级语言机器级2、汇编语言源程序变换成机器语言目标程序是经（）来实现的。

①编译程序解释②汇编程序解释③编译程序翻译④汇编程序翻译3、直接执行微指令的是（）。

①汇编程序②编译程序③硬件④微指令程序4、对系统程序员不透明的应当是（）。

①Cache存贮器②系列机各档不同的数据通路宽度③指令缓冲寄存器④虚拟存贮器5、对应用程序员不透明的应当是（）。

①先行进位链②乘法器③指令缓冲器④条件码寄存器6、对机器语言程序员透明的是（）。

①中断字②主存地址寄存器③通用寄存器④条件码7、计算机系统结构不包括（）。

①主存速度②机器工作状态③信息保护④数据表示8、对计算机系统结构透明的是（）。

①字符行运算指令②是否使用通道型I/O处理机③虚拟存贮器④VLSI技术9、对汇编程序语言透明的是（）。

①I/O方式中的DMA访问方式②浮点数据表示③访问方式保护④程序性中断10、属计算机系统结构考虑的是（）。

①主存采用MOS还是TTL②主存采用多体交叉还是单体③主存容量和编址方式④主存频宽的确定11、从计算机系统结构上讲，机器语言程序员所看到的机器属性是（）。

①计算机软件所要完成的功能②计算机硬件的全部组成③编程要用到的硬件组织④计算机各部件的硬件实现12、计算组成设计不考虑（）。

①专用部件设置②功能部件的集成度③控制机构的组成④缓冲技术13、在多用户机器上，应用程序员不能使用的指令是（）。

①“执行”指令②“访管”指令③“启动I/O”指令④“测试与置定”指令14、以下说法中，不正确的是（）。

计算机系统结构答案

一、选择题1、对汇编语言程序员，下列（A ）不是透明的。

A: 中断字寄存器 B: 乘法器 C: 移位器 D: 指令缓冲器2、假设对A机器指令系统的每条指令的解释执行可直接由B机器的一段微程序解释执行，则A称为（D ）。

A: 仿真机 B: 宿主机 C: 虚拟机 D: 目标机3、 1. 查看下面三条指令：V3←A；V2←V0+V1；V4←V2*V3；假设向量长度小于64,且前后其他的指令均没有相关性，数据进入和流出每个功能部件，包括访问存储器都需要一拍的时间，假设向量的长度为N。

三条指令全部采用串行的方法，那么执行的时间是：A: 3N+20 B: 3N+21 C: 3N+22 D: 3N+234、某向量处理机有16个向量寄存器，其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数；处理部件采用两个单功能流水线，加法功能部件时间为2拍，乘法功能部件时间为3拍。

采用类似CRAY-1的链接技术，先计算(A+B)*C,在流水线不停的情况下，接着计算(D+E)*F。

求此链接流水线的通过时间是多少拍?（设寄存器出入各需1拍）A: 8 B: 9 C: 17 D: 185、设有一个4个处理器的MIMD系统，假设在系统中访存取指和取数的时间可以忽略不计；加法与乘法分别需要2拍和4拍；在MIMD系统中处理器（机）之间每进行一次数据传送的时间为1拍；在MIMD系统中，每个PE都可以和其它PE有直接的的通路。

求利用此系统计算表达式所需的节拍数。

A: 23 B: 12 C: 11 D: 106、以下哪些是周期窃取方式的特点？A : 硬件结构简单B : 硬件结构复杂C : 数据输入或输出过程中占用了CPU时间D : 数据输入或输出过程中不占用CPU时间7、从下列有关Cache的描述中，选出应填入空格中的正确答案：(1)今有甲、乙两台计算机，甲计算机的Cache存取时间为50ns，主存储器为2us；乙计算机的Cache存储时间为100ns，主存储器为1.2us。

计算机系统结构(第2版(课后习题答案

word 文档下载后可自由复制编辑你计算机系统结构清华第 2 版习题解答word 文档下载后可自由复制编辑1 目录1.1 第一章（P33）1.7-1.9 （透明性概念），1.12-1.18 （Amdahl定律），1.19、1.21 、1.24 （CPI/MIPS）1.2 第二章（P124）2.3 、2.5 、2.6 （浮点数性能），2.13 、2.15 （指令编码）1.3 第三章（P202）3.3 （存储层次性能）， 3.5 （并行主存系统），3.15-3.15 加 1 题（堆栈模拟），3.19 中（3）（4）（6）（8）问（地址映象/ 替换算法-- 实存状况图）word 文档下载后可自由复制编辑1.4 第四章(P250)4.5 （中断屏蔽字表/中断过程示意图），4.8 （通道流量计算/通道时间图）1.5 第五章（P343）5.9 （流水线性能/ 时空图），5.15 （2种调度算法）1.6 第六章（P391）6.6 （向量流水时间计算），6.10 （Amdahl定律/MFLOPS）1.7 第七章（P446）7.3 、7.29（互连函数计算），7.6-7.14 （互连网性质），7.4 、7.5 、7.26（多级网寻径算法），word 文档下载后可自由复制编辑7.27 （寻径/ 选播算法）1.8 第八章(P498)8.12 ( SISD/SIMD 算法)1.9 第九章(P562)9.18 ( SISD/多功能部件/SIMD/MIMD 算法)（注：每章可选1-2 个主要知识点，每个知识点可只选 1 题。

有下划线者为推荐的主要知识点。

）word 文档下载后可自由复制编辑2 例 , 习题2.1 第一章 (P33)例 1.1,p10假设将某系统的某一部件的处理速度加快到 10倍 ,但该部件的原处理时间仅为整个运行时间的40%，则采用加快措施后能使整个系统的性能提高多少？解：由题意可知： Fe=0.4, Se=10，根据 Amdahl 定律S n To T n1 (1Fe )S n 1 10.6 0.4100.64 Fe Se 1.56word 文档下载后可自由复制编辑例 1.2,p10采用哪种实现技术来求浮点数平方根 FPSQR 的操作对系统的性能影响较大。

单片机原理及接口技术张毅刚课后习题答案

第1章单片机概述1．除了单片机这一名称之外，单片机还可称为和。

答：微控制器，嵌入式控制器。

2．单片机与普通微型电脑的不同之处在于其将、、和3部分集成于一块芯片上。

答：CPU、存储器、I/O口。

3．8051与8751的区别是。

A．内部数据存储单元数目不同B．内部数据存储器的类型不同C．内部程序存储器的类型不同D．内部寄存器的数目不同答：C。

4．在家用电器中使用单片机应属于微电脑的。

A．辅助设计应用；B．测量、控制应用；C．数值计算应用；D．数据处理应用答：B。

5．微处理器、微电脑、微处理机、CPU、单片机它们之间有何区别？答：微处理器、微处理机和CPU都是中央处理器的不同称谓；而微电脑、单片机都是一个完整的电脑系统，单片机特指集成在一个芯片上的用于测控目的的单片微电脑。

6．MCS-51系列单片机的基本型芯片分别为哪几种？它们的差异是什么？答：MCS-51系列单片机的基本型芯片分别是8031、8051和8751。

它们的差异是在片内程序存储器上。

8031无片内程序存储器，8051片内有4KB的程序存储器ROM，而8751片内集成有4KB的程序存储器EPROM。

7．为什么不应当把51系列单片机称为MCS-51系列单片机？答：因为MCS-51系列单片机中的“MCS”是Intel公司生产的单片机的系列符号，而51系列单片机是指世界各个厂家生产的所有与8051的内核结构、指令系统兼容的单片机。

8．AT89C51单片机相当于MCS-51系列单片机中的哪一种型号的产品？答：相当于MCS-51系列中的87C51，只不过是AT89C51芯片内的4KB Flash 存储器取代了87C51片内的4KB的EPROM。

第2章 AT89C51单片机片内硬件结构1．在AT89C51单片机中，如果采用6MHz晶振，一个机器周期为。

答：2µs2．AT89C51单片机的机器周期等于个时钟振荡周期。

答：12。

3．内部RAM中，位地址为40H、88H的位，该位所在字节的字节地址分别为和。

指令级并行的概念

○ 开发循环体中存在的并行性。 ● 最常见、最基本
○ 是指令级并行研究的重点之一。
指令级并行的概念
4.1 指令级并行的概念
最基本的开发循环级并行的技术
指令调度（scheduling）
A
技术换名（renaming）技术 C
循环展开（loop
B
unrolling）技术
指令级并行的概念
通过改变指令在程序中的位置，将相关指 ○ 令之间的距离加大到不小于指令执行延迟，将 ● 相关指令转化为无关指令。 ● 指令调度是循环展开的技术基础。
结构有关。程序中的相关主要有以下三种
• 数据相关 • 名相关 • 控制相关
1.数据相关（data
dependence）
指令级并行的概念
0
对于指令i和指令j，如果
1
一．
指令j使用指令i产生的结果，或者
二．
指令j与指令k数据相关，指令k与指令i数据相
○
关，则指令j与指令i数据相关。
○
数据相关具有传递性。
ADDD F16,F14,F2
8
SD 0(R1),F4
SD -8(R1),F8
SUBI R1,R1,#32
12
SD 16(R1),F12
11
BNEZ R1,Loop
SD 8(R1),F16
14
指令 1 2
5 6
9 10
13
4.1 指令级并行的概念
结果分析：
没有数据相关引起的空转等待整个循环仅仅使用了14个时钟周期
-8(R1),F8 F10,-16(R1) 13
流出时钟
ADDD 15
（空转） 16
（空转） 17

并行体系结构课后答案

第一章绪论什么是并行计算机答：简单地讲，并行计算机就是由多个处理单元组成的计算机系统，这些处理单元相互通信和协作，能快速高效求解大型的复杂的问题。

简述Flynn分类法：答：根据指令流和数据流的多重性将计算机分为：1）单指令单数据流SISD2）单指令多数据流SIMD3）多指令单数据流MISD4）多指令多数据流MIMD简述当代的并行机系统答：当代并行机系统主要有：1）并行向量机（PVP）2）对称多处理机（SMP）3）大规模并行处理机（MPP）4）分布式共享存储（DSM）处理机5）工作站机群（COW）为什么需要并行计算机答：1）加快计算速度2）提高计算精度3）满足快速时效要求4）进行无法替代的模拟计算简述处理器并行度的发展趋势答：1）位级并行2）指令级并行3）线程级并行简述SIMD阵列机的特点答：1）它是使用资源重复的方法来开拓计算问题空间的并行性。

2）所有的处理单元（PE）必须是同步的。

21m 3）阵列机的研究必须与并行算法紧密结合，这样才能提高效率。

4）阵列机是一种专用的计算机，用于处理一些专门的问题。

简述多计算机系统的演变答：分为三个阶段：1）1983-1987年为第一代，代表机器有：Ipsc/1、Ameteks/14等。

2）1988-1992年为第二代，代表机器有：Paragon 、Intel delta 等。

3）1993-1997年为第三代，代表机器有：MIT 的J-machine 。

简述并行计算机的访存模型答：1）均匀存储访问模型（UMA ）2）非均匀存储访问模型（NUMA ）3）全高速缓存存储访问模型（COMA ）4）高速缓存一致性非均匀访问模型（CC-NUMA ）简述均匀存储访问模型的特点答：1）物理存储器被所有处理器均匀共享。

2）所有处理器访问任何存储字的时间相同。

3）每台处理器可带私有高速缓存。

4）外围设备也可以一定的形式共享。

简述非均匀存储访问模型的特点答：1）被共享的存储器在物理上分布在所有的处理器中，其所有的本地存储器的集合构成了全局的地址空间。

计算机体系结构各章简答题及答案

计算机体系结构各章简答题及答案第⼀章计算机体系结构的基本概念1. 什么是计算机系统的多级层次结构？2. 硬件和软件在什么意义上是等效的在什么意义上是不等效的？3. 经典计算机系统结构的实质是什么？4. 语⾔实现的两种基本技术是什么？5. 对于通⽤寄存器型机器来说，机器语⾔程序设计者所看到的计算机的属性主要有哪些？6. 什么是软件兼容软件兼容有⼏种其中哪⼀种是软件兼容的根本特征？7. 什么是系列机它的出现较好地解决了什么⽭盾？8. 对计算机发展⾮常关键的实现技术有哪些？9. 实现软件移植的主要途径有哪些？10. 试以系列机为例，说明计算机系统结构、计算机组成和计算机实现三者之间的关系。

11. 存储程序计算机在系统结构上的主要特点是什么？12. 从系统结构的发展情况看，新型系统结构的设计主要从哪两⽅⾯着⼿？13. 软件技术两个最重要的发展趋势是什么？14. 计算机系统设计⼈员的技术挑战主要来⾃哪⼏个⽅⾯？15. ⼀种计算机系统结构的⽣命周期是怎样的？16. 商品的标价（价格）由哪些因素构成？17. 对计算机系统成本产⽣影响的主要因素有哪些？18. ⽤户CPU时间由哪三个因素决定？19. ⽬前常⽤的测试程序分为哪五类？20. 什么叫测试程序组件在评价计算机系统设计时最常见的测试程序组件是哪个？21. SPEC2000测试程序组件中包括哪⼏个测试程序组件？22. 测试基于Microsoft公司的Windows系列操作系统平台的最常⽤测试组件有哪些？23. 常⽤的专门的性能指标测试程序有哪些？24. 计算机系统结构设计和分析中最经常使⽤的三条基本原则是什么25. 根据Amdahl定律，系统加速⽐由哪两个因素决定？26. 从执⾏程序的⾓度看，并⾏性等级从低到⾼可分为哪⼏级？27. 从处理数据的⾓度，并⾏性等级从低到⾼可以分为哪⼏级？28. 计算机系统中提⾼并⾏性的技术途径有哪三种？29. 多机系统的耦合度可以分为哪⼏类？30. 单机系统和多机系统中，都是按哪三种技术途径分别发展为哪三类多处理机？31. 三种类型的多处理机（同构型多处理机、异构型多处理机、分布处理系统）的主要区别是什么1. 什么是计算机系统的多级层次结构从计算机语⾔的⾓度，把计算机系统按功能划分成以下多级层次结构：2. 硬件和软件在什么意义上是等效的在什么意义上是不等效的硬件和软件在功能实现上是等效的，即⼀种功能可以由软件实现，也可以由硬件实现。

计算机体系结构指令级并行与超标量技术的优化方法

计算机体系结构指令级并行与超标量技术的优化方法计算机体系结构指令级并行与超标量技术的优化方法是指通过提高计算机指令级并行性和利用超标量技术来提高计算机性能的方法。

本文将介绍这些优化方法，并讨论它们在现代计算机体系结构中的应用。

一、指令级并行优化方法指令级并行是指在执行一条计算机指令时，同时执行多条指令的能力。

在传统的单指令多数据（SIMD）和多指令多数据（MIMD）体系结构中，指令级并行主要通过指令流水线、乱序执行和分支预测等技术来实现。

1. 指令流水线指令流水线是将一条指令的执行过程划分为多个子阶段，并通过并行执行这些子阶段来提高计算机的吞吐量。

典型的指令流水线包括取指、译码、执行、访存和写回等阶段。

指令流水线的优化方法包括增加流水线的深度、减少流水线的停顿以及解决流水线冲突等。

2. 乱序执行乱序执行是指根据指令之间的依赖关系，在不改变程序执行结果的前提下，通过调整指令的执行顺序来提高指令级并行性。

乱序执行技术包括乱序发射、数据回复和指令重排序等。

3. 分支预测分支预测是为了解决程序中分支指令对流水线的冲击而出现的一种技术。

分支预测通过猜测分支指令的执行方向来提高指令级并行性。

常见的分支预测方法包括静态分支预测和动态分支预测。

二、超标量技术的优化方法超标量技术是指在同一个时钟周期内同时发射多条指令，并通过并行执行这些指令来提高计算机性能的技术。

超标量技术主要包括超标量发射、超标量执行和动态调度等。

1. 超标量发射超标量发射是指在一个时钟周期内同时发射多条指令到执行单元。

通过增加发射宽度，可以同时发射更多的指令，从而提高指令级并行性。

2. 超标量执行超标量执行是指在一个时钟周期内通过并行执行多条指令来提高计算机性能。

超标量执行的优化方法包括增加执行单元的数量、增加执行单元的功能和使用更高效的执行指令等。

3. 动态调度动态调度是指通过调度器来动态选择可以立即执行的指令，并将其发送到执行单元。

通过动态调度，可以有效地利用执行单元的资源，提高指令级并行性和计算机性能。

2022年华中科技大学计算机应用技术专业《计算机系统结构》科目期末试卷A(有答案)

2022年华中科技大学计算机应用技术专业《计算机系统结构》科目期末试卷A（有答案）一、选择题1、对系统程序员不透明的应当是（）A.CACHE 存储器B.系列机各档不同的数据通路宽度C.指令缓冲寄存器D.虚拟存储器2、在尾数下溢处理方法中，平均误差最大的是（）A.截断法B.舍入法C.恒置"1"法D.ROM查表法3、在计算机系统的层次结构中，机器被定义为（）的集合体A.能存储和执行相应语言程序的算法和数据结构B.硬件和微程序（固件）C.软件和固件D.软件和硬件4、计算机系统的层次结构按照由高到低的顺序分别为（）。

A.高级语言机器级，汇编语言机器级，传统机器语言机器级，微程序机器级B.高级语言机器级，应用语言机器级，汇编语言机器级，微程序机器级C.应用语言机器级，传统机器语言机器级，汇编语言机器级，操作系统机器级D.应用语言机器级，操作系统机器级，微程序机器级，传统机器语言机器级5、下列说法正确的是（）A."一次重叠"是一次解释一条指令B."一次重叠"是同时解释相邻两条指令C.流水方式是同时只能解释两条指令D."一次重叠"是同时可解释很多条指令6、虚拟存储器常用的地址映象方式是( )A.全相联B.段相联C.组相联D.直接7、计算机系统多级层次中，从下层到上层，各级相对顺序正确的应当是（）。

A.汇编语言机器级，操作系统机器级，高级语言机器级B.微程序机器级，传统机器语言机器级，汇编语言机器级C.传统机器语言机器级，高级语言机器级，汇编语言机器级D.汇编语言机器级，应用语言机器级，高级语言机器级8、输入输出系统硬件的功能对（）是透明的。

A.操作系统程序员B.应用程序员C.系统结构设计人员D.机器语言程序设计员9、推出系列机的新机器，不能更改的是( )A.原有指令的寻址方式和操作码B.系统总线的组成C.数据通路宽度D.存贮芯片的集成度10、以下说法中，不正确的是,软硬件功能是等效的，提高硬件功能的比例会：( )A.提高解题速度B.提高硬件利用率C.提高硬件成本D.减少所需要的存贮器用量二、判断题11、指令间的读写相关是全局相关。

指令级并行：动态分支预测技术

指令级并⾏：动态分⽀预测技术动态分⽀预测技术⽤于处理控制冒险。

其基本思想是，在遇到控制冒险时，预测转移⽅向，并执⾏该⽅向的指令，猜对时继续执⾏后续指令，猜错时回头执⾏另⼀⽅向的指令。

分⽀预测算法分为静态和动态两种。

静态预测算法直接进⾏固定的猜测或按指令能容进⾏猜测，其常见时机则分别为IF段和ID段。

动态预测算法根据转移历史来预测新的转移⽅向，其主要类型有饱和计数预测、相关预测、⾃适应预测等，均可以⽤于IF段预测。

基本预测器即饱和计数预测器通常将分⽀历史⽤两个⼆进制位表⽰，根据⾼位来预测，根据结果来更新，其本质是⼀个具有4各状态的DFA。

它只根据当前分⽀的分⽀历史来预测，在连续两次错误预测时改变预测⽅向，⽤于循环时性能较好。

实现上，需要⽤分⽀历史表来记录各分⽀指令地址对应的分⽀历史信息，设置查找更新机构来实现数据的更新。

相关预测器使⽤其它分⽀的⾏为来预测当前分⽀，(m,n)预测器包含m位全局历史和n*2^m位模式历史，根据前m个分⽀的⾏为去选⼀个预测器，根据这个预测器内的分⽀历史来预测当前⽅向。

其性能远好于基本预测器。

在此基础上再做改进，有锦标赛预测器，即全局/局部⾃适应预测器，由⾃适应选择器来决定是使⽤全局预测器还是局部预测器。

锦标赛预测器是⽬前最好的预测器。

预测时应当可以获得分⽀⽬标地址，否则预测是没有意义的，因此，仅有分⽀历史表BHT的信息不⾜以进⾏动态分⽀预测的实现，我们通常需要分⽀⽬标缓冲器BTB来实现转移历史的管理。

BTB是⼀个类似Cache的结构。

查找时，⽤PC查BTB，当标记与PC内容相等时命中。

当BTB缺失且执⾏结果为转移时建⽴新⾏。

当BTB命中时根据执⾏结果更新对应⾏的转移历史。

在设置BTB后，IF段时查BTB，命中时写⼊PC，否则PC正常⾃增。

ID段判断是否为BTB缺失的分⽀指令，此处可以进⾏静态预测。

EX段根据执⾏结果更新BTB。

当出现错误预测时，需要清空流⽔线以恢复现场，并重置PC。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

EX3 WB M WB ID IF EX ID M EX M
WB
执行一次循环需要6个时钟周期，性能提高了执行一次循环需要6个时钟周期， 10/6100%=67%。（10/6-1）*100%=67%。问题：指令次序重组的思想是什么？问题：指令次序重组的思想是什么？
（ d）超标量超流水线处理机时空图
各种指令级并行处理机的比较
超长指令字ห้องสมุดไป่ตู้理机
超长指令字处理机
超长指令字（VLIW）超长指令字（VLIW）是一种单指令流多操作码多数据的系统结构，系统结构，由编译程序在编译时找出指令间潜在的并行进行适当调度安排，性，进行适当调度安排，把多个能并行执行的操作组合在一起，成为一条具有多个操作段的超长指令。在一起，成为一条具有多个操作段的超长指令。由这条超长指令去控制VLIW VLIW处理机中多个互相独立工作的功能超长指令去控制VLIW处理机中多个互相独立工作的功能部件，每个操作段控制一个功能部件，部件，每个操作段控制一个功能部件，相当于同时执行多条指令。多条指令。
超标量处理机
超标量处理机
通常把一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机。标量处理机。为了能够在一个时钟周期内同时发射多条指令，为了能够在一个时钟周期内同时发射多条指令，超标量处理机必须有两条或者两条以上能够同时工作的指令流水线。必须有两条或者两条以上能够同时工作的指令流水线。高性能超标量处理机一般还有一个先行指令窗口，它能够从指高性能超标量处理机一般还有一个先行指令窗口，令Cache中预取多条指令，而且能够对这些指令进行数据相关 Cache中预取多条指令，中预取多条指令性分析和功能部件冲突检测。性分析和功能部件冲突检测。超标量处理机开发空间并行性，超标量处理机开发空间并行性，在每个时钟周期可以平均执行完成多条指令。完成多条指令。如果一台超标量处理机每个时钟周期同时发射条指令，则它的指令级并行度ILP的期望值就为m ILP的期望值就为 m条指令，则它的指令级并行度ILP的期望值就为m。但由于资源冲突、数据相关、控制相关等原因，实际的ILP不可能达到m ILP不可能达到源冲突、数据相关、控制相关等原因，实际的ILP不可能达到m，通常是1 ILP＜通常是1＜ILP＜m。
超标量超流水线处理机
超标量超流水线处理机
指令每个时钟周期发射9条指令， ILP＝ 9 I9 I8 I7 I6 I5 I4 I3 I2 I1 IF IF IF 1 IF IF IF ID ID ID 2 IF IF IF ID ID ID EX EX EX 3 ID ID ID EX EX EX MEM MEM MEM 4 EX EX EX MEM MEM MEM WB WB WB 5 6 7 8 时钟周期 MEM MEM MEM WB WB WB WB WB WB
超长指令字处理机
超长指令字处理机特点 1.超长指令字的生成是由编译器来完成的超长指令字的生成是由编译器来完成的， 1.超长指令字的生成是由编译器来完成的，由它将串行的操作序列合并为可并行执行的指令序列，串行的操作序列合并为可并行执行的指令序列，以最大限度实现操作并行性。以最大限度实现操作并行性。 2.单一的控制流，只有一个控制器，每个时钟周期 2.单一的控制流，只有一个控制器，单一的控制流启动一条长指令。启动一条长指令。 3.超长指令字被分成多个控制字段超长指令字被分成多个控制字段， 3.超长指令字被分成多个控制字段，每个字段直接独立地控制每个功能部件。独立地控制每个功能部件。 4.含有大量的数据通路和功能部件含有大量的数据通路和功能部件。 4.含有大量的数据通路和功能部件。由于编译器在编译时间已解决可能出现的数据相关和资源冲突，编译时间已解决可能出现的数据相关和资源冲突，故控制硬件比较简单。故控制硬件比较简单。
EX3 WB EX ID IF M EX ID X
M EX IF
WB M WB ID X IF
指令次序重组
采用指令次序重组和延迟转移技术，采用指令次序重组和延迟转移技术，将上述程序修改如下：上述程序修改如下：
memory[r1+0]= Loop:load f0,0(r1);f0 memory[r1+0]=x[i] r2subicc r2,r2,1;r2 r2-1, 循环计数值减一 f0+f1， fadd f0,f0,f1;f0 f0+f1，f1=s 地址增量, addi r1,r1,4;r1 r1+4,地址增量,指向下一数据 loop;计数值不为则转至loop继续。计数值不为0 loop继续 bnez loop;计数值不为0则转至loop继续。 f0,-4(r1);memory[r1f0= store f0,-4(r1);memory[r1-4] f0=x[i]+s
指令级并行技术简介
多指令发射技术超标量（Superscalar）超标量（Superscalar）处理机超流水线（Superpipelining）处理机超流水线（Superpipelining）超标量超流水线（超标量超流水线（Superscalar Superpipeling） Superpipeling）处理机超长指令字（ Word）超长指令字（Very Long Instruction Word）处理机
指令次序重组
引例的执行时序：引例的执行时序：采用内部前推技术周期：周期： 1 2 3 4 5 6 1. load: IF ID EX M WB 2. X 3. fadd: IF ID EX1 EX2 4. X 5. store: IF ID 6. addi: IF 7. subicc: 8. 9. bnez: 10. load: 执行一次循环需要10个时钟周期。 10个时钟周期执行一次循环需要10个时钟周期。 7 8 9 10 11
超流水线处理机
超流水线处理机
超标量超流水线处理机
超标量超流水线处理机
可以把超标量技术与超流水线技术结合在一起，可以把超标量技术与超流水线技术结合在一起，这就是超标量超流水线处理机。是超标量超流水线处理机。它在一个时钟周期内要发射指令m 每次发射指令n 射指令m次，每次发射指令n条，故每个时钟周期中总共发射指令m 。（见下图见下图）共发射指令m×n条。（见下图）超标量超流水线处理机既开发空间并行性，超标量超流水线处理机既开发空间并行性，又开发时间并行性。间并行性。前者在重复设置的操作部件上同时执行多个操作来提高程序的执行速度，个操作来提高程序的执行速度，后者在同一操作部件上重叠多个操作，上重叠多个操作，通过使用较快时钟周期的深度流水线来加快程序的执行速度。其并行度期望值为m 线来加快程序的执行速度。其并行度期望值为m×n。
第11章 11章
指令级并行技术
指令级并行技术简介
当指令不相关时，它们在流水线中是重叠执行的。当指令不相关时，它们在流水线中是重叠执行的。这种指令序列中存在的潜在并行性称为指令级并行指令级并行。令序列中存在的潜在并行性称为指令级并行。指令级并行度ILP ILP（ Parallelism），指令级并行度ILP（Instruction Level Parallelism），它定义为在一个时钟周期内流水线上流出的指令数。它定义为在一个时钟周期内流水线上流出的指令数。衡量指令级并行性的一个指标是CPI CPI（衡量指令级并行性的一个指标是CPI（Clock Cycles Per Instruction），），它定义为流水线中执行一条指令所需的 Instruction），它定义为流水线中执行一条指令所需的时钟周期数。时钟周期数。为了达到CPI CPI＝这样的理想情况，为了达到CPI＝1这样的理想情况，必须采用相应的技术减少数据相关和控制相关，静态调度和动态调度，少数据相关和控制相关，静态调度和动态调度，从软件和硬件两个方面解决问题。硬件两个方面解决问题。要进一步提高流水线的吞吐率，获得更高的性能，要进一步提高流水线的吞吐率，获得更高的性能，就必须 CPI＜使CPI＜1 。如果流水线在一个时钟周期内能够有多条指令流出的话，目的就可以实现了，令流出的话，目的就可以实现了，多指令流处理器就有效的解决了这个问题。的解决了这个问题。
（ a）基准标量处理机时空图
（ b）超标量处理机时空图
超流水线处理机
超流水线处理机
一般把在一个时钟周期内能够分时发射多条指令的处理机称为超流水线处理机。另外，也把指令流水线的段数大于等于8 超流水线处理机。另外，也把指令流水线的段数大于等于8的流水线处理机称为超流水线处理机。流水线处理机称为超流水线处理机。超标量处理机是通过重复设置多个部件，超标量处理机是通过重复设置多个部件，并且让这些部件能够同时工作来提高指令的执行速度；同时工作来提高指令的执行速度；而超流水线处理机则只是通过增加少量硬件，过增加少量硬件，通过各部分硬件的充分重叠工作来提高处理机的性能。机的性能。超标量处理机采用的是空间并行性，而超流水线处理机是开发超标量处理机采用的是空间并行性，时间并行性，通过各部分硬件的充分重叠来提高机器性能。一时间并行性，通过各部分硬件的充分重叠来提高机器性能。台并行度ILP为n的超流水线处理机，它在一个时钟周期内能够台并行度ILP为的超流水线处理机， ILP 发射n条指令。但是n条指令不是同时发射，而是每隔1／n个时发射n条指令。但是n条指令不是同时发射，而是每隔1 钟周期发射一条指令。钟周期发射一条指令。
指令次序重组
修改后的程序的执行时序：修改后的程序的执行时序：
周期：周期： 1 2 3 4 5 1. load: IF ID EX M WB 2. subicc: IF ID EX M 3. fadd: IF ID EX1 4. addi: IF ID 5. bnez: IF 6. store: load: 6 WB EX2 EX ID IF 7 8 9 10 11