计算机体系结构-第二讲流水线基础

合集下载

第二章流水线

从理论上说，级过程段的流水线处理n 从理论上说，一个具有 k级过程段的流水线处理n个任务所需的时钟周期数为：务所需的时钟周期数为： Tk=k+(n – 1) 非流水线的硬件来处理n个任务所需的时钟周期数为：非流水线的硬件来处理n个任务所需的时钟周期数为： TL=n×k × K级线性流水线的加速比 K 级线性流水线的加速比C 级线性流水线的加速比 Ck=TL / Tk=(n×k) / [k+(n – 1)] × 当n>>k时，Ck→k n>>k时
L 输入 S1
L S2
L S3
L S4
L 输出
时钟C 时钟四级流水浮点加/ 四级流水浮点加/减运算的基本结构
流水线需在各个过程段之间设置高速缓冲寄存器L 流水线需在各个过程段之间设置高速缓冲寄存器线性流水线时钟周期 τ=max{τi}+τl =τm+τl τ τ τ τ
式中max{τi}表示取所有过程段中所需的最长操作时间。 τ 表示取所有过程段中所需的最长操作时间表示取所有过程段中所需的最长操作时间。式中
4) 按照流动是否可以乱序来分
◆ 顺序流动流水线：流水线输出端任务流出的顺顺序流动流水线：
序与输入端任务流入的顺序相同。序与输入端任务流入的顺序相同
◆ 异步流动流水线（乱序流水线）：流水线输出异步流动流水线（乱序流水线）：）：流水线输出
端任务流出的顺序与输入端任务流入的顺序不同。不同
解：(1) 加法器的流水线时钟周期至少为：τ＝90ns + 10ns 加法器的流水线时钟周期至少为：＝
如果采用通用的逻辑电路，但不是流水线方式，如果采用通用的逻辑电路，但不是流水线方式，则浮点加法所需的时间为τ 的时间为 1 +τ2 + τ3 +τ4 = 300ns 因此，4级流水线加法器的加速比为因此，级流水线加法器的加速比为 Ck = 300/100 = 3 当每个过程段的时间都是75ns时， (2) 当每个过程段的时间都是时则加速比为：则加速比为：Ck = 300/75 = 4

冯诺依曼体系结构的基本内容

冯·诺依曼体系结构的基本内容1. 引言冯·诺依曼体系结构（Von Neumann Architecture）是计算机科学中最重要的概念之一。

它是由数学家冯·诺依曼于1945年提出的，被广泛应用于现代计算机的设计与实现。

冯·诺依曼体系结构为计算机提供了一种基本的组织和工作方式，使得计算机能够高效地执行各种任务。

2. 基本原理冯·诺依曼体系结构的基本原理包括以下几个方面：2.1 存储程序冯·诺依曼体系结构中，程序和数据都存储在同一块内存中。

这意味着计算机可以像读取数据一样读取指令，而不需要将指令和数据分开存储。

2.2 指令流水线冯·诺依曼体系结构中，指令以顺序方式执行。

每条指令都经过取指、解码、执行等阶段，然后再取下一条指令。

这种流水线式的执行方式使得计算机能够高效地处理大量指令。

2.3 存储器层次结构冯·诺依曼体系结构中，计算机的存储器按照速度和容量的不同分为多个层次。

越接近CPU的存储器速度越快，容量越小；而越远离CPU的存储器速度越慢，容量越大。

这种层次结构能够提高计算机的存取效率。

2.4 控制单元和运算单元冯·诺依曼体系结构中，计算机由控制单元和运算单元组成。

控制单元负责指令的执行和程序的流程控制，而运算单元则负责数据的处理和运算。

2.5 输入输出系统冯·诺依曼体系结构中，计算机通过输入输出系统与外部设备进行交互。

输入输出系统使得计算机能够接收外部输入数据，并将处理结果输出到外部设备。

3. 冯·诺依曼体系结构与现代计算机冯·诺依曼体系结构为现代计算机的设计与实现提供了基本框架。

现代计算机在冯·诺依曼体系结构基础上进行了许多扩展和优化，但其基本原理仍然保持不变。

3.1 多核处理器现代计算机往往采用多核处理器，即在一个物理芯片上集成多个处理核心。

这样可以提高计算机的并行能力，使得计算机能够同时执行多个任务。

计算机系统结构第一章计算机系统结构的基础知识PPT课件

PU1 DS1 MM1
CU IS PU2 DS2 MM2
SIMD
PUn DSn MMn
3.MISD多指令流单数据流
DS
MM1 MM2
IS1 CU1 IS1 PU1 IS2 CU2 IS2 PU1
MMn
ISn CUn ISn PU1
DS
4.多指令流多数据流MIMD计算机的体系结构：
CU1 IS1 PU1 DS1 CU2 IS2 PU1 DS2
i=1
n
CPU时间(T)=时钟周期长度* (CPIi*Ii )
1.1.4.3 汉德勒(Händler)分类法
1. 根据并行度和流水线提出的一种分类法。 2. t(系统型号)=(k,d,w)
➢ 程序控制部件(PCU)的个数k； ➢ 算术逻辑部件(ALU)或处理部件(PE)的个数d； ➢ 每个算术逻辑部件包含基本逻辑线路(ELC)的套数w，如加法器位
数 3. t(系统型号)＝(k×k’,d×d’,w×w’) ：有流水线
解：由题意可知：Fe=0.4, Se=10，根据Amdahl定律
1
1
Sn
0.60.4
0Байду номын сангаас6
1.5 4
6
10
例1.2：假设FP指令集中浮点平方根操作FPSQR占整个测试程序执行时间的20%(fe0)，采用2种不同方法进行改进：
一种方法是采用FPSQR硬件，使FPSQR操作的速度加快到10 倍(Se0)。另一种实现方法是使所有浮点数据指令的速度加快，使 FP指令的速度加快到1.6倍(Se1)，FP指令占整个执行时间的50% （Fe1)。请比较这两种设计方案。采用哪种实现技术来求浮点数平方根FPSQR的操作对系统的性能影响较大。

计算机体系结构——流水线技术（Pipelining）

2.按功能分
单功能流水线：流水线只完成一种固定功能多功能流水线：流水线可以完成多种功能，如 TI公司的ASC机，8段流水线，能够实现：定点加减法、定点乘法、浮点加法等功能 3.按同一时间内各段之间的连接方式分静态多功能流水线：同一时间内，多功能结构只能按一种功能的连接方式工作。动态多功能流水线：在同一时间内，可以有多种功能的连接方式同时工作 4.按处理的数据类型标量流水线向量流水线 5.按控制方式同步流水线异步流水线：当Si功能段要向Si+1段传送数据时，首先发出就绪信号，Si+1功能段收到信号后，向Si回送一个回答信号。 6.按任务从输出端的流出顺序顺序流水方式：指令流出顺序 = 指令流入顺序乱序流水方式：指令流出顺序！= 指令流入顺序 7. 线性流水线——不带反馈回路的流水线
三、流水线的分类（了解）
四、流水线相关及冲突（重点） 1.流水线相关 2.流水线冲突 3.流水线冲突带来问题 4.数据冲突及其解决方案 5.结构冲突及其解决方案 6.控制冲突及其解决方案
五、流水线性能分析(含例题讲解) 1.流水线的基本参数——吞吐率 2.流水线的基本参数——加速比 3.流水线的基本参数——效率 4.结果分析 5.有关流水线性能的若干问题
整体评估、反馈、再改进
3. 指令周期
单周期处理机模型：一个周期完成一个指令（每个周期是等长的），指令长度可能不一样，会造成很大的浪费多周期处理机模型：将一个指令的完成划分成若干个周期来实现流水线模型
二、流水线技术 1. 什么是流水线？计算机中的流水线是把一个重复的过程分解为若干个子过程，每个子过程与其他子过程并行进行。由于这种工作方式与工厂中的生产流水线十分相似，因此称为流水线技术从本质上讲，流水线技术是一种时间并行技术。

3-2 流水线技术

IF
ID
IF
EX
MEM
WB
IF ID IF EX ID IF MEM EX ID IF WB MEM EX ID WB MEM EX
stall stall
3、控制冲突

由分支指令引起的延迟称为分支延迟。分支指令在目标代码中出现的频度很高，性能损失很大。

据统计，每3～4条指令就有一条是分支指令。假设：分支指令出现的频度是30％，流水线理想 CPI＝1，那么：流水线的实际 CPI ＝ 1.9。系统性能损失将近50%！
分支指令分支目标指令分支目标指令+1 分支目标指令+2 分支目标指令+3 IF ID IF EX MEM WB IF ID IF EX ID IF MEM EX ID IF WB MEM EX ID WB MEM EX
stall stall
简单处理分支指令：分支失败的情况
分支指令
分支后继指令分支后继指令+1 分支后继指令+2 分支后继指令+3
将计算结果写入R1
6
7
8
9
MEM WB EX MEM ID IF EX ID IF
WB MEM WB EX MEM WB ID EX MEM
读R1
WB
（1）数据相关冲突的3种类型

根据指令读访问和写访问的顺序，可以将数据冲突分为3种类型：考虑两条指令i和j ，且i在j之前进入流水线，可能发生的数据冲突有：
写后读冲突（RAW）：在 i 写入之前，j 先去读。
j 读出的内容是错误的。这是最常见的一种数据
冲突，它对应于真数据相关。
数据相关冲突的3种类型
写后写冲突（WAW）：在 i 写入之前，j 先写。最

计算机体系结构之流水线技术(ppt 125页)

3 流水线技术
张伟计算机学院
大纲
1 概念定义 2 流水线分类 3 MIPS五级流水线 4 性能分析 5 流水线相关 6 高级流水线技术
1 概念定义
洗衣店的例子
A, B, C, D 均有一些衣物要清洗，甩干，折叠
清洗要花30 分钟甩干要用40 分钟叠衣物也需要20 分钟
流水线输出端任务流出的顺序与输入端任务流入的顺序相同。
异步流动流水线（乱序流水线）：
流水线输出端任务流出的顺序与输入端任务流入的顺序不同。
3 MIPS五级流水线
DLX(Dancing Links)
DLX 是一种简单的指令集（教学、简单芯片）在不流水的情况下，如何实现DLX。
实现DLX指令的一种简单数据通路
4. 存储器访问周期MEM（Memory Access） 5. 写回周期WB（Write Back）
MIPS的简单实现
Instruction Fetch
Instr. Decode Reg. Fetch
Next PC
Next SEQ PC
4
RS1
RS2
Execute Addr. Calc
Zero?
RD
增加了向后传递IR和从MEM/WB.IR回送到通用寄存器组的连接。
将对PC的修改移到了IF段，以便PC能及时地加 4，为取下一条指令做好准备。
2. 每一个流水段进行的操作
IR[rs]＝IR6..10 IR[rt]＝IR11..15 IR[rd]＝IR16..20
流水线的每个流水段的操作
将有效地址计算周期和执行周期合并为一个时钟周期，这
是因为MIPS指令集采用load／store结构，没有任何指令
需要同时进行数据有效地址的计算、转移目标地址的计算

《计算机系统结构》教学大纲

《计算机系统结构》教学大纲课程名称：计算机系统结构课程学时：72学时课程类型：专业必修课课程学分：3学分课程考核方式：考试一、课程目标本课程旨在使学生了解计算机系统的基本结构和原理，掌握计算机系统的层次结构、指令系统和中央处理器、主存储器和输入输出系统等方面的知识，培养学生分析和设计计算机系统的能力。

二、课程内容1.计算机系统概论1.1计算机系统的发展历程1.2计算机系统的基本组成部分1.3计算机系统的层次结构2.指令系统2.1指令的分类与特点2.2指令的寻址方式2.3指令的执行过程2.4简单指令系统的设计与实现3.中央处理器3.1数据通路和控制器3.2指令的执行过程3.3中央处理器的设计与实现3.4流水线技术4.主存储器4.1存储器的基本概念4.2存储器的层次结构4.3存储器的组织与管理4.4高速缓存存储器的设计与实现4.5虚拟存储器5.输入输出系统5.1输入输出系统的功能与分类5.2输入输出设备的接口技术5.3中断处理和DMA技术5.4输入输出系统的设计与实现三、教学方法本课程采用理论课和实验相结合的教学方法。

理论课主要讲授计算机系统的基本原理和概念，通过示例和案例分析加深学生的理解。

实验课将对部分计算机系统组成部分进行仿真和实践操作，提高学生的实际操作能力。

四、教材与参考书主教材：《计算机组成与设计》（第5版）- David A. Patterson, John L. Hennessy，机械工业出版社参考书：1. 《计算机系统结构教程》- M. Morris Mano, 赵洁，高等教育出版社2.《计算机体系结构》-王肇国，机械工业出版社五、考核方式与评分标准本课程采取考试的方式进行综合评估。

考试主要包括选择题、填空题、简答题和综合性问题。

评分标准包括学生对计算机系统原理的掌握程度、对计算机系统设计的理解程度以及实验操作能力的表现等。

六、实验内容1.设计一个简单的指令系统，包括指令集、寻址方式和控制流程。

计算机体系结构课后习题原版答案-张晨曦著（2）

第1章计算机系统结构的基本概念1.1解释下列术语计算机系统结构：传统机器程序员所看到的计算机属性，即概念性结构与功能特性。

计算机组成：计算机系统结构的逻辑实现，包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现：计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，模块、插件、底板的划分与连接，信号传输，电源、冷却及整机装配技术等。

系统加速比：对系统中某部分进行改进时，改进后系统性能提高的倍数。

Amdahl定律：当对一个系统中的某个部件进行改进后，所能获得的整个系统性能的提高，受限于该部件的执行时间占总执行时间的百分比。

并行性：计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。

只要在时间上相互重叠，就存在并行性。

它包括同时性与并发性两种含义。

1.2试用实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系。

答：如在设计主存系统时，确定主存容量、编址方式、寻址范围等属于计算机系统结构。

确定主存周期、逻辑上是否采用并行主存、逻辑设计等属于计算机组成。

选择存储芯片类型、微组装技术、线路设计等属于计算机实现。

计算机组成是计算机系统结构的逻辑实现。

计算机实现是计算机组成的物理实现。

一种体系结构可以有多种组成。

一种组成可以有多种实现。

1.4计算机系统设计中经常使用的4个定量原理是什么？并说出它们的含义。

答：（1）以经常性事件为重点。

在计算机系统的设计中，对经常发生的情况，赋予它优先的处理权和资源使用权，以得到更多的总体上的改进。

（2）Amdahl定律。

加快某部件执行速度所获得的系统性能加速比，受限于该部件在系统中所占的重要性。

（3）CPU性能公式。

执行一个程序所需的CPU时间=IC×CPI×时钟周期时间。

（4）程序的局部性原理。

程序在执行时所访问地址的分布不是随机的，而是相对地簇聚。

1.6某台主频为400MHz的计算机执行标准测试程序，程序中指令类型、执行数量和平均时钟周期数如下：指令类型指令执行数量平均时钟周期数整数450001数据传送750002浮点80004分支15002求该计算机的有效CPI、MIPS和程序执行时间。

计算机组成与体系结构——流水线相关知识点（常考计算）

计算机组成与体系结构——流⽔线相关知识点（常考计算）流⽔线是软考中经常考的⼀部分内容，并且常以要求计算的形式出现，所以，这⾥详细总结⼀下流⽔线的相关知识点。

流⽔线的概念流⽔线是指在程序执⾏时多条指令重叠进⾏操作的⼀种准并⾏处理实现技术。

即可以同时为多条指令的不同部分进⾏⼯作，以提⾼各部件的利⽤率和指令的平均执⾏速度。

我们都知道，在执⾏⼀条指令的过程中，最少要经历取指分析执⾏三个步骤，也就是说，假设有三个指令1 、2、 3，当我们在正常情况下，在执⾏指令1的时候，会⾸先对指令1按照以上三个步骤进⾏处理，处理完毕后在对指令2进⾏处理，以此类推。

⽽流⽔线的应⽤，就是像我们在⼯⼚中⼀样，当对指令1进⾏分析⼯作时，同时对指令2进⾏取指，继续执⾏，当指令1到达执⾏阶段时，指令2进⼊分析阶段1同时对于指令3进⾏取指处理，这样就⼤⼤增加了对于时间的利⽤率。

流⽔线的计算 1、流⽔线的执⾏时长 ①关于流⽔线的周期，我们需要知道的是，流⽔线周期（△t）为指令执⾏阶段中执⾏时间最长的⼀段。

②流⽔线的计算公式为：完成⼀条指令所需的时间+（指令条数-1）*流⽔线周期，在这个公式中，⼜存在理论公式和实践公式。

理论公式：实践公式：（k+n-1）*△t k为⼀条指令所包含的部分的多少例题：若指令流⽔线⼀条指令分为取指、分析、执⾏三个阶段，并且这三个阶段的时间分别为取指1ns，分析2ns，执⾏1ns，则流⽔线的周期为多少？100条指令全部执⾏完毕需要执⾏的时间是多少？分析：上⾯已经说过，流⽔线的周期为花费时间最长的阶段所花费的时间，所以流⽔线的周期就是2ns。

根据理论公式，T=（1+2+1）+（100-1）*2=4+99*2=202ns 根据实践公式，T=（3+100-1）*2=204ns 在这⾥，需要注意的是，因为流⽔线的理论公式和实践公式的结果不⼀样，但是在考试过程中可能都会考到，所以，在应⽤时，先考虑理论公式，后考虑实践公式。

计算机体系结构基础知识要点梳理

计算机体系结构基础知识要点梳理计算机体系结构是指计算机硬件和软件之间的交互方式和组织方式。

在计算机科学领域中，对计算机体系结构的理解是非常重要的。

本文将梳理计算机体系结构的基础知识要点，以帮助读者更好地理解和应用这一领域的知识。

一、什么是计算机体系结构计算机体系结构是指计算机硬件和软件之间的接口和交互方式。

它对计算机的功能、性能、能耗以及可扩展性等方面起到了决定性的影响。

计算机体系结构包括指令集架构、操作系统、内存管理、输入输出等方面的设计和实现。

二、指令集架构（ISA）指令集架构是计算机体系结构的核心之一。

它定义了计算机的指令集和指令的编码方式，决定了计算机能执行哪些操作。

常见的指令集架构有CISC（复杂指令集计算机）和RISC（精简指令集计算机）。

CISC架构的指令较为复杂，可以执行多种操作，而RISC架构的指令较为简单，执行速度更快。

三、存储器层次结构存储器层次结构是计算机体系结构中的重要概念之一。

它由多级存储器组成，包括寄存器、缓存、内存和硬盘等。

存储器层次结构的设计目标是提高访问速度和存储容量，以及降低成本。

其中，寄存器是最快的存储器，但容量较小；缓存是位于CPU和内存之间的存储器，可以提高访问速度；内存是计算机主存储器，容量大但访问速度较慢；硬盘用于长期存储，容量最大但访问速度最慢。

四、处理器和流水线处理器是计算机体系结构中的核心部件。

它负责执行计算机指令，进行算术逻辑运算和控制数据流动等操作。

常见的处理器类型包括中央处理器（CPU）和图形处理器（GPU）。

流水线是一种提高指令执行效率的技术，它将指令执行过程划分为多个子操作，并通过多级流水线的并行处理方式，提高处理器的吞吐量。

五、总线和I/O系统总线是计算机体系结构中的重要组成部分，它用于连接计算机的各个硬件设备，传输数据和控制信息。

常见的总线包括数据总线、地址总线和控制总线。

I/O系统负责计算机与外部设备之间的数据交换和控制操作。

软件设计师计算机体系结构考点：流水线技术

软件设计师计算机体系结构考点：流水线技术【考法分析】本考点涉及的考查形式有：（1）流水线相关理论概念；（2）流水线相关计算。

【要点分析】1.流水线理论概念（1）流水线是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术。

各种部件同时处理是针对不同指令而言的，它们可同时为多条指令的不同部分进行工作，以提高各部件的利用率和指令的平均执行速度。

（2）流水线建立时间：1条指令执行时间。

（3）流水线周期：执行时间最长的一段。

2、流水线相关计算：（1）流水线执行时间（理论公式）：（t1+t2+..+tk）+（n-1）*∆t。

（2）流水线执行时间（实践公式）：k*∆t +（n-1）*∆t。

（3）流水线吞吐率：TP = 指令条数/ 流水线执行时间。

（4）流水线最大吞吐率1 / ∆t。

（5）流水线加速比：顺序执行时间/流水线执行时间。

【备考点拨】吞吐率：单位时间内流水线处理机流出的结果。

对指令而言就是单位时间内执行的指令数。

如果流水线子过程所用的时间不一样，则吞吐率P应为（最长子过程的倒数）。

流水线开始工作，需要经过一段时间才能达到最大吞吐率。

【相关考题】1.下列关于流水线方式执行指令的叙述中，不正确的是（）。

A.流水线方式可提高单条指令的执行速度B.流水线方式下可同时执行多条指令C.流水线方式提高了各部件的利用率D.流水线方式提高了系统的吞吐率2.流水线的吞吐率是指单位时间流水线处理的任务数，如果各段流水的操作时间不同，则流水线的吞吐率是（）的倒数。

A. 最短流水段操作时间B. 各段流水的操作时间总和C. 最长流水段操作时间D. 流水段乘以最长流水段操作时间。

经典：计算机系统结构-流水线技术---3.2-DLX的基本流水线

项目调研与实践
5／66
项目调研与实践
3.2 DLX的基本流水线
（3）执行/有效地址计算周期（EX）在这个周期，不同的指令有不同的操作。
项目调研与实践
7／66
◆ 存储器访问 ALUOutput ← A＋Imm
操作
项目调研与实践
◆ 寄存器―寄存器 ALU 操作 ALUOutput ← A op B
例3.1 在静态流水线上计算 ∑i=4A1 iBi ，
求：吞吐率，加速比，效率。
53／66
3.2 DLX的基本流水线
54／66
3.2 DLX的基本流水线
解：(1) 确定适合于流水处理的计算过程 (2) 画时空图
(3) 计算性能
吞吐率 TP＝7／(20△t) 加速比 S＝(34△t)／(20△t)＝1.7 效率 E＝(4×4＋3×6)／(8×20)＝0.21
◆ 消除瓶颈的方法 (举例)
细分瓶颈段重复设置瓶颈段 (时-空图)
38／66
重复设置瓶颈段(时-空图举例)
3.2 DLX的基本流水线
(2) 实际吞吐率TP
流水线的实际吞吐率小于最大吞吐率。
◆ 第一种情况：各段时间相等（设为△t0）假设流水线由 m 段组成，完成 n 个任务。
时空图
完成 n 个任务所需的时间 T流水＝m△t0＋(n－1)△t0
ID
ID/EX.NPC ← IF/ID.NPC; ID/EX.IR ← IF/ID.IR; ID/EX.Imm ← (IR16)16##IR16..31;
(动画演示)
ALU 指令
Load/Store 指令
分支指令
EX/MEM.IR ← ID/EX.IR;
EX

计算机体系结构指令流水线相关性分析实验报告

实验二指令流水线相关性分析实验类别：验证实验实验目的：通过使用WINDLX模拟器，对程序中的三种相关现象进行观察，并对使用专用通路，增加运算部件等技术对性能的影响进行考察，加深对流水线和RISC 处理器的特点的理解。

实验学时：4实验组人数：1/1实验设备环境：WinDLX模拟器可以装入DLX汇编语言程序，然后单步、设置断点或者连续执行该程序。

CPU的寄存器、流水线、I/O和存储器都可以使用图形的方式表示出来。

模拟器还提供了对流水线操作的统计功能。

该模拟器对理解流水线和RISC处理器的特点很有帮助。

实验原理：指令流水线中主要有结构相关、数据相关、控制相关。

第4章流水线计算机设计技术2

4.3 线性流水线性能分析
4.3.1 吞吐率和加速比 2. 实际吞吐率和加速比 (2)设指令流水线由m段组成，但各段经过的时间Δti不相等，其中
“瓶颈”段时间为Δtj，在不发生任何相关的前提下完成n条指令的解释。流水线实际吞吐率：
流水线加速比：
第4章流水线计算机设计技术
4.3 线性流水线性能分析
该是多少？
i 1
顺序完成7个任务的时间仍为： 4×3Δt+3×4Δt=24Δt
ቤተ መጻሕፍቲ ባይዱ
流水线的实际吞吐率为：TP=7/(14Δt)=1/(2Δt)
效率为：η=24Δt/(5×14Δt)≈34.3%
第4章流水线计算机设计技术
4.4 线性流水线性能分析举例
若将例4.3中的
A
•
B
4
ai
bi
改为
A
•
B
16
ai
bi
4×3Δt+3×4Δt=24Δt
流水线的实际吞吐率为：
TP=7/(15Δt)
效率为：
η=24Δt/(5×15Δt)=32%
第4章流水线计算机设计技术
4.4 线性流水线性能分析举例
若上例中静态双功能流水线改为动态双功能流水线，其它条件不变，那么，在
4
计算向量点积 A • B ai bi 时，流水线在此期间的实际吞吐率TP和效率η又
第4章流水线计算机设计技术
4.3 线性流水线性能分析
4.3.1 吞吐率和加速比
最大吞吐率是指在流水线正常满负荷工作时，单位时间内机器所能处理的最多指令条数或机器能输出的最多结果数。
由于指令的取指和执行过程中的各个子过程所需的时间不同，为了避免各段之间经过时间不匹配，也为了保证各段之间数据通路宽度上能匹配，通常都要在各子过程之间插入一个锁存器，这些锁存器都受同一个时钟脉冲的控制，从而达到同步。如果指令的解释细分为n个子过程，且各个子过程所需的时间分别为Δt1、Δt2、Δt3、…、Δtn ，时钟周期应当为max{Δt1、Δt2、 Δt3、…、Δtn}，对应于流水线的最大吞吐率为：

体系结构的其他基础知识

3．4 体系结构其他基础知识3．4．1主要知识点了解掌握流水线技术、RISC计算机、并行处理技术、多处理机系统方面的基本知识。

3．4．1．1流水线技术流水线技术是通过并行硬件来提高系统性能的常用方法。

计算机流水线技术包括指令流水线和运算操作流水线。

计算机中一条指令的执行需要若干步，通常采用流水线技术来实现指令的执行，以提高CPU 性能。

流水线设计的基本思想其实很简单，任何一个可以分解的任务都可以用流水线来做，可以设置多个处理机构，分别执行相应的子任务。

为了提高流水线性能，有些处理时间长的步骤还需分解成更小的步骤，使流水线上所有步骤的处理时间相同。

实际上，流水线技术对性能的提高程度取决于其执行顺序中最慢的一步。

在实际情况中，流水线各个阶段可能会相互影响，阻塞流水线，使其性能下降。

阻塞主要由两种情形引起：执行转移指令和共享资源冲突。

指令流水线技术其实是把处理瓶颈从CPU子系统转移给了存储子系统。

在存储系统中也需要使用流水线技术的CPU系统的处理能力。

流水线计算机的存储器分成若干（4个）独立存储体，以支持流水线方式并发访问。

流水线计算机也使用了Cache，通常分为指令Cache和数据Cache，各自用于存放指令和操作数。

3．4．1．2RISC计算机的主要特点①指令数量少：RISC机优先选取使用频率最高的一些简单指令以及一些常用的指令，避免使用复杂指令。

②复杂的寻址方式少：RISC机通常支持寄存器寻址方式、立即数寻址方式以及相对寻址方式。

③指令长度固定，指令格式种类少：因为RISC指令数量少，格式也相对简单（与CISC比较）其指令长度固定，指令之间各字段的划分比较一致，所以其译码也相对容易。

④只提供了Load/Store指令访问存储器。

⑤以硬布线逻辑控制为主：RISC机为了提高操作的执行速度，通常采用硬布线逻辑（组合逻辑）来构建控制器。

而CISC机的指令系统很复杂，难以用组合逻辑电路来实现控制器，通常采用微程序控制。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

任务顺序
B C D A
时间
30 30 30 30 30 30 30
Computer Architecture, Autumn 2010
传统的流水线执行表示
时间轴 IFetch Dcd Exec Mem Exec WB Mem Exec WB Mem Exec WB Mem Exec WB Mem Exec WB Mem WB
°还要花费 30 分钟的时间
将衣物放在衣柜里
Computer Architecture, Autumn 2010
顺序操作
6 下午 30 30 7 30 30 8 30 30 9 30 30 10 30 30 11 30 30 12 30 30 1 2 上午
30 30
任务顺序
时间
A B C D
Z e ro A LU 0 M u x 1 W r ite dat a ALU re s u lt A d d re ss D a ta m e m o ry R e ad d a ta 1 M u x 0
16 Si g n e x te n d
32
° 我们要将数据通路分割成不同的阶段，需要增加些什么?
R eg
ALU
D a ta acce s s
R eg
lw $ 3 , 3 0 0 ( $ 0 )
In s tru c tio n
2 ns
fe tc h
Reg
ALU
D a ta a cc es s
R eg
2 ns
2 ns
2 ns
2 ns
2 ns
理想的加速比是流水线的段数. 我们能够获得这个加速比吗? 理想的加速比是流水线的段数. 我们能够获得这个加速比吗?
Computer Architecture, Autumn 2010
流水线基础
(Pipelining Basic) 王春露（Prof. Chunlu Wang）
wangcl@
北京邮电大学计算机系科学与技术系 /cs_web/
流水线技术相关性分析技术超标量处理机超流水线处理机超标量超流水线处理机
为什么使用流水线? 为什么使用流水线
设想我们要执行 100 条指令 ° 单周期的机器 °
• 45 /cycle x 1 CPI x 100 ns inst = 4500 ns
多周期的机器 °
• 10 ns/cycle x 4.2 CPI (due to inst mix) x 100 inst = 4200 ns
流水线工作原理流水线的分类线性流水线的性能分析非线性流水线的调度技术
Computer Architecture, Autumn 2010
流水线工作原理
1、流水线锁存器、
流水步、流水线的每一个阶段称为流水步流水步骤、流水段、流水线的每一个阶段称为流水步、流水步骤、流水段、流水线阶段、流水功能段、功能段、流水级、流水节拍等。线阶段、流水功能段、功能段、流水级、流水节拍等。在每一个流水段的末尾或开头必须设置一个(多个)寄存器，在每一个流水段的末尾或开头必须设置一个(多个)寄存器，称为流水寄存器、流水锁存器、流水闸门寄存器等。流水寄存器、流水锁存器、流水闸门寄存器等。流水锁存器会增加每条指令的执行时间，流水锁存器会增加每条指令的执行时间，但采用流水线之后整个程序的执行时间会缩短。后整个程序的执行时间会缩短。为了简化，在一般流水线中不画出流水锁存器。为了简化，在一般流水线中不画出流水锁存器。
3、流水线时空图
IFetch Dcd
IFetch Dcd
IFetch Dcd
IFetch Dcd 程序流
IFetch Dcd
Computer Architecture, Autumn 2010
为什么采用流水线呢? 因为有资源空闲! 为什么采用流水线呢因为有资源空闲
时间 (时钟周期)
指令顺序
ALU
Inst Inst Inst Inst Inst
PC
A dd re s s
In s tr u c t io n m e m o ry
W r ite r e g is t e r
R ea d d a ta
1 M u x
Computer Architecture, Autumn 2010
流水线技术
流水线是一种实现技术空间并行性：设置多个独立的操作部件空间并行性：多操作部件处理机、如：多操作部件处理机、超标量处理机时间并行性：时间并行性：采用流水线技术不增加或只增加少量硬件就能使运算速度提高几倍，不增加或只增加少量硬件就能使运算速度提高几倍，流水线处理机、如：流水线处理机、超流水线处理机
In s tr u c tio n In stru c tion m e m o ry
R e ad d a ta 1 R ea d re gis te r 2 R eg iste rs R e ad W rite d a ta 2 re gis te r W rite d a ta
R ea d re gis te r 1
30 30 30 30 30 30 30
时间
° 流水线作业洗4个人的衣物只需要个小时! 流水线作业洗个人的衣物只需要 3.5 个小时
Computer Architecture, Autumn 2010
流水线
6 下午 7 8 9
流水线无法帮助解决单个任务 ° 的延迟, 有利于减少整个工作延迟全部时间多个任务同时操作需要不同多个任务同时操作需要不同 ° 的资源可能的加速比 = ° 流水线的段数流水线的速率受速度最慢流水线的速率受速度最慢 ° 的流水段的限制流水线各段长度不均会降低 ° 加速比充满流水线所需的时间和充满流水线所需的时间和 ° 排空流水线所需的时间影响排空流水线所需的时间影响加速比会由于依赖而造成阻塞 °
取操作数 4
执行 5
保存结果 6
输出
流水线的时空图表示方法流水线的时空图表示方法时空图表示流水线的时间关系流水线的预约表预约表表示方法流水线的预约表表示方法将在非线性流水线中介绍一般处理机的指令流水线为 4 至 12 个级 Computer Architecture, Autumn 2010 指令流水线等于和大于8 指令流水线等于和大于8级的称为超流水线处理
Store Ifetch Reg Exec Mem
R-type Ifetch
流水线的实现: 流水线的实现 Load Ifetch Store Reg Ifetch R-type Exec Reg Ifetch Mem Exec Reg Wr Mem Exec Wr Mem Wr
Computer Architecture, Autumn 2010
指令分析器分析 k+1
△t1
输入
流水锁存器
指令执行部件执行 k △t2
流水锁存器
输出
Computer Architecture, Autumn 2010
2、流水线的表示方法、流水线的连接图连接图表示方法流水线的连接图表示方法表示流水线的逻辑关系
输入
取指令 1
译码 2
形成操作数地址 3
Computer Architecture, Autumn 2010
流水线数据通路
0 M u x 1
IF /I D
ID / E X
E X/M E M
M E M /W B
Add
A dd 4 Add re s u lt
S hift le f t 2
I n s t r u c t io n
R ead r e g is t e r 1 Re ad d ata 1 R ead r e g is t e r 2 R e g i s te r s Re ad d ata 2 A LU 0 M u W r ite d a ta x 1 0 W r i te da ta 16 S ig n e x te n d 32 D a ta m e m o ry Z e ro ALU r e s u lt A d d re s s
0 1 2 3 4
Im
Reg
Dm
Reg
ALU ALU
Im
Reg
Dm
Reg
ALU
Im
Reg
Dm
Reg
ALU
Im
Reg
Dm
Reg
ALU
Im
Reg
Dm
Reg
Computer Architecture, Autumn 2010
单时钟周期, 多时钟周期,同流水线比较同流水线比较. 单时钟周期多时钟周期同流水线比较
流水线技术
Computer Architecture, Autumn 2010
流水线是很自然的! 流水线是很自然的
洗衣店的例子 ° A, ° B, C, D 均有一些衣务要清洗，甩干，均有一些衣务要清洗，甩干，折叠清洗要花 30 分钟 ° A B C D
甩干要用 30 分钟 °
叠衣物也需要 30 分钟 °
In s tru c tio n
8 ns
fe tc h
R eg
ALU
D a ta ac c e ss
R eg
lw $ 3 , 3 0 0 ( $ 0 )
In s tru c t io n
8 ns
fe tc h
...
8 ns
P r o g r am e x e c u tio n o rd er 2 T im e 4 6 8 10 12 14
E X : E x e c u te / a d d r e s s c a lc u l a ti o n