流水线CPU技术

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

由控制器硬件实现
静态调度：流水线延迟
取指 F
译码 D
发射 I
执行 E
执行 E
执行 E
写回 W
X=Y+Z
A=BC
① R1←M（Y） ② R2←M（Z） ③ R3←（R1）＋（R2） ④ M（X）←（R3） ⑤ R4←M（B） ⑥ R5←M（C） ⑦ R6←（R4）×（R5） ⑧ M（A）←（R6）
流水线 vs 非流水线
① 非流水线指令的执行是串行的； ② 标量流水线从满载起，每经1个周期做完一条指令； ③ 超标量流水线，提高了吞吐量，但需二套（或二
套以上）流水线的硬件及其他电路。（见附图）
常见的超标量流水线结构
（3）流水线工作方式的特点
① 具有时间的并行性； ② 流水线分工越细，可同时运行的指令越多，
② R2←M（Z） ③ R4←M（B）
① F D I EEEW
②
FD I EEEW
④ R5←M（C）
③
F D I E E EW
⑤ R3←（R1）＋（R2） ④
F D I E E EW
⑥ R6←（R4）×（R5） ⑤
⑦ M（X）←（R3）
⑥
⑧ M（A）←（R6）
⑦ ⑧
FD I EEEW F D I E E EW F D I E E EW FD I E E EW
· 资源相关 · 数据相关
局部性相关
· 变址转移 · 中断
全局性相关
局部性相关：资源相关
在同一机器时钟周期内争用同一个功能部件所发生的冲突。
时钟
12
3
4
5
指令
I1
取指译码取数执行
I2
取指译码取数执行
I3
取指译码取数
在时钟3发生争用内存的问题—资源相关。
解决方法： ① 将取指操作推迟一个时钟进行；
解决方法：
① 推迟ADD指令的取数操作；
ADD
取指译码取数
② 采用数据旁路
（内部向
前）技术，
直接把结果送给下一条指令。
全局性相关：控制相关
由条件转移指令或中断引起的。
解决方法： ① 延迟转移法：加入空操作，等待转移条件形成。 ② 猜测法：选择出现概率较高的分支进行指令预取。
【例4】流水线中有三类数据相关冲突：写后读相关；读后写相关；写后写相关。判断以下三组指令各存在哪种类型的数据相关。
吞吐率就越高。但需增加硬件，控制更复杂； ③ 流水线每个阶段的执行时间应尽量一致； ④ 流水线充满（满载）时达到最大的吞吐率。
流水线相关问题
· 流水线相关：是指邻近指令之间由于某种关系，出现了不能同时被流水操作的现象。
· 流水线的相关会造成流水线的断流，影响整个流水线的效率。
造成流水线相关的原因
② 增设一个存储器，将指令和数据分开存放；
③ 采用双端口存储器。
局部性相关：数据相关
在程序中，一条指令的执行需等前一条指令执行完后才能进行，则有数据相关。
例：SUB R1，R2，R3；（R2）（R3） R1
ADD R4，R1，R5；（R1）（R5） R4
时钟 1 2 3 4
指令
SUB 取指译码取数执行
· 可设置几个相同的段来解决该段的瓶颈问题。
（2）设置多个功能部件
例：
S1
S2
S3
S4
Δt
Δt
3Δt
Δt
S1
S2
S3
S4
Δt
Δt
Δt
S3
S3 3Δt
（3）内部数据定向
· 内部数据定向的原则：是要消除一些不必要的访存储器或访寄存器的中间环节，从而减少资源和数据的相关性，以提高流水线的吞吐率。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
① F D I EEEW
② FD I E E EW
③
FDI
E E EW
④
FDI
E E EW
⑤
F D I E E EW
⑥
F D IE EEW
⑦
FD I
E E EW
⑧
FD I
E E EW
(b) 保存站法动态调度后流水线
· 数据定向分成：写－读定向、读－读定向、写－写定向。
（3）内部数据定向
可减少或者消除数据相关性带来的影响
Data forwarding
lw $2,20($1) IF Id Ex M W
and $4,$2,$5
IF
Id Ex M W
1234 56
流水周期
IF Id
Ex
MW
（3）内部数据定向
图3.33 流水线计算机系统组成原理示意图
指令流水线原理
问题的提出串行执行方式存在部件利用率不高（有闲置时间）的问题。
CPU周期
使用部件
取指令 PC，MS，IR等
闲置部件 ALU，GRS
取数
MS
PC，ALU，GRS
执行
ALU，GRS
PC，MS
每个过程段所用的部件不同在某个过程段时，其他过程段的部件处于空闲
执行一条指令发射时，存放操作数的寄存器名被换成为对应于该寄存器的保存站名称（寄存器重命名）
写结果结果写回时通过数据总线直接送到等待此结果的所有保存站
动态调度-保存站法
① R1←M（Y） ② R2←M（Z） ③ R3←（R1）＋（R2） ④ M（X）←（R3） ⑤ R4←M（B） ⑥ R5←M（C） ⑦ R6←（R4）×（R5） ⑧ M（A）←（R6）
（2）空间并行—— 资源重复用多个相同部件处理多个事件。
实现方式：多处理器系统和多计算机系统或单处理器系统。
(3) 时间并行+空间并行既采用时间并行性又采用空间并行性。
例：奔腾CPU采用的超标量流水技术。
流水线CPU的结构
现代流水线计算机系统组成原理如左图所示。其中 CPU按流水线方式组织，通常由三部分组成：指令部件、指令队列、执行部件。这三个功能部件可以组成一个3级流水线。
（2）流水线工作原理
① 指令周期的三个主要过程：
入
取指
取数
执行
出
图5.30 指令周期的三个过程段
② 指令执行过程的时空图
a．非流水线时空图 b．标量流水线时空图 c. 超标量流水线时空图
空间S
执行
取数
取指
I1
I2
I1I2
I3 I4 I5
I6
I1
I3
I5
I2
I4
I6
I1
I3
I5
I7
I2
I4
I6
I8
局部性相关的处理方法
指令调度法
· 静态调度 · 动态调度
设置多个功能部件
内部数据定向
（1）指令调度法
指令调度
改变指令的执行顺序以解决相关性带来的问题
静态指令调度
改变程序中指令的位置
由编译程序实现
动态指令调度
计分牌法
改变指令的实际执行顺序
保存站法
不改变取指令和指令译码的顺序
无序执行
图 4-14 保存站动态调度法
动态调度-保存站法
保存站法的优点(相对记分牌法)
具有分布的阻塞检测机制；消除了数据写后写和先读后写相关导致的阻塞
保存站法又称作 Tomasulo调度法
（2）设置多个功能部件
· 流水线的瓶颈会在某一个流水线段产生；
· 这种瓶颈段一定对应于预约表中符号最多的那一行；
流水线CPU
流水CPU
并行性概念
1．并行性的含义同时性——指两个或者两个以上事件在同一时刻发生。并发性——指两个或者两个以上事件在同一时间间隔内发生。
2 并行性概念
2．并行处理技术的主要形式
（1）时间并行— 时间重叠让多个处理过程在时间上相互错开，轮流重叠地使用
同一套硬件的各个部分，从而赢得高速度。实现方式：采用流水处理部件。
局部性相关：数据相关
(3) I5: MUL R3，R1，R2 ； (R1)×(R2)->R3 I6: ADD R3，R4，R5 ； (R4) + (R5)->R3
第(3)组指令中，如果I6指令的加法运算完成时间早于I5指令的乘法运算时间，变成指令I6在指令I5写入R3前就写入R3，导致R3的内容错误，发生WAW(写后写）相关。
I3
I5
I7
I9
I4
I6
I8
I10
（C）超标量流水线时空图
空间S
I1
I2
I3
执行
I1
I2
I3
取数
I1
I2
I3
取指 I1
I2
I3
（a）非流水线时空图
时间T
空间S
I1 I2 I3 I4
执行取数取指 I1
I1
I2
I3
I4
I1
I2
I3
I4
I2
I3
I4
（b）标量流水线时空图
时间T
时间T 图5.31 非流水线与流水线对比
1）延迟转移法
延迟转移法：目的是转移成功时，转移指令后面进入流水线的指令不作废，想办法使之有用，
以减少延迟时间的损失。
…
…
I0 LD R4, B
I2 DEC R3， 1
I1 LD R1， A
I3 JZ R3，I50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
① F D I EEEW
② F D I E E EW
③
FDI
E E EW
④
FDI
E E EW
⑤
F D I E E EW
⑥
F D I E EEW
⑦
FDI
E E EW
⑧
FD I
E E EW
(b)计分牌法动态调度后的流水线
(1) I1: ADD R1，R2，R3 ； (R2) + (R3)->R1 I2: SUB R4，R1，R5 ； (R1) - (R5)->R4
(2) I3: STA M(x)，R3 ； R3)->M(x)，M(x)是存储器单元
I4: ADD R3，R4，R5 ；
(R4)+(R5)->R3
(3) I5: MUL R3，R1，R2 ； I6: ADD R3，R4，R5 ；
FD
I E E EW
⑧
F
D
I E E EW
（b）8 条指令顺序
（c）8 条指令的流水线
图 4-12 流水线的相关延迟
指令发射：启动指令去处理器功能单元执行的过程
静态调度：编译检测
编译器优化后，所需时间为
17个时钟周期 ① R1←M（Y）
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
判断指令可否发射的条件是：该指令所有目的寄存器及源寄存器在计分牌中对应位都为
0 ；否则等待上述位清除。
解决数据相关采用定向传送技术：将前面指令执行的结果直接送给后面指令所需此源操作
数的功能部件
动态调度-计分牌法
① R1← M(Y) ② R2← M(Z) ③ R3← (R1)+(R2) ④ M(X)← (R3) ⑤ R4← M(B) ⑥ R5← M(C) ⑦ R6← (R4)×(R5) ⑧ M(A)← (R6)
先写
后读
先写
U1
M
U2
U1
M
U2
写－读定向
相关通路
先读
后读
先读
U1
M
U2
U1
M
U2
读－读定向
先写
后写
U1
M
U2
U1
写－写定向
相关通路
后写
M
U2
2. 全局性相关：变址转移
· 全局性相关由转移指令引起；
· 当指令流足够长时，转移引起的流水线性能将会下降46％左右。
· 解决方法：延迟转移法转移预测法
(R1)×(R2)->R3 (R4) + (R5)->R3
局部性相关：数据相关
(1) I1: ADD R1，R2，R3 ； I2: SUB R4，R1，R5 ；
(R2) + (R3)->R1 (R1) - (R5)->R4
第(1)组指令中，I1指令运算结果应先写入R1，然后在I2指令中读出R1内容。由于I2指令进入流水线，变成I2指令在I1指令写入R1前就读出R1内容，发生 RAW（写后读）相关。
（a）一条 7 段指令流水线
时间
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
① F D I E E EW
② F D I EEEW
③
百度文库
FD
I E E EW
④
F
D
I EEEW
⑤
F
D I E E EW
⑥
F D I E E EW
⑦
8 条指令顺序
图 4-13 静态调度后的流水线延迟
动态调度-计分牌法
执行 E
取指令
译码
发射
执行
F
D
I
E
执行
写回
E
W
执行
写回
E
W
计分牌
执行
执行
写回
E
E
W
（a）CDC6600 处理机的流水线结构
动态调度-计分牌法
计分牌是一个位向量、每一位对应寄存器堆中的一个寄存器。
指令发射时，目的寄存器在计分牌中相应位置1；写回后，目的寄存器在计分牌中相应位清0。
图 4-15 基于计分牌发射逻辑的流水线调度过程
动态调度-计分牌法
记分牌的缺点依靠流水线停顿来解决相关性没有消除数据相关集中式调度
记分牌部件是性能瓶颈
动态调度-保存站法
RS
RS
E
E
E
W
FD
I
RS
RS
.
.
E
E
E
W
.
RS (a)保存站结构
动态调度-保存站法
发射如果有空的保存站，就发射指令；只要操作数有效，就将其取到保存站，避免指令发射时才到寄存器中取数据的情况. 如果没有空的保存站或缓存部件，则指令暂等
局部性相关：数据相关
(2) I3: STA M(x)，R3 ；（R3)->M(x)，M(x)是存储器单元 I4: ADD R3，R4，R5 ； (R4)+(R5)->R3
第(2)组指令中，I3指令应先读出R3内容并存入存储单元M(x)，然后在I4指令中将运算结果写入R3。但由于I4指令进入流水线，变成I4指令在I3指令读出R3内容前就写入R3，发生WAR