chap4-3指令级并行
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 yes SUBD F8,F6,F2 写结果 F8 #1-#2
信
息 与
5 yes DIVD F10,F0,F6 执行 F10
电
气 工
6 yes ADDD F6,F8,F2 写结果 F6 #4+#2
程
学
院
浮点寄存器状态表
域
F0 F2 F4 F6 F8 F10 … F30
ROB号 3
6 4 5…
忙
yes no no yes yes yes … no
第四章 指令级并行
刘飞 liufeildu@163.com
1
目录
1. 控制相关的动态解决技术
鲁 东 大 学 信 息 与 电 气 工 程 学 院
2
4.3 控制相关的动态解决技术
鲁
东 大
¡ 处理器一个时钟周期流出多条指令受到以下两
学
信 息
个因素的限制:
与
电
气 工
• 流出n条指令的处理器中,遇到分支指令的
通过再定序缓冲,可以在进行精确异常处理的同时进行动态指令调度。29
鲁
东 大
前瞻执行的技术策略很容易的推广到整数寄存器
学
信 息
和整数功能单元上。
与
电
气 工
前瞻技术存在的一个主要缺点:
程
学
院
支持前瞻的硬件太复杂,需要大量的硬件资源。
30
4.4 多指令流出技术
鲁
¡ 一个时钟周期内流出多条指令, CPI<1。
鲁
冲区中。那么分支预测的准确性是多少?
东
大 学
解 这种固定的预测将会在第一次和最后一次
信 息
循环中出现预测错误。
与
电 气
第一次预测错误是源于上次程序的执行,
工
程 学
因为上一次程序最后一次分支是不成功的。
院
最后一次预测错误是不可避免的,因为前
面的分支总是成功,共九次。
因此,尽管分支成功的比例率是90%, 但分支预测的准确性为80%(两次不正确, 8次确)。
电
气
工 程
在大多数指令前瞻正确的前提下,前瞻就
学 院
可以有效地加快分支处理的速度。
1.基于硬件的前瞻执行结合了三种思想:
(1)采用动态的分支预测技术来选择后续执 行语句;
22
(2)在控制相关消除之前指令前瞻执行;
(3)对基本块采用动态调度。
鲁
东 大
2. 基 于 硬 件 的 前 瞻 是 动 态 地 根 据 数 据 相 关 性 来 选 择
面两种方式的结合;
(4)记录分支目标地址的一条或若干条指令。 5
分支预测缓冲技术(Branch-Prediction Buffer或者
Branch History Table,简写为BTB或者BHT):
鲁 东
目前广泛使用的最简单的动态分支预测技术。
大
学 信
使用一片存储区域,记录最近一次或几次分支特征
例4.7 按表4.3计算分支转移总的延迟,根据下面的假
设,计算分支目标缓冲的性能。
鲁 东
(1)对于BTB中的指令,预测准确率90%
大
学 信
(2)缓冲区命中率90%
息 与 电
(3)不在BTB中分支转移成功的比例为60%
气
工
程 学
解 根据表4.3的分类,性能计算包括4个部分:
院
( 1 ) 在 BTB 中 , 预 测 成 功 , 实 际 成 功 , 此 时 的
ADDD F6,F8,F2
27
解 状态如图4.15所示。
鲁
东
大
学 信
保留站
息 与
名称
电
忙
操作
Vj
Vk
气
工 程
Add1
no
学
院 Add2
no
Qj Qk
Add3 no
Mult1 no MULTD Mem[45+Regs[R3]]
Regs[F4]
Mult2 yes DIVD
Mem[34+Regs[R2]] #3
10
4.1位预测机制的缺点
鲁
只要预测出错,往往是连续两次而不是一次。
东
大 学 信
5.解决方法
息 与
采用两个预测位的预测机制。
电
气 工
在两个预测位的分支预测中,更改对分支的
程
学 院
预测必须有两次连续预测错误。
两位分支预测的状态转换图
11
鲁 东 大 学
分支成功
分支不成功
11
10
分支成功
分支预测: 成功
工 程
令地址都与保存的标示作比较,一旦相同,我们
学 院
就认为本指令是分支指令,且认为它转移成功,
并且它的分支目标(下一条指令)地址就是保存
在缓冲区中的分支目标地址。
这个缓冲区就是分支目标缓冲区(BranchTarget Buffer,简记为BTB,或者BranchTarget Cache)。
15
1. 分支目标缓冲结构和工作过程
预测成功, 后续指令无 延迟执行
问题:解决预测错误或不命中的延迟。 17
3. 采用BTB技术时指令在各种情况下的延迟
鲁 东
指令在BTB中? 预测结果 实际的动作 延迟周期
大
学
信 息
是
成功
成功
0
与
电 气
工
是
成功
不成功
2
程
学 院
不是
成功
2
不是
不成功
0
表4.3 采用BTB技术时指令在各种情况下的延迟
18
当前 PC
查找、比较 地址标示
分支目标 PC
分支目标指令
分
鲁
东
支
大 学
目
信
标
息
与
缓
电 气
冲
工
程
学
院
命中?
Y 命中,则认为本指令是分支,且分支成功,以分支 目标缓冲中分支目标 PC 作为下一条指令地址
N
没有命中,则认为本指令不是
分支,按普通指令执行
图4.12 分支目标缓冲的结构和工作过程
16
2. 在流水线的各个阶段中,具有分支目标缓冲的工作 分配如图4.13。
信
息
与 电
分支成功
分支不成功
气
工
程 学 院
分支预测:
01
分支不成功 00
分支不成功
不成功
分支成功
图4.11 具有两个分支预测位的分支预测缓冲状态转换机制
12
6. n位分支预测缓冲
鲁
¡ 采用n位计数器,则计数器的值在0到2n-1之间:
东 大 学
当 计 数 器 的 值 大 于 或 等 于 最 大 值 的 一 半 ( 2n-1 )
鲁
SPEC89标准程序的测试:
东 大
在 使 用 4096 个 记 录 项 的 缓 冲 区 时 , 分 支
学 信 息
预测准确率可达到99%到82%。
与 电
使用无穷多历史记录项的分支预测缓冲,
气 工
只 有 少 量 程 序 的 分 支 预 测 准 确 率 仅 仅 比 4096
程 学
个 记 录 项 提 高 1% , 多 数 程 序 的 预 测 精 度 是 相
息
与 电
的历史。
气
工
程 学
1. 只有1个预测位的分支预测缓冲
院
¡ 索引:分支指令地址的低位。
¡ 存储区:1位的分支历史记录位,又称为
预测位,记录该指令最近一次
分支是否成功。
6
•“0”记录分支不成功
鲁 东 大
•“1”记录分支成功
学
信 息 与
¡ 状态转换图
电
气
工 程
分支不成功
学
院
分支成功
1
0
分支不成功
延迟为0。
(2)在BTB中,预测成功,实际不成功,此时
的延迟为:
19
BTB命中率 × 预测错误率 × 2
鲁 东
= 90% × 10% × 2
大
学 信
= 0.18(时钟周期)
息
与 电
(3)不在BTB中,实际成功,此时的延迟为:
气 工 程
(1-BTB命中率) × 不在BTB中分支转移成功率 × 2
学 院
分支成功
图4.9 只有1个预测位的分支预测缓冲状态转换图
7
2. 分支预测缓冲技术包括两个步骤
¡ 分支预测
鲁 东 大
如果当前缓冲记录的预测位为“1”,则预
学 信 息
测分支为成功;如果预测位为“0”,则预测分支
与 电
为不成功。
气
工 程 学
¡ 预测位修改
院
如果当前分支成功,则预测位置为“1”;
如果当前分支不成功,预测位置为“0”。
(3)值域 值域用来保存指令前瞻执行的结果,直
到指令得到确认。
25
¡ 使用再定序缓冲的处理部件的硬件结构
从指令部件来
再定序缓冲
浮点
……
操作
队列
鲁 东
去存储器
大 学
操作总线 (地址/数据)
浮点寄存器组
信
息
与
操作数总线
电
气
工
程
学
院
保留站
从存储器来 (取的结果)
FP 加法器
FP 乘法器
公共数据总线
图4.14 采用Tomasulo算法并支持前瞻执行的DLX浮点部件的结构
院
同的。
因 此 , 对 于 SPEC89 应 用 环 境 而 言 , 4K 的 缓冲区是恰当的。
14
4.3.2 分支目标缓冲
目标:将分支的开销降为零。
鲁
方法:分支目标缓冲
东
大 学பைடு நூலகம்
将分支成功的分支指令的地址和它的分支目
信 息
标地址都放到一个缓冲区中保存起来,缓冲区以
与
电 气
分支指令的地址作为标示;取指令阶段,所有指
= 10% × 60% × 2
= 0.12(时钟周期)
(4)不在BTB中,实际不成功,此时的延迟为0。
20
4. 对分支预测机制的一种改进
在缓冲区中不仅存入目的地址,而且还存入一
鲁 东
个或多个目标指令。
大
学 信
有两种潜在的好处:
息
与 电 气
¡ 在连续取指令之前,可以较长时间的访问缓冲
工 程
区,这时的分支目的缓冲区较大。
学
信 息
指令和指令的执行时间。
与
电
气 工
实质:数据流驱动运行(data-flow execution)
程
学 院
只要操作数有效,指令就可以执行。
3.指令的确认
前瞻执行的指令产生的结果要一直到指令处 于非前瞻执行状态时,才能确定为最终结果,才 允许最终写到寄存器或存储器中去。
23
4.实现前瞻的关键思想:
方法和预测错误后恢复所采取的策略。
4
4.3.1 分支预测缓冲
¡ 动态分支预测必须解决两个问题:
鲁
东 大
• 如何记录一个分支操作的历史。
学
信 息 与
• 决定预测的走向。
电
气 工
¡ 记录分支历史的方法有以下几种:
程
学 院
(1)仅仅记录最近一次或最近几次的分支历
史;
(2)记录分支成功的目标地址;
(3)记录分支历史和分支目标地址,相当于前
3. 分支 预测错误时,预测位就被修改,并且需
要恢复现场,程序从分支指令处重新执行。
8
得到分支结果
鲁 东
i+1
i+2
大 学
分支指令
信
息
与 电
i-1
i
气
工
程
学
猜测执行路径
院
p+1
p+2
实际执行路径
图4.10 分支预测执行不成功和重新执行过程
9
例4.6 一个循环共循环10次,它将分支成功9次,
1次不成功。假设此分支的预测位始终在缓
信 息
时,则预测下一次分支成功;
与
电 气
否则预测下一次分支不成功。
工
程 学 院
¡ 预测位的修改和两位预测时相同:
当分支成功时计数器的值加1,不成功时减1。
¡ 研究表明: n位分支预测的性能和两位分支预测差不多,
因而大多数处理器都只采用两位分支预测。
13
7.对于真实的应用程序,两位的分支预测的准 确率可达到多少呢?
学
院
¡ 对目的指令进行缓冲,构成称为分支目标指令
缓冲(branch folding)的结构,它可使无条
件分支的延迟达到零,甚至有的条件分支也可
达到零延迟 。
21
4.3.3 基于硬件的前瞻执行
鲁 东
前瞻(Speculation)的技术方法:
大 学
它允许在处理器还未判断指令是否能执行
信
息 与
之前就提前执行,以克服控制相关。
鲁
允许指令乱序执行,但必须顺序确认。
东
大 学 信
5.再定序缓冲(reorder buffer,简记为ROB)
息 与
保存那些执行完毕但未经确认的指令及其结
电
气 工
果。在指令执行完毕和确认之间这段时间里,由
程
学 院
再定序缓冲提供所有其他指令需要的作为操作数
的数据。再定序缓冲区还可以取代取(load)缓
冲区。
24
¡ 再定序缓冲的每个项包含三个域:
(1)指令的类型
鲁
指令类型包括是否是分支(尚无结果)、
东 大
存操作(目的地址为存储器)或寄存器操作
学
信 息
(ALU操作或目的地址是寄存器的取操作)。
与
电 气
(2)目的地址
工 程
目的地址域给出结果应写入的目的寄存
学
院
器号(对于取操作和ALU指令)或存储器的地
址(存操作)。
程
学 院
速度也快了n倍;
• 根据Amdahl定律可知,随着机器CPI的降低,
控制相关对性能的影响越来越大。
3
本节着重于:
鲁
东 大
通过硬件技术,动态地进行分支处理,对程
学
信
息 与
序运行时的分支行为进行预测,提前对分支操作做
电
气 工
出反应,加快分支处理的速度。
程
学 院
分支的最终延迟取决于流水线的结构、预测的
目的
#3 #5
28
ROB
项号 忙
指令
状态 目的
值
1 no LD F6,34(R2) 确认 F6 Mem[34+Regs[R2]]
2 no LD F2,45(R3) 确认 F2 Mem[45+Regs[R3]]
鲁 东
3 yes MULTD F0,F2,F4 写结果 F0 #2×Regs[F4]
大 学
26
例4.8 假设浮点功能单元的延迟为加法是2个时钟周
期,乘法是10个时钟周期,除法40个时钟周
鲁 东 大
期。给出下面的代码段当指令MULTD要确认
学
信 息
时的状态。
与
电 气
LD F6,34(R2)
工
程 学
LD F2,45(R3)
院
MULTD F0,F2,F4
SUBD F8,F6,F2
DIVD F10,F0,F6
当前 PC 值送存储器和 BTB
否
是
BTB 中存在?
鲁 东
取指令
大
学
信
息 与
否
是
成功分支指令?
以分支目标 PC 值送存储器
电
气 工
普通指令
程
否
当前分支成功? 是
学 院
指令译码
指令执行
将当前指令 PC 值 和分支目标 PC 送 入 BTB 中作为一 个新项
预测错误,清除取来的 指令并从分支的另外 一个目标取指令,删除 BTB 中对应项