《流水线CPU技术》PPT课件
合集下载
第8章 中央处理器-流水线CPU
Load Ifetch Reg/Dec Exec Mem Wr
R-type Ifetch Reg/Dec Exec Wr
R-type Ifetch Reg/Dec Exec Wr
°上述流水线有个问题: 两条指令试图同时写寄存器,因为
• Load在第5阶段用寄存器写口 • R-type在第4 阶段用寄存器写口
• 每个周期有五个功能部件同时在工作 • 后面指令在前面完成取指后马上开始 • 每个load指令仍然需要五个周期完成 • 但是,吞吐率(throughput)提高许多,理想情况下,有:
• 每个周期有一条指令进入流水线 • 每个周期都有一条指令完成 • 每条指令的有效周期(CPI)为1
含R-type和 Load 指令的流水线
这样使流水线中的每条指令都有相同多个阶段!
Store指令的四个阶段
Cycle 1 Cycle 2 Cycle 3 Cycle 4 Store Ifetch Reg/Dec Exec Mem Wr
NOOP!
°Ifetch:取指令并计算PC+4 °Reg/Dec: 从寄存器取数,同时指令在译码器进行译码 °Exec:12位立即数符号扩展后与寄存器值相加,计算主存地址 °Mem:将寄存器读出的数据写到主存
Delay through Control Logic New Value
PC+4 PC
Old Value
New Value
Old Value
New Value
Old Value Old Value
New Value New Value
Register Write Occurs
Old Value
Register File Access Time New Value
计算机系统结构第3章流水线技术
设计控制逻辑以协调不同阶段之间的操作, 确保指令顺序执行。
流水线调度
根据指令的依赖关系和资源可用性,动态调 度指令到不同的流水线阶段。
GPU设计中的流水线技术
线程级并行
通过划分线程块和线程束,实现线程级并行执行。
数据级并行
将数据划分为多个块,每个块在GPU的多个处理单元上并行处理。
指令级并行
通过指令调度和分支预测,实现指令级并行执行。
硬件资源共享
01
硬件资源共享是指流水线中的多个操作共享相同的硬件资源, 如寄存器、缓冲区等。
02
硬件资源共享能够提高资源利用率,减少硬件开销,降低成本。
需要注意的是,硬件资源。
流水线的性能指标
01
吞吐量
流水线每单位时间内完成的操作数 或任务数。
流水线调度
根据子任务的依赖关系和资源需求,动态调 度子任务到不同的计算节点。
THANKS
感谢观看
将执行结果写回寄 存器或内存。
02
流水线的工作原理
数据流驱动
1
数据流驱动是指流水线中的操作按照数据流动的 方向依次执行,每个操作在完成前需要等待前一 个操作的结果。
2
数据流驱动的优点是能够充分利用数据依赖关系, 减少等待时间,提高流水线的吞吐量。
3
需要注意的是,数据流驱动需要精确控制数据流 动的顺序,以避免出现数据相关和冒险问题。
调试和维护困难
由于流水线中各个阶段是并行处 理的,调试和维护可能会比串行 系统更加困难。
05
流水线技术的应用
CPU设计中的流水线技术
指令划分
将指令划分为多个阶段,每个阶段对应一个 功能单元,从而并行执行多个指令。
数据路径设计
流水线调度
根据指令的依赖关系和资源可用性,动态调 度指令到不同的流水线阶段。
GPU设计中的流水线技术
线程级并行
通过划分线程块和线程束,实现线程级并行执行。
数据级并行
将数据划分为多个块,每个块在GPU的多个处理单元上并行处理。
指令级并行
通过指令调度和分支预测,实现指令级并行执行。
硬件资源共享
01
硬件资源共享是指流水线中的多个操作共享相同的硬件资源, 如寄存器、缓冲区等。
02
硬件资源共享能够提高资源利用率,减少硬件开销,降低成本。
需要注意的是,硬件资源。
流水线的性能指标
01
吞吐量
流水线每单位时间内完成的操作数 或任务数。
流水线调度
根据子任务的依赖关系和资源需求,动态调 度子任务到不同的计算节点。
THANKS
感谢观看
将执行结果写回寄 存器或内存。
02
流水线的工作原理
数据流驱动
1
数据流驱动是指流水线中的操作按照数据流动的 方向依次执行,每个操作在完成前需要等待前一 个操作的结果。
2
数据流驱动的优点是能够充分利用数据依赖关系, 减少等待时间,提高流水线的吞吐量。
3
需要注意的是,数据流驱动需要精确控制数据流 动的顺序,以避免出现数据相关和冒险问题。
调试和维护困难
由于流水线中各个阶段是并行处 理的,调试和维护可能会比串行 系统更加困难。
05
流水线技术的应用
CPU设计中的流水线技术
指令划分
将指令划分为多个阶段,每个阶段对应一个 功能单元,从而并行执行多个指令。
数据路径设计
计算机组成原理之流水线处理机(ppt 59页)
计算机组成原理
7
7
流水线的基本概念
什么是流水线
计算机中的流水线是把一个重复的过程分解为若干个子过 程,每个子过程与其他子过程并行进行。由于这种工作方式与 工厂中的生产流水线十分相似,因此称为流水线技术。 从本质上讲,流水线技术是一种时间并行技术。
计算机组成原理
8
8
计算机的各个部分几乎都可以采用流水线技术:
计算机组成原理
2
2
将解决的主要问题
掌握流水线处理机的数据路径 建立指令流水线中指令如何重叠执行和流动
了解流水线工作原理以及相关问题
计算机组成原理
3
3
单周期处理机
指令 存储器 PC Add
D ata
W ritePC
disp
rs1 rd
1
rs2
0
S e lS t im m e
SelB ranch
偏移量符 号扩展
rd(rs1) and imme
rd (rs1) or (rs2)
计算机组成原理
25
25
31 26 25 21
00 0000
rd
00 0001
rd
00 0010
rd
00 0011
rd
00 0100
rd
00 0101
rd
00 0110
rd
00 0111
rd
00 1000
rd
00 1001
rd
00 1010
00 1011
00 1100
计算机组成原理
指令系统和指令格式
20 16 rs1
00010 rs1
00101 rs1
00101 rs1
计算机体系结构之流水线技术(ppt 125页)
3 流水线技术
张伟 计算机学院
大纲
1 概念定义 2 流水线分类 3 MIPS五级流水线 4 性能分析 5 流水线相关 6 高级流水线技术
1 概念定义
洗衣店的例子
A, B, C, D 均有一些衣物要 清洗,甩干,折叠
清洗要花30 分钟 甩干要用40 分钟 叠衣物也需要20 分钟
流水线输出端任务流出的顺序与输入端任务流 入的顺序相同。
异步流动流水线(乱序流水线):
流水线输出端任务流出的顺序与输入端任务流 入的顺序不同。
3 MIPS五级流水线
DLX(Dancing Links)
DLX 是一种简单的指令集(教学、简单芯片) 在不流水的情况下,如何实现DLX。
实现DLX指令的一种简单数据通路
4. 存储器访问周期MEM(Memory Access) 5. 写回周期WB(Write Back)
MIPS的简单实现
Instruction Fetch
Instr. Decode Reg. Fetch
Next PC
Next SEQ PC
4
RS1
RS2
Execute Addr. Calc
Zero?
RD
增加了向后传递IR和从MEM/WB.IR回送到通用寄存 器组的连接。
将对PC的修改移到了IF段,以便PC能及时地加 4,为取下一条指令做好准备。
2. 每一个流水段进行的操 作
IR[rs]=IR6..10 IR[rt]=IR11..15 IR[rd]=IR16..20
流水线的每个流水段的操作
将有效地址计算周期和执行周期合并为一个时钟周期,这
是因为MIPS指令集采用load/store结构,没有任何指令
需要同时进行数据有效地址的计算、转移目标地址的计算
张伟 计算机学院
大纲
1 概念定义 2 流水线分类 3 MIPS五级流水线 4 性能分析 5 流水线相关 6 高级流水线技术
1 概念定义
洗衣店的例子
A, B, C, D 均有一些衣物要 清洗,甩干,折叠
清洗要花30 分钟 甩干要用40 分钟 叠衣物也需要20 分钟
流水线输出端任务流出的顺序与输入端任务流 入的顺序相同。
异步流动流水线(乱序流水线):
流水线输出端任务流出的顺序与输入端任务流 入的顺序不同。
3 MIPS五级流水线
DLX(Dancing Links)
DLX 是一种简单的指令集(教学、简单芯片) 在不流水的情况下,如何实现DLX。
实现DLX指令的一种简单数据通路
4. 存储器访问周期MEM(Memory Access) 5. 写回周期WB(Write Back)
MIPS的简单实现
Instruction Fetch
Instr. Decode Reg. Fetch
Next PC
Next SEQ PC
4
RS1
RS2
Execute Addr. Calc
Zero?
RD
增加了向后传递IR和从MEM/WB.IR回送到通用寄存 器组的连接。
将对PC的修改移到了IF段,以便PC能及时地加 4,为取下一条指令做好准备。
2. 每一个流水段进行的操 作
IR[rs]=IR6..10 IR[rt]=IR11..15 IR[rd]=IR16..20
流水线的每个流水段的操作
将有效地址计算周期和执行周期合并为一个时钟周期,这
是因为MIPS指令集采用load/store结构,没有任何指令
需要同时进行数据有效地址的计算、转移目标地址的计算
《二讲流水线介绍》课件
成本低
软件实现通常只需支付软件开发和授 权费用,成本相对较低。
可移植性强
软件可以在不同硬件平台和操作系统 上运行,具有较强的可移植性。
性能可能受限
相对于硬件实现,软件实现可能存在 性能上的限制。
结合硬件与软件的优势
性能与灵活性兼备
资源共享
结合硬件和软件可以实现高性能和灵活性 ,满足不同场景的需求。
05 二讲流水线的未来发展
更高层次的并行处理
总结词
随着技术的不断进步,二讲流水线将向更高层次的并行处理发展,以提高处理速 度和效率。
详细描述
通过增加流水线的数量和每个流水线内部的并行度,可以实现更高效的数据处理 能力。这将有助于提高系统的吞吐量和响应速度,满足日益增长的计算需求。
结合人工智能技术
高效性
硬件实现通常具有较高的执行速度,适用于 对性能要求高的场景。
高成本
硬件实现通常需要较高的投资,包括设备购 买、维护和更新成本。
可扩展性
通过硬件升级或更换更强大的硬件设备,可 以扩展流水线的处理能力。
灵活性不足
硬件设备一旦设计完成并部署,更改相对困 难,灵活性较差。
软件实现
灵活性高
软件实现可以根据需求灵活调整,易 于修改和扩展。
到最终结果。
应用场景
数据处理
在大数据分析、图像处理等领 域,利用二讲流水线并行处理
大量数据。
科学计算
在物理模拟、化学计算等领域 ,利用二讲流水线加速计算过 程。
游戏开发
在游戏渲染、物理模拟等领域 ,利用二讲流水线提高游戏运 行效率。
并行算法
在并行算法中,利用二讲流水 线实现算法的并行化,提高算
法执行效率。
解决方案
流水线(Pipeline)介绍PPT课件
❖ 写后读(RAW) ❖ 写后写 (WAW) ❖ 读后写 (WAR)
.
16
写后读冒险(RAW: Read After Write)
❖ 在 i 写入之前,j 先去读。j 会错误的获取旧 值。
❖ 这对应“真数据相关”,为了确保j可以得到 正确的i值,必须保持程序的顺序。
i: DSUB R1,R2,R3 j: DADD R4,R1,R3ຫໍສະໝຸດ DSUB R4,R1,R5
IM
Reg
DM
Reg
XOR R6,R1,R7
IM
Reg
DM
AND R8,R1,R9
IM
Reg
OR R10,R1,R11
IM
Reg
AND,OR操作不会暂停,但是DSUB,XOR指
令需要等待DADD在WB阶段写回数据后才
可以执行。
.
15
2.4 数据冒险的解决办法
❖ 根据指令中读写访问的顺序,可以将数据冒 险分为三类。分别是:
处理器流水线相 关技术
报告人:Hardy
.
1
流水线技术
❖1.流水线的概念 ❖2.流水线的冒险和冒险的解决办法 ❖3.多发射处理器
.
2
1.流水线的概念
❖ 流水线技术:
把一个重复的过程分解为若干个子过程,每个子过 程由专门的功能部件来实现。将多个处理过程在时 间上错开,依次通过各功能段,这样,每个子过程 就可以与其他子过程并行进行。
.
5
采用相同的功能模块,指令顺序执行和按照流水线
技术执行,在时间上可以看出流水线指令的执行速
度提高了4倍。
.
6
流水线的基本作用
流水线增大了CPU的指令吞吐量—即单位时 间执行指令的条数,但是它未减少指令各自 的执行时间。实际上流水线技术要对流水线 附加一些控制,因而了增加开销,使单条指 令执行时间略有增加。吞吐量的增大意味着 程序运行的更快,总的执行时间变短,尽管 没有一条指令的执行变快。
.
16
写后读冒险(RAW: Read After Write)
❖ 在 i 写入之前,j 先去读。j 会错误的获取旧 值。
❖ 这对应“真数据相关”,为了确保j可以得到 正确的i值,必须保持程序的顺序。
i: DSUB R1,R2,R3 j: DADD R4,R1,R3ຫໍສະໝຸດ DSUB R4,R1,R5
IM
Reg
DM
Reg
XOR R6,R1,R7
IM
Reg
DM
AND R8,R1,R9
IM
Reg
OR R10,R1,R11
IM
Reg
AND,OR操作不会暂停,但是DSUB,XOR指
令需要等待DADD在WB阶段写回数据后才
可以执行。
.
15
2.4 数据冒险的解决办法
❖ 根据指令中读写访问的顺序,可以将数据冒 险分为三类。分别是:
处理器流水线相 关技术
报告人:Hardy
.
1
流水线技术
❖1.流水线的概念 ❖2.流水线的冒险和冒险的解决办法 ❖3.多发射处理器
.
2
1.流水线的概念
❖ 流水线技术:
把一个重复的过程分解为若干个子过程,每个子过 程由专门的功能部件来实现。将多个处理过程在时 间上错开,依次通过各功能段,这样,每个子过程 就可以与其他子过程并行进行。
.
5
采用相同的功能模块,指令顺序执行和按照流水线
技术执行,在时间上可以看出流水线指令的执行速
度提高了4倍。
.
6
流水线的基本作用
流水线增大了CPU的指令吞吐量—即单位时 间执行指令的条数,但是它未减少指令各自 的执行时间。实际上流水线技术要对流水线 附加一些控制,因而了增加开销,使单条指 令执行时间略有增加。吞吐量的增大意味着 程序运行的更快,总的执行时间变短,尽管 没有一条指令的执行变快。
第5章计算机流水线技术.ppt
3、流水的分级、分类
分级:(处理的级别分类) ❖ 部件级:将复杂的算逻运算组成流水工作方式; ❖ 指令级:把一条指令解释过程分成多个子过程 ; ❖ 处理机级:每个处理机完成某一专门任务,各个处理机所 得到的结果需存放在与下一个处理机所共享的存储器中
其他分类: ➢ 功能:单功能流水线(如CRAY-1)、多功能流水线 (如TI-ASC) ➢ 工作方式:静态流水线、动态流水线 ➢ 连接方式:线性、非线性 ➢ 处理数据:标量流水、向量流水
通过一种极端情况计算举例:
假设先行指令缓冲栈已经完全充满,缓冲深度是D1。 此时指令缓冲栈输出端,指令流出速度最快,而输入端,流 入最慢
假设指令序列的最大长度是L1,平均分析一条指令的时间是t1 而此时更坏的是取指令很慢,平均取一条指令的时间是t2 假设先行控制栈充满到被取空的过程中指令分析条数是L1
若各段时间不等时,有
实际执行时间:
n
T t分1 max t分i , t执i1 t执n
i2
✓先行控制:分析部件和执行部件能分别连续不断地分析和执 行指令,预取和缓冲相结合的技术 ,通过对指令流和数据流的 先行控制,使指令分析器和执行部件能尽量连续并行工作。 执行时间:
S2
….. .….
输出 Sk
时钟
流水线的基本结构
空间
填入
正常
排空
4 1 2 3 4 5 ... ... ... n-1 n
3
1 2 3 4 5 ... ... ... n-1 n
2 1 2 3 4 5 ... ... ... n-1 n
1 1 2 3 4 5 ... ... ... n-1 n
△t0 △ t0 △ t0 △ t0
第三章流水线技术.ppt
ExtOp
MemtoReg
ALUSelB
chapter3.3
3.1 流水线的基本概念
• 洗衣为例 • Ann, Brian, Cathy, Dave 每人进行洗衣的动作: wash, dry, and fold • washer需要 30 minutes • Dryer 需要 40 minutes • “Folder” 需要 20 minutes A B C D
– 45 ns/cycle x 1 CPI x 100 inst = 4500 ns
• 多周期机器
– 10 ns/cycle x 4.6 CPI (due to inst mix) x 100 inst = 4600 ns
• 理想流水线机器
– 10 ns/cycle x (1 CPI x 100 inst + 4 cycle drain) = 1040 ns
32
WrAdr 32 Din Dout
Ideal Memory
Rt 0 Rd
Reg File
busA A
32
2019/3/18
Mux
32
4 B
32
Mem Data Reg
0
1 Mux 0
Mux
1
32
1
2 3
32 32
<< 2
ALU Control
Imm 16
Extend
32
ALUOp
中国科学技术大学
• Step 2 step
ID - instruction decode and register fetch
– A <-- Regs[IR6..10] – B <-- Regs[IR11..16]
流水线技术 ppt课件
▪反映了单位时间内完成的任务数 n
T P T 1 T 2 T K(n 1 ) M a x(T 1,T 2, T K )
▪K为流水线段数,Ti为第i段所需要的时间
❖指令流水线的吞吐率
单位时间内流水线所完成的指令数
n TP
kT (n 1)T
▪N为通过流水线的指令数 ▪T为指令流水线各个流水段的时间 ▪kT为指令流水线的填充时间
ADD R1, R2, R3 ; (R1) + (R2) → R3 OR R3, R2, R6 ; (R2) ^ (R3) → R6 SUB R3, R4, R5 ; (R4) - (R3) → R5
时钟周期 1 2 3 4
5
6
ADD IF ID EX —— WB
OR
IF ID EX —— WB
6
❖最大吞吐率
当流水线充满之后,理想情况下每个周期都有一条指令完成
1 T P max
T
❖最大吞吐率和实际吞吐率之间的关系
TPkT(n n1)Tkn n1T 11k 11TPm ax n
当n>>k时,TP≈TPmax
❖MIPS与吞吐率
TPMIPS106
MIPS:单位时间内所完成的指令数
7
❖加速比
时钟周期 1 2 3 4 5
6
7
8
指令1 IF ID EX MEM WB
指令2
IF ID EX MEM WB
指令3
IF ID EX MEM WB
指令4
IF ID EX MEM WB
13
❖争用同一个硬件资源,又称资源相关、冲突
时钟周期 1 2 3 4
5
6
7
8
指令1 Ik时,Sp≈k 增加流水线深度可以提高加速比
T P T 1 T 2 T K(n 1 ) M a x(T 1,T 2, T K )
▪K为流水线段数,Ti为第i段所需要的时间
❖指令流水线的吞吐率
单位时间内流水线所完成的指令数
n TP
kT (n 1)T
▪N为通过流水线的指令数 ▪T为指令流水线各个流水段的时间 ▪kT为指令流水线的填充时间
ADD R1, R2, R3 ; (R1) + (R2) → R3 OR R3, R2, R6 ; (R2) ^ (R3) → R6 SUB R3, R4, R5 ; (R4) - (R3) → R5
时钟周期 1 2 3 4
5
6
ADD IF ID EX —— WB
OR
IF ID EX —— WB
6
❖最大吞吐率
当流水线充满之后,理想情况下每个周期都有一条指令完成
1 T P max
T
❖最大吞吐率和实际吞吐率之间的关系
TPkT(n n1)Tkn n1T 11k 11TPm ax n
当n>>k时,TP≈TPmax
❖MIPS与吞吐率
TPMIPS106
MIPS:单位时间内所完成的指令数
7
❖加速比
时钟周期 1 2 3 4 5
6
7
8
指令1 IF ID EX MEM WB
指令2
IF ID EX MEM WB
指令3
IF ID EX MEM WB
指令4
IF ID EX MEM WB
13
❖争用同一个硬件资源,又称资源相关、冲突
时钟周期 1 2 3 4
5
6
7
8
指令1 Ik时,Sp≈k 增加流水线深度可以提高加速比
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图3.33 流水线计算机系统组成原理示意图
指令流水线原理
问题的提出 串行执行方式存在部件利用率不高(有闲置时间)的问题。
CPU周期
使用部件
取指令 PC,MS,IR等
闲置部件 ALU,GRS
取数
MS
PC,ALU,GRS
执行
ALU,GRS
PC,MS
每个过程段所用的部件不同 在某个过程段时,其他过程段的部件处于空闲
(2)流水线工作原理
① 指令周期的三个主要过程:
入
取指
取数
执行
出
图5.30 指令周期的三个过程段
② 指令执行过程的时空图
a.非流水线时空图 b.标量流水线时空图 c. 超标量流水线时空图
空间S
执行
取数
取指
I1
I2
I1I2
I3 I4 I5
I6
I1
I3
I5
I2
I4
I6
I1
I3
I5
I7
I2
I4
I6
I8
· 资源相关 · 数据相关
局部性相关
· 变址转移 · 中断
全局性相关
局部性相关:资源相关
在同一机器时钟周期内争用同一个功能部件所发生的冲突。
时钟 译码 取数 执行
I2
取指 译码 取数 执行
I3
取指 译码 取数
在时钟3发生争用内存的问题—资源相关。
解决方法: ① 将取指操作推迟一个时钟进行;
解决方法:
① 推迟ADD指令的取数操作;
ADD
取指 译码 取数
② 采用数据旁路
(内部向
前)技术,
直接把结果 送给下一条指令。
全局性相关:控制相关
由条件转移指令或中断引起的。
解决方法: ① 延迟转移法:加入空操作,等待转移条件形成。 ② 猜测法:选择出现概率较高的分支进行指令预取。
【例4】 流水线中有三类数据相关冲突: 写后读相关;读后写相关;写后写相关。 判断以下三组指令各存在哪种类型的数据相关。
局部性相关:数据相关
(2) I3: STA M(x),R3 ;(R3)->M(x),M(x)是存储器单元 I4: ADD R3,R4,R5 ; (R4)+(R5)->R3
第(2)组指令中,I3指令应先读出R3内容并存入存 储单元M(x),然后在I4指令中将运算结果写入R3。但 由于I4指令进入流水线,变成I4指令在I3指令读出R3内 容前就写入R3,发生WAR
吞吐率就越高。 但需增加硬件,控制更复杂; ③ 流水线每个阶段的执行时间应尽量一致; ④ 流水线充满(满载)时达到最大的吞吐率。
流水线相关问题
· 流水线相关:是指邻近指令之间由于某 种关系,出现了不能同时被流水操作的 现象。
· 流水线的相关会造成流水线的断流,影 响整个流水线的效率。
造成流水线相关的原因
5.7 流水线CPU
5.7 流水CPU
5.7.1 并行性概念
1.并行性的含义 同时性——指两个或者两个以上事件在同一时刻发生。 并发性——指两个或者两个以上事件在同一时间间隔内发生。
5.5.2 并行性概念
2.并行处理技术的主要形式
(1) 时间并行— 时间重叠 让多个处理过程在时间上相互错开,轮流重叠地使用
I3
I5
I7
I9
I4
I6
I8
I10
(C)超标量流水线时空图
空间S
I1
I2
I3
执行
I1
I2
I3
取数
I1
I2
I3
取指 I1
I2
I3
(a)非流水线时空图
时间T
空间S
I1 I2 I3 I4
执行 取数 取指 I1
I1
I2
I3
I4
I1
I2
I3
I4
I2
I3
I4
(b)标量流水线时空图
时间T
时间T 图5.31 非流水线与流水线对比
(R1)×(R2)->R3 (R4) + (R5)->R3
局部性相关:数据相关
(1) I1: ADD R1,R2,R3 ; I2: SUB R4,R1,R5 ;
(R2) + (R3)->R1 (R1) - (R5)->R4
第(1)组指令中,I1指令运算结果应先写入R1,然 后在I2指令中读出R1内容。由于I2指令进入流水线, 变成I2指令在I1指令写入R1前就读出R1内容,发生 RAW(写后读)相关。
(1) I1: ADD R1,R2,R3 ; (R2) + (R3)->R1 I2: SUB R4,R1,R5 ; (R1) - (R5)->R4
(2) I3: STA M(x),R3 ; R3)->M(x),M(x)是存储器单元
I4: ADD R3,R4,R5 ;
(R4)+(R5)->R3
(3) I5: MUL R3,R1,R2 ; I6: ADD R3,R4,R5 ;
局部性相关的处理方法
指令调度法
· 静态调度 · 动态调度
设置多个功能部件
内部数据定向
(1)指令调度法
指令调度
改变指令的执行顺序以解决相关性带来的问题
② 增设一个存储器,将指令和数据分开存放;
③ 采用双端口存储器。
局部性相关:数据相关
在程序中,一条指令的执行需等前一条指令执行完后才 能进行,则有数据相关。
例:SUB R1,R2,R3;(R2)(R3) R1
ADD R4,R1,R5;(R1)(R5) R4
时钟 1 2 3 4
指令
SUB 取指 译码 取数 执行
流水线 vs 非流水线
① 非流水线指令的执行是串行的; ② 标量流水线从满载起,每经1个周期做完一条指令; ③ 超标量流水线,提高了吞吐量,但需二套(或二
套以上)流水线的硬件及其他电路。(见附图)
常见的超标量流水线结构
(3)流水线工作方式的特点
① 具有时间的并行性; ② 流水线分工越细,可同时运行的指令越多,
局部性相关:数据相关
(3) I5: MUL R3,R1,R2 ; (R1)×(R2)->R3 I6: ADD R3,R4,R5 ; (R4) + (R5)->R3
第(3)组指令中,如果I6指令的加法运算完成 时间早于I5指令的乘法运算时间,变成指令I6在 指令I5写入R3前就写入R3,导致R3的内容错误, 发生WAW(写后写)相关 。
同一套硬件的各个部分,从而赢得高速度。 实现方式:采用流水处理部件。
(2)空间并行—— 资源重复 用多个相同部件处理多个事件。
实现方式:多处理器系统和多计算机系统或单处理器系统。
(3) 时间并行+空间并行 既采用时间并行性又采用空间并行性。
例:奔腾CPU采用的超标量流水技术。
流水线CPU的结构
现代流水线计算机系统 组成原理如左图所示。其中 CPU按流水线方式组织, 通常由三部分组成:指令部 件、指令队列、执行部件。 这三个功能部件可以组成一 个3级流水线。
指令流水线原理
问题的提出 串行执行方式存在部件利用率不高(有闲置时间)的问题。
CPU周期
使用部件
取指令 PC,MS,IR等
闲置部件 ALU,GRS
取数
MS
PC,ALU,GRS
执行
ALU,GRS
PC,MS
每个过程段所用的部件不同 在某个过程段时,其他过程段的部件处于空闲
(2)流水线工作原理
① 指令周期的三个主要过程:
入
取指
取数
执行
出
图5.30 指令周期的三个过程段
② 指令执行过程的时空图
a.非流水线时空图 b.标量流水线时空图 c. 超标量流水线时空图
空间S
执行
取数
取指
I1
I2
I1I2
I3 I4 I5
I6
I1
I3
I5
I2
I4
I6
I1
I3
I5
I7
I2
I4
I6
I8
· 资源相关 · 数据相关
局部性相关
· 变址转移 · 中断
全局性相关
局部性相关:资源相关
在同一机器时钟周期内争用同一个功能部件所发生的冲突。
时钟 译码 取数 执行
I2
取指 译码 取数 执行
I3
取指 译码 取数
在时钟3发生争用内存的问题—资源相关。
解决方法: ① 将取指操作推迟一个时钟进行;
解决方法:
① 推迟ADD指令的取数操作;
ADD
取指 译码 取数
② 采用数据旁路
(内部向
前)技术,
直接把结果 送给下一条指令。
全局性相关:控制相关
由条件转移指令或中断引起的。
解决方法: ① 延迟转移法:加入空操作,等待转移条件形成。 ② 猜测法:选择出现概率较高的分支进行指令预取。
【例4】 流水线中有三类数据相关冲突: 写后读相关;读后写相关;写后写相关。 判断以下三组指令各存在哪种类型的数据相关。
局部性相关:数据相关
(2) I3: STA M(x),R3 ;(R3)->M(x),M(x)是存储器单元 I4: ADD R3,R4,R5 ; (R4)+(R5)->R3
第(2)组指令中,I3指令应先读出R3内容并存入存 储单元M(x),然后在I4指令中将运算结果写入R3。但 由于I4指令进入流水线,变成I4指令在I3指令读出R3内 容前就写入R3,发生WAR
吞吐率就越高。 但需增加硬件,控制更复杂; ③ 流水线每个阶段的执行时间应尽量一致; ④ 流水线充满(满载)时达到最大的吞吐率。
流水线相关问题
· 流水线相关:是指邻近指令之间由于某 种关系,出现了不能同时被流水操作的 现象。
· 流水线的相关会造成流水线的断流,影 响整个流水线的效率。
造成流水线相关的原因
5.7 流水线CPU
5.7 流水CPU
5.7.1 并行性概念
1.并行性的含义 同时性——指两个或者两个以上事件在同一时刻发生。 并发性——指两个或者两个以上事件在同一时间间隔内发生。
5.5.2 并行性概念
2.并行处理技术的主要形式
(1) 时间并行— 时间重叠 让多个处理过程在时间上相互错开,轮流重叠地使用
I3
I5
I7
I9
I4
I6
I8
I10
(C)超标量流水线时空图
空间S
I1
I2
I3
执行
I1
I2
I3
取数
I1
I2
I3
取指 I1
I2
I3
(a)非流水线时空图
时间T
空间S
I1 I2 I3 I4
执行 取数 取指 I1
I1
I2
I3
I4
I1
I2
I3
I4
I2
I3
I4
(b)标量流水线时空图
时间T
时间T 图5.31 非流水线与流水线对比
(R1)×(R2)->R3 (R4) + (R5)->R3
局部性相关:数据相关
(1) I1: ADD R1,R2,R3 ; I2: SUB R4,R1,R5 ;
(R2) + (R3)->R1 (R1) - (R5)->R4
第(1)组指令中,I1指令运算结果应先写入R1,然 后在I2指令中读出R1内容。由于I2指令进入流水线, 变成I2指令在I1指令写入R1前就读出R1内容,发生 RAW(写后读)相关。
(1) I1: ADD R1,R2,R3 ; (R2) + (R3)->R1 I2: SUB R4,R1,R5 ; (R1) - (R5)->R4
(2) I3: STA M(x),R3 ; R3)->M(x),M(x)是存储器单元
I4: ADD R3,R4,R5 ;
(R4)+(R5)->R3
(3) I5: MUL R3,R1,R2 ; I6: ADD R3,R4,R5 ;
局部性相关的处理方法
指令调度法
· 静态调度 · 动态调度
设置多个功能部件
内部数据定向
(1)指令调度法
指令调度
改变指令的执行顺序以解决相关性带来的问题
② 增设一个存储器,将指令和数据分开存放;
③ 采用双端口存储器。
局部性相关:数据相关
在程序中,一条指令的执行需等前一条指令执行完后才 能进行,则有数据相关。
例:SUB R1,R2,R3;(R2)(R3) R1
ADD R4,R1,R5;(R1)(R5) R4
时钟 1 2 3 4
指令
SUB 取指 译码 取数 执行
流水线 vs 非流水线
① 非流水线指令的执行是串行的; ② 标量流水线从满载起,每经1个周期做完一条指令; ③ 超标量流水线,提高了吞吐量,但需二套(或二
套以上)流水线的硬件及其他电路。(见附图)
常见的超标量流水线结构
(3)流水线工作方式的特点
① 具有时间的并行性; ② 流水线分工越细,可同时运行的指令越多,
局部性相关:数据相关
(3) I5: MUL R3,R1,R2 ; (R1)×(R2)->R3 I6: ADD R3,R4,R5 ; (R4) + (R5)->R3
第(3)组指令中,如果I6指令的加法运算完成 时间早于I5指令的乘法运算时间,变成指令I6在 指令I5写入R3前就写入R3,导致R3的内容错误, 发生WAW(写后写)相关 。
同一套硬件的各个部分,从而赢得高速度。 实现方式:采用流水处理部件。
(2)空间并行—— 资源重复 用多个相同部件处理多个事件。
实现方式:多处理器系统和多计算机系统或单处理器系统。
(3) 时间并行+空间并行 既采用时间并行性又采用空间并行性。
例:奔腾CPU采用的超标量流水技术。
流水线CPU的结构
现代流水线计算机系统 组成原理如左图所示。其中 CPU按流水线方式组织, 通常由三部分组成:指令部 件、指令队列、执行部件。 这三个功能部件可以组成一 个3级流水线。