第5章标量处理机(5.7) 超标量超流水处理机
第5章标量处理机(5.7) 超标量超流水处理机
计算机科学与技术
超标量处理机的结构
超标量处理机至少具有两套或者两条以上完整的 指令执行部件。 高性能的超标量处理机通常还设置一个先行指令 窗口: 能够从指令Cache中预取多条指令 能够对窗口内的指令进行数据相关性分析和功 能部件冲突的检测 窗口的大小:一般为2至8条指令
yangruioot@
计算机科学与技术
实际指令级并行度与理论指令级并行度的关系
当横坐标给出的理论指令级并行度比较低时,处 理机的实际指令级并行度的提高比较快。 当理论指令级并行度进一步增加时,处理机实际 指令级并行度提高的速度越来越慢。 在实际设计超标量、超流水线、超标量超流水线 处理机的指令级并行度时要适当,否则,有可能 造成花费了大量的硬件,但实际上处理机所能达 到的指令级并行度并不高。 目前,一般认为,m 和 n 都不要超过4。
多条无数据相关和控制相关的指令在单发射处理机中 的时空图如图
度为1
部件 写结果 执行 译码 取指 0 1 1 1 2 2 1 2 3 3 1 2 3 4 4 2 3 4 5 5 3 4 5 6 6 4 5 6 7 7 5 6 7 8 8 6 7 8 9 9 7 8 9 10 10 8 9 10 11 11 9 10 11 12 12 13 14 15 10 11 12 11 12 12
写结果
图 5 44 超 标 量 超 流 水 线 时 空 图
在一台指令并行度为(m, n)的超标量超流水线处理机 上,连续执行没有相关的N条 指令的所需要的时间为:
T ( m, n ) ( k N m ) t nm
执行 译码 取指
超标量超流水线处理机相对 于单流水线普通标量处理机的 加速比为:
标准流水线测测试试题
2.请写出2种数据相关方式,并举例说明分别在什么情况下发生(采用设计程序段的方式来说明)
答:
⑴写读相关:
例如程序段R0=R1×R4; R2=R0×R3若第二条指令在第一条指令前执行则最终的结果与正确结果不同,此时发生写读相关
⑵读写相关
例如程序段R2=R0×R3; R3=R4-1若第二条指令在第一条指令前执行则最终的结果与正确结果不同,此时发生读写数据相关
A. 2.4
B. 2.46
C. 2.67
D. 2.75
答案:B
★★
16.一条4个功能段的加-乘静态流水线,四个功能段如下所示,计算 ,最少需要经过多少时间,假设运算的结果有专门的输出通路连接到输入端。并且只有当一个流水线排空后流水线才可以发生另一种运算。
(1)取指
(2)译码、取数
(3)运算
(4)写结果
A. 流水线设备
B. 上海流水线
C. 无锡流水线
D. 杭州流水线
答案B
★★
3.假设一条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每一段的执行时间均为 ,连续执行n条指令所需要花费的最短时间约为(假设仅有“取指令”和“分析”可重叠并假设n足够大):
A.
B.
C.
D.
答案B
★★
4.假设一条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每一段的执行时间分别为 、 和 ,连续执行n条指令所需要花费的最短时间约为(假设仅有“取指令”和“执行”可重叠并假设n足够大):
超标量处理机一般具有多于一条的流水线,一台m度的超标量处理机可同时发射m条指令,指令的发射等待时间为1个时钟,指令的并行度为m。
超流水线处理机一般具有一条k段的超流水线,一台n度的超流水处理机可以同时发射一条指令,指令的发射等待时间为1/n个时钟周期,每个时钟周期共发射n条指令。指令的并行度为n。
第05章-流水线课后习题
第5章课后习题1.填空题(1) 衡量流水线性能的主要指标有(2) 指令乱序流动可能造成(3) 解决数据相关主要有(4) 超标量处理机开发的是行性。
(1). 吞吐率、加速比、效率(2). 先写后读、先读后写、写写(3). 推后分析、设置专用路径(4). 空间、时间2.假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段,每一段的时间分别为△t、2△t和3△t。
在下列各种情况下,分别写出连续执行n条指令所需要的时间表达式。
(1) 顺序执行方式。
(2) 仅"取指令"和"执行"重叠。
(3) "取指令"、"分析"和"执行"重叠。
第2题(1) 顺序执行时每条指令用时=△t+2△t+3△t=6△t,因此n条指令所需要的时间=6n*△t(2) 第一条指令完成需要时间=△t+2△t+3△t=6△t,根据题义,下一条指令的"取指令"与上一条指令"执行"的最后一个△t重叠。
因此,自从第一条指令完成后,每隔4△t完成一条指令。
所以余下的n-1条指令用时(n-1)*4△t.所以,n条指令所需要的时间=6△t+(n-1)*4△t=2(2n+1)△t。
(3) 第一条指令完成需要时间=△t+2△t+3△t=6△t,由于一条指令的"取指令"和"分析"阶段和下一条指令的"执行"阶段重叠,因此,此后每3△t 完成一条指令,余下的n-1条指令用时(n-1)*3△t.因此n条指令所需要的时间=6△t+(n-1)*3△t=3(n+1)△t3.用一条5个功能段的浮点加法器流水线计算F=。
每个功能段的延迟时间均相等,流水线的输出端与输入端之间有直接数据通路,而且设置有足够的缓冲寄存器。
超标量处理机和超流水线处理机——计算机系统结构
超标量处理机和超流⽔线处理机——计算机系统结构在表5.2中,基准标量处理机是⼀台普通的单流⽔线处理机。
为了便于进⾏⽐较,把基准标量处理机的机器流⽔线周期和指令发射等待时间都假设为1个时钟周期,同时发射的指令条数为⼀条,它的指令级并⾏度ILP(Instruction Level Parallelism)假设为1。
另外三种指令级并⾏处理机,即并⾏度为m的超标量处理机,并⾏度为n的超流⽔线处理机,以及并⾏度为(m,n)的超标量超流⽔线处理机,它们的性能都相对于基准标量处理机进⾏⽐较。
单流⽔线处理机只有⼀条指令流⽔线,只有⼀个多功能的操作部件,每个时钟周期"取指令"和"分析"完成⼀条指令。
在许多流⽔线处理机中,指令流⽔线的流⽔段数k=4;它把⼀条指令的执⾏过程主要分解为"取指令"、"分析"、"执⾏"和"写结果"4个阶段。
指令所要执⾏的功能主要在多功能操作部件中,在"执⾏"这⼀流⽔段完成。
多数流⽔线处理机的多功能操作部件采⽤流⽔线结构。
有的简单指令,只要⼀个时钟周期就能够在"执⾏"流⽔段中完成,⽽⽐较复杂的指令往往需要多个时钟周期。
另外,还有条件转移等的影响;因此,⼀般流⽔线标量处理机每个时钟周期平均执⾏指令的条数⼩于1,即它的指令级并⾏度ILP<1。
超标量、超流⽔线和超标量超流⽔线三种处理机在⼀个时钟周期内可以执⾏完成多条指令,即它们的指令级并⾏度ILP都⼤于1。
超标量处理机基本结构超标量处理机的典型结构是有多个操作部件,⼀个或⼏个⽐较⼤的通⽤寄存器堆,⼀个或两个⾼速Cache。
先进的超标量处理机⼀般都包含有三个处理单元,⼀个是定点处理单元,通常称为中央处理单元(CPU),它由⼀个或多个整数处理部件组成;第⼆个是浮点处理单元(FPU),它由浮点加减法部件和浮点乘除法部件等组成;第三个是图形加速部件,也称为图形处理单元(GPU),这是现代处理机中不可缺少的⼀个部分。
超标量处理器概览
超标量处理器概览超标量处理器概览1.1为什么需要超标量处理器执⾏速度的影响因素程序中指令的数量每条指令在处理器中执⾏所需要的周期数普通流⽔线处理器每周期最多执⾏1条指令超标量处理器每周期可以执⾏多于⼀条的指令但不是每周期执⾏多于⼀条指令的处理器都是超标量处理器,如VLIW结构的也可以(依靠编译器和程序员来决定哪些指令可以并⾏执⾏)处理器每个周期的时间超标量处理器专门针对优化IPC(instruction per cycle),超标量处理器每周期可以从I-Cashe提取n条指令送⼊流⽔线,1.2 普通处理器的流⽔线理想流⽔线流⽔线各阶段所需时间近似相等各阶段的操作被重复执⾏。
对于算数运算类型的指令不需要访问存储器,那么它只需要在访存阶段什么都不做就可以。
流⽔线中各个阶段相互独⽴,互不相⼲。
但各指令间存在各种相关性,因此很难满⾜。
对于复杂指令集如x86,因为指令长度不等,执⾏时间不等,很难直接实现流⽔线。
对于精简指令集如arm,因为指令长度相等,并且每条指令任务量⽐较规整,所以容易使⽤流⽔线。
将流⽔线阶段合并,可以产⽣三级流⽔等,适⽤于对性能要不⾼的低功耗嵌⼊式领域。
将流⽔线阶段继续细分,可以获得更⾼性能,但是也会增加硬件资源开销和分⽀预测失败后果更严重。
指令相关性先写后读:后⼀条指令的操作数来源于上⼀条指令的结果,后条指令必须等上⼀条指令得到结果才能继续执⾏。
先读后写:⼀条指令要将结果写⼊到某个寄存器,但这个寄存器还在被其他指令读取,不能够马上写⼊。
先写后写:两条指令都要将结果写⼊同⼀个寄存器,那么后⾯指令必须等前⾯指令执⾏完才能执⾏写操作。
控制相关性:分⽀指令只有计算出结果才可以知道后续执⾏哪些指令,在得到结果的等待时间中只能按照预测⽅式取指。
对于超标量处理器WAW、WAR、RAW三种相关性都会阻碍指令乱序执⾏,需要在流⽔线中进⾏特殊处理。
1.3 超标量处理器的流⽔线超标量处理器执⾏指令两种⽅式:顺序执⾏、乱序执⾏frontend指流⽔线中的取指、译码issue指发射,将指令送到对应的功能单元执⾏。
计算机组成原理基础知识流水线技术和超标量处理器
计算机组成原理基础知识流水线技术和超标量处理器计算机组成原理基础知识:流水线技术和超标量处理器计算机组成原理是指计算机硬件的基本组成和工作原理。
在计算机科学与技术领域,流水线技术和超标量处理器是两个重要的概念。
本文将介绍这两种技术的基本原理和应用。
一、流水线技术流水线技术是指将一个复杂的操作分解成多个简单的子操作,并将这些子操作连续地执行,以提高计算机的指令执行效率。
在传统的自顶向下的设计方法中,计算机硬件主要包括控制器、运算器等单一功能模块,而在流水线技术中,计算机硬件被划分成多个阶段,每个阶段执行一个特定的功能子模块。
经典的流水线包括取指、译码、执行、访存和写回等阶段。
在取指阶段,计算机从存储器中读取指令;在译码阶段,计算机对指令进行解码并读取相应的操作数;在执行阶段,计算机执行相应的操作;在访存阶段,计算机对数据进行读写操作;在写回阶段,计算机将执行结果写回到寄存器或存储器。
流水线技术的优点是可以充分利用计算机硬件资源,提高指令的并行执行程度。
但是,流水线技术也存在一些问题,例如数据的相关性和冒险问题,需要通过一些技术手段来解决。
二、超标量处理器超标量处理器是一种在流水线技术基础上的改进方案。
传统的流水线技术中,每个阶段只能执行一个指令,而超标量处理器允许在同一个时钟周期内执行多个指令,以进一步提高计算机的执行效率。
超标量处理器主要依靠两个关键技术来实现多指令并行执行:乱序执行和动态调度。
乱序执行是指根据指令之间的依赖关系,按照合理的顺序执行指令,而不是按照指令在程序中的顺序执行。
动态调度是指通过硬件对指令进行调度,在不改变程序语义的前提下,尽可能地重排指令的执行顺序,以提高指令的并行度。
超标量处理器的工作原理可以简单描述为:在取指阶段,计算机从存储器中读取多个指令;在译码阶段,计算机对这些指令进行解码;在执行阶段,计算机并行执行多个指令;在访存阶段,计算机同时进行多个数据的读写操作;在写回阶段,计算机将执行结果写回到寄存器或存储器。
标量处理机
1.标量处理机:只有标量数据表示和标量指令系统的处
理机称为标量处理机。标量处理机是一种最通用,也是 使用最普遍的处理机。
2.标量处理机中提高指令执行速度的主要途径有:
①提高主频;②缩短CPI——设计更好的算法和功 能部件;③指令级并行——主要方法,又可分为:
a.流水线技术和超流水线技术;
2.主存操作数相关 例如:k: add [0001],ax k+1: mov bx, [0001]
2021/8/10
第五章 标量处理机
第8 页
5.1 先行控制技术
在现代计算机中,中间结果一般写入寄存器,所以该类 相关发生不多。 解决方法:推后分析法。
2021/8/10
第五章 标量处理机
第9 页
5.1 先行控制技术
1.采用先行控制技术的处理机结构
2021/8/10
第五章 标量处理机
第4 页
5.1 先行控制技术
2.四个先行缓冲栈 (1) 先行指令缓冲栈——缓冲主存和指令分析器 (2) 先行操作栈——存放经过指令分析器预处理后的指
令。这种预处理内容很多。
2021/8/10
第五章 标量处理机
第5 页
5.1 先行控制技术
2021/8/10
第五章 标量处理机
第15 页
5.1 先行控制技术
对于条件转移,相关最严重的情况发生在条件码是 由上一条指令产生的。
下面是条件转移对程序执行速度影响的分析:
① 如果转移不成功——运算器等待一个时钟周期 ② 如果转移成功
如果L在先行指令缓冲栈中,则条件转移对程序执行的 影响是:
a.作废k+2到L-1之间的所有指令; b.运算器等待一个时钟周期。
超标量、超级流水线处理机的性能分析
为 了更 深 地 挖掘 计 算 机 的并行 性 , 行 处 理 机 现 都 采 用 了超 标 量 和超 级 流水 线 技术 ,甚 至采 用 超 级
流 水 线 超 标 量 处 理 机 ,超 级 流 水 线 的代 表 机 型 是
R 00机 , 标 量计 算 机 的代 表 有 C coe 算 机 、 40 超 yln 计
排 队室 等 待接 受 下 一个 服 务 员 的服 务 …。在 本 系统 中 , 客 在 排 队室 等 待 , 第 一个 服 务 员服 务 后 , 顾 被 紧
接着 被 第 二个 服 务员 服 务 ,服务 完 成后 紧 接 着接 受
( )服务 员 作 业 的服 务 时 间为 一个 时钟 周 期 下 3 ,
服 从 定长 分 布 , 然 , 服务 员 服务 时间 均 为 下 显 n个 。
( )统 经 过长 时 间运行 后 达 到统 计 平稳 状 态 。 4
( )服 务 员 串行 服 务 , 和 典 型 的 串行 服 务 系 5 这 统 不 同 : 般情 况 , 一 串行 排 队系统 中 , 个服 务 员 前 每
度接 口锁存器隔离 , 相邻段之间的信息流动处在一 个 公 共 时钟 控 制 之 下 , 基 本 结构 如 图 1 示 …。 其 所 若
每一 段 s的逻辑 电路 的延迟 时 间为 下,锁存 器 时 间 ;
延 迟 为 下 , 么 , 水线 的时 钟周 期 为 : 那 流
1 1
个 子 任务 。其 中 n个 周 期 用来 填 满 流水 线 或 完成 第
维普资讯
1 0
微 电子 学 与计 算 机
20 0 2年 第 6期
超 标 量 、 级 流 水 线 处 理 机 的 性 能 分 析 超
第5章标量处理机(5.4,5.5,5.6)流水线的冲突MIPS流水线素材
ALU
ALU
DSUB R4,R1,R5
IM
Reg
DM
Reg
ALU
XOR R6,R1,R7
计算机科学与技术系 yangruioot@
对于在一个时钟周期内同一寄存器堆进行操作,在时钟的前半部 分进行写寄存器的操作,后半部分进行读寄存器的操作。
计算机科学与技术系 yangruioot@
如何解决对同一寄存器的访问冲突?
把写操作安排在时钟周期的前半拍完成,
每一个周期作为一个流水段;
在各段之间加上锁存器(流水寄存器)。
IF 段 IM
ID 段 Reg
EX 段
MEM 段 DM
WB 段 Reg
流水寄存器
计算机科学与技术系 yangruioot@
ALU
流水寄存器保证了流水线中不同段的指令不会相互影 响。每个时钟周期结束之后,该段的所有执行结果都 保存在流水段寄存器中,在下一个时钟周期开始作为 下一个段的输入。
采用定向技术消除上例中的相关 DSUB操作是在DADD操作产生了结果之后才使
用该结果的,考虑将DADD的结果从EX/MEM寄 存器移到DSUB需要的地方,也就是ALU的输入 锁存器,则不需要引入停顿。
计算机科学与技术系
yangruioot@
时间(时钟周期) 1 DADD R1,R2,R3 IM 2 Reg 3 4 DM 5 Reg 6
计算机科学与技术系
yangruioot@
时间(时钟周期) 1 load M 2 Reg 3 4 M 5 Reg 6 7 8
ALU
ALU
指令 i+1
M
Reg
M
Reg
ALU
指令 i+2
10-3 超标量、超级流水线和超长指令字计算机(郑宏)
• 单发射处理机在指令一级通 常采用流水线结构;
• 单发射处理机的设计目标是 每个时钟周期平均执行一条 机器指令;但由于转移和数 据相关的问题,还有其它的 资源冲突,使得实际上达不 到这一目标。
单发射和多发射
多发射
– 在一个时钟周期中发出多条指令。 – 常见的多发射处理机有:
✓ 超标量处理机 ✓ 超流水线处理机 ✓ 超长指令字( VLIW )处理机。
超标量处理机
特点:
– 有两条或两条以上能够同时工作的指令流水线;
– 一个时钟周期内能够同时发射多条指令。
1
I1
IF
I2
IF
I3
IF
I4
I5
I6
I7
I8
I9
I10
I11
I12 指令
2
3
4
5
ID
EX
WR
时钟周期
ID
EX
WR
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
IF
超长指令字处理机
特点:
– 指令字长很长,可达数百位;
– 有多个功能部件并发工作;
– 用一条长指令来实现多个操作的并行执行;
1I1ຫໍສະໝຸດ IFI2I3
2
3
4
5
ID
EX
WR
时钟周期
EX
EX
IF
ID
EX
WR
EX
EX
IF
ID
EX
WR
EX
东师《计算机系统结构16秋在线作业2
东北师范大学东师计算机系统结构16秋在线作业2一、单选题(共15 道试题,共45 分。
)1. 在IBM370机器的中断系统中,分配给中断处理软件的功能应当是()。
A. 保存程序状态字B. 保存通用寄存器C. 转向中断处理程序总入口D. 保存程序断点地址正确答案:2. 多处理机中不会引起Cache不一致的是()。
A. 共享可写的数据B. 共享只读的数据C. 进程在处理机之间产生迁移D. I/O传输正确答案:3. 利用SIMD互连网络,实现8个部件之间点对点通信,可用()。
A. 单级B. 两级C. 三级D. 四功能交换单元正确答案:4. 8个节点的3维立方体单级互连网络,互连函数种类为()。
A. 3种B. 4种C. 8种D. 1种正确答案:5. 发展并行处理形成的分布处理系统所用的途径是()。
A. 资源重复B. 提高主频C. 资源共享D. 时间重叠正确答案:6. 多级PM2I网络又叫做()。
A. 全排列网络B. Omega网络C. 数据交换网络D. 移数网络正确答案:7. 在SIMD计算机中各处理单元必须()。
A. 以异步方式在同一时间内执行相同的指令B. 以同步方式在同一时间内执行相同的指令C. 以同步方式在同一时间内执行不同的指令D. 以异步方式在同一时间内执行不同的指令正确答案:8. 页式虚拟存储器的页面由小增大时,命中率的变化将会是()。
A. 单调上升B. 先上升后下降C. 单调下降D. 先下降后上升正确答案:9. 重叠控制方式()。
A. 不影响CPU结构B. CPU成本低C. 可提高吞吐率D. 可缩短一条指令的执行时间正确答案:10. 在计算机系统的多级层次结构中,单条指令功能最强的一级是()。
A. 应用语言级B. 操作系统级C. 机器语言级D. 微程序级正确答案:11. 静态数据流计算机最突出的特点是()。
A. 数据流令牌无标号B. 需要程序计数器来实现C. 令牌带上标号D. 同步由门寄存器来实现正确答案:12. 中断的响应次序在同时发生多个不同中断类的中断请求时,中断响应由()决定。
2022年宁德师范学院计算机应用技术专业《计算机系统结构》科目期末试卷B(有答案)
2022年宁德师范学院计算机应用技术专业《计算机系统结构》科目期末试卷B(有答案)一、选择题1、与流水线最大吞吐率高低有关的是( )A.各个子过程的时间B.最快子过程的时间C.最慢子过程的时间D.最后子过程的时间2、输入输出系统硬件的功能对()是透明的。
A.操作系统程序员B.应用程序员C.系统结构设计人员D.机器语言程序设计员3、流水机器对全局性相关的处理不包括( )A.猜测法B.提前形成条件码C.加快短循环程序的执行D.设置相关专用通路4、不同系列的机器之间,实现软件移植的途径不包括( )A.用统一的高级语言B.用统一的汇编语言C.模拟D.仿真5、指令间“一次重叠”说法有错的是( )A.仅“执行k”与“分析k+1”重叠B."分析k”完成后立即开始“执行k”C.应尽量使“分析k+1”与“执行k”时间相等D.只需要一套指令分析部件和执行部件6、计算机组成设计不考虑( )。
A.专用部件设置B.功能部件的集成度C.控制机构的组成D.缓冲技术7、目前,MO由()实现,M1用()实现,M2至M5大多用()实现。
A.软件,固件,硬件B.固件,软件,硬件C.硬件,软件,固件D.硬件,固件,软件8、外部设备打印机适合于连接到( )。
A.数组多路通道B.字节多路通道C.选择通道D.任意一种通道9、计算机系统的层次结构按照由高到低的顺序分别为()。
A.高级语言机器级,汇编语言机器级,传统机器语言机器级,微程序机器级B.高级语言机器级,应用语言机器级,汇编语言机器级,微程序机器级C.应用语言机器级,传统机器语言机器级,汇编语言机器级,操作系统机器级D.应用语言机器级,操作系统机器级,微程序机器级,传统机器语言机器级10、对机器语言程序员透明的是( )。
A.中断字B.主存地址寄存器C.通用寄存器D.条件码二、判断题11、超标量功能流水线能完成执行多种指令的功能。
()12、时间是衡量计算机性能的主要标准。
()13、磁盘设备在数据传送时,数据宽度宜采用单字或单宇节。
02325自考计算机系统结构题库及答案
02325计算机系统结构自考题库及答案计算机系统结构单选题1.对应用程序员不透明的是( ) AA.条件码寄存器B.乘法器C.指令缓冲器D.先行进位链2.汇编语言源程序变换成机器语言目标程序是经____来实现的( ) BA.编译程序解释B.汇编程序翻译C.汇编程序解释D.编译程序翻译3.属计算机系统结构考虑的应是( ) DA.主存采用多体交叉还是单体B.主存频宽的确定C.主存采用MOS 还是TTLD.主存容量和编址方式4."从中间开始设计的""中间""目前多数是在( )" CA.传统机器语言机器级与微程序机器级之间B.微程序机器级与汇编语言机器级之间C.传统机器语言机器级与操作系统机器级之间D.操作系统机器级与汇编语言机器级之间5.多处理机主要实现的是( ) DA.操作步骤的并行B.指令级并行C.操作级并行D.任务级并行6.直接执行微指令的是( ) BA.编译程序B.硬件C.微指令程序D.汇编程序7.从计算机系统结构上讲,机器语言程序员所看到的机器属性是( ) AA.编程要用到的硬件组织B.计算机各部件的硬件实现C.计算机硬件的全部组成D.计算机软件所要完成的功能8.尾数下溢处理平均误差可调整到零的方法是( ) D "A.恒置""1""法"B.舍入法C.截断法D.ROM 查表法9.变址寻址的主要作用是( ) AA.支持向量、数组的运算寻址B.支持操作系统中的进程调度C.支持访存地址的越界检查D.支持程序的动态再定位10.在IBM370 系统中,支持操作系统实现多进程共用公用区管理最有效的指令是( ) BA.程序调用楷令B.比较与交换指令C.测试与置定指令D.执行指令11.程序员编写程序时使用的地址是( ) CA.主存地址B.辅存实地址C.逻辑地址D.有效地址12.不需要编制的数据存储空间是( ) BA.I/O接口的寄存器B.堆栈C.主存储器D.CPU中的通用寄存器13.RISC执行程序的速度比CISC要快的原因是( ) BA.RISC只允许loAd和store指令访存 B.RISC的指令平均执行周期数较少 C.RISC的指令系统中的指令条数较少 D.程序在RISC上编译生成的目标程序较短14.平均码长最短的编码是( ) AA.哈夫曼编码B.定长编码C.扩展编码D.需要根据编码使用的频度计算平均码长后确定15.外部设备打印机适合于连接到( ) AA.宇节多路通道B.选择通道C.数组多路通道D.任意一种通道16.在IBM370 系统中,申断响应硬件分工保存的是( ) DA.作业名称和优先级等B.各种软件状态和标志C.通用寄存器内容D.条件码等状态信息17.中断响应由高到低的优先次序宜用( ) AA.访管+程序性+重新启动B.访管斗程序性+机器故障C.程序性+1/0+访管D.外部+访管+程序性18.CDC CYBERl70 的I/0 处理机系统属于( ) BA.DMA 方式 B.外围处理机方式 C.通道方式 D.程序控制的1/0 方式19.通道流量是在某个时期单位时间内传送的宇节数,这个时期应是( ) CA.数组多路通道或字节多路通道B.字节多路通道或选择通道C.数组多路通道或选择通道D.任意一种通道20.外部设备打印机适合于连接到( )AA.宇节多路通道B.选择通道C.数组多路通道D.任意一种通道21.数据通路出错引起的中断是( ) BA.访管中断B.机器校验中断C.程序性中断D.外中断22.CAche存贮器常用的地址映象方式是( ) BA.全相联映象B.组相联映象C.页表法映象D.段页表映象23.虚拟存储器主要是为了( ) BA.扩大存储系统的容量和提高存储系统的速度B.扩大存储系统的容量C.提高存储系统的速度D.便于程序的访存操作24.对于采用组相联映像、LRU替换算法cAche存储起来说,不影响cAche命中率的是( ) AA.直接映像、组相联映像、全相联映像B.全相联映像、直接映像、组相联映像C.组相联映像、直接映像、全相联映像D.全相联映像、组相联映像、直接映像25.最能确保提高虚拟存储器访主存的命中率的改进途径是( ) CA.改用LRU替换算法并增大页面B.增大辅存容量C.改用LRU替换算法并增大页面数D.采用FIFO替换算法并增大页面26.与全相联映像相比,组相联映像的优点是( ) AA.目录表小B.命中率高C.块冲突概率低D.主存利用率高27.程序员编写程序时使用的地址是( ) BA.有效地址B.逻辑地址C.物理地址D.主存地址28.评价存储器性能的基本要求有大容量、____和低价格() BA.性价比高B.高速度C.命中率高D.利用率高29.解释一条机器指令的微操作包括____三部分() DA.操作数B.解释C.翻译D.取指令、分析和执行30.实现指令的重叠解释必须在计算机组成上满足____要求( ) CA.硬件冲突B.主存冲突C.要解决“分析”与“执行”操作控制上的同步D.主存和硬件冲突31.非线性流水线的特征是( ) AA.一次运算中要多次使用流水线中的某些功能段B.一次运算中使用流水线中的多个段C.流水线的各功能段在不同运算中可以有不同的连接D.流水线中某些功能段在各次运算中的作用不同32.与线性流水线最大吞吐率有关的是( ) CA.最后功能段的执行时间B.最快的那一段的执行时间C.最慢的那一段的执行时间D.各个功能段的执行时间33.在MIPS的指令流水线中,可能发生的冲突是( ) DA.两条指令的写操作之间的写后写冲突B.后流入的指令的写操作与先流入的指令的读操作之间的读后写冲突C.同一条指令的读操作与写操作之间的写后读冲突D.先流入的指令额写操作与后流入的指令的读操作之间的写后读冲突34."指令间的""一次重叠""是指( )" C "A.“取指K+,""与""分析,""重叠" "B.“分析,""与""执行K+,""重叠" "C.“分析K+,""与""执行,""重叠" "D.执行,与""取指K+,""重叠"35.IBM360/91属于( ) AA.标量流水机B.向量流水机C.阵列流水机D.并行流水机36.以下说法不正确的是( ) BA.静态流水线是多功能流水线B.动态流水线只能是单功能流水线C.动态流水线是多功能流水线D.线性流水线是单功能流水线37.非线性流水线是指( ) AA. 一次运算申要多次使用流水线中的某些功能段B.流水线中某些功能段在各次运算申的作用不同C.一次运算中使用流水线中的多个功能段D.流水线的各个功能段在各种运算申有不同的组合38.在流水机器中,全局性相关是指( ) BA.先读后写相关B.由转移指令引起的相关C.先写后读相关D.指令相关39.CRAY 一l 的流水线是( ) DA.多条多功能流水线B.一条多功能流水线C.一条单功能流水线D.多条单功能流水线40.流水机器对全局性相关的处理不包括( ) BA.加快短循环程序的执行B.设置相关专用通路C.提前形成条件码D.猜测法41.并行(阵列)处理机主要实现的是( ) AA.指令操作级并行B.任务级并行C.指令内操作步骤并行D.作业级并行42.在集中式存贮器构型的并行(阵列)处理机中,为了减少访存冲突,存贮器分体数应读是( ) AA.多于处理单元数B.少于处理单元数C.与处理单元数无关D.等于处理单元数43.能实现作业、任务级并行的异构型多处理机属( ) BA.SIMDB.MIMDC.MISDD.SISD44.多端口存贮器适合于连接( ) DA.松藕合多处理机B.机数可变的多处理机C.机数很多的多处理机D.紧藕合多处理机45.在多处理机上,两个程序段既能顺序串行、交换串行,又能并行,则这两个程序段之间必须是( ) AA.只有数据输出相关B.只有数据反相关C.只有数据相关D.只有源数据相关46.数据驱动方式是指( ) CA.按数据需要驱动操作B.按指令对数据的需要驱动操作C.按数据可用驱动操作D.按数据需要和可用驱动操作47.在数据流计算机中,执行一条指令后形成新的数据令牌的个数是( ) CA.能同时并行传送数据令牌的个数B.一个C.需要该指令结果数据的后继指令的条数D.需要共享该指令结果数据的指令操作部件额个数48.数据流程序的调试十分困难的原因是( ) AA.数据流程序有大量的隐含的并行性B.数据流语言是函数类语言C.数据流程序图难以看懂D.数据流中存在大量的数据相关49.数据驱动方式具有异步性、并行性、函数性和局部性的性质,因此,很适合数据流计算机的结构是( ) BA.共享存储器多处理机结构B.分布式存储器多处理机结构C.流水线结构D.阵列结构计算机系统结构判断题1.系统是否设浮点运算指令,对计算机系统结构是透明的。
计算机系统结构_第五章_标量处理机
1. 提高处理机的工作主频。5、60年代主要采用这种技术,每3、 4年处理机的速度要提高一个数量级。
2. 采用更好的算法和设计更好的功能部件,如采用RISC等。 3. 多条指令并行执行。指令级的并行技术。
流水线技术。 处理机中设置多个独立的功能部件,如浮点运算器,定点运算器, 访存部件等。 超长指令技术。
5.1.5 先行缓冲栈
5.1.6 缓冲深度的设计方法
2019/7/15
4
指令的重叠执行方式
一条指令的执行可以分为多个阶段,具体分法视处理机而定,一般可 以分为三个阶段:
取指令是指按照指令计数器的内容访问主存,取出一条指令送到指令寄 存器。
分析指令是指对指令的操作码进行译码,按照给定的寻址方式和地址字 段内容形成操作数地址,并用这个地址读出操作数,操作数可以在主存 也可以在寄存器。
2019/7/15
3
5.1 先行控制技术
先行控制技术的关键是采用缓冲技术和预处理技术,以及两者都采用,
通过对指令流和数据流的预处理和缓冲,能够尽量使指令分析器和指
令执行部件独立工作并始终处于忙碌状态。
5.1.1 指令的重叠执行方式
5.1.2 先行控制方式的原理
5.1.3 处理机结构
5.1.4 指令执行序列
如果再规定,执行指令所需要的操作数和执行结果只写到通用寄存器, 则取指令、分析指令和执行指令就可以同时进行。
在许多高性能处理机中,有独立的指令Cache和数据Cache。这种结构 被称为哈佛结构。
2019/7/15
10
先行控制方式的原理(续)
(3)采用先行控制技术
采用先行控制技术的关键是缓冲技术和预处理技术。
系统结构习题
系统结构习题选择题第一章对计算机系统结构,下列()是透明的阵列运算部件计算机使用的语言是()。
分属于计算机系统各个层次实现汇编语言源程序变换成机器语言目标程序是由()。
汇编程序翻译系列机软件必须保证()。
向后兼容,力争向上兼容输入输出系统硬件的功能对()是透明的。
应用程序员并行处理发展通过资源共享途径形成了()。
分布式处理系统利用时间重叠实现并行处理的是()。
流水处理机就使用语言的角度而言,可将计算机系统看成是按功能划分的()组成的层次结构多个机器级利用资源重复实现并行处理的是()。
阵列处理机计算机系统结构也称计算机体系结构,指的是()。
传统机器级计算机的结构与组成不包括()。
操作系统字串位并是指同时对一个字的所有位进行处理,其并行等级()。
已经开始出现的并行性计算机系列化的优点不包括()同一系列内的软件一定是向下兼容的开发并行性的途径有时间重叠、资源重复和()。
资源共享对计算机系统结构,下列()是透明的阵列运算部件系列机软件必须保证向后兼容,一般应该做到()。
向上兼容用微程序直接解释另一种机器指令系统的方法称为仿真,用机器语言解释实现软件移植的方法称为()。
模拟高级语言是由()翻译成汇编语言程序编译程序就使用语言的角度而言,可将计算机系统看成是按功能划分的()组成的层次结构多个机器级VonNenmann型计算机不具有的特点是()。
以数据流驱动位片处理是指计算机采用()方式对数据进行处理。
字并位串除了分布处理、MPP和机群系统外,并行处理计算机按其基本结构特征可分为流水线计算机,阵列处理机,多处理机和()四种不同的结构。
数据流计算机费林按指令流和数据流的多倍性把计算机系统分类,这里的多倍性指()。
系统瓶颈部件上处于同一执行阶段的指令或数据的最大可能个数系列机在软件兼容上应该做到()。
向后兼容,并力争向上兼容计算机系统的层次结构按照由高到低的顺序分别为()。
高级语言机器级,汇编语言机器级,传统机器语言机器级,微程序机器级1TFLOPS计算机能力,1TBYTE/S的I/O带宽和()称为计算机系统的3T性能目标。
第05章标量处理机eng
@central south university
余腊生 版权所有,违者必究
2019/1/26
5-2
Superscalar
• Avoid structural hazards - use different functional units, make up to 1 memory reference combined
– Maintaining precise exceptions is difficult because an integer operation may have already completed – Hardware must detect these problems (and quickly) @central south university
– RAW hazards could exist between the two instructions issued at the same time – There are new potential WAW and WAR hazards – We need to have twice as many register reads and writes as before, our register file must be expanded to accommodate this
– While a superscalar can issue any combination of instructions, for simplicity, we will concentrate on a 2 instruction superscalar for MIPS where
• one instruction will be an integer operation • and the other, if available will be a floating point operation
计算机系统结构模拟试题(3)(精)
计算机系统结构模拟试题(3)一、单选题:15分,每题03分1、一台模型机共有7条指令,各指令的使用的频率分别为45%,30%,15%,5%,3%,1%,1%。
要求操作码的平均长度最短,那么该值应该是:A: 2B: 1.87C: 2.1D: 1.972、设a为一个计算机系统中n台处理机可以同时执行的程序代码的百分比,其余代码必须用单处理机顺序执行。
而单个节点机的处理效率是4MIPS,那么在a=0.8的条件下,要让系统的效率达到20MIPS,则至少需要多少台节点机?A: 8B: 16C: 32D: 以上均错误3、一条流水线的可分为k段,各段的执行时间都是,共向该流水线输入n个任务,求该流水线实际吞吐率为:A:B:C:D:4、一条4段的流水线可以由以下时空图来表示,求该流水线的实际吞吐率(假设n=100)A:B:C:D:5、在超标量,超流水线,超标量超流水线等不同结构的指令级并行处理机上运行矩阵乘法C=A×B(假设A是m×n阶的矩阵,B是n×l阶的矩阵),最少需要进行多少次乘法和多少次加法?A: mn, nlB: mnl, ml(n-1)C: mnl, mn(l-1)D: mnl, mnl二、多选题:04分,每题04分6、下列功能,那些一般由硬件实现?A : 第一次关CPU中断B : 返回中断点C : 第一次开CPU中断D : 保存中断点三、填空选择题:04分,每题04分7、星形网络的网络直径和链路数分别为()和()。
选项 1 :N-1N/22N(N-1)/2选项 2 :N-1N/22N(N-1)/2四、大型计算题:10分,每题10分8、假设我们考虑条件分支指令的两种不同设计方法如下:CPU1:通过比较指令设置条件码,然后测试条件码进行分支。
CPU2:在分支指令中包括比较过程。
在两种CPU中,条件分支指令都占用2个时钟周期而所有其他指令占用1个时钟周期,对于CPU1,执行的指令中分支指令占20%;由于每个分支指令之前都需要有比较指令,因此比较指令也占20%。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机科学与技术
yangruioot@
由4个操作部件组成的单发射处理机
来自指 令Cache IF ID
FA1 FA2 FA3 浮点加法部件
MD1 MD2 MD3 乘除法部件
WR 通用寄存器 后行写数栈
AL 定点ALU部件 LS 取数存数部件
计算机科学与技术
yangruioot@
来自指令 Cache
IF
ID
乘除部件 AL
WR
来自指令 Cache
定点算术逻辑部件 IF ID LS 取数存数部件 Байду номын сангаасR
计算机科学与技术
yangruioot@
在前图中执行指令的时空图如下图所示
部件 3 写结果 2 1 3 执行 2 1 3 译码 2 1 3 取指 2 1 0 3 2 1 1 3 2 1 6 5 4 2 3 2 1 6 5 4 9 8 7 3 3 2 1 6 5 4 9 8 7 12 11 10 4 5 6 7 时间(∆t) 6 5 4 9 8 7 12 11 10 9 8 7 12 11 10 12 11 10
写结果
执行
译码
取指
计算机科学与技术
返回公式页 yangruioot@
超流水处理机与超标量处理机
提高处理机性能的不同方法: 超标量处理机是通过增加硬件资源为代价来换 取处理机性能的。 超流水线处理机则通过各硬件部件充分重叠工 作来提高处理机性能。 两种不同并行性: 超标量处理机采用的是空间并行性 超流水处理机采用的是时间并行性
yangruioot@
计算机科学与技术
4. 超标量处理机性能
单流水线普通标量处理机的指令级并行度记为(1,1); 超标量处理机的指令并行度记做(m,1); 超流水线处理机的指令并行度记为(1,n); 超标量超流水线处理机的指令并行度记为(m,n)。
假设:一个时钟周期为∆t,可以得出在没有资源相关、数据相 关和控制相关的N条指令在单发射k个功能段的流水线处理机上 执行的时间为:
多条无数据相关和控制相关的指令在单发射处理机中 的时空图如图
度为1
部件 写结果 执行 译码 取指 0 1 1 1 2 2 1 2 3 3 1 2 3 4 4 2 3 4 5 5 3 4 5 6 6 4 5 6 7 7 5 6 7 8 8 6 7 8 9 9 7 8 9 10 10 8 9 10 11 11 9 10 11 12 12 13 14 15 10 11 12 11 12 12
S (m, n) T (1,1) m n(k N 1) T (m, n) m nk N m
当N→∞时,超标量超流水线 处理机的加速比最大值为mn。
超标量、超流水、超标量超流水处理机的主要性能 机器类型 机器流水 线周期 同时发射 指令条数 指令发射 等待时间 指令级并 行度ILP
相对性能
2.5
2.0 1.5 1.0 0.5 0.0
超标量
超标量 超流水线 1 2 3 4 5 6 7
超流水线
指令级 并行度
8
计算机科学与技术
yangruioot@
相对性能的比较
超标量处理机的相对性能最高,其次是超标量超 流水线处理机,超流水线处理机的相对性能最低
超标量处理机在每个时钟周期的一开始就同时发射 多条指令,而超流水线处理机则要把一个时钟周期 平均分成多个流水线周期,每个流水线周期发射一 条指令;因此,超流水线处理机的启动延迟比超标 量处理机大。 条件转移造成的损失,超流水线处理机要比超标量 处理机大。 在指令执行过程中的每一个功能段,超标量处理机 都重复设置有多个相同的指令执行部件,而超流水 线处理机只是把同一个指令执行部件分解为多个流 水级;因此,超标量处理机指令执行部件的冲突要 比超流水线处理机小。
yangruioot@
计算机科学与技术
超标量处理机的结构
超标量处理机至少具有两套或者两条以上完整的 指令执行部件。 高性能的超标量处理机通常还设置一个先行指令 窗口: 能够从指令Cache中预取多条指令 能够对窗口内的指令进行数据相关性分析和功 能部件冲突的检测 窗口的大小:一般为2至8条指令
图: 单发射指令流水线的时空图
计算机科学与技术
yangruioot@
2 多发射指令流水线
每个周期同时取多条指令、同时译码多条指令, 同时执行多条指令,同时写回多个运算结果。 需要设置多个取指令部件,多个指令译码部件和 多个写结果部件。 设置多个指令执行部件,有些指令执行部件采用 流水线结构。 当多个结果同时产生时,在不发生数据相关的前 提下,可以同时写多个结果。 目标是每个时钟周期平均执行多条指令,ILP的期 望值大于1。
计算机科学与技术
yangruioot@
1 超流水处理机的指令执行时空图
每隔1/n个时钟周期发射一条指令,流水线周期为 1/n个时钟周期
空间 3 2 1 3 2 1 3 2 1 3 2 1 0 1 1 1 3 2 4 2 5 7 3 6 8 10 4 5 6 7 8 时间∆t 1 3 2 4 9 11 5 7 12 6 8 10 1 3 2 4 9 11 5 7 12 6 8 10 3 2 4 9 11 5 7 12 6 8 10 9 11 12
写结果
执行
译码
取指
计算机科学与技术
yangruioot@
2 超流水处理机的指令执行时序
每隔1/n个时钟周期发射一条指令,流水线周期为 1/n个时钟周期 在超标量处理机中,流水线的有些功能段还可以 进一步细分 例如:ID功能段可以再细分为译码、读第一操 作数和读第二操作数三个流水段。也有些功能 段不能再细分,如WR功能段一般不再细分。 因此有超流水线的另外一种定义:有8个或8个 以上流水段的处理机称为超流水线处理机
在超标量处理机中,有多条指令流水线在同时工 作,设置有多个能独立工作的操作部件,为了达 到最大并行度m,必须解决: 多流水线的调度问题(教材:5.4.3) 顺序发射顺序完成 顺序发射乱序完成 乱序发射乱序完成 资源冲突问题(教材:5.4.4 ) 操作部件尽量使用流水线结构 系统中设置多个相同种类的操作部件
计算机科学与技术
yangruioot@
空间 n-1 n n
S4 S3 S2 S1 1 1 2 1 2 3
1 2 3 …
2 3 … …
3 … … n-1
… … n-1 n
… n-1 n
k·△t Tk
(n-1)·△t
时间 (单位:△t)
空间 3 2 1 3 2 1 3 2 1 3 2 1 0 1 1 1 3 2 4 2 5 7 3 6 8 10 4 5 6 7 8 时间∆t 1 3 2 4 9 11 5 7 12 6 8 10 1 3 2 4 9 11 5 7 12 6 8 10 3 2 4 9 11 5 7 12 6 8 10 9 11 12
T (1,1)= (k+N-1) ∆t
计算机科学与技术
yangruioot@
在一台指令并行度为(m,1)的超标量处理机上执行N条没 有资源相关、数据相关和控制相关的指令时,所需要的时间 为:
T (m,1)=(
N m k m )∆t
超标量处理机相对于单流水线普通标量处理机的加速比为:
T (1,1) m(k N 1) S (m,1)= T (m,1) N m(k 1)
当N→∞时,超标量处理机的加速比最大值为m,即超标量 处理机同时发射指令的条数。
计算机科学与技术 yangruioot@
5.5.2 超流水处理机
定义 一个周期内能够分时发射多条指令的处理机称 为 超流水线处理机。 指令流水线有8个或更多功能段的流水线处理 机称为超流水线处理机。 分时发射多条指令?
写结果
图 5 44 超 标 量 超 流 水 线 时 空 图
在一台指令并行度为(m, n)的超标量超流水线处理机 上,连续执行没有相关的N条 指令的所需要的时间为:
T ( m, n ) ( k N m ) t nm
执行 译码 取指
超标量超流水线处理机相对 于单流水线普通标量处理机的 加速比为:
5.7 多指令流水线技术
5.5.1 超标量处理机 5.5.2 超流水处理机 5.5.3 超标量超流水处理机
1 单发射指令流水线
每个周期只取一条指令、只译码一条指令,只执 行一条指令,只写回一个运算结果。 取指令部件和指令译码部件各设置一套; 只设置一个多功能操作部件或设置多个独立的操 作部件; 操作部件中可以采用流水线结构,也可以不采用 流水线结构。 目标是每个时钟周期平均执行一条指令,ILP的期 望值为1。
yangruioot@
计算机科学与技术
多发射指令流水线
取指令 指令译码 FA1 来自指令 Cache IF ID 执行指令 FA2 FA3 WR 写回结果 通用寄存器 或 后行写数栈 通用寄存器 或 后行写数栈 通用寄存器 或 后行写数栈
浮点加法部件 MD1 MD2 MD3
指令并行 度为m
多发射指令流水线的时空图
计算机科学与技术
返回公式页
yangruioot@
5.5.1 超标量处理机
一个时钟周期内能够同时发射多条指令的处理机 称为超标量处理机 目前的超标量处理机每个时钟周期发射2-4条指令 Intel公司的i860、i960、Pentium处理机, Motolora公司的MC88110处理机,IBM公司的 Power 6000处理机等每个周期都发射两条指令 TI公司生产的SuperSPARC处理机以及Intel的 Pentium III处理机等每个周期发射三条指令 操作部件的个数多于每个周期发射的指令条数。 4个至16个操作部件 超标量处理机的指令级并行度:1<ILP<m; m为每个周期发射的指令条数。