第5章标量处理机

合集下载

计算机系统结构--向量处理机

计算机系统结构--向量处理机

如果程序的90%是向量运算,10%是标 量运算。则向量平衡点为0.9。硬件利用 率最高。 向量处理机的向量平衡点必须与用户程序 的向量化程度相匹配。 IBM向量计算机的设计思想与上述方法不 同,它维持较低的向量与标量比例,定 在3~5的范围之间。这种做法能够适应 通用应用问题对标量和向量处理要求。
6.2.1 存储器-存储器结构
向量处理机中有多个高速流水线运算部件, 存储器的访问速度是关键 采用多个存储体交叉和并行访问来提高存 储器速度,例如: CRAY-1有64个存储体,每个处理 机访问4个存储体 STAR-100采用32个存储体交叉, 每个存储体并行读出8个64位数据 我国研制的YH-1向量计算机有37个 存储体
把存储器-存储器结构中的缓冲栈改为向量 寄存器,运算部件需要的操作数从向量 寄存器中读取,运算的中间结果也写到 向量寄存器中。 向量寄存器与标量寄存器的主要差别是: 一个向量寄存器能够保存一个向量, 例如:64个64位寄存器。 连续访问一个向量的各个分量。 需要有标量寄存器和地址寄存器等。
采用寄存器-寄存器结构的主要优点:降低 主存储器的流量。 例如:采用寄存器-寄存器结构的 CRAY-1与采用存储器-存储器结构的 STAR-100比较,运算速度高3倍多,而 主存流量低2.5倍。 STAR-100的主存储器流量: 32×8W/1.28us=200MW/S CRAY-1的主存储器流量: 4W/50ns=80MW/S
6.3 向量处理方式
要根据向量运算的特点和向量处理机的 类型选择向量的处理方式。 有三种处理方式: 1.横向处理方式,又称为水平处理方 式,横向加工方式等。向量计算是按 行的方式从左至右横向地进行。 2.纵向处理方式,又称为垂直处理方 式,纵向加工方式等。向量计算是按 列的方式自上而下纵向地进行。 3.纵横处理方式,又称为分组处理方

标准流水线测测试试题

标准流水线测测试试题
★★
2.请写出2种数据相关方式,并举例说明分别在什么情况下发生(采用设计程序段的方式来说明)
答:
⑴写读相关:
例如程序段R0=R1×R4; R2=R0×R3若第二条指令在第一条指令前执行则最终的结果与正确结果不同,此时发生写读相关
⑵读写相关
例如程序段R2=R0×R3; R3=R4-1若第二条指令在第一条指令前执行则最终的结果与正确结果不同,此时发生读写数据相关
A. 2.4
B. 2.46
C. 2.67
D. 2.75
答案:B
★★
16.一条4个功能段的加-乘静态流水线,四个功能段如下所示,计算 ,最少需要经过多少时间,假设运算的结果有专门的输出通路连接到输入端。并且只有当一个流水线排空后流水线才可以发生另一种运算。
(1)取指
(2)译码、取数
(3)运算
(4)写结果
A. 流水线设备
B. 上海流水线
C. 无锡流水线
D. 杭州流水线
答案B
★★
3.假设一条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每一段的执行时间均为 ,连续执行n条指令所需要花费的最短时间约为(假设仅有“取指令”和“分析”可重叠并假设n足够大):
A.
B.
C.
D.
答案B
★★
4.假设一条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每一段的执行时间分别为 、 和 ,连续执行n条指令所需要花费的最短时间约为(假设仅有“取指令”和“执行”可重叠并假设n足够大):
超标量处理机一般具有多于一条的流水线,一台m度的超标量处理机可同时发射m条指令,指令的发射等待时间为1个时钟,指令的并行度为m。
超流水线处理机一般具有一条k段的超流水线,一台n度的超流水处理机可以同时发射一条指令,指令的发射等待时间为1/n个时钟周期,每个时钟周期共发射n条指令。指令的并行度为n。

第05章-流水线课后习题

第05章-流水线课后习题

第5章课后习题1.填空题(1) 衡量流水线性能的主要指标有(2) 指令乱序流动可能造成(3) 解决数据相关主要有(4) 超标量处理机开发的是行性。

(1). 吞吐率、加速比、效率(2). 先写后读、先读后写、写写(3). 推后分析、设置专用路径(4). 空间、时间2.假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段,每一段的时间分别为△t、2△t和3△t。

在下列各种情况下,分别写出连续执行n条指令所需要的时间表达式。

(1) 顺序执行方式。

(2) 仅"取指令"和"执行"重叠。

(3) "取指令"、"分析"和"执行"重叠。

第2题(1) 顺序执行时每条指令用时=△t+2△t+3△t=6△t,因此n条指令所需要的时间=6n*△t(2) 第一条指令完成需要时间=△t+2△t+3△t=6△t,根据题义,下一条指令的"取指令"与上一条指令"执行"的最后一个△t重叠。

因此,自从第一条指令完成后,每隔4△t完成一条指令。

所以余下的n-1条指令用时(n-1)*4△t.所以,n条指令所需要的时间=6△t+(n-1)*4△t=2(2n+1)△t。

(3) 第一条指令完成需要时间=△t+2△t+3△t=6△t,由于一条指令的"取指令"和"分析"阶段和下一条指令的"执行"阶段重叠,因此,此后每3△t 完成一条指令,余下的n-1条指令用时(n-1)*3△t.因此n条指令所需要的时间=6△t+(n-1)*3△t=3(n+1)△t3.用一条5个功能段的浮点加法器流水线计算F=。

每个功能段的延迟时间均相等,流水线的输出端与输入端之间有直接数据通路,而且设置有足够的缓冲寄存器。

超标量处理机和超流水线处理机——计算机系统结构

超标量处理机和超流水线处理机——计算机系统结构

超标量处理机和超流⽔线处理机——计算机系统结构在表5.2中,基准标量处理机是⼀台普通的单流⽔线处理机。

为了便于进⾏⽐较,把基准标量处理机的机器流⽔线周期和指令发射等待时间都假设为1个时钟周期,同时发射的指令条数为⼀条,它的指令级并⾏度ILP(Instruction Level Parallelism)假设为1。

另外三种指令级并⾏处理机,即并⾏度为m的超标量处理机,并⾏度为n的超流⽔线处理机,以及并⾏度为(m,n)的超标量超流⽔线处理机,它们的性能都相对于基准标量处理机进⾏⽐较。

单流⽔线处理机只有⼀条指令流⽔线,只有⼀个多功能的操作部件,每个时钟周期"取指令"和"分析"完成⼀条指令。

在许多流⽔线处理机中,指令流⽔线的流⽔段数k=4;它把⼀条指令的执⾏过程主要分解为"取指令"、"分析"、"执⾏"和"写结果"4个阶段。

指令所要执⾏的功能主要在多功能操作部件中,在"执⾏"这⼀流⽔段完成。

多数流⽔线处理机的多功能操作部件采⽤流⽔线结构。

有的简单指令,只要⼀个时钟周期就能够在"执⾏"流⽔段中完成,⽽⽐较复杂的指令往往需要多个时钟周期。

另外,还有条件转移等的影响;因此,⼀般流⽔线标量处理机每个时钟周期平均执⾏指令的条数⼩于1,即它的指令级并⾏度ILP<1。

超标量、超流⽔线和超标量超流⽔线三种处理机在⼀个时钟周期内可以执⾏完成多条指令,即它们的指令级并⾏度ILP都⼤于1。

超标量处理机基本结构超标量处理机的典型结构是有多个操作部件,⼀个或⼏个⽐较⼤的通⽤寄存器堆,⼀个或两个⾼速Cache。

先进的超标量处理机⼀般都包含有三个处理单元,⼀个是定点处理单元,通常称为中央处理单元(CPU),它由⼀个或多个整数处理部件组成;第⼆个是浮点处理单元(FPU),它由浮点加减法部件和浮点乘除法部件等组成;第三个是图形加速部件,也称为图形处理单元(GPU),这是现代处理机中不可缺少的⼀个部分。

第5章-计算机系统结构(第五版)李学干

第5章-计算机系统结构(第五版)李学干

第5章 标量处理机
图 5 - 11 B一次相关与二次相关
第5章 标量处理机
由图5 - 11可见,B二次相关时,只需推后“分析k+2”的 始点到“执行k”送入通用寄存器的运算结果能在“分析k+2” 开始时出现于通用寄存器输出总线上即可,如图5 - 12(a)所 示。至于推后多少拍,这取决于通用寄存器组译码、读
如图5 - 20(b)所示。即使流水线每隔Δt0流入一条指令,也会
因来不及处理被堆积于2段,致使流水线仍只能每隔 3Δt0才流出一条指令。
第5章 标量处理机
图 5 - 20 最大吞吐率取决于瓶颈段的时间
第5章 标量处理机
消除瓶颈的一种办法是将瓶颈子过程再细分。例如将2
段再细分成21、22、23三个子段,如图5-21(a)所示。让各子
同,如图5 - 23所示那样,则在T时间里,流水线各段的效率
都相同,均为η0,即
nΔt0 n 1 2 m 0 T m (n 1)
第5章 标量处理机
整个流水线的效率

1 2 m
m

m0 mnΔt0 0 m mT
式中,分母mT是时空图中m个段和流水总时间T所围成
第5章 标量处理机
图 5 - 3 一次重叠工作方式
第5章 标量处理机
(2) 要解决“分析”与“执行”操作的并行。 (3) 要解决“分析”与“执行”操作控制上的同步。 (4) 要解决指令间各种相关的处理。 图5 - 4示意出条件转移时第k条指令和第k+1条指令的时
间关系。
第5章 标量处理机
图 5 - 4 第k条指令和第k+1条指令的时间关系
由于运算结果是在“执行”周期的末尾才送入通用寄存

计算机系统结构多媒体教程课件_第五章 多处理机系统2

计算机系统结构多媒体教程课件_第五章  多处理机系统2
• 这是顺序处理的典型算法,共需三个乘一加 循环,六级运算,见图5-37(b)所示。它 对于多处理并不合适,而采用前一式算法更 加有效,只需四级运算即可,见图5-37(a) 所示。 • 图中P为所需处理机数目;Tp为运算级数; Sp为加速度,Sp=T1/Tp;EP=Sp/P。可见, Sp>1,即运算的加速总是伴随着效率的降低。
2013-8-31 4
一、问题由来
• 当每个处理机都有自己专用的cache时, 系统效率提高,但产生cache不一致问题。
2013-8-31
5
1、共享可写数据引起的不一致
2013-8-31
6
2、进程迁移引起数据不一致
2013-8-31
7
2、进程迁移引起数据不一致
• P1、p2都有共享数据X拷贝,p2修改了X,并 采用写通过策略,同时修改内存中的X。当该 进程迁移到P1上,这时P1中仍然是X。
目录表法: (非总线结构)
主存设置目录表〈数据块地址,指示器、标志 位〉,某PE写Cache时,通知指示器中的PE处理。
2013-8-31 13
5.3.4 多处理机系统的特点
1.结构灵活性 • 相比并行处理机的专用性,多处理机系 统是要把能并行处理的任务、数组,以 及标量都进行并行处理,有较强的通用 性。因此多处理机系统要能适应更多样 化的算法,具有更灵活的结构,以实现 各种复杂的机间互联模式。
2013-8-31 14
ห้องสมุดไป่ตู้
多处理机系统的特点(cont.)
2.程序并行性 • 在多处理机中,并行性存在于指令外部, 即表现在多任务之间。为充分发挥系统 通用性的优点,便要利用多种途径:算 法、程序语言、编译、操作系统以至指 令、硬件等,尽量挖掘各种潜在的并行 性。

重庆大学2020年春季学期课程作业计算机系统结构

重庆大学2020年春季学期课程作业计算机系统结构

答案+我名字2020年春季学期课程作业计算机系统结构第1次计算机系统结构题号一二三合计已做/题量0 / 100 / 200 / 100 / 40得分/分值0 / 200 / 400 / 400 / 100一、判断题(共10 题、0 / 20 分)1、基本程序块是指一段除了入口和出口以外不包含其他分支的线性代码段。

正确错误收藏该题2、在编译时对分支准确预测有助于对数据冲突的调度。

正确错误收藏该题3、MPP的每个计算单元也是相对独立,拥有自己的资源以及系统。

正确错误收藏该题4、计算机系统为改善CPU与处理器之间的速度匹配问题,在CPU和主存储器之间加入一个高速、小容量的缓冲存储器Cache,构成Cache-主存储器的存储系统。

正确错误收藏该题5、程序在执行过程中的地址流分布情况,其中地址流的分布情况是由程序本身决定的。

正确错误收藏该题6、在串行I/O无法满足性能需求的情况,通过多个I/O通道并行访问多个磁盘的方法就成了很自然的想法,即并行I/O技术。

正确错误收藏该题7、在数据表示上,高级语言与机器语言不存在语义差异。

正确错误收藏该题8、控制相关是指因为程序的执行方向可能被改变而引起的相关。

正确错误收藏该题9、在并行性概念中引入空间因素,通过重复设置硬件资源,可以大幅度提高并行处理能力。

正确错误收藏该题10、冯•诺依曼机由运算器、控制器、存储器和输入/输出设备组成。

正确错误收藏该题二、单项选择题(共20 题、0 / 40 分)1、由于字长限制,浮点数表示方式所能表示的浮点数个数是有限的、不连续的,可表示的规格化浮点数的个数应该是可表示的()的个数的与可表示的尾数的个数的乘积。

A、阶码B、补码C、原码D、机器码收藏该题2、CPU在执行写操作时,把数据同时写入Cache和主存指的是()。

A、写直达法B、写回法C、抵触修改法收藏该题3、地址空间可分为()。

A、虚拟地址空间B、主存储器地址空间C、辅存地址空间D、全部都正确收藏该题4、()把主存储器和Cache按同样大小划分成块,再将主存储器和Cache按同样大小划分成组,每一组由相同的块数组成,然后将主存储器按Cache大小分成区,主存储器每个区的组数与Cache的组数相同。

计算机体系结构第5章_并行处理技术

计算机体系结构第5章_并行处理技术

第5章 并行处理技术
3.累加和并行算法
对于累加和这样的递归操作,为了加快并行计算,常采用递归折叠方法。
一般而言,对于在P个处理单元上实现P个元素累加求和,需要折叠 log2 P 次,并行相加 log2 P 次,并行传送数据的次数根据各PE间互连网络的拓扑结构 不同而有很大差异。设加法1次所需的时间为t加,并行相加的总次数为n,数据 在两个相邻处理单元之间传送一次所需的时间为t传,并行传送数据的总次数为 x,则并行处理所需的总的时间为:nt加+ xt传 。
在设计互连网络时应考虑以下的四个特征: 1.通信工作方式 通信工作方式可分为同步和异步两种。 2.控制策略 控制策略分为集中和分散两种。 3.交换方式 交换方式分为线路交换和分组交换两种。 4.网络拓扑 网络拓扑分为静态和动态两种。
第5章 并行处理技术
5.3.2 互连函数的表示 互连函数----互连函数描述的是各处理单元之间或处理单元与共享主存
(1)若处理单元的个数P<n2
第5章 并行处理技术
第5章 并行处理技术
下面分析这种并行算法的计算时间和通信时间。 ①计算时间 用Pij计算Cij时,需要对(n/m×n/m)阶子矩阵中的每个元素cij进行n次乘法 和n次加法 ,故Pij的运行时间为: n/m×n/m×n×(t乘+t加)=n3/m2×(t乘+t加)
(3)∵ t乘、t加和tw 均为一个指令周期,ts忽略不计,n=64,m=8 ∴ 整个矩阵乘算法所需的总的运行时间为: TP =n3/m2×(t乘+t加)+ 2(mts + n2/m×tw) =643/82×(1+1)+2(0+642/8×1) =9216(指令周期)
第5章 并行处理技术

第5章-计算机系统结构(第五版)李学干

第5章-计算机系统结构(第五版)李学干

时供运算用。这样,“执行k”与“分析k+1”访问通用寄存器
组的时间关系如图5 - 9所示。
第5章 标量处理机
图5-9
“执行k”、“分析k+1”重叠时,访问通用寄存器组 的时间关系
第5章 标量处理机
如果在运算器的输出到B或C输入之间增设“相关专用通 路”,如图5 - 10 所示,则在发生L1或L2相关时,接通相应 的相关专用通路,“执行k”时就可以在将运算结果送入通用
出机构的具体逻辑组成。而对B一次相关,则除此之外,还
需再推后一个“执行”周期,如图5 - 12(b)所示。 由于B相关的概率并不是很低,增设B相关专用通路是值
得的,办法如图5 - 13所示。
第5章 标量处理机
图 5 – 12 B (a) B二次相关的推后处理; (b) B一次相关的推后处理
第5章 标量处理机
图 5 - 13
B相关专用通路法
第5章 标量处理机
5.2 流 水 方
5.2.1
1. “分析k+1”与“执行k”的一次重叠是把指令的解释过 程分解成“分析”与“执行”两个子过程,在独立的分析部 件和执行部件上时间重叠地进行。若“分析”与“执行”子 过程都需要Δt1的时间,如图5 - 14所示,则一条指令的解释
间关系。
第5章 标量处理机
图 5 - 4 第k条指令和第k+1条指令的时间关系
第5章 标量处理机
5.1.2
1.
当第k条指令是条件转移且转移成功时,传统做法与延 迟转移做法的比较如图5 - 5所示。
第5章 标量处理机
图 5 - 5 当第k条指令是条件转移且转移成功时, (a) 条件转移成功时成了顺序解释; (b) 采用延迟转移,条件转移成功时,仍保持重叠

系统结构习题

系统结构习题

系统结构习题选择题第一章对计算机系统结构,下列()是透明的阵列运算部件计算机使用的语言是()。

分属于计算机系统各个层次实现汇编语言源程序变换成机器语言目标程序是由()。

汇编程序翻译系列机软件必须保证()。

向后兼容,力争向上兼容输入输出系统硬件的功能对()是透明的。

应用程序员并行处理发展通过资源共享途径形成了()。

分布式处理系统利用时间重叠实现并行处理的是()。

流水处理机就使用语言的角度而言,可将计算机系统看成是按功能划分的()组成的层次结构多个机器级利用资源重复实现并行处理的是()。

阵列处理机计算机系统结构也称计算机体系结构,指的是()。

传统机器级计算机的结构与组成不包括()。

操作系统字串位并是指同时对一个字的所有位进行处理,其并行等级()。

已经开始出现的并行性计算机系列化的优点不包括()同一系列内的软件一定是向下兼容的开发并行性的途径有时间重叠、资源重复和()。

资源共享对计算机系统结构,下列()是透明的阵列运算部件系列机软件必须保证向后兼容,一般应该做到()。

向上兼容用微程序直接解释另一种机器指令系统的方法称为仿真,用机器语言解释实现软件移植的方法称为()。

模拟高级语言是由()翻译成汇编语言程序编译程序就使用语言的角度而言,可将计算机系统看成是按功能划分的()组成的层次结构多个机器级VonNenmann型计算机不具有的特点是()。

以数据流驱动位片处理是指计算机采用()方式对数据进行处理。

字并位串除了分布处理、MPP和机群系统外,并行处理计算机按其基本结构特征可分为流水线计算机,阵列处理机,多处理机和()四种不同的结构。

数据流计算机费林按指令流和数据流的多倍性把计算机系统分类,这里的多倍性指()。

系统瓶颈部件上处于同一执行阶段的指令或数据的最大可能个数系列机在软件兼容上应该做到()。

向后兼容,并力争向上兼容计算机系统的层次结构按照由高到低的顺序分别为()。

高级语言机器级,汇编语言机器级,传统机器语言机器级,微程序机器级1TFLOPS计算机能力,1TBYTE/S的I/O带宽和()称为计算机系统的3T性能目标。

第5章标量处理机(5.7) 超标量超流水处理机

第5章标量处理机(5.7)  超标量超流水处理机
yangruioot@
计算机科学与技术
4. 超标量处理机性能
单流水线普通标量处理机的指令级并行度记为(1,1); 超标量处理机的指令并行度记做(m,1); 超流水线处理机的指令并行度记为(1,n); 超标量超流水线处理机的指令并行度记为(m,n)。
假设:一个时钟周期为∆t,可以得出在没有资源相关、数据相 关和控制相关的N条指令在单发射k个功能段的流水线处理机上 执行的时间为:
T (1,1) n(k N 1) S (1, n) T (1, n) nk N 1
当N→∞时,超流水线处理机的加速比最大值为n,即 超流水线处理机在一个时钟周期中分时发射指令的总条数。
计算机科学与技术 yangruioot@
5.5.3 超标量超流水处理机
指令并行 度为m
多发射指令流水线的时空图
计算机科学与技术
返回公式页
yangruioot@
5.5.1 超标量处理机


一个时钟周期内能够同时发射多条指令的处理机 称为超标量处理机 目前的超标量处理机每个时钟周期发射2-4条指令 Intel公司的i860、i960、Pentium处理机, Motolora公司的MC88110处理机,IBM公司的 Power 6000处理机等每个周期都发射两条指令 TI公司生产的SuperSPARC处理机以及Intel的 Pentium III处理机等每个周期发射三条指令 操作部件的个数多于每个周期发射的指令条数。 4个至16个操作部件 超标量处理机的指令级并行度:1<ILP<m; m为每个周期发射的指令条数。
5.7 多指令流水线技术
5.5.1 超标量处理机 5.5.2 超流水处理机 5.5.3 超标量超流水处理机
1 单发射指令流水线
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分析 i
流水线 寄存器
输出
执行 i
空间 执行部件
执行 k 执行 k+1 执行 k+2 执行 k+3
分析部件
分析 k 分析 k+1 分析 k+2 分析 k+3
取指令部件 取指令 k 取指令 k+1 取指令 k+2 取指令 k+3
0
t1
t2
t3
t4
t5
时间
兰州理工大学 包仲贤
一个浮点加法器流水线的时空图
某些流水段之间有反馈回路或前馈回路。 线性流水线能够用流水线连接图唯一表示 非线性流水线必须用流水线连接图和流水线预约
表共同表示
兰州理工大学 包仲贤
前馈回路
输入
S1
S2
S3
输出
反馈回路
一种简单的非线性流水线
2.按照流水线的级别来分
处理机级流水线,又称为指令流水线。 例如:在采用先行控制器的处理机中,各功能部 件之间的流水线
兰州理工大学 包仲贤
2.解决访存冲突的方法:
(1)采用低位交叉存取方式: 这种方法不能根本解决冲突问题。 指令、读操作数、写结果。
(2)两个独立的存储器:独立的指令存储器和数据 存储器。
如果再规定,执行指令所需要的操作数和执行结 果只写到通用寄存器,则取指令、分析指令和 执行指令就可以同时进行。
在许多高性能处理机中,有独立的指令Cache和数 据Cache。这种结构被称为哈佛结构。
兰州理工大学 包仲贤
(3)采用先行控制技术 采用先行控制技术的关键是缓冲技术和预处理 技术。
缓冲技术通常用在工作速度不固定的两个功能部 件之间。设置缓冲栈的目的是用来以平滑功能 部件之间的工作速度。
在采用了缓冲技术和预处理技术之后,运算器能 够专心于数据的运算,从而大幅度提高程序的 执行速度。
兰州理工大学 包仲贤
执行 k+2
二次重叠执行方式
兰州理工大学 包仲贤
5.1.2 先行控制方式的原理
1.采用二次重叠执行方式必须解决两个问题:
(1)有独立的取指令部件、指令分析部件和指令执 行部件 把一个集中的指令控制器,分解成三个独立的 控制器: 存储控制器、指令控制器、运算控制器
(2)要解决访问主存储器的冲突问题 取指令、分析指令、执行指令都可能要访问存 储器
输入
先行指令 缓冲栈
先行指令 先行读数栈 分析器 先行操作栈
指令 执行部件
后行 写数栈
输出
功能: 取指令
指令译码,
取操作数 执行算术
形成操作数地址 形成 RR*指令 逻辑运算
向存储器 写结果
先行控制方式中的指令流水线
兰州理工大学 包仲贤
部件级流水线(操作流水线) 如浮点加法器流水线
输入 求阶差
对阶
尾数加
规格化 输出
△t1
△t2
△t3
△t4
宏流水线(Macro Pipelining) 处理机之间的流水线称,每个处理机对同一个数 据流的不同部分分别进行处理。
控制过程稍复杂。
兰州理工大学 包仲贤
3.二次重叠执行方式
如果三个过程的时间相等,执行n条指令的时间为: T=(2+n)t
在理想情况下,处理机中同时有三条指令在执行。 处理机的结构要作比较大的改变,需要采用先行
控制技术。
取指令 k
分析 k 取指令 k+1
执行 k 分析 k+1 取指令 k+2
执行 k+1 分析 k+2
在每一个流水段的末尾或开头必须设置一个寄存 器,称为流水寄存器、流水锁存器、流水闸门 寄存器等。
加入流水寄存器,会增加指令的执行时间。 在一般流水线时空图中不画出流水寄存器。
兰州理工大学 包仲贤
2.一种指令流水线
一般4至12个流水段,≥8个流水段的称为超流水 线处理机
输入
取指令 i
流水线 寄存器
3.流水线时空△图t
空间
规格化
规格化1 规格化2 规格化3 规格化4 规格化5
尾数加
尾数加1 尾数加2 尾数加3 尾数加4 尾数加5
对阶
对阶1 对阶2 对阶3 对阶4 对阶5
求阶差 求阶差1 求阶差2 求阶差3 求阶差4 求阶差5
0
t1
t2
t3
t4
t5
t6
t7t8 时间Fra bibliotek兰州理工大学 包仲贤
4.流水线的主要特点
只有连续提供同类任务才能发挥流水线效率 尽量减少因条件分支造成的“断流” 通过编译技术提供连续的相同类型操作 每个流水线段都要设置一个流水寄存器 时间开销:流水线的执行时间加长 是流水线中需要增加的主要硬件 各流水段的时间应尽量相等
兰州理工大学 包仲贤
5.1.1 指令的重叠执行方式
1.顺序执行方式
执行n条指令所用的时间为:
n
T t( 取指令i t分析i t执行i)
i 1
如果每段时间都为t,则执行n条指令所用的时 间为:T=3 n t
取指令 k 分析 k 执行 k 取指令 k+1 分析 k+1 执行 k+1
主要优点:控制简单,节省设备 主要缺点:速度慢,功能部件的利用率低
第5章 标量处理机
5.1 先行控制技术 5.2 流水线技术 5.3 相关性分析技术 5.4 超标量处理机 5.5 超流水线处理机 5.6 超标量超流水线处理机
兰州理工大学 包仲贤
5.1 先行控制技术
5.1.1 指令的重叠执行方式 5.1.2 先行控制方式的原理 5.1.3 处理机结构 5.1.4 指令执行序列 5.1.5 先行缓冲栈
兰州理工大学 包仲贤
2.一次重叠执行方式
如果两个过程的时间相等,则执行n条指令的时间 为:T=(1+2n)t
取指令 k 分析 k 执行 k
取指令 k+1 分析 k+1 执行 k+1
主要优点: 指令的执行时间缩短,
取指令 分析 k+2 执行 k+2 k+2
功能部件的利用率明显提高。
主要缺点:
需要增加一些硬件,
5.2 流水线技术
空间并行性:设置多个独立的操作部件 时间并行性:分时使用同一个部件的不同部分
5.2.1 流水线工作原理 5.2.2 流水线的分类 5.2.3 线性流水线的性能分析 5.2.4 非线性流水线的调度
兰州理工大学 包仲贤
5.2.1 流水线工作原理
1. 流水寄存器
流水线的每一个阶段称为流水步、流水步骤、流 水段、流水线阶段、流水功能段、功能段、流 水级、流水节拍等。
流水线处理机的基本时钟周期等于时间最长的 流水段的时间长度。 流水线需要有“装入时间”和“排空时间”
兰州理工大学 包仲贤
5.2.2 流水线的分类
1.线性流水线与非线性流水线
流水线的各个流水段之间是否有反馈信号 线性流水线(Linear Pipelining):
每一个流水段都流过一次,而且仅流过一次 非线性流水线(Nonlinear Pipelining):
相关文档
最新文档