衡水学院计算机体系结构资料整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
透明性:在计算机技术中,对本来存在的事物或属性,从某一角度来看又 好像不存在的概念称为透明性。
堆栈型机器:每条ALU指令显示表示的操作数个数为0,运算结果的目的地 是堆栈,访问操作数的方法是PUSH/POP
失效开销: 数据相关:当指令在流水线中重叠执行时,流水线有可能改变指令读/写操
作的顺序,使得 读/写操作顺序不同于它们非流水实现时的顺 序,将导致数据相关。 通道处理机:
历年试题整理版 一、名词解释(每题3分,共15分)
系列机:在一个厂家生产的具有相同的体系结构,但具有不同的组成和实 现的一系列不同型号的机器。
强制性失效:当第一次访问一个块时,该块不在Cache中,需要从下一级 存储器中调入Cache,这就是强制性失效。
失效率:CPU访存时,在一级存储器中找不到所需信息的概率。 定向技术:p101。2
1、 写出三级Cache的平均访问时间的公式。 解:平均访存时间 = 命中时间+失效率×失效开销 只有第I层的失效时才会访问第I+1 设三级Cache的命中率分别为HL1、 Hl2、 HL3,失效率分别为Ml1、 Ml2、ML3,第三级Cache的失效开销为PL3。平均访问时间TA =HL1 +Ml1{Hl2+Ml2(HL3+ML3×PL3)} 2、软件兼容有几种?其中哪一种是软件兼容的根本特征? 3、试从目的、技术途径、组成等3个方面对同构型多处理机和异构型多 处理机作一简单比较(列表)。P22 5、降低Cache失效率有哪几种方法(至少写出5种)?5.3
(1) 画出处理过程的时空图;
(2) 计算其吞吐率、加速比和效率;
(3) 该流水线的瓶颈段是哪一段?可用哪几种方法消除该瓶颈?画出
改进后的流水线。
乘法
1
2
3
4
5
加法
解:本题解题的关键是弄清楚机器一共要做4次加法,3次乘法,而且应 进行适当的指令调度,以得到最大的吞吐率。
(1) 相应的时空图为:
(2) TP=7/(23△t) E=(5×7)/(6×23)=35/138
ActionResult Cache 0 Cache 1 Cache 2 Cache 3 Shared
P0 Read 1000:12H, read miss E
1000:12H
P2 Write 1000:XX write miss I
1000:34H, M
1000:12H
P1 Read read miss
解:首先可以观察到只有CPI改变了,而时钟频率和指令数保持不变。我 们先计算改进前系统的CPI:
CPIoriginal=
= ( 4 × 25%) + (1.33 × 75% ) = 2.0 我们可以用改进前的CPI减去由于改进FPSQR功能而减少的时钟周期 得到改进后FPSQR指令的CPI: CPIwith new FPSQR= CPIoriginal – 2%×( CPIold FPSQR – CPIof new FPSQR only) = 2.0 – 2% ×( 20 – 2) =1.64 我们也可以用同样的方法计算改进全部FP方案得到的CPI,或者也可 以将FP的CPI值和非FP的CPI值相加得到。利用后一种方法如下: CPInew FP = (75%×1.33) + (25%×2.5)
四、(20分)有一条静态多功能流水线由5段组成(见下图),加法用
1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t,其余各段时间
均为△t,而且流水线的输出可以直接返回输入端或暂存于相应的流水
线寄存器中。若在该流水线上计算
f=(A1+B1)*(A2+B2)
*(A3+B3)*(A4+B4),(3)
RAID: 同构型多处理机:由多个同种类型、至少同等功能的处理机组成、同时处理
同一作业中能并行执行的多个任务的机器。 计算机体系结构:程序员所看到的计算机的属性,即概念性结构与功能 特性。 向量处理机:处理机具有向量数据表示,并通过向量指令对向量的各元 素进行处理。
二、填空(每空1分,共20分) 1、数据相关有三种:( 写后读相关)、( 写后写相关 )和( 读后写 相关 )。 2、从处理数据的角度,并行性等级可以分为:字串位串、( 字串位 并)、(字并位串)和全并行。 3、在存储层次中,映象规则有( p183)、( )和( )。 5、设有一个“Cache-主存”层次,Cache为4块,主存为8块;试分别对于 以下2种情况,计算访存块地址为5时的索引(index)。(1)组相联,每 组两块;索引为( ) (2)直接映象;索引为( )。 6、对向量的处理有(p123)方式、()方式、()方式。 7、根据CPU内部存储单元类型,可将指令集结构分为(p37)型指令集 结构、()型指令集结构和()型指令集结构。 1、流水线相关有三种:( 结构相关 )、( 数据相关 )和( 控制相 关 )。 2、从执行程序的角度看,并行性等级可以分为:(p18 )、()、()和 作业或程序级并行。 3、在存储层次中,常用的替换算法有(p187)、()和()。 4、计算机系统中提高并行性的技术途径有(p19)、()和()三种, 在高性能单处理机的发展中,起主导作用的是()这个途径。 5、按照产生失效的原因不同,可把失效分为(p198)失效、()失效 和()失效三类。 3、按照流水线所完成的功能来分,流水线可分为(p79)和()。 4、存储层次中,地址映象方法有( p183 )、( )和( )等三种。
直接映象cache的访问速度比两路组相联cache要快1.04倍,而两路组相 联Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组 相联。
五、将计算机系统中某一功能的处理速度加快10倍,但该功能的处理时 间仅为整个系统运行时间的40%,则采用此增强功能方法后,能使整个
系统的性能提高多少?(5分)系统加速比 = 1.56
1、给出减少Cache失效开销的三种方法,并简述其基本思想。5.2 2、数据相关有哪几种类型?解决数据相关有哪些主要方法?p100 5、写出伪想联Cache的平均访存时间公式(设伪命中Cache需2个额外的 周期)p207
1、任写出三种Cache的优化技术,并简述其基本思想。P212-p214 2、在指令集结构设计中,应该考虑哪些主要问题?p44 4、试以系列机为例,说明计算机体系结构、计算机组成和计算机实现 三者之间的关系p6-8 1、计算机体系结构设计和分析中最经常使用的三条基本原则是什么? 并说出它们的含义。P15 ? 4、按照产生失效的原因不同,Cache失效可以分成哪三类?各是什么含 义?p198 5、解决多处理机系统中的Cache一致性问题可采用哪些方法?叙述它们 的优缺点。
2、(15分)假定Cache的失效开销为50个时钟周期,当不考虑存储器停 顿时,所有指令的执行时间都是2.0个时钟周期,访问Cache失效率为 2%,平均每条指令访存1.33次。求没有Cache和有Cache两种情况下的平 均指令执行时间。
4、计算机A和计算机B具有相同的指令系统。执行同一个程序时,计算 机A的时钟周期为1.1ns,CPI为2.0,计算机B的时钟周期为2ns,CPI为 1.3。请问执行这个程序时,哪个机器更快?(9分)
四、(6分)指令的动态调度有哪两种方法?二者的核心思想各是什 么? 答:1、记分牌的核心思想:允许暂停之后的指令提前处理(译码→发 射指令和读取操作数)
允许乱序执行,从而乱序完成; ID段检测所有的结构相关。 2、Tomasulo算法的核心思想: (1) 分布的阻塞检测逻辑机制; (2) 消除了数据的写后写和先读后写相关导致的阻塞
六、(15分)假设当按直接映象位置没有发现匹配,而在另一个位置才 找到数据(伪命中)时,需要2个额外的周期,而且不交换两个Cache中 的数据。Cache参数如下: 容量128KB; 直接映象情况下命中时间为1个时钟周期,失效开销为50个时钟周期; 时钟周期2路 =1.10×时钟周期1路 直接映象失效率为0.010,两路组相联失效率为0.007; 问:当直接映象、两路组相联映象和伪相联映象这三种组织结构时,速 度各是多少?
解: 平均访问时间=命中时间+失效率×失效开销 平均访问时间1-路=2.0+1.4% *80=3.12ns 平均访问时间2-路=2.0*(1+10%)+1.0% *80=3.0ns
两路组相联的平均访问时间比较低 CPUtime=(CPU执行+存储等待周期)*时钟周期 CPU time=IC(CPI执行+总失效次数/指令总数*失效开
=1.625 因为通过改进所有FP方案所带来的CPI更小,所以这种方案的性 能更好。改进全部FP的加速比是:
。
五、(8分)在处理器N=8的Omega网络中,实现置换∏=(0,1,3, 2,5,6,7)(4),画出其开关的设置,指出被阻塞的开关。
Βιβλιοθήκη Baidu
六、(7分)考虑一个拥有4个处理机的UMA系统,每个处理机都有一个写 回Cache(write-back Cache),对于下列事件序列,写出该系统使用写 作废(write invalidate)协议时Cache的值和状态。 (1) 处理机0读地址1000H单元的值12H; (2) 处理机2向地址1000H单元写数据34H; (3) 处理机1读地址1000H单元的值; (4) 处理机0向地址1000H单元写数据56H; (5) 处理机3读地址1000H单元的值; (6) 处理机1向地址1000H单元写数据78H; (7) 处理机1读地址1000H单元的值。 解:
一、(10分)已知有以下的测量结果: FP指令(不包括FPSQR指令)的执行频度=25% FP指令的平均CPI=4.0 其它指令的平均CPI=1.33 FPSQR指令的执行频度=2% FPSQR指令的CPI=20 假设有两种改进方案,其中方案一是将FPSQR指令的CPI降到
2,方案二是把FP指令的平均CPI降至2.5。试运用CPU性能公式比较 这两种改进方案的优劣。
五、(10分) 根据Amdahl定律写出系统加速比的公式; 某计算机系统有两个部件可以改进,这两个部件的加速比为:
部件加速比1=30; 部件加速比2=20; 如果部件1和部件2的可改进比例分别为30%和40%,求整个系统的加速 比。
六、(10分)给定以下的假设,试计算直接映象Cache 和两路组相联 Cache的平均访问时间以及CPU时间。 (1) 理想Cache(命中率为100%)情况下的CPI为2.0,时钟周期为 2ns,平均每条指令访存1.2次; (2) 两种Cache容量均为1KB,块大小都是32字节; (3) 组相联Cache中的多路选择器使CPU的时钟周期增加了10%; (4) 这两种Cache的失效开销都是40个时钟周期; (5) 命中时间为1个时钟周期; (6) 1KB直接映象Cache的失效率为13.3%,1KB两路组相联Cache的 失效率为10.5%。
销) *时钟周期 =IC((CPI执行*时钟周期)+(每条指令的访存次数*失效率
*失效开销*时钟周期)) CPU time 1-way=IC(2.0*2+1.2*0.014*80)=5.344IC CPU time 2-way=IC(2.2*2+1.2*0.01*80)=5.36IC 相对性能比:5.36/5.344=1.003
2、存储器层次结构设计技术的基本依据是程序的(速度和容量)。 4、2:1 Cache经验规则是指大小为N的(p204)Cache的失效率约等于 大小为N/2的()Cache的失效率。 6、从编译技术的角度来考虑,降低流水线分支损失的方法主要有 (p114)、()和()方法。
三、简答题(每题5分,共25分) 1、调度分支延迟指令有哪三种常用方法?它们各有什么优缺点。P116 2、表示寻址方式的主要方法有哪些?简述他们的优缺点。P5 3、简述“Cache-主存”层次与“主存-辅存”层次的区别。P182 4、试举例说明DLX流水线中存在不能依靠定向技术解决的数据相关及 其解决方法。 5、试从3C失效的关系分析增加块大小对Cache性能的影响。P201
1000:34H,1000:34H,