计算机系统结构习题课_mine
计算机系统结构习题课(2012)-万继光

M W B S S S S S S E X M W B S S S E X I D I F M W B E X I D I F M W B S S S S E X I D I F M W B S S S E M W X B S S S I F
CPU时间 = IC ×CPI×时钟周期时间 n = (CPIi×ICi)×时钟周期时间
i=1
n (CPIi×ICi) n ICi 时钟周期数 i=1 CPI = = = (CPIi× IC ) IC IC i=1
f MIPS速 率 CPI 10 6
▲ 2/101
习题1.7
对于一台400MHz计算机执行标准测试程序,程序中指令类型, 执行数量和平均时钟周期数如下:
习题2.14
IEEE754
e N m rm
为便于软件的移植,浮点数的表示格式应该有统一标准 (定义)。1985年IEEE提出了IEEE754标准。 该标准规定基数为2,阶码E用移码表示,尾数M用原码表 示,根据原码的规格化方法,最高数字位总是1,该标准 将这个1缺省存储,使得尾数表示范围比实际存储的多一 位。
采用定向技术消除数据相关
习题3.11(1)
1 LOOP: LW R1 0(R2) IF ADDI R1 R1 #1 SW 0(R2) R1 ADDI R2 R2 #4 SUB R4 R3 R2 BNZ R4 LOOP 2 ID IF 3 EX ID IF 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 1 1 1 1 5 6 7 8 9
计算机系统结构-课后答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。
这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。
虚拟机:用软件实现的机器。
翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。
解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。
执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。
计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。
在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又实用文档好像不存在的概念称为透明性。
计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。
计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。
系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。
Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。
程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。
包括时间局部性和空间局部性。
CPI:每条指令执行的平均时钟周期数。
测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用实用文档来测试计算机在各个方面的处理性能。
存储程序计算机:冯·诺依曼结构计算机。
其基本点是指令驱动。
程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。
计算机系统结构习题课

计算机系统结构习题课1、选择题系统多级层次中,从下层到上层,各级相对顺序正确的是(B )A 汇编语⾔机器级——操作系统机器级——⾼级语⾔机器级B 微程序机器级——传统机器语⾔机器级——汇编语⾔机器级C传统机器语⾔机器级——⾼级语⾔机器级——汇编语⾔机器级D汇编语⾔机器级——应⽤语⾔机器级——⾼级语⾔机器级2、汇编语⾔源程序变换成机器语⾔⽬标程序是经(D )来实现的。
A 编译程序解释B 汇编程序解释C 编译程序翻译D 汇编程序翻译3、对系统程序员不透明的应当是( D)A、CACHE存储器B、系列机各档不同的数据通路宽度C、指令缓冲寄存器D、虚拟存储器4、计算机系统结构不包括( A)A、主存速度B、机器⼯作状态C、信息保护D、数据表⽰5、系列机软件应做到(B )A 向前兼容,并向上兼容B 向后兼容,⼒争向上兼容C 向前兼容,并向下兼容D 向后兼容,⼒争向下兼容6、在计算机系统设计中,⽐较好的⽅法是( D)。
A、从上向下设计B、从下向上设计C、从两头向中间设计D、从中间开始向上、向下设计7、软件和硬件在实质上是完全不同的,但他们在( B)上是逻辑等价的。
A 性能B 功能C 系统结构D 价格8、在相同的机器字长和尾数位数的情况下,浮点数尾数基值取⼩,可使浮点数(B )A.运算过程中数的精度损失降低B.数在数轴上的分布变密C.可表⽰数的范围增⼤D.可表⽰数的个数增多9、浮点数尾数基值rm=8,尾数数值部分长6位,可表⽰的最⼩正尾数为(C )A.0.5 B. 0. 25 C. 0.125 D.1/6410、在尾数下溢处理⽅法中,平均误差最⼤的是(A )A.截断法 B. 舍⼊法C.恒置“1”法 D. ROM查表法11、IBM370系统中断响应优先级级别最低的是(D )A.机器校验中断 B. 外中断C.I/O中断 D. 重新启动中断12、不属于堆栈型替换算法的是(C )A.近期最少使⽤法 B.近期最久未⽤法C.先进先出法 D.页⾯失效频率法13、下列关于虚拟存贮器的说法,⽐较正确的应当是(D )A.访主存命中率随页⾯⼤⼩增⼤⽽提⾼B.访主存命中率随页⾯容量增加⽽提⾼C.更换替换算法能提⾼命中率D.在主存命中率低时,改⽤堆栈型替换算法,并增⼤主存容量,可提⾼命中率14、采⽤组相联映像的Cache存贮器,为提⾼其等效访问速度应(B )A.增⼤主存容量(Cache⼤⼩不变)B.增加Cache块数(块⼤⼩不变)C.减⼩组的⼤⼩(块⼤⼩不变)D.减⼩块的⼤⼩(组的⼤⼩不变)15、浮点数尾数基值rm=16,除尾符之外的尾数机器位数为8位时,可表⽰的规格化最⼤正尾数为(D )A.1/2 B. 15/16 C. 1/256 D. 255/25616、总线控制机构为解决N个部件使⽤总线时有限次序的裁决,集中式定时查询,需另外增加控制线根数为(C )log┐ D. N+2A.3 B. 2N+1 C. 2+┌N217、计算机组成设计不考虑( B )A.专⽤部件设置 B.功能部件的集成度C.控制机构的组成 D.缓冲技术18、属计算机系统结构考虑的应是(C )A.主存采⽤MOS还是TTL B.主存采⽤多体交叉还是单体C.主存容量和编址⽅式 D.主存频宽的确定19、与全相联相⽐,组相联映象的优点是(A )A ⽬录表⼩B 块冲突概率低C 命中率⾼D 主存利⽤率⾼20、同时性指两个或多个事件在同⼀时刻发⽣,并发性指两个或多个事件在(A)发⽣。
计算机系统结构第一章课后题答案

1.3 典型习题和题例分析与解答题1.1 有一个经解释实现的计算机,可以按功能划分成4级。
每一级为了执行一条指令需要下一级的N 条指令解释。
若执行第1级的一条指令要K ns 时间,那么执行第2、第3、第4级的一条指令各需要用多少时间?[分析] 计算机按功能分成级时,最底层是第l 级,向上依次为第2、第3和第4级;解释方式的执行是在低级机器级上用它的一串语句或指令来仿真高一级机器级上的一条语 句或指令的功能,而且是通过对高级机器级程序中的每条语句或指令逐条加以解释来实现的。
[解答] 执行第2、第3、第4级的一条指令各需KN ns 、KN 2 ns 、KN 3 ns 的时间。
题1.2 操作系统机器级的某些指令就用传统机器级的指令,这些指令可以用微程序直接实现,而不必由操作系绕自己来实现。
你认为这样做有哪些好处?[解答] 这样做,可以加快操作系统中操作命令解释的速度,同时也节省了存放解释操作命令这部分解释程序所占的存贮空间,简化了操作系统机器级的设计,也有利于减少传统机器级的指令条数。
题1.3 有一个计算机系统可按功能分成4级,各级的指令都不相同,每一级的指令都比其下一级的指令在效能上强M 倍,即第i 级的一条指令能完成第i-1级的M 条指令的计算量。
现若需第i 级的N 条指令解释第i+l 级的一条指令,而有一段第l 级的程序需要运行的时间为K s ,问在第2、3和4级上一段等效的程序各需要运行多长时间?[分析] 因为从功能意义上讲,第i 级的一条指令能完成第i-1级的M 条指令的计算量,但第i 级的一条指令的执行,都是靠第i-1级的N 条指令的执行来解释完成。
已知,第1级的一段程序运行时间为K s 。
第2级的一段程序从功能等效上讲,所需的指令条数应当是第1级上指令数的1/M 。
而由第1级解释时又需要执行N 条指令,所以,第2级一段等效程序的运行就需要K ·s M N 的时间。
第3、4级则可依次类推。
《计算机系统结构》及参考答案

《计算机系统结构》练习题一一、单项选择题1。
页式虚拟存储器得地址变换对于 D 就是透明得、ﻩA、操作系统设计者ﻩﻩB、任何程序员C、系统结构设计者D、应用程序员2.以下各类中断中,属于自愿中断得就是C、ﻩA、外部中断B、 I/O中断ﻩC、执行“访管”指令D、机器校验中断3、高速外部设备磁盘机适合连接于 C 、A、选择通道或字节多路通道ﻩB、数组多路通道或字节多路通道C、数组多路通道或选择通道ﻩﻩD、任意一种通道4、页式虚拟存储器页表得作用就是A、ﻩA、反映虚页在主存得存储情况B、仅反映虚页就是否调入主存C、反映主存实页与Cache得对应关系D、反映虚页在辅存得存储情况5.软件与硬件得功能在逻辑上就是C得、A、固件优于软件ﻩﻩB、不等价C、等价ﻩﻩﻩD、软件优于固件6、计算机中最优化得操作码编码方法就是 D 、ﻩD、哈夫曼编码A、BCD码ﻩﻩﻩB、ASCII码C、扩展操作码ﻩﻩﻩ7、从计算机系统执行程序得角度瞧,并行性等级由低到高分为四级 A 、A.指令内部—-指令之间-—进程之间-—程序之间B。
指令之间——指令内部-—进程之间-—程序之间ﻫC。
进程之间——指令之间——指令内部——程序之间D.程序之间—-进程之间——指令之间——指令内部8、计算机系统多级层次结构中,操作系统机器级得直接上层就是D、A.传统机器级ﻩB。
高级语言机器C.应用语言机器级ﻩD.汇编语言机器级9、全相联地址映像就是指A、A、任何虚页都可装入主存中任何实页得位置B、一个虚页只装进固定得主存实页位置ﻩC、组之间就是固定得,而组内任何虚页可以装入任何实页位置D、组间可任意装入,组内就是固定装入10.对于同一系列机,必须保证软件能够 C 、A。
向前兼容,并向上兼容ﻩB。
向前兼容,并向下兼容C.向后兼容,力争向上兼容ﻩD.向后兼容,力争向下兼容11。
设有16个处理单元得并行处理机系统,采用共享主存得方式、若同时存取16个数据, 为避免存储器访问冲突,共享主存得多体数量应该为 C 才合理、ﻩA、15ﻩﻩﻩﻩB、16ﻩC、17ﻩﻩD、1912、软件兼容得根本特征就是C、A、向前兼容ﻩﻩB、向后兼容C、向上兼容ﻩD、向下兼容ﻩ13、在下列机器中,能够实现软件兼容得机器就是B、A、完全不同种类得机型ﻩB、系统结构相同得机器ﻩﻩC、宿主机与目标机ﻩD、虚拟机ﻩ14。
计算机体系结构课后习题

第1章 计算机系统结构的基本概念1.1 试用实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系。
答:如在设计主存系统时,确定主存容量、编址方式、寻址范围等属于计算机系统结构。
确定主存周期、逻辑上是否采用并行主存、逻辑设计等属于计算机组成。
选择存储芯片类型、微组装技术、线路设计等属于计算机实现。
计算机组成是计算机系统结构的逻辑实现。
计算机实现是计算机组成的物理实现。
一种体系结构可以有多种组成。
一种组成可以有多种实现。
1.2 计算机系统设计中经常使用的4个定量原理是什么?并说出它们的含义。
答:(1)以经常性事件为重点。
在计算机系统的设计中,对经常发生的情况,赋予它优先的处理权和资源使用权,以得到更多的总体上的改进。
(2)Amdahl 定律。
加快某部件执行速度所获得的系统性能加速比,受限于该部件在系统中所占的重要性。
(3)CPU 性能公式。
执行一个程序所需的CPU 时间 = IC ×CPI ×时钟周期时间。
(4)程序的局部性原理。
程序在执行时所访问地址的分布不是随机的,而是相对地簇聚。
1.3 计算机系统中有三个部件可以改进,这三个部件的部件加速比为:部件加速比1=30; 部件加速比2=20; 部件加速比3=10(1) 如果部件1和部件2的可改进比例均为30%,那么当部件3的可改进比例为多少时,系统加速比才可以达到10?(2) 如果三个部件的可改进比例分别为30%、30%和20%,三个部件同时改进,那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?解:(1)在多个部件可改进情况下,Amdahl 定理的扩展:∑∑+-=iii n S F F S )1(1已知S 1=30,S 2=20,S 3=10,S n =10,F 1=0.3,F 2=0.3,得:)()(10/20/0.330/0.30.30.3-111033F F +++++=得F 3=0.36,即部件3的可改进比例为36%。
《计算机系统结构》及参考答案精选全文完整版

可编辑修改精选全文完整版《计算机系统结构》练习题一一、单项选择题1.页式虚拟存储器的地址变换对于 D 是透明的.A. 操作系统设计者B. 任何程序员C. 系统结构设计者D. 应用程序员2.以下各类中断中,属于自愿中断的是 C .A. 外部中断B. I/O中断C. 执行“访管”指令D. 机器校验中断3. 高速外部设备磁盘机适合连接于 C .4. 页式虚拟存储器页表的作用是 A .A. 反映虚页在主存的存储情况B. 仅反映虚页是否调入主存C. 反映主存实页与Cache的对应关系D. 反映虚页在辅存的存储情况5.软件和硬件的功能在逻辑上是 C 的.D.软件优于固件6. 计算机中最优化的操作码编码方法是 D .码码C.扩展操作码 D.哈夫曼编码7. 从计算机系统执行程序的角度看,并行性等级由低到高分为四级 A .A.指令内部——指令之间——进程之间——程序之间B.指令之间——指令内部——进程之间——程序之间C.进程之间——指令之间——指令内部——程序之间D.程序之间——进程之间——指令之间——指令内部8. 计算机系统多级层次结构中,操作系统机器级的直接上层是 D .A.传统机器级B.高级语言机器C.应用语言机器级D.汇编语言机器级9.全相联地址映像是指 A .A.任何虚页都可装入主存中任何实页的位置B.一个虚页只装进固定的主存实页位置C.组之间是固定的,而组内任何虚页可以装入任何实页位置D.组间可任意装入,组内是固定装入10.对于同一系列机,必须保证软件能够 C .A.向前兼容,并向上兼容B.向前兼容,并向下兼容C.向后兼容,力争向上兼容D.向后兼容,力争向下兼容11.设有16个处理单元的并行处理机系统, 采用共享主存的方式. 若同时存取16个数据, 为避免存储器访问冲突, 共享主存的多体数量应该为 C 才合理.A. 15B. 16C. 17D. 1912. 软件兼容的根本特征是 C .A. 向前兼容B. 向后兼容C. 向上兼容D. 向下兼容13.在下列机器中,能够实现软件兼容的机器是 B .A. 完全不同种类的机型B. 系统结构相同的机器C. 宿主机和目标机D. 虚拟机14.输入输出系统硬件的功能对 C 是透明的。
计算机系统结构(课后习题答案)

第一章电脑系统结构的基本概念1.有一个电脑系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。
现假设需第i级的N 条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间?答:第2级上等效程序需运行:(N/M)*Ks。
第3级上等效程序需运行:(N/M)*(N/M)*Ks。
第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。
note: 由题意可知:第i级的一条指令能完成第i-1级的M条指令的计算量。
而现在第i 级有N条指令解释第i+1级的一条指令,那么,我们就可以用N/M来表示N/M 表示第i+1级需(N/M)条指令来完成第i级的计算量。
所以,当有一段第1级的程序需要运行Ks时,在第2级就需要(N/M)Ks,以此类推2.硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。
答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。
但是实现的性能价格比,实现的难易程序不同。
在DOS操作系统时代,汉字系统是一个重要问题,早期的汉字系统的字库和处理程序都固化在汉卡〔硬件〕上,而随着CPU、硬盘、内存技术的不断发展,UCDOS把汉字系统的所有组成部份做成一个软件。
3.试以实例说明电脑系统结构、电脑组成与电脑实现之间的相互关系与影响。
答:电脑系统结构、电脑组成、电脑实现互不相同,但又相互影响。
〔1〕电脑的系统结构相同,但可采用不同的组成。
如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。
从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。
其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。
计算机系统结构习题课-10级讲解

Regs[MEM/WB.IR16..20] ← MEM/WB.ALUoutput;
或
Regs[MEM/WB.IR11..15] ← MEM/WB.ALUoutput;
Regs[MEM/WB.IR11..15] ← MEM/WB.LMD;
分支指令 EX/MEM.ALUoutput ← ID/EX.NPC + D/EX.Imm; EX/MEM.cond ← (ID/EX.A op 0);
ID/EX.A ← Regs[IF/ID.IR6..10]; ID/EX.B ← Regs[IF/ID.IR11..15];
ID/EX.NPC ← IF/ID.NPC;ID/EX.IR ← IF/ID.IR;
ID/EX.Imm ← (IR16)16##IR16..31;
ALU指令
Load/Store指令
1
1 0.7 0.7
2.7
10
➢ 对于瓶颈部分进行改进可以获得最大的改进效果。(第二问) ➢ 同样情况下使用改进加速比大的方法
1 Sn 1 0.7 0.2 0.7 0.2 5.66
10 30
CPU的性能公式
CPI是衡量CPU执行指令效率的重要指标。让我们先考虑一个标准测 速程序的全部执行时间Te和其中所有第i种指令的累计时间Ti,易知
高级计算机系统结构习题课
题目讲解 2011-1-12
第一章 计算机设计基本原理
• Amdahl定律 可改进比例:该部件的原执行时间在原系统总执行时
间中所占的比例
系统加速比=总执行时间改进前 =
1
总执行时间改进后
(1-
可改进比例)+可改进比例 部件加速比
例题选讲(1)
例1 假设将某系统的某一部件的处理速度加快到10倍,但该系统的 原处理时间仅为整个运行时间的40%,则采用加快措施后能使整个 系统的性能提高多少?
计算机系统结构习题答案

计算机系统结构习题答案计算机系统结构是计算机科学与技术领域中的一个重要分支,它涉及到计算机硬件的设计和实现,以及与软件的交互。
以下是一些常见的计算机系统结构习题及其答案。
1. 指令集架构(ISA)是什么?答案:指令集架构(ISA)是计算机体系结构中定义计算机硬件能执行的指令类型和操作方式的规范。
它包括指令的格式、操作数类型、寻址模式、寄存器组织等。
2. 流水线技术是如何提高计算机处理速度的?答案:流水线技术通过将指令执行过程分解为多个阶段,使得多个指令可以同时在不同的阶段执行,从而减少了每条指令的执行时间,提高了计算机的处理速度。
3. 什么是缓存一致性问题?答案:缓存一致性问题是指在多处理器系统中,每个处理器可能有自己的缓存,当多个处理器访问同一数据时,如果缓存数据不一致,就会产生一致性问题。
解决这个问题通常需要使用缓存一致性协议。
4. 虚拟内存是如何工作的?答案:虚拟内存是一种内存管理技术,它允许计算机使用磁盘空间作为内存的一部分。
操作系统将物理内存和磁盘空间映射,使得应用程序可以访问比物理内存更大的地址空间。
当物理内存不足时,操作系统会将不常用的数据从内存转移到磁盘,释放内存给其他程序使用。
5. 解释冯·诺伊曼结构和哈佛结构的区别。
答案:冯·诺伊曼结构是一种计算机组织方式,其中程序指令和数据使用相同的总线和存储器。
哈佛结构则将指令存储器和数据存储器分开,允许同时访问指令和数据,提高了执行效率。
6. 什么是超标量处理器?答案:超标量处理器是一种设计,允许同时执行多条指令。
这种处理器通常具有多个执行单元,可以同时处理多条指令的不同部分,从而提高性能。
7. RISC和CISC的区别是什么?答案:RISC(精简指令集计算机)使用简单、统一的指令集,每条指令执行时间短,适合流水线处理。
CISC(复杂指令集计算机)则包含更多的指令,每条指令可以执行更复杂的操作,但执行时间较长,流水线效率较低。
东北财经大学计算机系统结构习题课课件

2
指令系统
数据表示是能由硬件直接识别和引用的数据类型 。数据结构反映各种数据元素或信息单元之间的结构 关系。 数据结构要通过软件映象变换成机器所具有的各 种数据表示实现,所以数据表示是数据结构的组成元 素。不同的数据表示可为数据结构的实现提供不同的 支持,表现在实现效率和方便性不同。数据表示和数 据结构是软件、硬件的交界面。
2
指令系统
除基本数据表示不可少外,高级数据表示的引入遵 循以下原则: (1)看系统的效率有否提高,是否减少了实 现时间和存储空间。 (2)看引入这种数据表示后,其通用性和利 用率是否高。
2
2.3
指令系统
例: 某计算机有10条指令,它们的使用频 率分别为 0.30, 0.20, 0.16, 0.09, 0.08, 0.07,
1
1.8
计算机系统结构的基本概念
某工作站采用时钟频率为15MHz,处理速率为 10MIPS的处理机来执行一个已知混合程序。假定 每次存储器存取为1周期延迟,试问: (1)此计算机的有效CPI是多少? (2)时钟提高到30MHz,但存储器子系统速率不 变。这样,每次存储器存取需要2个时钟周期。如 果30%指令每条只需要1次存储存取,而另外5% 每条需要2次存储存取,还假定已知混合程序的指 令数不变,并与原工作站兼容,试求改进后的处理 机性能。
2
2.3
指令系统
(2) 用扩展霍夫曼编码法对操作码进行编码,限两种 操作码长度,采用长度为2和长度为4两种编码:
0.30 00 0.20 01 0.16 1000 0.09 1001 0.08 1010 0.07 1011 0.04 0.03 1100 1101 0.02 0.01 1110 1111
1.8
计算机系统结构课后题

[例题1.1] 假设将某一部件的处理速度加快到10倍,该部件的原处理时间仅为整个运行时间的40%,则采用加快措施后能使整个系统的性能提高多少?[解答] 由题意可知:Fe=0.4, Se=10,根据Amdahl 定律,加速比为:Sn=1/(0.6+0.4/10)=1.56[例题1.2] 采用哪种实现技术来求浮点数平方根FPSQR 的操作对系统的性能影响较大。
假设FPSQR 操作占整个测试程序执行时间的20%。
一种实现方法是采用FPSQR 硬件,使FPSQR 操作的速度加快到10倍。
另一种实现方法是使所有浮点数据指令的速度加快,使FP 指令的速度加快到2倍,还假设FP 指令占整个执行时间的50%。
请比较这两种设计方案。
[解答] 分别计算出这两种设计方案所能得到的加速比:[例题1.2][解答]=(4*25%)+(1.33*75%)=2.0方案1:CPI 1=CPI 原-2%*(CPI 老1-CPI 新1)=2.0-2%*(20-2)=1.64 方案2:CPI 2=CPI 原-25%*(CPI 老2-CPI 新2)=2.0-25%*(4-2)=1.5方案2的加速比=CPU 时间原/CPU 时间2=IC*时钟周期*CPI 原 / IC*时钟周期*CPI 2=2/1.5=1.33[习题1.17] 假设高速缓存Cache 工作速度为主存的5倍,且Cache 被访问命中的概率为90%,则采用Cache 后,能使整个存储系统获得多高的加速比Sp ? [解答] 我们首先对新的存储系统的性能做以下的假设:在Cache 不命中的情况下,对Cache 的访问不会额外损失时间,即:首先,决定Cache 是否命中所用的时间可以忽略;其次,在从主存向Cache 传输的同时,数据也被传输给使用部件(不需要再从Cache 中读取)。
这样,新的存储系统中,平均存取时间分为两个部分:hitCache miss main hit hit miss miss average new R T R T R T R T T ⨯+⨯=⨯+⨯=_其中,R 表示各种情况所占的比例。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
原始总时间Told = 0.3M × 5 × CYCLE + 0.7M × 1.25 × CYCLE = M × 2.375 × CYCLE TFP = 0.3M × 5 × CYCLE = M × 1.5 × CYCLE,所占比例为1.5/2.375 ≈ 63%
• 1.11 假设浮点数指令FP指令的比例为30%,其中浮点数平方根FPSQR 占全部指令的比例为4%,FP操作的CPI为5,FPSQR操作的CPI为20, 其他指令的平均CPI为1.25。
• 现有两种改进方案, 第一种:把FPSQR操作的CPI减至3 第二种:把所有的FP操作的CPI减至3 试比较两种方案对系统性能的提高程度。
部件加速比1=30; 部件加速比2=20; 部件加速比3=10;
• (1) 如果部件1和部件2的可改进比例为30%,那么当部件3的可改进比 例为多少时,系统的加速比才可以达到10?
• (2) 如果三个部件的可改进比例为30%、30%和20%,三个部件同时 改进,那么系统中不可加速部分的执行时间在总执行时间中占的比例 是多少?
Network Interfaces
Processor-Memory-Switch
Multiprocessors Networks and Interconnections
Topologies, Routing, Bandwidth, Latency, Reliability
1/19/2011
CS252-S11, Lecture 01
T e
=
T o
(1
−
f) e
+
f e
S e
• 1.11 假设浮点数指令FP指令的比例为30%,其中浮点数平方根FPSQR 占全部指令的比例为4%,FP操作的CPI为5,FPSQR操作的CPI为20, 其他指令的平均CPI为1.25。
• 现有两种改进方案, 第一种:把FPSQR操作的CPI减至3 第二种:把所有的FP操作的CPI减至3 试比较两种方案对系统性能的提高程度。
• 现有两种改进方案, 第一种:把FPSQR操作的CPI减至3 第二种:把所有的FP操作的CPI减至3 试比较两种方案对系统性能的提高程度。
解法2: 利用原始CPI的唯一性,先使用已知条件求出原始CPI,再求出除去FPSQR
指令外其他指令的平均CPI,最后比较改进后的CPI大小。
原始CPI = 5 × 30% + 1.25 × (1 - 30%) = 2.375 设除FPSQR外其余指令的平均CPI为X
则 2.375 = 20 × 4% + (1 - 4%)X ,解出X = 1.640625 方案1: CPI1 = 3 × 4% + 1.640625 × (1 - 4%) = 1.695 方案2: CPI2 = 3 × 30% + 1.25 × (1 - 30%) = 1.775
结论: 方案1导致的新CPI更小,性能更好
Pipelining and Instruction Level Parallelism
Computer Architecture Topics
PMPM
Shared MemoMessage Passing, Data Parallelism
S Interconnection Network
解法1: 使用差分形式的CPI公式,不需要求原始CPI,直接比较CPI增量的大小即可
方案1: ∆CPI1 = (3 - 20) × 4% = -0.68 方案2: ∆CPI2 = (3 - 5) × 30% = -0.6 结论: 方案1导致的CPI降幅更大,性能更好
• 1.11 假设浮点数指令FP指令的比例为30%,其中浮点数平方根FPSQR 占全部指令的比例为4%,FP操作的CPI为5,FPSQR操作的CPI为20, 其他指令的平均CPI为1.25。
TFPSQR = 0.04M × 20 × CYCLE = M × 0.8 × CYCLE,所占比例为0.8/2.375 ≈ 34%
方案1: Se = 20/3,Fe ≈ 34%,Sn1 = 1 / [ (1 - Fe) + Fe / Se ] ≈ 1.4 方案2: Se = 5/3,Fe ≈ 63%,Sn2 = 1 / [ (1 - Fe) + Fe / Se ] ≈ 1.3
4
• 1.7 对于一台400MHz计算机执行标准测试程序,程序中指令类型,执行数
量和平均时钟周期数如下:
指令类型 整数 数据传送 浮点 分支
指令执行数量 45000 75000 8000 1500
平均时钟周期数 1 2 4 2
• 求该计算机的有效CPI、MIPS和程序执行时间。
• 1.10 计算机系统有三个部件可以改进,这三个部件的加速比如下:
结论: 方案1导致加速比更大,性能更好
• 2.11 某台处理机的各条指令使用频度如下所示。
RAID
Other Processors
DRAM
Emerging Technologies Interleaving Bus protocols
Memory Hierarchy
L2 Cache
Coherence, Bandwidth, Latency
VLSI
L1 Cache
Instruction Set Architecture
Network
Communication Addressing, Protection, Exception Handling
Pipelining, Hazard Resolution, Superscalar, Reordering, Prediction, Speculation, Vector, Dynamic Compilation
计算机系统结构习题课
姚杰 2013/5/16
说明
• 本PPT不拷贝 • 在自己的作业本上修改、记录 • 答疑时间12周星期5(5月4日)上午1-2节东九楼
A203
Computer Architecture Topics
Input/Output and Storage Disks, WORM, Tape