计算机系统结构_第六章练习 答案讲课稿

合集下载

计算机系统结构(第五版)第6章

计算机系统结构(第五版)第6章

【例 6-1】 计算D=A×(B+C),其中A、B、C、D都是有N个元素的
如果采用逐个求D向量元素的方法,即访存取ai、bi、ci 元素求di,再取ai+1、bi+1、ci+1求di+1, 则这种处理方式称为 横向(水平)处理方式。
6.1.2
向量流水处理机的结构因具体机器的不同而不同。 图6 - 1只画出了CRAY-1中央处理机中有关向量流水处 理部分的简图。
所谓Vi冲突,指的是并行工作的各向量指令的源向量或结果 向量使用了相同的Vi。所谓功能部件冲突,指的是同一个功 能部件被要求并行工作的多条向量指令所使用。
第一、二条指令无任何冲突,可以并行执行。第三条指 令与第一、二条指令出现Vi冲突,存在先写后读数相关,本 来是不能并行执行的,但若能把第一、二条指令的结果分量 直接链接进第三条指令所用的功能部件,那第三条指令就能 与第一、二条指令在大部分时间内并行。它们的链接过程如 图6 - 3所示。
(V061)=(V053)+(V161) =(V15)+(V113)+(V121)+(V129)+(V137) +(V145)+(V153)+(V161)
第八部分(结果部分)
(V062)=(V054)+(V162) =(V16)+(V114)+(V122)+(V130)+(V138) +(V146)+(V154)+(V162)
(V05
)
(V00
)
(V15
)
0(V15
)
(V06 ) (V00 ) (V16 ) 0(V16 )
(V07 ) (V00 ) (V17 ) 0(V17 )

计算机体系结构课后习题原版答案

计算机体系结构课后习题原版答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。

这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。

虚拟机:用软件实现的机器。

翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。

执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。

计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。

透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。

计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。

系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。

Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。

程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。

包括时间局部性和空间局部性。

CPI:每条指令执行的平均时钟周期数。

测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。

存储程序计算机:冯·诺依曼结构计算机。

其基本点是指令驱动。

程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。

系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

计算机系统结构 第6章PPT课件

计算机系统结构 第6章PPT课件
对已生成的trace进行指令调度和优化,尽可能地缩短其 执行时间;
跨越trace内部的入口或出口调度指令时必须非常小心, 有时还需要增加补偿代码 。
B1
N
Y
B3
B2
B4
N Y
B5
Y
N
B6
B7 (a) 部 部 部 部

B1: x = x + 1 y=x–y if x<5 goto B3
B2: z = x * z y=y+1 goto B5
B3: y = 2 * y x=x-2
部部部
B1: x = x + 1
if x<5 goto B3
B2: y = x – y z=x*z y=y+1 goto B5
B3: y = x – y y=2*y x=x-2
部部部
(b) 部 部 部 部 部 部 部 部 部 部 B1部 B2部 B3
三条trace:B1-B3、B4以及B5-B7 指令“y = x - y”被从B1调度到B3 中,跨越了trace的一个出口; 需要向块B2中增加补偿代码,即 将指令“y = x - y”复制到B2的第 一条指令之前 。

1177/89
6.2 跨越基本块的静态指令调度
3. 全局指令调度是一个很复杂的问题 以I1的调度为例: ➢ 需要确定分支中基本块thenpart和elsepart的执行 频率各是多少? ➢ 在分支语句前完成I1所需的开销是多大? ➢ 调度I1是否能够缩短thenpart块的执行时间? ➢ I1是否是最佳的被调度对象? ➢ 是否需要向elsepart块中增加补偿代码,补偿代码 开销如何?怎样生成补偿代码?
SD
0(R1),R4

计算机系统结构 第六章自考练习题答案

计算机系统结构 第六章自考练习题答案
2计算机系统结构自考复习资料
5.阵列处理机是( 单 )指令流( 多 )数据流的计算机。 6.ILLIAC IV 8×8 的阵列中,任意两个处理单元之间通信的最大距离不会超过( 步。推广到一般, n × n 的阵列中,则为(
n -1
7 )
)步。 ) ,Shuffle(Shuffle
7.8 个节点混洗网络, 其混洗函数为 Shuffle P 2 P1 P 0 ) ( P1 P 0 P 2 ( = ( P 2 P1 P 0 )) =( P 0 P 2 P1 ) 。
N /2
) 。
不同的多级互连网络,在所用的( 交换开关 ) 、拓扑结构和( 控制方 式 )上各有不同。 4. 阵列处理机按存储器的组织方式不同,分为两种不同的基本构形,一种是采用( 分 布 )存储器的阵列处理机构形,另一种是具有( 集中 )共享存储器的阵列处理机 构形。 5. 简述去安排列网络的概念及实现全排列网络的两种方法。 (P174-175) 6.
(参考 P176-177)
同步强化练习
一.单项选择题。
1. 2. ( 3. 4. 多级混洗交换网络又称为( B ) 。 A.移数网络 B.Omega C.STARAN 网络 D.数据交换网络 存储器分体数 m 为质数时,访问一维数组的元素无冲突,要求数组变址的跳距为 A ) 。 A.与 m 互质 B.是 m 的倍数 C.与 m 不等 D.与 m 相等 ILLIAC IV 是一种( C ) 。 A.流水线处理机 B.指令重叠处理机 C.阵列处理机 D.多处理机 N 个结点的单级立方体网络,互连函数种数为( B ) 。 A.N 5. B. log
计算机系统结构自考复习资料
第六章 阵列处理机 历年真题精选
1. 拓 扑 结 构 用 多 级 立 方 体 网 络 , 二 功 能 交 换 单 元 , 级 控 制 方 式 , 这 种 网 络 称 为 ( B ) 。 A. Omega 网络 B. 交换网络 C. 间接二进制 n 方体网络 D. 数据变换网络 2.N 个结点的 PM2I 单级网络的最短距离是( 3. log 2

计算机组成原理习题答案第六章

计算机组成原理习题答案第六章

1.如何区别存储器和寄存器?两者是一回事的说法对吗?解:存储器和寄存器不是一回事。

存储器在CPU 的外边,专门用来存放程序和数据,访问存储器的速度较慢。

寄存器属于CPU 的一部分,访问寄存器的速度很快。

2.存储器的主要功能是什么?为什么要把存储系统分成若干个不同层次?主要有哪些层次?解:存储器的主要功能是用来保存程序和数据。

存储系统是由几个容量、速度和价存储系统和结构各不相同的存储器用硬件、软件、硬件与软件相结合的方法连接起来的系统。

把存储系统分成若干个不同层次的目的是为了解决存储容量、存取速度和价格之间的矛盾。

由高速缓冲存储器、主存储器、辅助存储器构成的三级存储系统可以分为两个层次,其中高速缓存和主存间称为Cache -主存存储层次(Cache 存储系统);主存和辅存间称为主存—辅存存储层次(虚拟存储系统)。

3.什么是半导体存储器?它有什么特点?解:采用半导体器件制造的存储器,主要有MOS 型存储器和双极型存储器两大类。

半导体存储器具有容量大、速度快、体积小、可靠性高等特点。

半导体随机存储器存储的信息会因为断电而丢失。

4.SRAM 记忆单元电路的工作原理是什么?它和DRAM 记忆单元电路相比有何异同点?解:SRAM 记忆单元由6个MOS 管组成,利用双稳态触发器来存储信息,可以对其进行读或写,只要电源不断电,信息将可保留。

DRAM 记忆单元可以由4个和单个MOS管组成,利用栅极电容存储信息,需要定时刷新。

5.动态RAM 为什么要刷新?一般有几种刷新方式?各有什么优缺点?解:DRAM 记忆单元是通过栅极电容上存储的电荷来暂存信息的,由于电容上的电荷会随着时间的推移被逐渐泄放掉,因此每隔一定的时间必须向栅极电容补充一次电荷,这个过程就叫做刷新。

常见的刷新方式有集中式、分散式和异步式3种。

集中方式的特点是读写操作时不受刷新工作的影响,系统的存取速度比较高;但有死区,而且存储容量越大,死区就越长。

分散方式的特点是没有死区;但它加长了系统的存取周期,降低了整机的速度,且刷新过于频繁,没有充分利用所允许的最大刷新间隔。

计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习答案计算机系统结构_第六章练习答案第六章向量处理机1.在大型数组的处置中常常涵盖向量排序,按照数组中各排序相继的次序,我们可以把向量处置方法分成哪三种类型?横向处理方式,纵向处理方式,纵横处理方式纵向处理方式:向量排序就是按行的方式从左至右纵向的展开横向处理方式:向量排序就是按列的方式自上而下横向的展开四海处理方式:纵向处置和横向处置结合的方式2.表述以下与向量处置有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向定量比值:用户代码可以向定量的部分占到全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器3.详细描述提升向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稠密矩阵的处置技术4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?a.计算机指令的优化技术b.设计满足用户运算器频宽建议的存储器c.如何提高存储器的利用率,增加存储器系统的容量d.纵横处理方式的划分问题5.假设系统在向量模式下面能达至9mflops,在标量模式下能达至1mflops速度,而代码的90%就是向量运算,10%就是标量运算,这样花掉在两种模式上的排序时间成正比。

那么向量平衡点就是:a.0.1b.0.9一个程序中向量代码所占的百分比c.0.5d.以上都不是6.查看下面三条指令:v3←av2←v0+v1v4←v2*v3假设向量长度大于64,且前后其他的指令均没相关性,数据步入和流入每个功能部件,包含出访存储器都须要一拍摄的时间,假设向量的长度为n。

三条指令全部使用以太网的方法,那么继续执行的时间就是:a.3n+20b.3n+21c.3n+22d.3n+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

“计算机组成与系统结构”(第6章)课件

“计算机组成与系统结构”(第6章)课件
• 包括时钟信号线、电源线、地线、系统 复位线以及加电或断电的时序信号线等
28
6.1.5 总线结构实例
• 大多数计算机采用了分层次的多总线结构
– 在这种结构中,速度差异较大的设备模块使用 不同速度的总线,而速度相近的设备模块使用 同一类总线
– 显然,这种结构不仅解决了总线负载过重的问 题,而且使总线设计简单,并能充分发挥每类 总线的效能
而当不再使用总线时能迅速放弃总线控制权15然而只有与出现在总线上的地址相对应的设备才执行数据传送操作对输入输出设备的操作完全和主存的操作方法一样来处理当cpu把指令的地址字段送到总线上时如果该地址字段对应的地址是主存地址则主存予以响应从而在cpu和主存之间发生数据传送如果该指令地址字段对应的是外围设备地址则外围设备译码器予以响应从而在cpu和与该地址相对应的外围设备之间发生数据传送16如果一个由外围设备指定的地址对应于一个主存单元则主存予以响应于是在主存和外设之间将进行直接存储器传送dma由于所有逻辑部件都挂在同一个总线上因此总线只能分时工作即某一时间只能允许一对部件之间传送数据这就使信息传送的吞吐量受到限制17p215图62cai演示18双总线结构保持了单总线系统简单易于扩充的优点在cpu和主存之间专门设置了一组高速的存储总线使cpu可通过专用总线与存储器交换信息并减轻了系统总线的负担主存仍可通过系统总线与外设之间实现dma操作而不必经过cpu当然这种双总线系统以增加硬件为代价19p216图63cai演示20三总线结构是在双总线系统的基础上增加io总线形成的系统总线是cpu主存和通道iop之间进行数据传送的公共通路而io总线是多个外部设备与通道之间进行数据传送的公共通路21在dma方式中外设与存储器间直接交换数据而不经过cpu从而减轻了cpu对数据输入输出的控制而通道方式进一步提高了cpu的效率通道实际上是一台具有特殊功能的处理器又称为iopio处理器它分担了一部分cpu的功能以实现对外设的统一管理及外设与主存之间的数据传送然而这是以增加更多的硬件代价换来的22614614当代总线的内部结构23p217图64cai演示24早期总线实际上是处理器芯片引脚的延伸是处理器与io设备适配器的通道这种简单的总线按其功能可分为三类

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案1-8章第1章计算机系统结构的基本概念1、有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。

现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间?答:第2级上等效程序需运行:(N/M)*Ks。

第3级上等效程序需运行:(N/M)*(N /M)*Ks。

第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。

2、硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。

答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。

只是反映在速度、价格、实现的难易程度上这两者不同。

3、试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。

答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。

(1)计算机的系统结构相同,但可采用不同的组成。

如IBM370系列有115、1 25、135、158、168等由低档到高档的多种型号机器。

从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。

其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

(2)相同的组成可有多种不同的实现。

如主存器件可用双极型的,也可用MO S型的;可用VLSI单片,也可用多片小规模集成电路组搭。

(3)计算机的系统结构不同,会使采用的组成技术不同,反之组成也会影响结构。

如为实现A:=B+CD:=E*F,可采用面向寄存器的系统结构,也可采用面向主存的三地址寻址方式的系统结构。

要提高运行速度,可让相加与相乘并行,为此这两种结构在组成上都要求设置独立的加法器和乘法器。

计算机系统结构第6章概论

计算机系统结构第6章概论
例6.1:一个简单的C语言程序如下: for (i = 10; i <= 1010; i++) c[i] = a[i] + b[i+5] ;
• 在向量处理机上, 可以只用一条指令: C(10:1010)=A(10:1010) + B(15 :1015) 一条向量指令可处理N个或N对操作数
• 在标量处理机上用10多条指令,其中有8条 指令要循环1000次。
LOOP: LOAD R4,A(R3) ;读A向量的一个元素
LOAD ADD STORE ADD INC CMP BLE
HALT ST: 10 ED: 1010 L: 4
R5, B(R3) ;读B向量的一个元素
R4, R5 ;加一个元素
R4, C(R3) ;写C向量的一个元素
R3, R2 ;改变向量偏移量
• 采用多寄存器结构的两地址指令编写程序 • 存储器采用字节编址方式,字长为32位
在一般标量处理机中需要如下指令序列来实现 (A、B、C分别是向量a、b、c在内存中的 起始地址):
START: LOAD R0, ST ;读循环初值10 LOAD R1, ED ;读循环终值1010 LOAD R2, L ;读内存地址增量4 MOVER3, R2 MUL R3, R0 ;计算向量偏移量, ;初始值为40
压缩向量 A A2
元素很少的向量称为
0 A2
压缩
A4 A7
稀疏向量
0
A4
采用压缩方法存储稀疏
0 0
压缩位向量 A
向量可以节省存储空
A7
00101001
间。
压缩向量 B B0
稀疏向量 B B0
可以还原之后进行运算,

计算机系统结构习题答案(李学干)

计算机系统结构习题答案(李学干)

计算机系统结构习题解答第一章习题一1.2一台经解释实现的计算机,可以按照功能划分成4级。

每一级为了执行一条指令需要下一级的N条指令解释。

若执行第1级的一条指令需K纳秒时间,那么执行第2、3、4级的一条指令个需要多少时间?解:①分析:计算机按功能分级时,最底层的为第1级。

向上一次是第2 、3、4级。

解释执行是在低级机器级上,用它的一串指令或语句来解释执行高一级上的一条指令的功能。

是逐条解释的。

②解答:执行第2、3、4级的一条指令各需KNns,KN2ns,KN3ns的时间。

1.3操作系统机器级的某些指令就用传统机器级的指令,这些指令可以用微程序直接实现,而不由操作系统自己来实现。

根据你对习题1.2的回答,你认为这样做有哪两个好处?答:可以加快操作系统操作命令解释的速度。

同时也节省了存放解释操作命令这部分解释程序所占用的空间。

简化了操作系统机器级的设计。

也有利于减少传统机器级的指令条数。

1.5硬件和软件在什么意义上是等效的?在什么意义上是不等效的?试举例说明。

答:硬件和软件在逻辑意义上是等效的。

在物理意义上是不等效的。

①在原理上,用硬件或固件实现的功能完全可以用软件来完成。

用软件实现的功能也可以用硬件或固件来完成。

功能一样。

②只是反映在速度、价格、实现的难易程度上,这两者是不同的。

性能不同。

③例如,浮点运算在80386以前一直是用软件实现的。

到了80486,将浮点运算器集成到了CPU中,可以直接通过浮点运算指令用硬件实现。

但速度却高的多。

1.9下列哪些对系统程序员是透明的?哪些对应用程序员是透明的?系列机各档不同的数据通路宽度;虚拟存储器;Cache存储器;程序状态字;“启动I/O”指令;“执行”指令;指令缓冲器。

答:①对系统程序员和应用程序员均透明的:是全用硬件实现的计算机组成所包含的方面。

有:数据通路宽度、Cache存储器、指令缓冲器。

②仅对应用程序员透明的:是一些软硬件结合实现的功能。

有:虚拟存储器、程序状态字、“启动I/O”指令。

计算机组织与系统结构第六章习题答案

计算机组织与系统结构第六章习题答案

习题1.给出以下概念的解释说明。

指令周期(Instruction Cycle)机器周期(Machine Cycle)同步系统(Synchronous system)时序信号(Timing signal)控制单元(Control Unit, CU)执行部件(Execute Unit,EU)组合逻辑元件(Combinational logic element)或操作元件(Operate element)时序逻辑元件(Sequential logic circuit)或状态元件(State element)多路选择器(Multiplexor)扩展器(Extension unit)“零”扩展(0- extend)“符号”扩展(Sign extend)算术逻辑部件ALU(Arithmetic Logic Unit)加法器(Adder)CPU总线(CPU Bus)寄存器堆(Register file)定时方式(Clocking methodology)边沿触发(Edge-triggered)寄存器写信号(Register Write)指令存储器(Instruction Memory)数据存储器(Data Memory)程序计数器(Program Counter)指令寄存器(Instruction Register)指令译码器(Instruction Decoder)时钟周期(Clock Cycle)主频(CPU Clock Rate / Frequency 转移目标地址(Branch target address)控制信号(Control signal)微程序控制器(Microprogrammed control)硬布线控制器(Hardwared control)控制存储器(Control Storage,控存CS)微代码(Microcode)微指令(Microinstruction)微程序(Microprogram)固件(Firmware)中断过程(Interrupt Processing)异常(Exception)故障(fault)自陷(Trap) 终止(Abort)中断(Interrupt)中断服务程序(Interrupt Handler)中断允许位(Interrupt Enable Bit)关中断(Interrupt OFF)开中断(Interrupt ON)中断响应(Interrupt Response)向量中断(Vector Interrupt)中断向量(Interrupt vector)中断向量表(Interrupt vector table)向量地址(vector Address)中断类型号(Interrupt number)2. 简单回答下列问题。

计算机系统结构(高教版)张晨曦 习题答案 第六章

计算机系统结构(高教版)张晨曦 习题答案 第六章

6.1 名词解释响应时间:从用户输入命令开始到得到结果所花费的时间可靠性:系统从某个初始参考点开始一直连续提供服务的能力可用性:系统正常工作的时间在连续两次正常服务间隔时间所占的比率可信性:服务的质量,记载多大程度上可以合理地认为服务是可靠的RAID:在磁盘阵列中设置冗余信息盘,从而形成的磁盘阵列分离式事务总线:在请求和应答之间的空闲时间内,总线可以提供其他的I/O使用,这样就不必在整个I/O过程中都独占总线,采用这种技术的总线叫分离事务总线通道:专门负责整个计算机系统的输入输出工作的专用处理机通道流量:又称通道吞吐率、通道数据传输率等,它是指一个通道在数据传送期间,单位时间能够传送的数据量虚拟DMA:允许DMA设备直接使用虚拟地址,并在DMA期间由硬件将虚拟地址转换为物理地址。

异步I/O:允许进程在发出I/O请求后继续执行,直到该进程真正访问这些数据而它们又尚未就绪时才被挂起。

6.3 RAID有哪些分级?各有何特点?RAID0亦称数据分块,即把数据分布在多个盘上,实际上是非冗余阵列,无冗余信息。

RAID1亦称镜像盘,使用双备份磁盘。

每当数据写入一个磁盘时,将该数据也写到另一个冗余盘,这样形成信息的两份复制品。

如果一个磁盘失效,系统可以到镜像盘中获得所需要的信息。

镜像是最昂贵的解决方法。

特点是系统可靠性很高,但效率很低。

RAID2位交叉式海明编码阵列。

原理上比较优越,但冗余信息的开销太大,因此未被广泛应用。

RAID3位交叉奇偶校验盘阵列,是单盘容错并行传输的阵列。

即数据以位或字节交叉的方式存于各盘,冗余的奇偶校验信息存储在一台专用盘上。

RAID4专用奇偶校验独立存取盘阵列。

即数据以块(块大小可变)交叉的方式存于各盘,冗余的奇偶校验信息存在一台专用盘上。

RAID5块交叉分布式奇偶校验盘阵列,是旋转奇偶校验独立存取的阵列。

即数据以块交叉的方式存于各盘,但无专用的校验盘,而是把冗余的奇偶校验信息均匀地分布在所有磁盘上。

计算机系统结构课后答案uint6

计算机系统结构课后答案uint6

计算机系统结构课后答案uint6第六章课后题1.画出16台处理器仿ILLIAC Ⅳ的模式进行互连的互连结构图,列出PE0分别只经一步、二步和三步传送能将信息传送到的各处理器号。

答:6台处理器仿ILLIAC Ⅳ处理单元的互连结构如图所示:图中第个PU中包含PE、PEM和MLU。

PE0(PU0)经一步可将信息传送至PU1、PU4、PU12、PU15。

PE0(PU0)至少需经二步才能将信息传送至PU2、PU3、PU5、PU8、PU11、PU13、PU1 4。

PE0(PU0)至少需经三步步才能将信息传送至PU6、PU7、PU9、PU10。

2.编号为0、1、...、15的16个处理器,用单级互连网互连。

当互连函数分别为(1)Cube3(2)PM2+3(3)PM2-0(4)Shuffle(5)Shuffle(Shuffle)时,第13号处理器各连至哪一个处理器?解答:(1)5号处理器(2)5号处理器(3)12号处理器(4)11号处理器(5)7号处理器剖析:由题意知,有16个处理器,即N=16,n=log2(N)=log2(16)=4。

Cube3(13)=Cube3(1101)=0101=5PM2+3(13)=(13+2^3)mod16=5PM2-0(13)=(13-2^0)mod16=12Shuffle(13)=Shuffle(1101)=1011=11Shuffle(Shuffle)=Shuffle(11)=Shuffle(1011)=0111=73.编号分别为0、1、2、...、F的16个处理器之间要求按下列配对通信:(B、1),(8、2),(7、D),(6、C),(E、4),(A、0),(9、3),(5、F)。

试选择所用互连网络类型、控制方式,并画出该互连网络的拓补结构和各级交换开关状态图。

解答:采用4级立方体网络,级控制。

该互连网络的拓补结构和各级交换开关状态图如下图所示:剖析:从处理器号的配对传送关系可以转成处理器二进制编号的配对传送关系:(B,1) (1011,0001)(8,2) (1000,0010)(7,D) (0111,1101)(6,C) (0110,1100)(E,4) (1110,0100)(A,0) (1010,0000)(9,3) (1001,0011)(5,F) (0101,1111)不难得出其一般规律是:二进制编号为P3P2P1P0的处理器与( ̄P3)P2( ̄P1)P0的处理器配对交换数据。

计算机系统结构(高教版)张晨曦 习题答案 第六章

计算机系统结构(高教版)张晨曦 习题答案 第六章

6.1 名词解释响应时间:从用户输入命令开始到得到结果所花费的时间可靠性:系统从某个初始参考点开始一直连续提供服务的能力可用性:系统正常工作的时间在连续两次正常服务间隔时间所占的比率可信性:服务的质量,记载多大程度上可以合理地认为服务是可靠的RAID:在磁盘阵列中设置冗余信息盘,从而形成的磁盘阵列分离式事务总线:在请求和应答之间的空闲时间内,总线可以提供其他的I/O使用,这样就不必在整个I/O过程中都独占总线,采用这种技术的总线叫分离事务总线通道:专门负责整个计算机系统的输入输出工作的专用处理机通道流量:又称通道吞吐率、通道数据传输率等,它是指一个通道在数据传送期间,单位时间能够传送的数据量虚拟DMA:允许DMA设备直接使用虚拟地址,并在DMA期间由硬件将虚拟地址转换为物理地址。

异步I/O:允许进程在发出I/O请求后继续执行,直到该进程真正访问这些数据而它们又尚未就绪时才被挂起。

6.3 RAID有哪些分级?各有何特点?RAID0亦称数据分块,即把数据分布在多个盘上,实际上是非冗余阵列,无冗余信息。

RAID1亦称镜像盘,使用双备份磁盘。

每当数据写入一个磁盘时,将该数据也写到另一个冗余盘,这样形成信息的两份复制品。

如果一个磁盘失效,系统可以到镜像盘中获得所需要的信息。

镜像是最昂贵的解决方法。

特点是系统可靠性很高,但效率很低。

RAID2位交叉式海明编码阵列。

原理上比较优越,但冗余信息的开销太大,因此未被广泛应用。

RAID3位交叉奇偶校验盘阵列,是单盘容错并行传输的阵列。

即数据以位或字节交叉的方式存于各盘,冗余的奇偶校验信息存储在一台专用盘上。

RAID4专用奇偶校验独立存取盘阵列。

即数据以块(块大小可变)交叉的方式存于各盘,冗余的奇偶校验信息存在一台专用盘上。

RAID5块交叉分布式奇偶校验盘阵列,是旋转奇偶校验独立存取的阵列。

即数据以块交叉的方式存于各盘,但无专用的校验盘,而是把冗余的奇偶校验信息均匀地分布在所有磁盘上。

计算机系统结构课后习题答案

计算机系统结构课后习题答案

第一章计算机系统结构的基本概念1.有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。

现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间?答: ????第2级上等效程序需运行:(N/M)*Ks。

第3级上等效程序需运行:(N/M)*(N/M)*Ks。

第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。

note: ????由题意可知:第i级的一条指令能完成第i-1级的M条指令的计算量。

而现在第i级有N条指令解释第i+1级的一条指令,那么,我们就可以用N/M来表示N/M 表示第i+1级需(N/M)条指令来完成第i级的计算量。

所以,当有一段第1级的程序需要运行Ks时,在第2级就需要(N/M)Ks,以此类推2.硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。

答:?软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。

但是实现的性能价格比,实现的难易程序不同。

????在DOS操作系统时代,汉字系统是一个重要问题,早期的汉字系统的字库和处理程序都固化在汉卡(硬件)上,而随着CPU、硬盘、内存技术的不断发展,UCDOS把汉字系统的所有组成部份做成一个软件。

3.试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。

答: ?计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。

????(1)计算机的系统结构相同,但可采用不同的组成。

如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。

从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。

其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

计算机系统结构-第六章练习-答案培训资料

计算机系统结构-第六章练习-答案培训资料

计算机系统结构-第六章练习-答案第六章向量处理机1.在大型数组的处理中常常包含向量计算,按照数组中各计算相继的次序,我们可以把向量处理方法分为哪三种类型?横向处理方式,纵向处理方式,纵横处理方式横向处理方式:向量计算是按行的方式从左至右横向的进行纵向处理方式:向量计算是按列的方式自上而下纵向的进行纵横处理方式:横向处理和纵向处理相结合的方式2.解释下列与向量处理有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向量化比值:用户代码可向量化的部分占全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器3.简要叙述提高向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稀疏矩阵的处理技术4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?A.计算机指令的优化技术B.设计满足运算器带宽要求的存储器C.如何提高存储器的利用率,增加存储器系统的容量D.纵横处理方式的划分问题5.假设系统在向量模式下面能够达到9Mflops,在标量模式下能够达到1Mflops速度,而代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等。

那么向量平衡点是:A.0.1B.0.9 一个程序中向量代码所占的百分比C.0.5D.以上都不是6.查看下面三条指令:V3←AV2←V0+V1V4←V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。

三条指令全部采用串行的方法,那么执行的时间是:A.3N+20B.3N+21C.3N+22D.3N+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

LV V1,Rx ;取向量MULTSV V2,F0,V1;向量和标量相乘LV V3,Ry ;取向量YADDV V4,V2,V3;加法SV Ry,V4;存结果可以划分成四个编队:(1)LV (2)MULTSV LV (3)ADDV (4)SV8.在一台向量处理机上实现A=B×s操作,其中A和 B是长度为200的向量,s是一个标量。

精品文档-计算机系统结构(第五版)(李学干)-第6章

精品文档-计算机系统结构(第五版)(李学干)-第6章
3. 这是一个将N个数的顺序相加转为并行相加的问题。为得 到各项累加的部分和与最后的总和,要用到处理单元中的活跃 标志位。只有处于活跃状态的处理单元才能执行相应的 操作。为叙述方便起见,取N=8,即有8个数A(I)顺序累加,其 中0≤I≤7。
第6章 向量处理机
图6 - 11描绘了阵列处理机上累加和的计算过程。最后一 列框中的数字表明各处理单元每次循环后相加的结果。图中用 数字0~7分别代表A(0)~A(7)。画有阴影线的处理单元表示此时 不活跃。
第6章 向量处理机
图6 - 4画出了其部分时间关系示意图。设源/结果向量寄 存器组用V0,另一源向量寄存器组用V1。在指令开始执 行前,先把V0的零分量(V00)置“0”。V1置入需要运算的全部 浮点数分量。向量长度寄存器VL的内容假定置为64
第6章 向量处理机
图 6-4 递归向量和的部分时间关系
(V05
)
(V00
)
(V15
)
0(V15
)
(V06 ) (V00 ) (V16 ) 0(V16 )
(V07 ) (V00 ) (V17 ) 0(V17 )
第6章 向量处理机
(V08 ) (V00 ) (V18 ) (V10 ) (V18 )
(V09 ) (V01) (V19 ) (V11) (V19 )
第6章 向量处理机
图 6-14 (a) Cube0; (b) Cube1; (c) Cube2
第6章 向量处理机
2. PM2I PM2I单级网络是“加减2i”(Plus Minus 2i)单级网络的 简称。能实现与j号处理单元直接相连的是j±2i号处理单元,
PM2i ( j) j 2i mod N
第6章 向量处理机
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机系统结构_第六章练习答案第六章向量处理机1.在大型数组的处理中常常包含向量计算,按照数组中各计算相继的次序,我们可以把向量处理方法分为哪三种类型?横向处理方式,纵向处理方式,纵横处理方式横向处理方式:向量计算是按行的方式从左至右横向的进行纵向处理方式:向量计算是按列的方式自上而下纵向的进行纵横处理方式:横向处理和纵向处理相结合的方式2.解释下列与向量处理有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向量化比值:用户代码可向量化的部分占全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器3.简要叙述提高向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稀疏矩阵的处理技术4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?A.计算机指令的优化技术B.设计满足运算器带宽要求的存储器C.如何提高存储器的利用率,增加存储器系统的容量D.纵横处理方式的划分问题5.假设系统在向量模式下面能够达到9Mflops,在标量模式下能够达到1Mflops速度,而代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等。

那么向量平衡点是:A.0.1B.0.9 一个程序中向量代码所占的百分比C.0.5D.以上都不是6.查看下面三条指令:V3←AV2←V0+V1V4←V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。

三条指令全部采用串行的方法,那么执行的时间是:A.3N+20B.3N+21C.3N+22D.3N+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

LV V1,Rx ;取向量MULTSV V2,F0,V1;向量和标量相乘LV V3,Ry ;取向量YADDV V4,V2,V3;加法SV Ry,V4;存结果可以划分成四个编队:(1)LV (2)MULTSV LV (3)ADDV (4)SV8.在一台向量处理机上实现A=B×s操作,其中A和 B是长度为200的向量,s是一个标量。

向量寄存器长度为64。

功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。

总的执行时间是?A.784B.783C.785D.7809.简述三种向量处理方式,他们对向量处理机结构要求有什么不同。

解:水平处理方式:向量长度为N,则水平处理方式相当于执行N次循环。

不适合对向量进行流水处理。

(或者叫做横向处理方式)垂直处理方式:将整个向量按相同的运算处理完毕之后,再去执行其他的运算,适合对向量进行流水处理,向量运算指令的源/目向量都放在存储器内,使得流水线运算部件的输入输出端直接与存储器相联,构成M-M型的运算流水线。

分组处理方式:把长度为N的向量分为若干组,每组按照纵向处理10.解释下列与向量处理有关的术语。

(1)向量规约指令(2)收集和散播指令解:(1)将向量化转化为标量的指令(2)收集指令可以把非连续存储单元的内容传送到向量寄存器组中若干个连续的寄存器;散播指令与此相反。

他们用于稀疏矩阵的存储与运算,可以节省空间。

11. 查看下面三条指令:V3←AV2←V0+V1V4←V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。

三条指令采用链接的方法,那么执行的时间是:A.3N+22B.2N+15C.N+16D.N+1712.在一台向量处理机上实现A=B×s操作,其中A和 B是长度为200的向量,s是一个标量。

向量寄存器长度为64。

功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。

那么一个结果元素的平均执行时间(包括启动开销)为:A.3.7B.3.9C.4.1D.4.313.某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。

采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F。

求此链接流水线的通过时间是多少拍?(设寄存器出入各需1拍)A.8B.9C.17D.1814.名词解释向量流水处理机解:处理机具有向量数据表示,并通过向量指令对向量的各元素进行处理。

15.某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。

采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F 。

每拍时间是50ns,完成这些计算并且把结果存进相应的寄存器,此处理部件实际吞吐率是多少MFLOPS?(设寄存器出入各需1拍)A.26.67B.29.C.24.6D.25.8316.一台单处理机可以以标量方式运行,也可以以向量方式运行。

在向量方式情况下,计算可比标量方式快9倍。

设某基准程序在此计算机上运行的时间是T 。

另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。

请计算在上述条件下与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的百分比。

加速比=(0.25T*9+0.75T*1)/T=3由于T 中向量化代码所占的时间为0.25T ,则串行代码用时=T-0.25T=0.75T ,所以完全不用向量方式执行该段代码用时= 0.75T+9*0.25T=3T, 因此加速比=3T/T=3.根据Amdahl 定律.17.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度v R 为10Mflops ;另一种是标量方式,执行速度s R 为1Mflops 。

设α是该计算机的典型程序代码中可以向量化部分的百分比。

如果要使平均执行的速度达到7.5Mflops,那么向量化百分比应该多大?1/[a/Rv+(1-a)/Rs]=7.5所以a=0.96318.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。

则下面的指令组完成所需要的拍数是: V3←存储器打入1,启动1,读数6V2←V0+V1s0←s2+s3V3←V1×V4A.111B.110C.78D.798+31+9+3119.在CRAY-1机器上,链接方式执行下面4条向量指令(括号中给出相应功能部件的时间),如果向量寄存器和功能部件之间的数据传输需要1拍,试求此链接流水线的流过时间为多少拍?V0←存储器(存储器取数7拍)9V1←V0+V1 (向量加3拍)5V3←V2<A3 (按照A3左移4拍)6V5←V3∧V4 (向量逻辑乘2拍)4A.23B.24C.30D.3120. 一台单处理机可以以标量方式运行,也可以以向量方式运行。

在向量方式情况下,计算可比标量方式快18倍。

设某基准程序在此计算机上运行的时间是T 。

另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。

那么在上述条件下与完全不用向量方式的条件下相比的加速比是:A.3B.3.43C.3.33D.以上均不正确1/[0.75/18+0.25/1]21.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度v R 为10Mflops ;另一种是标量方式,执行速度s R 为1Mflops 。

设α是该计算机的典型程序代码中可以向量化部分的百分比。

求平均执行速度的计算公式。

1/[a/Rv+(1-a)/Rs]=10/(10-9a)22.向量处理机有那两种最基本的结构?存储器--存储器结构寄存器--寄存器结构23.研制高性能的向量处理机主要需要解决哪几个问题?(1) 较好的维持向量/标量性能平衡(2) 可扩展性随处理机数目的增加而提高(3) 增加存储器系统的容量和性能(4) 提供高性能的I/O 和易访问的网络24.为了提高向量处理机的性能,会采用一些特殊的技术,下面那一项不是提高向量处理机性能而采用的技术?A.链接技术B.向量递归技术C.cache缓存技术D.稀疏矩阵的处理技术25.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。

则下面的指令组完成所需要的拍数是: V0←存储器V2←V0+V1V3←V2×V1V5←V3×V426.若要进行向量运算D=A×(B+C),假设向量长度N<64,且B和 C已经存至V0和V1,则下面三条指令就可以完成上述的运算。

V3←A (6拍)V2←V0+V1 (6拍)V4←V2×V3 (7拍)分别求三条指令全部用串行的方法和链接技术执行的时间(读写各需1拍)。

27.在某台向量处理机上执行DAXPY代码,即完成Y=a×X+Y,其中X和Y是向量,最初存放在内存,a是一个标量,他们的向量指令如下:LV V1,Rx ;取向量MULTSV V2,F0,V1 ;标量和向量相乘LV V2,Ry ;取向量YADDV V4,V2,V3 ;相加SV Ry,V4 ;存结果求总的执行时间。

假设其中存取数需要12拍,乘法需要7拍,加法需要6拍,向量长度是n。

28.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n 是向量长度,时钟频率是200MHz,那么最大性能是多少?A. 90MFLOPSB. 80MFLOPSC.50 MFLOPSD.100MFLOPS29.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n 是向量长度,时钟频率是200MHz,那么半性能向量长度是:A.12.8B.10.7C.12D.1330.日本FOCOM向量处理机VP-200具有流水线链接和并行化功能。

它有2条存储流水线到向量寄存器,两者可以并行工作。

此外尚有加法和乘法流水线。

各流水线间均可以链接操作。

若现在要在Vp-200向量机上实现以下的向量操作:A(I)=B(I) ×C(I)+D(I) ×E(I)+F(I) ×G(I)I=1,2,…,N。

相关文档
最新文档