chapter6-1 第六章阵列处理机计算机体系结构课件

合集下载

计算机系统结构(第五版)第6章

【例 6-1】计算D=A×(B+C)，其中A、B、C、D都是有N个元素的
如果采用逐个求D向量元素的方法，即访存取ai、bi、ci 元素求di，再取ai+1、bi+1、ci+1求di+1，则这种处理方式称为横向(水平)处理方式。
6.1.2
向量流水处理机的结构因具体机器的不同而不同。图6 - 1只画出了CRAY-1中央处理机中有关向量流水处理部分的简图。
所谓Vi冲突，指的是并行工作的各向量指令的源向量或结果向量使用了相同的Vi。所谓功能部件冲突，指的是同一个功能部件被要求并行工作的多条向量指令所使用。
第一、二条指令无任何冲突，可以并行执行。第三条指令与第一、二条指令出现Vi冲突，存在先写后读数相关，本来是不能并行执行的，但若能把第一、二条指令的结果分量直接链接进第三条指令所用的功能部件，那第三条指令就能与第一、二条指令在大部分时间内并行。它们的链接过程如图6 - 3所示。
(V061)=(V053)+(V161) =(V15)+(V113)+(V121)+(V129)+(V137) +(V145)+(V153)+(V161)
第八部分(结果部分)
(V062)=(V054)+(V162) =(V16)+(V114)+(V122)+(V130)+(V138) +(V146)+(V154)+(V162)
(V05
)
(V00
)
(V15
)
0(V15
)
(V06 ) (V00 ) (V16 ) 0(V16 )
(V07 ) (V00 ) (V17 ) 0(V17 )

计算机系统结构6

式中，n=log2N，Pn-1Pn-2…P1P0为入端编号的二进制码。
Shuffle函数还有一个重要特性。如果把它再作一次Shuffle 函数变换，得到的是一组新的代码，即Pn-3 …P0Pn-1Pn-2。这样，
每全混一次，新的最高位就被移至最低位。当经过 n次全混后，
全部N个处理单元便又恢复到最初的排列次序。在多次全混的过程中，除了编号为全“ 0” 和全“ 1” 的处理单元外，各个处理单元都遇到了与其他多个处理单元连接的机会。
的问题。为了得到各项累加的部分和和最后的总和，要用到
处理单元中的活跃标志位。只有处于活跃状态的处理单元，才能执行相应的操作。为叙述方便，取 N 为 8 ，即有 8 个数
A(I)顺序累加，其中 0≤I≤7。
在SISD计算机上可写成下列C C=0 for(i=0;i<8;i++) C+=A[i];
这是一个串行程序，需要 8 次加法时间。
实现。普遍来讲， N
N N 个处理单元组成的阵列 N 1
中，任意两个处理单元之间的最短距离不会超过
步。
6.1.3 阵列处理机的算法举例 1) 在阵列处理机上，解决矩阵加法是最简单的一维情形。
若有两个 8×8 的矩阵A、B相加，所得结果矩阵C也是一个
8×8 的矩阵。只需把 A、 B居于相应位置的分量存放在同一个PEM内，且在全部 64 个PEM中，令A的分量均为同一地址α，B的分量单元均为同一地址α+1，而结果矩阵C的各个结果分量也相应存放于各PEM同一地址α+2的单元内，如图 6.4 所示。这样，只需用下列3条ILLIAC Ⅳ的汇编指令就可以一次实现矩阵相加：
PM2+0 PM2-0 PM2+1 PM2-1 PM2±2

计算机体系结构完整讲义ppt课件

• 计算机的更新换代
– 第一代：电子管计算机 – 第二代：晶体管计算机
硬件设计公理：越小越快
– 第三代：中小规模集成电路
– 第四代：大或超大规模集成电路
– 第五代：VLSI(甚大规模集成电路)
计算机性能的大幅度提高和更新换代，一方面依靠器件的不断更新，同时也依赖系统结构的不断改进。
30
二按计算机系统成本分类
• 是对计算机系统中各机器级之间界面的划分和定义，以及对各级界面上、下的功能进行分配
– 1964年，IBM/360系列机的总设计工程师G.M. Amdahl、G.A. Blauw、F.P. Brooks等人提出。也称体系结构。
– 是从程序员的角度所看到的系统的属性，是概念上的结构和功能上的行为
• 1.2.2 计算机系统的设计方法
• ---软硬件舍取的基本原则 • ---计算机系统设计者的主要任务 • ---计算机系统设计的基本方法（三种）
• 计算机语言：是用以描述控制流程的、有一定规则的字符集合
– 语言不是专属软件范畴，可以介属于计算机系统的各个层次，具有不同作用
4
1.1.1计算机系统的多级层次结构
从使用语言的角度上，将计算机系统看成按功能划分的多级层次结构
机器、汇编、高级、应用语言
低级
高级
后者比前者功能更强、使用更方便；
而前者是后者发展的基础，在单条指令的执行速度相比较，前者更快。
•第1章 •第2章 •第3章 •第4章 •第5章 •第6章
计算机系统设计基础数据表示与指令系统性能分析流水技术和向量处理阵列计算机多处理机系统数据流计算机
1
第1章计算机系统设计基础
• 1.1 计算机系统的基本概念 • 1.2 计算机系统的设计技术 • 1.3 计算机系统的性能评价 • 1.4 计算机系统结构的发展

计算机组成原理(本全PPT)

应用
用作固件存储，如BIOS、固件等。
外存储器
特点
容量大、价格低、速度慢、数据可长期保存。
分类
机械硬盘（HDD）和固态硬盘（SSD）。
外存储器
应用
作为计算机的主要存储设备。
特点
容量大、价格低、速度慢、数据可长期保存。
外存储器
分类
CD、DVD和蓝光光盘等。
应用
用于数据备份和存储。
高速缓存(Cache)
址和控制信号。
总线按照传输信号类型可以分为数据总线、地址总线和控制总线。
总线按照连接部件可以分为内部总线和外部总线，内部总线连接计算机内部各部件，外部总线连
接计算机与外部设备。
主板的结构与功能
主板的结构包括
处理器插座、内存插槽、扩展插槽、硬盘接口、电源接口等。
主板的功能包括
提供各部件之间的连接，实现数据传输和控制信号传递；保障系统的稳定性和可靠性；提供系统扩展能力。
I/O数据传输方式
优点
CPU可以执行其他任务，适用于高速I/O 设备。
VS
缺点
需要设置中断控制器，实现起来较为复杂。
I/O数据传输方式
优点
CPU不直接参与数据传输，适用于大数据块传输。
缺点
需要设置DMA控制器，成本较高。
I/O设备控制方式
要点一
优点
简单、易于实现。
要点二
缺点
CPU效率低下，适用于慢速I/O设备。
计算机组成原理(本全ppt)
• 计算机系统概述 • 中央处理器(CPU) • 存储器系统 • 输入输出系统(I/O) • 总线与主板 • 计算机系统性能评价与优化
01
计算机系统概述
计算机的发展历程

《计算机体系结构》课件

ABCD
理解指令集体系结构、处理器设计、存储系统、输入输出系统的基本原理和设计方法。
培养学生对计算机体系结构领域的兴趣和热情，为未来的学习和工作打下坚实的基础。
CHAPTER
02
计算机体系结构概述
计算机体系结构定义
计算机体系结构是指计算机系统的整体设计和组织结构，包括其硬件和软件的交互方式。
CHAPTER
06
并行处理与多核处理器
并行处理概述
并行处理
指在同一时刻或同一时间间隔内完成两个或两个以上工作的能力
。
并行处理的分类
时间并行、空间并行、数据并行和流水并行。
并行处理的优势
提高计算速度、增强计算能力、提高资源利用率。
多核处理器
1 2
多核处理器
指在一个处理器上集成多个核心，每个核心可以独立执行一条指令。
间接寻址
间接寻址是指操作数的有效地址通过寄存器间接给出，计算机先取出寄存器中的地址，再通过该地址取出操作数进行操作。
CHAPTER
04
存储系统
存储系统概述
存储系统是计算机体系结构中的重要组成部分，负责存储和检索数据和指令。
存储系统通常由多个层次的存储器组成，包括主存储器、外存储器和高速缓存等。
《计算机体系结构》ppt 课件
CONTENTS
目录
• 引言 • 计算机体系结构概述 • 指令系统 • 存储系统 • 输入输出系统 • 并行处理与多核处理器 • 流水线技术 • 计算机体系结构优化技术
CHAPTER
01
引言
课程简介
计算机体系结构是计算机科学的一门核心课程，主要研究计算机系统的基本组成、组织结构、工作原理及其设计方法。

计算机系统结构课件

浮点数据就是高级语言课程中所说的“实型数”。
2.1.1.1 浮点数的组成浮点数的组成与人们通常所说的“科学记数法”非常相似，唯一不同的是各部分均为有限位数，如下所示
它的主要参数有8个：
m ── 尾数，一般为纯小数，符合规格化原则（即最高位的绝对值不为0），用原码或补码表示；
e ── 阶码，整数，常用移码表示（见下文解释）；
= 1.25×80%×ICA×1.1×CYCLEA = 1.1×ICA×CYCLEA < Te_A 这时B机器快一些。
Sn
• 题12 （P33）
20
Amdahl定律公式，代入已知量
Se=20变成一元函数
10.5
Sn=20/(20-19Fe)
用三点作图法作出关系曲线。
1.8
1
0
0.5
2001.9.1
计算机系统结构
•
= 1.25×80%×ICA×1.25×CYCLEA
•
= 1.25×ICA×CYCLEA > Te_A
• 显然A机器快一些。
2001.9.1
计算机系统结构
17
例题选讲（5）
• 例1.5（P12） Te公式，改动上题中CYCLEB =1.1 ×CYCLEA，则最后
Te_B = 1.25×ICB ×CYCLEB
汇编语言机器
汇编语言程序员（使用汇编语言）
（经汇编程序翻译成机器语言、操作系统原语）
操作系统语言机器操作系统用户（使用操作系统原语）
（经原语解释子程序翻译成机器语言）
传统机器语言机器传统机器程序员（使用二进制机器语言）
（由微程序解释成微指令序列）
微指令语言机器微指令程序员（使用微指令语言）

计算机组成原理与体系结构结构分析ppt(共42页)

5.掌握计算机组成、体系结构和实现的内容和关系
6.了解计算机的发展历史和各类计算机的特点
7.了解计算机的主要应用领域
第二章
运算方法和运算部件
本章主要讨论数据在计算机中的表示方法、运算方法、运算部件的实现等问题。
1.掌握数制表示和不同数制间的数据转换（二、八、十、十六进制的表示及相互转换）。
操作码地址码
3.掌握基本的寻址方式立即寻址、直接寻址、寄存器直接寻址、间接寻址(间址)、寄存器间址、变址寻址、基址寻址、堆栈寻址等。
4.了解指令系统兼容性的概念硬件实现方法可以不同，指令系统可以有较大的扩充，但仍保留原来的全部指令，保持软件向上兼容的特点。
5.掌握RISC和CISC的定义，各自的特点指令系统很复杂，指令条数很多的计算机为CISC。精简指令系统使机器结构更加简单合理，提高运行速度的计算机为RISC。
第五章
中央ቤተ መጻሕፍቲ ባይዱ理部件（CPU）
微处理器将运算器和控制器集成在一个芯片上，称之为中央处理部件（CPU）。
本章主要论述了CPU的组成原理，各个硬件在计算机运行过程中的作用；介绍了 CPU中各个部件的操作过程及其实现方法的原理。重点讲述了程序是如何执行的；计算机怎样实现各条指令的功能；又如何保证逐条指令的连续执行过程。
(3) 数据以二进制码表示。 (4) 指令由操作码和地址码组成。
(5) 指令在存储器中按执行顺序存放，由指令计数器（即程序计数器PC）指明要执行的指令所在的单元地址，一般按顺序递增，但可按运算结果或外界条件而改变。
(6) 机器以运算器为中心，输入输出设备与存储器间的数据传送都通过运算器。
4．计算题与设计（30%左右） 5.填图题（10%左右）

组成原理课件——第6章阵列处理机和相联处理机

ILLIAC Ⅳ的组成
第 6 章阵列处理机和相联处理机 PU56 PU63 PU0 PU57 PU1 PU58 PU7
PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU0
PU57
PU1
PU63
PU7
PU0
ILLIAC-IV的处理单元互连结构
第 6 章阵列处理机和相联处理机
特点: (1)闭合螺线阵列
的基本构件组合而成，模块性好；
第 6 章阵列处理机和相联处理机
2.互连函数互连网络的连接特征一般用一组互连函数表示。互连函数：出端编码是入端编码的排列、组合、移位、取反等操作的结果。表示所有入端与出端的连接关系。互连函数有2种表示方法： (1)输入输出对应表示法输入: 0 1 2 3 4 5 6 7 互连 0 1 N-1 输出: 1 0 3 2 5 4 7 6 函数 f(0) f(1) f(N-1) (2)函数式表示法：入端编码表示： x = bn-1…b0 n=log2N 出端编码表示：f(x) = 基于bn-1…b0的操作的结果。自变量和函数可以用二进制表示，也可以用十进制等表示
一．矩阵加矩阵加(配比加)是最简单的情况。假定两个8*8的矩阵 A、B相加，所得结果矩阵C也是一个8*8的矩阵。设A、B 的分量元素分别存在PEM i的Z,Z+1单元中,所得结果矩阵C 各分量存在PEM i 的Z+2单元中用下面三条指令可一次完成(64个处理单元并行) LDA Z；全部（Z）由PEMi送到PE的累加器RGAi ADRN Z+1；全部（Z+1）与（RGAi）进行浮点加，结果送RGAi STA Z+2；全部（RGAi）由PE送到PEMi的（Z+2）单元

计算机系统结构第6章概论

例6.1：一个简单的C语言程序如下： for (i = 10; i <= 1010; i++) c[i] = a[i] + b[i+5] ;
• 在向量处理机上, 可以只用一条指令： C(10:1010)=A(10:1010) + B(15 :1015) 一条向量指令可处理Ｎ个或Ｎ对操作数
• 在标量处理机上用10多条指令，其中有8条指令要循环1000次。
LOOP: LOAD R4,A(R3) ;读A向量的一个元素
LOAD ADD STORE ADD INC CMP BLE
HALT ST: 10 ED: 1010 L: 4
R5, B(R3) ;读B向量的一个元素
R4, R5 ;加一个元素
R4, C(R3) ;写C向量的一个元素
R3, R2 ;改变向量偏移量
• 采用多寄存器结构的两地址指令编写程序 • 存储器采用字节编址方式，字长为32位
在一般标量处理机中需要如下指令序列来实现（A、B、C分别是向量a、b、c在内存中的起始地址）：
START: LOAD R0, ST ;读循环初值10 LOAD R1, ED ;读循环终值1010 LOAD R2, L ;读内存地址增量4 MOVER3, R2 MUL R3, R0 ;计算向量偏移量, ;初始值为40
压缩向量 A A2
元素很少的向量称为
0 A2
压缩
A4 A7
稀疏向量
0
A4
采用压缩方法存储稀疏
0 0
压缩位向量 A
向量可以节省存储空
A7
00101001
间。
压缩向量 B B0
稀疏向量 B B0
可以还原之后进行运算，

新版第六章-阵列处理机课件.ppt

系列 560Mflops 峰值性与Fortran90标准有
能
关的Fortran-plus
6
阵列处理机的构形与特点
分布式存储器的阵列处理机构形集中式共享存储器的阵列处理机构形
一台阵列处理机由五个部分组成
多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
α+1单元中， 0≤i≤7。
30
循环
K=0
K=1
K=2
PE0 A0
0
PE1 A1
0,1
PE2 A2
1,2
PE3 A3
2,3
PE4 A4
3,4
PE5 A5
4,5
PE6 A6
5,6
PE7 A7
6,7
0
0
0,1
0,1
0~2
0~2
0~3
0~3
1~4
0~4
2~5
0~5
3~6
0~6
4~7
0~7
31
阵列处理机的缺点
10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明
SISD算法需8*8*8=512次运算
23
矩阵乘（续）
SIMD算法： DO 10 I=0,7 C(I,J)=0 DO 10 K=0,7
10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明
SIMD算法需8*8=64次运算
5
Thinking Machines公
司CM-2
65536 个 PE 排成 10 维超立方体, 每个 PE 可有 1M 位存储器 , 32 个 PE 共享 FPU 选件 , 峰值速度28 Gflops和持续速度5.6 Gflops

计算机体系结构课件

详细描述
输入输出系统是计算机中用于接收外部输入（如键盘、鼠标、传感器等）和输出数据（如显示器、打印机、音响等）的硬件设备。输入输出系统的性能和可靠性对计算机的整体性能和使用体验至关重要。
总线与接口
总结词
总线与接口是计算机中用于连接各个部件并进行通信的通道。
详细描述
总线与接口是计算机中各个部件之间进行通信的通道。总线是连接各个部件的公共通道，而接口则是连接外部设备和计算机的通道。通过总线与接口，各个部件之间可以相互通信并协同工作，实现计算机的整体功能。总线与接口的性能和稳定性对计算机的整体性能和使用体验至关重要。
长电池寿命。
扩展功能
03
通过增加输入输出接口、支持多种数据类型等，可以扩展计算
机的功能和应用范围。
计算机体系结构的分类
1 2
按指令集分类
可以分为复杂指令集计算机（CISC）和精简指令集计算机（RISC）。
按数据类型分类
可以分为固定长度数据和可变长度数据。
3
按寻址方式分类
可以分为直接寻址、间接寻址和基址加变址寻址等。
03
计算机指令系统
指令集架构
ቤተ መጻሕፍቲ ባይዱ
复杂指令集架构 (CISC)
提供了许多复杂的指令，能够执行各种高级操作。
精简指令集架构 (RISC)
只包含简单的、基本的指令，强调通过并行处理加快执行速度。
超长指令集架构 (VLIW)
通过将多个操作数和操作码放入一个指令，实现并行处理。
指令格式与寻址方式
固定长度的指令格式
可重构计算面临着能效、可扩展性、编程模型等方面的挑战，如何设计更高效的
THANKS
感谢观看
详细描述
存储器是计算机中用于存储数据和程序的硬件设备。根据存储速度、容量和价格的不同，计算机中存在多种类型的存储器，如随机存取存储器（RAM）、只读存储器（ROM）、高速缓存（Cache）等。存储器的容量和速度对计算机的性能有很大的影响。

计算机系统结构第6章

第 6 章并行处理机和相联处理机
在SISD计算机上求解，可执行FORTRAN语言编写的下列程序： DO10I=0,7 DO10J=0,7 C(I,J)=0 DO10K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J)
第 6 章并行处理机和相联处理机
需经I、J、K三重循环完成。每重循环执行8次，共需 512次乘、加的时间，且每次还要包括执行循环控制判别等其它操作所需的时间。如果在SIMD阵列处理机上运算，可用8个处理单元并行计算矩阵C(I,J)的某一行或一列，即将J 循环或I循环转化成一维的向量处理，从而消去了一重循环。以消去J循环为例，可执行用FORTRAN语言编写的下列程序： DO10I=0,7 C(I,J)=0 DO10K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J)
第 6 章并行处理机和相联处理机
LDA ADRN
ALPHA ;全部(α)由PEMi送PEi的累加器RGAi ALPHA+1 ;全部(α+1)与(RGAi)浮点加，结果送 RGAi
STA
ALPHA+2
;全部(RGAi)由PEi送PEMi的α+2单元其中，0≤i≤63。源自第 6 章并行处理机和相联处理机
第 6 章并行处理机和相联处理机
第6章阵列处理机章
6.1 阵列处理机的原理 6.2 SIMD计算机的互连网络计算机的互连网络 6.3 共享主存构形阵列处理机中并行存储器的无冲突访问 6.4 脉动阵列处理机
第 6 章并行处理机和相联处理机
6.1 并行处理机原理
6.1.1阵列处理机的构形和特点阵列处理机的构形和特点 1.阵列处理机的构形阵列处理机的构形阵列处理机有两种构形，差别主要在于存储器的组成方式和互连网络的作用不同。图6-1是采用分布式存储器的阵列处理机构形。

“计算机组成与系统结构”(第6章)课件

• 包括时钟信号线、电源线、地线、系统复位线以及加电或断电的时序信号线等
28
6.1.5 总线结构实例
• 大多数计算机采用了分层次的多总线结构
– 在这种结构中，速度差异较大的设备模块使用不同速度的总线，而速度相近的设备模块使用同一类总线
– 显然，这种结构不仅解决了总线负载过重的问题，而且使总线设计简单，并能充分发挥每类总线的效能
而当不再使用总线时能迅速放弃总线控制权15然而只有与出现在总线上的地址相对应的设备才执行数据传送操作对输入输出设备的操作完全和主存的操作方法一样来处理当cpu把指令的地址字段送到总线上时如果该地址字段对应的地址是主存地址则主存予以响应从而在cpu和主存之间发生数据传送如果该指令地址字段对应的是外围设备地址则外围设备译码器予以响应从而在cpu和与该地址相对应的外围设备之间发生数据传送16如果一个由外围设备指定的地址对应于一个主存单元则主存予以响应于是在主存和外设之间将进行直接存储器传送dma由于所有逻辑部件都挂在同一个总线上因此总线只能分时工作即某一时间只能允许一对部件之间传送数据这就使信息传送的吞吐量受到限制17p215图62cai演示18双总线结构保持了单总线系统简单易于扩充的优点在cpu和主存之间专门设置了一组高速的存储总线使cpu可通过专用总线与存储器交换信息并减轻了系统总线的负担主存仍可通过系统总线与外设之间实现dma操作而不必经过cpu当然这种双总线系统以增加硬件为代价19p216图63cai演示20三总线结构是在双总线系统的基础上增加io总线形成的系统总线是cpu主存和通道iop之间进行数据传送的公共通路而io总线是多个外部设备与通道之间进行数据传送的公共通路21在dma方式中外设与存储器间直接交换数据而不经过cpu从而减轻了cpu对数据输入输出的控制而通道方式进一步提高了cpu的效率通道实际上是一台具有特殊功能的处理器又称为iopio处理器它分担了一部分cpu的功能以实现对外设的统一管理及外设与主存之间的数据传送然而这是以增加更多的硬件代价换来的22614614当代总线的内部结构23p217图64cai演示24早期总线实际上是处理器芯片引脚的延伸是处理器与io设备适配器的通道这种简单的总线按其功能可分为三类

计算机组成与系统结构.ppt

计算机组成与系统结构
6.1 总线系统概述
单击此处4）编时辑间母特版性标题样式单击此处编辑母版文本样式
第二级定义每第根三线级在什么时间有效
即规定总线上各信号有效的时序关系
计算机组成与系统结构
6.1 总线系统概述
单击此2.处总编线辑的母标版准标化题样式
单对击于此相处同编的辑指母令版系文统本、样相式同的功能，第不二同级厂家生产的功能部件在具体实现上几乎没有相同的但各第厂三家级生产的相同功能部件却可以互换使用这是由于它们都遵守了相同的系统总线要求
6.1 总线系统概述
单击此处3）编总辑线母带版宽标题样式
单总击线此带处宽编辑母版文本样式第总二线级本身所能达到的最高数据传输速率第单三位级是兆字节每秒（MB/s）是衡量总线性能的重要指标
总线带宽越宽，传输效率也就越高总线带宽与总线宽度和总线频率的关系：
总线带宽 (MB/s)＝总线宽度 (bit) 总线频率 (MHz) 8 (bit/B)
计算机组成与系统结构
6.1 总线系统概述
单2击．此当处代编总辑线母的版内标部题结样构式
单当击代此总处线编是辑一母些版标文准本总样线式
第FL二AS级H演示
追求第与三结级构、CPU、
CPU-Cache 模块
存储器模块
I/O适配器
总线控制器
技术无关的开发标准满足包括多CPU在内的主控者环境需求
单击此处⑵编系辑统母总版线标题样式
单 CP击U同此计处算编机辑系母统版的文其本他样功式能部件（如存储器、通道等）连第二级
接的总第线三级系统总线有多种标准接口
从16位的ISA，到32/64位的PCI、AGP乃至PCI Express

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

25
累加和（续）
计算
机
系
❖ SIMD算法：递归相加
统结
❖ 说明
构
需要 log2 N 次加法速度提高
N /log2 N
26
计
算
机
系
❖ 首先，原始数据A(I)分别存放在 8 个PEM的α单元中，统
其中 0≤I≤7。然后，
结构
第一步置全部PEi为活跃状态， 0≤i≤7
第二步全部A(I)从PEMi的α单元读到相应PEi的累加寄存器 RGAi中， 0≤i≤7;
PU63
PU63
PU0
PU1
PU7
PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU57
PU0
PU1
闭合螺线阵列
PU63 PU7
PU0
14
P U 63 PU8
P U 55
P U 56
PU0
PU8
16 24 32 40 48
P U 56
PU0
P U 57 PU1 PU9
23456 10 11 12 13 14
计算
机
系
❖各处理 Element
单元设有局部存储器 PEM(Processing Memory),存放被分布的数据；只能被本处
统结构
理单元直接访问
❖ 控制部件CU设有存放程序和数据的主存储器
❖ 整个系统在CU控制下运行用户程序和部分系统程序
❖ 处理单元之间可通过互联网络ICN(Interconnection Network)进行通信
统结构
第九步 k:=k+1 ;
第十步如k＜3，则转回第四步，否则往下继续执行；
第十一步置全部PEi为活跃状态， 0≤i≤7;
第十二步将全部PEi的累加寄存器内容(RGAi)存入相应 PEMi的α+1单元中， 0≤i≤7。
28
循环
K=0
PE0 A0
0
PE1 A1
0,1
PE2 A2
1,2
❖ 在某一时刻，阵列处理机只能执行一条指令，当程构
序进入条件执行并行代码时，效率会下降
❖ 很大程度上是单用户系统，不容易处理多个用户要同时执行多个并行程序情况
❖ 不适合于小规模的系统
❖ 使用定制的VLSI，无法赶上通用CPU的性能和成本改进
❖ 控制单元相对成本高的价格不再有效
30
❖ 美国Thinking Machines公司的CM-2
❖ MasPar公司的MP-1
❖ Active Memory Technology的DAP 600
8
2.集中式共享存储器的阵列处理机
计算
机
系
❖ 存储器由K个存储体集中组成，经互联网络
统结
ICN为全部N个处理单元所共享
构
❖ 互联网络用于在处理单元与存储体分体之间进行转接而构成数据通路
也称为对准网络(Alignment Network)
❖ Burroughs公司和伊利诺大学联合研制科学处理机BSP ,16PE,17MM,B7700/B7800.
9
计算机系统结构
10
3.阵列处理机的特点
计算
机
系
❖ 背景----科学计算
统结
有限差分、矩阵、信号处理、线性规划
构
数组、向量处理
PU 63 PU7 P U 15
计
算
机
系
PU8
统结
构
PU 16
17
18 19 20 21 22
23
25
26 27 28 29 30
31
33
34 35 36 37 38
39
41
42 43 44 45 46
47
49
50 51 52 53 54
55
P U 57
58 59 60 61 62
P U 63
PU0
DO 10 K=0,7
10
C(I,J)=C(I,J)+A(I,K)*B(K,J)
❖ 说明
SISD算法需8*8*8=512次运算
21
矩阵乘（续）
计算
机
系
❖ SIMD算法：
统结
构
DO 10 I=0,7
C(I,J)=0
DO 10 K=0,7
10 C(I,J)=C(I,J)+A(I,K)*B(K,J)
PU1
PU7
15
特点
计算
机
系
❖ 闭合螺线阵列
统结
❖ 任意单元的最短距离不超过7步
构
❖ 一般来讲：N N* N个处理单元组成的阵列
中，任意两个处理单元之间的最短距离不会超过 N 1步
❖ 处理单元为通常的累加型运算器，把累加寄存器RGA中的数据和存储器来的数据进行操作，结果放于RGA中。
16
❖ 目前的大部分阵列处理机是基于分布式存储器模型的系统
6
计算机系统结构
7
举例
计算
机
系
❖ 60年代研制，1972年Burroughs公司的ILLIAC
IV阵
统结
列处理机
构
❖ 1979年美国Goodyear公司MPP
❖ 1974年设计、1980年英国ICL公司的分布式阵列处理机DAP
Unit）控制下，对各自所分配的不同数据并行执行
同一组指令规定的操作。
❖ 是操作级并行的SIMD计算机。
2
目录
计算
机
系
❖ 阵列处理机的原理
统结
❖ SIMD计算机的互连网络
构
❖ 并行存储器的无冲突访问
❖ 脉动阵列处理机(了解)
3
计算机系统结构
计算机系统结构
1.分布式存储器的阵列处理机
❖ 资源重复，利用并行性中的同时性
❖ 简单而规整的互连网络---设计重点
❖ 专用机
❖ 与并行算法紧密相联
11
阵列处理机的特点（续）
计算
机
系
❖ 阵列处理机实质上是由
统结
专门对付数组运算的处理单元阵列组成的处理构
机
专门从事处理单元阵列的控制及标量处理的处理机
专门从事系统输入输出及操作系统管理的处理机
❖ 组成的一个异构型多处理机系统
12
§6.1.2 ILLIAC IV的处理单元阵列结构
计算
机
系
❖ 阵列处理机上并行算法的研究与结构紧密联
统结
系在一起
构
❖ 并行处理机处理单元阵列的结构又是适合于一定类型计算问题而专门设计的结构
13
ILLIAC IV的处理单元阵列结构
计算
机
系
统
结
构
PU56
PU57
PE3 A3
2,3
PE4 A4
3,4
PE5 A5
4,5
PE6 A6
5,6
PE7 A7
6,7
K=1
K=2
0
0
0,1
0,1
0~2
0~2
0~3
0~3
1~4
0~4
2~5
0~5
3~6
0~6
4~7
0~7
计算机系统结构
29
阵列处理机的缺点
计算
机
系
❖ 许多问题不能很好地映射为严格的数据并行算法
统结
第六章阵列处理机
阵列处理机
计算
机
系
❖ 阵列处理机（Array
Processor ）也称并行处理机
统结
（Parallel Processor），通过重复设置大量相同的构
处理单元PE（Processing Element），将它们按一
定方式互连成阵列，在单一控制部件CU（Control
题直接相关；
18
矩阵相加的存储器分配
计算
机
系
统
结
构
19
(2) 矩阵乘
计算
机
系
❖ 设A、B和C为三个8*8的二维矩阵
统结
计算：C=A*B,
构
7
cij aik *bkj k0
20
矩阵乘（续）
计算
机
系
❖ SISD 算法：
统结
DO 10 I=0,7
构
DO 10 J=0,7
C(I,J)=0
§6.1.2 ILLIAC IV的并行算法举例
计算
机
系
❖ 矩阵加
统结
❖ 矩阵乘
构
❖ 累加和
17
(1)矩阵加
计算
机
系
❖ 两个8*8矩阵相加，把分量放在每一个PEM内
统结
❖ 算法：
构
LDA ALPHA
ADRN ALPHA+1
STA ALPHA+2
❖ 说明
速度提高64倍；信息如何分布于局部存储器的算法与系统结构及求解问
第三步令k=0;
第四步将全部 PEi 的(RGAi) 转送到传送寄存器 RGRi ， 0≤i≤7；
第五步将全部PEi的(RGRi)经过互连网络向右传送2k步距，
0≤i≤7;
第六步令j=2k-1 ;
第七步置PE0至PEj为不活跃状态；
27
计
算
机
系
第八步处于活跃状态的所有 PEi 执行 (RGAi):=(RGAi)+(RGRi)， j＜i≤7