阵列处理机和相联处理机

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PU56 PU63 PU0
PU57 PU1
PU58 PU7 PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU0
PU57
PU1
PU63
PU7
PU0
ILLIAC-IV的处理单元互连结构
特点:
(1)闭合螺线阵列
(2)任意单元的最短距离不超过7步将PU63传送到PU10，最快可经 PU63→PU7→PU8→PU9→PU10。 (3)一般来讲：N N 个处理单元组成的阵列中，任 N
•阵列控制器CU 相当一台小型控制计算机对处理单元阵列实现控制,(发控制信号,广播公共地址,(广播公共数据)）对指令流进行译码控制,利用CU内部资源可以进行标量操作,接受和处理各类中断，其他输入输出操作。 •I/O系统由磁盘文件系统DFS，输入输出子系统和宿主计算机S/C构成
ILLIAC Ⅳ的组成
SC CU CUM PEM0 PE0 PEM1 PE1 IN PEMN-1 PEN-1 I/O 接口 D
分布存储器的阵列机结构
（2）集中式共享存储器的阵列机每个PE没有局部存储器，存储模块以集中形式为所有PE共享。互连网IN受CU控制，用来构成PE和MM的数据交换通路，具有双向性。
CU SC
这里0≤ i ≤63
矩阵加存储器分举例
a a+1 a+2
A(0,0) B(0,0) C(0,0)
A(0,1) B(0,1) C(0,1)
A(7,7) B(7,7) C(7,7)
PEM0
PEM1
PEM63
处理速度为顺序处理的64倍
二．矩阵乘
a0,0 a1,0 …… a7,0 a0,1 a1,1 … … a0,7 a1,7 b0,0 b1,0 b7,0 b0,1 … b1,1 … …… b7,1 … b0,7 b1,7 b7,7
PE0
PE1 IN
…
PEN-1
MM0
MM1 I/O-CH I/O …
…
MMK-1
SM
具有共享存储器的阵列机结构
2 阵列机的特点并行处理机有如下特点：（1）利用资源重复（空间因素）而非时间重叠。（2）利用同时性而非并发性。它的每个处理单元在同一时刻要同等地担负起各种运算功能。
（3）提高运算速度主要是靠增大处理单元个数，比起向量流水
矩阵乘存储器分配举例（设用八个处理单元即PU并行）
A(0,0) ... A(1,0) A(7,0) B(0,0) B(1,0) ... B(7,0) C(0,0) C(1,0) ...
A(0,1) ... A(1,1) A(7,1) B(0,1) B(1,1) ... B(7,1) C(0,1) C(1,1) ... ………………………...
第 6 章阵列处理机和相联处理机
6.1 阵列处理机的原理 6.2 SIMD计算机的互连网络 6.3 并行存储器的无冲突访问
Leabharlann Baidu
6.4 脉动阵列处理机
本章要点
阵列处理机的构型及特点基本的单级互联网络结构图及互联函数
两功能交换开关及四功能交换开关
多级立方体网络拓扑结构图的画法多级混洗交换网络拓扑结构图的画法并行存储器的无冲突访问
线处理机主要依靠缩短时钟周期来说，速度提高的潜力要大得多（4）使用简单而又规整的互连网络来确定多个处理单元之间的连接模式。（5）并行处理机（阵列机）研究必须与并行算法研究密切结合
，使之适应性更强，应用面更广。
6.1.2 ILLIAC-IV处理单元阵列结构 •处理单元阵列由64个PUi构成,每个PUi包括(PEi、PEMi和MLU) 由64个结构完全相同的处理单元PEi 构成，每个处理单元 PEi字长64位，PEMi为隶属于PEi的局部存储器，全部PEi由CU 统一管理，PEi都有一根方式位线，用来向CU传送每个PEi的方式寄存器D中的方式位，使CU能了解各PEi的状态是否活动，作为控制它们工作的依据。
6.1 阵列处理机的原理
6.1.1 阵列处理机的构形与特点
1.阵列处理机的构形
阵列机通常由一个控制部件CU、N个处理器单元PE、M个存储模块以及一个互连网络部件(IN)组成。
根据存储器模块是以分布式方式存取还是集中方式存取，
阵列机可分为两种基本结构：分布式存储器的阵列机和共享存储器的阵列机。
（1）分布式存储器的阵列机各个处理单元设有局部存储器存放分布式数据，只能被本处理单元直接访问。在控制部件CU内设有一个用来存放程序和数据的主存储器CUM。各个PE同步执行来自CU的操作命令，各处理单元通过IN来交换数据。
意两个处理单元之间的最短距离不会超过
N步 1
（4）处理单元为通常的累加型运算器，把累加寄存器RGA 中的数据和存储器来的数据进行运算操作，数据传送寄存器 RGR收发数据，实现数据在处理单元之间的传送。
6.1.3 ILLIAC Ⅳ的并行算法举例
一．矩阵加矩阵加(配比加)是最简单的情况。假定两个8*8的矩阵 A、B相加，所得结果矩阵C也是一个8*8的矩阵。设A、B 的分量元素分别存在PEM i的Z,Z+1单元中,所得结果矩阵C 各分量存在PEM i 的Z+2单元中用下面三条指令可一次完成(64个处理单元并行) LDA Z；全部（Z）由PEMi送到PE的累加器RGAi ADRN Z+1；全部（Z+1）与（RGAi）进行浮点加，结果送RGAi STA Z+2；全部（RGAi）由PE送到PEMi的（Z+2）单元
×
a7,1
…
a7,7
=
a0,0×b0,0+a0,1×b1,0+…+a0,7×b7,0 … a0,0×b0,7+a0,1×b1,7+…+a0,7×b7,7 a1,0×b0,0+a1,1×b1,0+…+a1,7×b7,0 … a1,0×b0,7+a1,1×b1,7+…+a1,7×b7,7 …… a7,0×b0,0+a7,1×b1,0+…+a7,7×b7,0 … a7,0×b0,7+a7,1×b1,7+…+a7,7×b7,7
如果顺序执行C=A×B，那么，计算每个元素cij需要做8次乘法，7次加法，共需做15次乘/加运算。在ILLIAC IV的处理机上，操作数B的64个元素存储在64个 PEM中。当每次计算元素cij时，就把操作数A的8个元素 aik(0<=k<=7)播送到相应的8个PE中，然后并行地一次完成8个中间积的运算。最后对8个中间积做7次加法，累加得到cij 。