阵列处理机和相联处理机

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

PU56 PU63 PU0
PU57 PU1
PU58 PU7 PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU0
PU57
PU1
PU63
PU7
PU0
ILLIAC-IV的处理单元互连结构
特点:
(1)闭合螺线阵列
(2)任意单元的最短距离不超过7步 将PU63传送到PU10,最快可经 PU63→PU7→PU8→PU9→PU10。 (3)一般来讲:N N 个处理单元组成的阵列中,任 N
•阵列控制器CU 相当一台小型控制计算机 对处理单元阵列实现控制,(发控制信号,广播公共地址,(广播公 共数据))对指令流进行译码控制,利用CU内部资源可以进行标 量操作,接受和处理各类中断,其他输入输出操作。 •I/O系统 由磁盘文件系统DFS,输入输出子系统和宿主计算机S/C构成
ILLIAC Ⅳ的组成
SC CU CUM PEM0 PE0 PEM1 PE1 IN PEMN-1 PEN-1 I/O 接口 D
分布存储器的阵列机结构
(2)集中式共享存储器的阵列机 每个PE没有局部存储器,存储模块以集中形式为所有PE共 享。互连网IN受CU控制,用来构成PE和MM的数据交换通路 , 具有双向性。
CU SC
这里0≤ i ≤63
矩阵加存储器分举例
a a+1 a+2
A(0,0) B(0,0) C(0,0)
A(0,1) B(0,1) C(0,1)
A(7,7) B(7,7) C(7,7)
PEM0
PEM1
PEM63
处理速度为顺序处理的64倍
二. 矩阵乘
a0,0 a1,0 …… a7,0 a0,1 a1,1 … … a0,7 a1,7 b0,0 b1,0 b7,0 b0,1 … b1,1 … …… b7,1 … b0,7 b1,7 b7,7
PE0
PE1 IN

PEN-1
MM0
MM1 I/O-CH I/O …

MMK-1
SM
具有共享存储器的阵列机结构
2 阵列机的特点 并行处理机有如下特点: (1) 利用资源重复(空间因素)而非时间重叠。 (2) 利用同时性而非并发性。它的每个处理单元在同一时刻要 同等地担负起各种运算功能。
(3)提高运算速度主要是靠增大处理单元个数,比起向量流水
矩阵乘存储器分配举例 (设用八个处理单元即PU并行)
A(0,0) ... A(1,0) A(7,0) B(0,0) B(1,0) ... B(7,0) C(0,0) C(1,0) ...
A(0,1) ... A(1,1) A(7,1) B(0,1) B(1,1) ... B(7,1) C(0,1) C(1,1) ... ………………………...
第 6 章 阵列处理机和相联处理机
6.1 阵列处理机的原理 6.2 SIMD计算机的互连网络 6.3 并行存储器的无冲突访问
Leabharlann Baidu
6.4 脉动阵列处理机
本章要点
阵列处理机的构型及特点 基本的单级互联网络结构图及互联函数
两功能交换开关及四功能交换开关
多级立方体网络拓扑结构图的画法 多级混洗交换网络拓扑结构图的画法 并行存储器的无冲突访问
线处理机主要依靠缩短时钟周期来说,速度提高的潜力要大得多 (4)使用简单而又规整的互连网络来确定多个处理单元之间的 连接模式。 (5) 并行处理机(阵列机)研究必须与并行算法研究密切结合
,使之适应性更强,应用面更广。
6.1.2 ILLIAC-IV处理单元阵列结构 •处理单元阵列由64个PUi构成,每个PUi包括(PEi、PEMi和MLU) 由64个结构完全相同的处理单元PEi 构成,每个处理单元 PEi字长64位,PEMi为隶属于PEi的局部存储器,全部PEi由CU 统一管理,PEi都有一根方式位线,用来向CU传送每个PEi的方 式寄存器D中的方式位,使CU能了解各PEi的状态是否活动,作 为控制它们工作的依据。
6.1 阵列处理机的原理
6.1.1 阵列处理机的构形与特点
1.阵列处理机的构形
阵列机通常由一个控制部件CU、N个处理器单元PE、M个 存储模块以及一个互连网络部件(IN)组成。
根据存储器模块是以分布式方式存取还是集中方式存取,
阵列机可分为两种基本结构:分布式存储器的阵列机和共享存 储器的阵列机。
(1)分布式存储器的阵列机 各个处理单元设有局部存储器存放分布式数据,只能被本 处理单元直接访问。在控制部件CU内设有一个用来存放程序和 数据的主存储器CUM。各个PE同步执行来自CU的操作命令, 各处理单元通过IN来交换数据。
意两个处理单元之间的最短距离不会超过
N步 1
(4)处理单元为通常的累加型运算器,把累加寄存器RGA 中的数据和存储器来的数据进行运算操作,数据传送寄存器 RGR收发数据,实现数据在处理单元之间的传送。
6.1.3 ILLIAC Ⅳ的并行算法举例
一. 矩阵加 矩阵加(配比加)是最简单的情况。假定两个8*8的矩阵 A、B相加,所得结果矩阵C也是一个8*8的矩阵 。设A、B 的分量元素分别存在PEM i的Z,Z+1单元中,所得结果矩阵C 各分量存在PEM i 的Z+2单元中 用下面三条指令可一次完成(64个处理单元并行) LDA Z;全部(Z)由PEMi送到PE的累加器RGAi ADRN Z+1;全部(Z+1)与(RGAi)进行浮点加,结果 送RGAi STA Z+2;全部(RGAi)由PE送到PEMi的(Z+2)单元
×
a7,1

a7,7
=
a0,0×b0,0+a0,1×b1,0+…+a0,7×b7,0 … a0,0×b0,7+a0,1×b1,7+…+a0,7×b7,7 a1,0×b0,0+a1,1×b1,0+…+a1,7×b7,0 … a1,0×b0,7+a1,1×b1,7+…+a1,7×b7,7 …… a7,0×b0,0+a7,1×b1,0+…+a7,7×b7,0 … a7,0×b0,7+a7,1×b1,7+…+a7,7×b7,7
如果顺序执行C=A×B,那么,计算每个元素cij需要做8次 乘法,7次加法,共需做15次乘/加运算。 在ILLIAC IV的处理机上,操作数B的64个元素存储在64个 PEM中。当每次计算元素cij时,就把操作数A的8个元素 aik(0<=k<=7)播送到相应的8个PE中,然后并行地一次完成8个 中间积的运算。最后对8个中间积做7次加法,累加得到cij 。
相关文档
最新文档