阵列处理机
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
阵列处理机的构形与特点
分布式存储器的阵列处理机构形 集中式共享存储器的阵列处理机构形 一台阵列处理机由五个部分组成
多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
分布式存储器的阵列处理机
各处理单元设有局部存储器PEM(Processing Element Memory),存放被分布的数据;只能 被本处理单元直接访问 控制部件CU设有存放程序和数据的主存储器 整个系统在CU控制下运行用户程序和部分系统 程序 处理单元之间可通过互联网络ICN (Interconnection Network) 目前的大部分阵列处理机是基于分布式存储器 模型的系统
A(0,1) B(0,1) C(0,1)
A(7,7) B(7,7) C(7,7)
PEM0
PEM1
PEM63
矩阵乘
设A、B和C为三个8*8的二维矩阵 计算:C=A*B,
c ij =
7
∑
k =0
a ik * b kj
矩阵乘 (续)
SISD 算法: DO 10 I=0,7 DO 10 J=0,7 C(I,J)=0 DO 10 K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明
循环 PE0 PE1 PE2 PE3 PE4 PE5 PE6 PE7 A0 A1 A2 A3 A4 A5 A6 A7
K=0 0 0,1 1,2 2,3 3,4 4,5 5,6 6,7
K=1 0 0,1 0~2 0~3 1~4 2~5 3~6 4~7
K=2 0 0,1 0~2 0~3 0~4 0~5 0~6 0~7
CU …… ……
IOP
LM0 PE0
LM1 PE1
LMn-1 PEn-1
互连网络
举例
60年代研制,1972年Burroughs公司的ILLIAC IV阵列处理机 1979 1979年美国Goodyear公司MPP Goodyear MPP 1974年设计、1980年英国ICL公司的分布式阵 列处理机DAP 美国Thinking Machines公司的CM-2 MasPar公司的MP-1 Active Memory Technology的DAP 600
阵列处理机的特点
背景----科学计算
有限差分、矩阵、信号处理、线性规划 数组、向量处理
资源重复,利用并行性中的同时性 简单而规整的互联网络---设计重点 专用机 与并行算法紧密相联
阵列处理机
阵列处理机实质上是由
专门对付数组运算的处理单元阵列组成的处 理机 专门从事处理单元阵列的控制及标量处理的 处理机 专门从事系统输入输出及操作系统管理的处 理机
65536 个 PE 排 成 10 维超立方体, 每个 Thinking PE 可 有 1M 位 存 储 Machines公 器 , 32 个 PE 共 享 司CM-2 FPU 选 件 , 峰 值 速 度28 Gflops和持续 速度5.6 Gflops 1K位/PE方形网格 Active 互连成4096PE的细 Memory 粒 、 位 片 SIMD 阵 Technology 列,正交4-邻位链 DAP600 接 , 20GIPS 和 系列 560Mflops 峰 值 性 能
组成的一个异构型多处理机系统
ILLIAC IV的处理单元阵列结构
阵列处理机上并行算法的研究与结构紧 密联系在一起 并行处理机处理单元阵列的结构又是适 合于一定类型计算问题而专门设计的结 构
ILLIAC ⅠⅤ的处理单元阵列结构
PU56 PU63 PU7 PU0 PU8 PU57 PU1 PU9 PU63 PU7 PU15 PU8 PU16
PU55
PU56 PU0
PU57 PU1 闭合螺线阵列
PU63 PU7
PU0
PU56
PU57
PU63
PU63
PU0
PU1
2 3 4 5 6
PU7
PU8
PU8Fra Baidu bibliotek
PU8 16 24 32 40 48
PU9 17 25 33 41 49 PU57 PU1
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
:
A(7,0) B(0,0) B(1,0)
:
A(7,1) B(0,1) B(1,1)
:
A(7,7) B(0,7) B(1,7)
:
B(7,0) C(0,0) C(1,0)
:
B(7,1) C(0,1) C(1,1)
:
B(7,7) C(0,0) C(1,7)
:
C(7,0)
:
C(7,1)
:
C(7,7)
PEM0
ILLIAC IV的并行算法举例
矩阵加 矩阵乘 累加和
矩阵加
两个8*8矩阵相加,把分量放在每一个PEM内 算法: LDA ALPHA ADRN ALPHA+1 STA ALPHA+2 说明
速度提高64倍; 信息如何分布于局部存储器的算法与系统结构及求 解问题直接相关;
矩阵相加的存储器分配
A(0,0) B(0,0) C(0,0)
目录
阵列处理机的原理 SIMD计算机的互连网络 脉动阵列处理机
§1 阵列处理机的原理
阵列处理机的构形与特点 ILLIAC IV的处理单元阵列结构 ILLIAC IV的并行算法举例
典型并行处理机
系统型号
SIMD计算系统 结构和性能
语言、编译器 和软件支持
1024~16384个PE, Fortran77, Fortran 26 GIPS 或 1.3 MasPar MasPar (MPF) 和 Gflops; 每 个 PE MasPar 带16KB本地存储 并行应用语言; X MP-1系列 器, X-Net网格加 窗 口 UNIX/OS, 符号调试程序, 一个多级交叉开 可视化和动画制 关互连网 作程序
集中式共享存储器的阵列处理机
存储器由K个存储体集中组成,经互联网 络ICN为全部N个处理单元所共享 互联网络用于在处理单元与存储体分体 之间进行转接而构成数据通路 对准网络(Alignment Network) Burroughs公司和伊利若大学联合BSP
CU PE0 PE1 …… PEn-1
互连网络 SM0 SM1 IOP …… SMk-1
令j=2k-1 置PE0至PEj为不活跃状态; 处于活跃状态的所有PEi执行(RGAi):=(RGAi)+(RGRi), j<i≤7; k:=k+1; 如k<3,则转回第四步,否则往下继续执行; 置全部PEi为活跃状态, 0≤i≤7; 将全部PEi的累加寄存器内容(RGAi)存入相应PEMi的 α+1单元中, 0≤i≤7。
PU15 23 31 39 47 55 PU63 PU7
PU16
PU55
PU56 PU0
58 59 60 61 62
PU0
特点
闭合螺线阵列 任意单元的最短距离不超过7步 N 一般来讲: = N * N 个处理单元组成的阵列 中,任意两个处理单元之间的最短距离不会超 过 N −1 步 处理单元为通常的累加型运算器,把类加寄存 器RGA中的数据和存储器来的数据进行操作
PEM1
PEM7
累加和
将N个数按顺序相加
C =
7
∑
i=0
ai
累加和(续)
SISD算法: C=0 DO 10 I=0,7 10 C=C+A(I) 说明
需要8次加法
累加和(续)
SIMD算法:递归相加 说明
需要 log 2 N 次加法 速度提高 N / log N
2
置全部PEi为活跃状态, 0≤i≤7 全部A(I)从PEMi的α单元读到相应PEi的累加寄存 器RGAi中, 0≤i≤7; 令k=0; 将全部PEi的(RGAi)转送到传送寄存器RGRi, 0≤i≤7; 将全部PEi的(RGRi)经过互连网络向右传送2k步距, 0≤i≤7;
由 VAX, Sun 或 Symbolics 360主机 驱动, PARIS支持的 Lisp 编 译 器 、 Fortran90 、 C* 和 *Lisp 由 主 机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提 供 , 主 机 的 Fortran77 或 C; 与Fortran90标准有 关的Fortran-plus
SISD算法需8*8*8=512次运算
矩阵乘 (续)
SIMD算法: DO 10 I=0,7 C(I,J)=0 DO 10 K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明
SIMD算法需8*8=64次运算
矩阵乘的存储器分配
A(0,0) A(1,0) A(0,1) A(1,1) A(0,7) A(1,7)
第六章 阵列处理机
并行处理机
阵列处理机(Array Processor)也称并行处理 机(Parallel Processor)通过重复设置大量相 同的处理单元PE(Processing Element),将 它们按一定方式互连成阵列,在单一控制部件 CU(Control Unit)控制下,对各自所分配的 不同数据并行执行同一组指令规定的操作。操 作级并行的SIMD计算机。
阵列处理机的缺点
许多问题不能很好地映射为严格的数据并行算 法 在某一时刻,阵列处理机只能执行一条指令, 当程序进入条件执行并行代码时,效率会下降 很大程度上是单用户系统,不容易处理多个用 户要同时执行多个并行程序情况 不适合于小规模的系统 使用定制的VLSI,无法赶上通用CPU的性能和 成本改进 控制单元相对成本高的价格不再有效