chapter6-1 第六章 阵列处理机 计算机体系结构课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

❖ 美国Thinking Machines公司的CM-2
❖ MasPar公司的MP-1
❖ Active Memory Technology的DAP 600
8
2.集中式共享存储器的阵列处理机
计 算


❖ 存储器由K个存储体集中组成,经互联网络
统 结
ICN为全部N个处理单元所共享

❖ 互联网络用于在处理单元与存储体分体之间 进行转接而构成数据通路
PU 63 PU7 P U 15




PU8
统 结

PU 16
17
18 19 20 21 22
23
25
26 27 28 29 30
31
33
34 35 36 37 38
39
41
42 43 44 45 46
47
49
50 51 52 53 54
55
P U 57
58 59 60 61 62
P U 63
PU0
Unit)控制下,对各自所分配的不同数据并行执行
同一组指令规定的操作。
❖ 是操作级并行的SIMD计算机。
2
目录
计 算


❖ 阵列处理机的原理
统 结
❖ SIMD计算机的互连网络

❖ 并行存储器的无冲突访问
❖ 脉动阵列处理机(了解)
3
计 算 机 系 统 结 构
计 算 机 系 统 结 构
1.分布式存储器的阵列处理机
❖ 组成的一个异构型多处理机系统
12
§6.1.2 ILLIAC IV的处理单元阵列结构
计 算


❖ 阵列处理机上并行算法的研究与结构紧密联
统 结
系在一起

❖ 并行处理机处理单元阵列的结构又是适合于 一定类型计算问题而专门设计的结构
13
ILLIAC IV的处理单元阵列结构
计 算





PU56
PU57
PU63
PU63
PU0
PU1
PU7
PU8
PU7
PU8
PU9
PU15
PU16
PU55
PU56
PU57
PU0
PU1
闭合螺线阵列
PU63 PU7
PU0
14
P U 63 PU8
P U 55
P U 56
PU0
PU8
16 24 32 40 48
P U 56
PU0
P U 57 PU1 PU9
23456 10 11 12 13 14
❖ 资源重复,利用并行性中的同时性
❖ 简单而规整的互连网络---设计重点
❖ 专用机
❖ 与并行算法紧密相联
11
阵列处理机的特点 (续)
计 算


❖ 阵列处理机实质上是由
统 结
专门对付数组运算的处理单元阵列组成的处理 构

专门从事处理单元阵列的控制及标量处理的处 理机
专门从事系统输入输出及操作系统管理的处理 机
§6.1.2 ILLIAC IV的并行算法举例
计 算


❖ 矩阵加
统 结
❖ 矩阵乘

❖ 累加和
17
(1)矩阵加
计 算


❖ 两个8*8矩阵相加,把分量放在每一个PEM内
统 结
❖ 算法:

LDA ALPHA
ADRN ALPHA+1
STA ALPHA+2
❖ 说明
速度提高64倍; 信息如何分布于局部存储器的算法与系统结构及求解问
❖ 说明
用8个PE同时处理1行(列) SIMD算法需8*8=64次运算
22
矩阵乘的存储器分配
计 算





23
累加和
计 算


❖ 将N个数按顺序相加
统 结

7
C ai i0
24
累加和(续)
计 算


❖ SISD算法:
统 结

C=0
DO 10 I=0,7
10 C=C+A(I)
❖ 说明
需要8次加法
PE3 A3
2,3
PE4 A4
3,4
PE5 A5
4,5
PE6 A6
5,6
PE7 A7
6,7
K=1
K=2
0
0
0,1
0,1
0~2
0~2
0~3
0~3
1~4
0~4
2~5
0~5
3~6
0~6
4~7
0~7
计 算 机 系 统 结 构
29
阵列处理机的缺点
计 算


❖ 许多问题不能很好地映射为严格的数据并行算法
统 结
题直接相关;
18
矩阵相加的存储器分配
计 算





19
(2) 矩阵乘
计 算


❖ 设A、B和C为三个8*8的二维矩阵
统 结
计算:C=A*B,

7
cij aik *bkj k0
20
矩阵乘 (续)
计 算


❖ SISD 算法:
统 结
DO 10 I=0,7

DO 10 J=0,7
C(I,J)=0
统 结 构
第九步 k:=k+1 ;
第十步 如k<3,则转回第四步,否则往下继续执行;
第十一步 置全部PEi为活跃状态, 0≤i≤7;
第十二步 将全部PEi的累加寄存器内容(RGAi)存入相应 PEMi的α+1单元中, 0≤i≤7。
28
循环
K=0
PE0 A0
0
PE1 A1
0,1
PE2 A2
1,2
PU1
PU7
15
特点
计 算


❖ 闭合螺线阵列
统 结
❖ 任意单元的最短距离不超过7步

❖ 一般来讲:N N* N个处理单元组成的阵列
中,任意两个处理单元之间的最短距离不会 超过 N 1步
❖ 处理单元为通常的累加型运算器,把累加寄 存器RGA中的数据和存储器来的数据进行操 作,结果放于RGA中。
16
DO 10 K=0,7
10
C(I,J)=C(I,J)+A(I,K)*B(K,J)
❖ 说明
SISD算法需8*8*8=512次运算
21
矩阵乘 (续)
计 算


❖ SIMD算法:
统 结

DO 10 I=0,7
C(I,J)=0
DO 10 K=0,7
10 C(I,J)=C(I,J)+A(I,K)*B(K,J)
❖ 目前的大部分阵列处理机是基于分布式存储器Baidu Nhomakorabea型 的系统
6
计 算 机 系 统 结 构
7
举例
计 算


❖ 60年代研制,1972年Burroughs公司的ILLIAC
IV阵
统 结
列处理机

❖ 1979年美国Goodyear公司MPP
❖ 1974年设计、1980年英国ICL公司的分布式阵列处 理机DAP
也称为 对准网络(Alignment Network)
❖ Burroughs公司和伊利诺大学联合研制科学处 理机BSP ,16PE,17MM,B7700/B7800.
9
计 算 机 系 统 结 构
10
3.阵列处理机的特点
计 算


❖ 背景----科学计算
统 结
有限差分、矩阵、信号处理、线性规划

数组、向量处理
❖ 在某一时刻,阵列处理机只能执行一条指令,当程 构
序进入条件执行并行代码时,效率会下降
❖ 很大程度上是单用户系统,不容易处理多个用户要 同时执行多个并行程序情况
❖ 不适合于小规模的系统
❖ 使用定制的VLSI,无法赶上通用CPU的性能和成 本改进
❖ 控制单元相对成本高的价格不再有效
30
计 算


❖各处理 Element
单 元 设 有 局 部 存 储 器 PEM(Processing Memory),存放被分布的数据;只能被本处
统 结 构
理单元直接访问
❖ 控制部件CU设有存放程序和数据的主存储器
❖ 整个系统在CU控制下运行用户程序和部分系统程 序
❖ 处理单元之间可通过互联网络ICN(Interconnection Network)进行通信
第三步 令k=0;
第 四 步 将全 部 PEi 的(RGAi) 转送 到 传 送寄 存 器 RGRi , 0≤i≤7;
第五步 将全部PEi的(RGRi)经过互连网络向右传送2k步距,
0≤i≤7;
第六步 令j=2k-1 ;
第七步 置PE0至PEj为不活跃状态;
27




第 八 步 处 于 活 跃 状 态 的 所 有 PEi 执 行 (RGAi):=(RGAi)+(RGRi), j<i≤7
第六章 阵列处理机
阵列处理机
计 算


❖ 阵列处理机(Array
Processor ) 也 称 并 行 处 理 机
统 结
(Parallel Processor),通过重复设置大量相同的 构
处理单元PE(Processing Element),将它们按一
定方式互连成阵列,在单一控制部件CU(Control
25
累加和(续)
计 算


❖ SIMD算法:递归相加
统 结
❖ 说明

需要 log2 N 次加法 速度提高
N /log2 N
26




❖ 首先,原始数据A(I)分别存放在 8 个PEM的α单元中,统
其中 0≤I≤7。 然后,
结 构
第一步 置全部PEi为活跃状态, 0≤i≤7
第二步 全部A(I)从PEMi的α单元读到相应PEi的累加寄存器 RGAi中, 0≤i≤7;
相关文档
最新文档