并行处理机和多处理机
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
下图是H.J.Siegel提出的SIMD计算机的操作模型
控制器
PE0 P0
M0
PE1 P1
M1
PE2 P2
M2 ……
Pen-1 Pn-1
Mn-1
互连网络
H· Siegel提出的并行处理机模型 J·
并行处理机的操作模型可用五元组来表示: M=(N,C,I,M,R), 其中: N为PE个数。如IlliacIV有64个PE。 C为由控制部件CU直接执行的指令集, 包括标量指令和程序控制指令。 I为所有PE并行执行的指令集,包括 算术运算、逻辑运算、数据寻径、屏蔽以 及其它由每个活动的PE对它的数据所执行 的局部操作。 M为屏蔽操作集,每种屏蔽将PE划分 为允许操作和禁止操作两个子集。 R是数据寻径集,说明互连网络中PE 间通信所需要的各种设置模式。
普通网格必须8步:
PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36
或 …… 闭合螺旋线只要7步: 或
PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36
CM-5 (TMC,1991)
(Barnes等,1968)
BSP
(kuck和Stokes, 1982)
IBM GF-11 (Beetem等,1985)
SIMD计算机发展过程
1 IlliacIV 阵列处理机
1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。 1966年美国国防远景研究规划局ARPR与伊利诺依大学 签定合同。原计划:256个PE,每个PE每240ns处理一 个64位的浮点数,每个局部存储器PEM为2K?64位,总 的运算速度为1GFLOPS。 美国Burroughs公司和伊利诺依大学于1972年共同设计 和生产,1975年实际投入运行。用了4倍的经费,只达 到1/20的速度。只实现了8?8=64个PE,只达到 50MFLOPS。 IlliacIV系统的影响非常大。它是并行处理机的典型代 表,也是分布存储器并行处理机的典型代表。 IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵 列控制器,一台标准的Burroughs B6700计算机。
65536 个 PE 排 成 10 维超立方体, 每个 Thinking PE 可 有 1M 位 存 储 Machines公 器 , 32 个 PE 共 享 司CM-2 FPU 选 件 , 峰 值 速 度28 Gflops和持续 速度5.6 Gflops 1K位/PE方形网格 Active 互连成4096PE的细 Memory 粒 、 位 片 SIMD 阵 Technology 列,正交4-邻位链 DAP600 接 , 20GIPS 和 系列 560Mflops 峰 值 性 能
CU LM0 PE0 LM1 PE1 …… ……
பைடு நூலகம்
IOP LMn-1 PEn-1
互连网络
2. 共享存储器并行处理机
共享的多体并行存储器 SM 通过互连网络与各处理单 元PE相连。 存储模块的数目等于或略大于处理单元的数目。 同时在存储模块之间合理分配数据,通过灵活、高速 的互连网络,使存储器与处理单元之间的数据传送在 大多数向量运算中都能以存储器的最高频率进行,而 最少受存储冲突的影响。 共享存储器模型的处理单元数目一般不多,几个至几 十个。 Burroughs Scientific Processor (BSP)采用了这种结构。 16个PE通过一个16×17的对准互连网络访问17个共 享存储器模块。 存储器模块数与PE数互质可以实现无冲突并行访问存 储器。
PU15 23 31 39 47 55 PU63 PU 7
PU16
PU55
PU56 PU0
58 59 60 61 62
PU0
2、阵列控制器
阵列控制器CU实际上是一台小型控制计算 机。对阵列处理单元实行控制和完成标量操 作。标量操作与各PE的数组操作可以重叠执 行。 控制器的功能有以下五个方面: (1) 对指令进行译码,并执行标量指令; (2) 向各处理单元发出执行数组操作指令所 需的控制信号; (3) 产生和向所有处理单元广播公共的地址;
APPA 网接口
B6 700 外围设备
B6 700 多路开关
激光 存储器
B6 700 内存
48
B6 700 CP U
48
48 BIOM 128
CU
模式 位线 PE 63 PE 0 64 X 8 PEM 0 CU总线 PEM 1 PE 1 64 CDB
48 控制 线
CDC
PE 0 PE 63
...
并行处理机的基本结构
两种SIMD计算机的基本结构:
分布存储器并行处理机 共享存储器并行处理机 一台并行处理机由五个部分组成: 多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
1、分布存储器结构
目前的大部分并行处理机是基于分布式存储器模型的系 统。 比较容易构成MPP(Massively Parallel Processor),几十 万个PE。 必须依靠并行算法来提高PE的利用率。因此,应用领域 很有限。 CU是控制部件,执行标量指令,并把向量指令广播到各 个PE中。在CU中通常有一个较大容量的存储器。 IOP是输入输出处理机,或称为主机。在IOP上安装操作 系统,它除了负担输入输出工作外,还负责程序的编辑、 编译和调试等工作。 数据在局部存储器中的分布是一个很关键的问题。 标量指令与向量指令可以并发执行。
第八章 并行处理机和多处理机
并行处理机又叫SIMD计算机。它是单一控制部件控 制下的多个处理单元构成的阵列,所以又称为阵列 处理机。 多处理机是由多台独立的处理机组成的系统。
并行处理机结构和实例 多处理机结构和实例
8.1 并行处理机结构和实例
并行处理计算机模型 并行处理机定义:
多个PU按照一定方式互连,在同一个CU控制下, 对各自的数据完成同一条指令规定的操作。 从CU看,指令是串行执行的,从PU看,数据是 并行处理的。 并行处理机也称为阵列处理机。按照佛林分类 法,它属于SIMD计算机。 并行处理机的应用领域: 主要用于高速向量或矩阵运算中。
(4) 产生和向所有处理单元广播公共的数据; (5) 接收和处理PE、I/O操作以及B6700产生 的陷阱中断信号。 2、输入输出系统 IlliacIV的输入输出系统由磁盘文件系统DFS、 I/O分系统和一台B6700处理机组成。 I/O分系统又由输入输出开关IOS、控制描述 字控制器CDC和输入输出缓冲存储器BIOM 三个部分组成。
CU PE0 PE1 …… PEn-1
互连网络
SM0 SM1 IOP …… SMk-1
并行处理机的特点
并行处理机的主要特点如下: 速度快,特别适于高速数值计算。 SIMD依靠的是资源重复,而不是时间重叠。它依靠增 加PE个数,与流水线处理机主要依靠缩短时钟周期相 比,其提高速度的潜力要大得多。 依赖于互连网络和并行算法。互连网络决定了PE之间 的连接模式,也决定了并行处理机能够适应的算法。 需要有一台高性能的标量处理机。如果一台机器的向量处
PU0 PU63 PU55 PU47 PU39 PU38 PU37 PU36
或 ……
PU56
PU57
PU 63
PU63
PU0
PU1
2 3 4
5
6
PU7
PU8
PU8
PU8 16 24 32 40 48
PU9 17 25 33 41 49 PU57 PU1
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
DFS PEM 63 256 1024 256
I/O 总线
IOS
1024
实 时 装 置
1、IlliacIV处理阵列
IlliacIV处理阵列由8´8=64个PU组成。每个PU由处理部件PE和它 的局部存储器PEM组成。 每一个PUi只和它的东、西、南、北四个近邻直接连接。{PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64} 南北方向上同一列的PU连成一个环,东西方向上构成一个闭合螺 线。 采用闭合螺线最短距离不超过7步。而普通网格最短距离不超过8 步。 例如:从PU0到PU36的距离:采用普通网格必须8步: PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36 或 ……(等于8步的很多,大于8步的更多) 如果采用闭合螺旋线,只需要7步: PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36
理速度极高,但标量处理速度只是每秒一百万次,那么对于标量 运算占10%的题目来说,总的有效速度就不过是每秒一千万次。
SIMD基本上是一台向量处理专用计算机。尽管它有一 个功能很强的控制部件实际上起作标量处理机的作用, 但仍然必须和一台高性能单处理机配合工作,使后者 担负系统的全部管理功能。
并行处理机实例
典型并行处理机
系统型号
SIMD计算系统 结构和性能
语言、编译器 和软件支持
1024~16384个PE, Fortran77, MasPar Fortran 26 GIPS 或 1.3 (MPF) 和 MasPar Gflops; 每 个 PE 并行应用语言; X MasPar 带16KB本地存储 MP-1系列 器, X-Net网格加 窗 口 UNIX/OS, 符号调试程序, 一个多级交叉开 可视化和动画制 关互连网 作程序
下面介绍并行处理机的两种典型代表:
采用阵列结构分布存储器的IlliacIV并行处理机 去掉阵列结构和分布存储器BSP并行处理机。
DAP 610
(AMT,Inc.1987)
Goodyear MPP
(Batcher,1980)
Illiac IV
CM-2 (TMC,1990) MasPar MPI (Nickolls,1990)
IlliacIV 是最先采用SIMD结构的并行机 随后一个方向是用位片PE制造的并行机,如
Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以 SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算 PE的中粒度SIMD计算机。
并行处理机的两个发展方向:
保留阵列结构,但每个处理单元的规模减小,如一个bit。去 掉阵列结构和分布存储器。 Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究用的。 MasPar MP1是中粒度并行处理机的典型代表。
由 VAX, Sun 或 Symbolics 360主机 驱动, PARIS支持的 Lisp 编 译 器 、 Fortran90 、 C* 和 *Lisp 由 主 机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提 供 , 主 机 的 Fortran77 或 C; 与Fortran90标准有 关的Fortran-plus
[习题8.6]
试在含一个PE的SISD机和在含m个PE的且连接成一 线性环的SIMD机上计算下列求内积的表达式。
s
n
A
i 1
i
B
i
假定完成每次ADD操作需2个单元时间,完成每次 MULTIPLY操作需4个单位时间,沿双向环在相邻PE 间移数需1个单位时间。 (1)SISD计算机上计算s需多少时间? (2)SIMD计算机上计算s需多少时间? (3)用SIMD机计算s相对于用SISD机计算的加速比 是多少?