并行处理机

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
五道口 生活网 /bbs 五道
典 型 并 行 处 理 机
系统型号 MasPar计算 机公司MP-1 系列 SIMD 计算机系统结构和性能 1024 ~ 16384 个 PE , 26GIPS 或 1.3Gflops。每个PE带16KB本地存 储器,X-Net网格加一个多级交叉 开关互连网。 Thinking 65536个PE排成10维超立方体,每 Machines 个PE可有1M位存储器,32个PE共享 公司 CM-2 FPU选件,峰值速度28Gflops和持 续速度5.6Gflops。 Active 1K位/PE方形网格互连成4096PE的 Memory 细粒、位片SIMD阵列,正交4-邻位 Technology 链接,20GIPS和560Mflops峰值性 DAP600系列 能。 语言、编译器和软件支持 Fortran77、MasPar Fortran(MPF) 和 MasPar 并行应用语言;X-窗口 UNIX/OS,符号调试程序,可视化 和动画片制作器。 由 VAX,Sun 或 Symbolics 360主 机驱动,PARIS 支持的 Lisp 编译 器、Fortran90、C*和*Lisp。 由主机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提供,主机的 Fortran77或 C。与 Fortran90标准 有关的 Fortran-plus。
PU56 PU57 PU63
PU63
PU0
PU1
2
3
4
5
6
PU7
PU8
PU8
PU8 16 24 32 40 48
/bbs 五道
APPA 网接口
IlliacIV系统由三大部分组成 • IlliacIV处理机阵列:8 X 8,
包括PE、PEM和互连网络。 • 阵列控制器CU, • 输入输出处理机:一台标准的 Burroughs B6700计算机。
CU
模式位线 PE63 PE0 64 X 8 PEM0 CU总线 PEM1 PEM63 PE1 64 CDB 48 控制线 PE0 PE63
/bbs 五道
3、IlliacIV处理阵列 • IlliacIV处理阵列由88=64个PU组成。每个PU由处理部件 PE和它的局部存储器PEM组成。 • 每一个PUi 只和它的东、西、南、北四个近邻PUi+1 mod 64、 PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64直接连接。 • 南北方向同一列PU连成一个环,东西方向构成一个闭合螺线。 • 闭合螺线最短距离不超过7步。普通网格最短距离不超过8步。 例如:从PU0到PU36的距离:采用普通网格必须8步: PU0PU1PU2PU3PU4PU12PU20PU28PU36 或 PU0PU8PU16PU24PU32PU33PU34PU35PU36 或 … 如果采用闭合螺旋线,只需要7步: PU0PU63PU62PU61PU60PU52PU44PU36 或 PU0PU63PU55PU47PU39PU38PU37PU36 或 …… • 对于n×n个单元的阵列,任意两个单元之间的最短距离不超 五道口 过n-1步。 生活网
IOP
…… ……
LMn-1 PEn-1
• 目前的大部分并行处理机是基于分布式存储器模型的 • 比较容易构成MPP(Massively Parallel Processor),几十 万个PE。 • 必须依靠并行算法来提高PE的利用率。因此,应用领 域有限。 • CU是控制部件,执行标量指令,并把向量指令广播到 各个PE中。在CU中通常有一个较大容量的存储器。 • IOP是输入输出处理机,或称为主机。在IOP上安装操 作系统,它除了负担输入输出工作外,还负责程序的 编辑、编译和调试等工作。 • 数据在局部存储器中的分布是一个很关键的问题。 • 标量指令与向量指令可以并发执行。 五道口
8.2.1 分布存储器并行处理机 8.2.2 共享存储器并行处理机 8.2.3 并行处理机的特点
五道口 生活网 /bbs 五道
8.2.1 分布存储器并行处理机
CU LM0 PE0 LM1 PE1 互连网络
五道口 生活网 /bbs 五道
第八章 并行处理机
• 两种并行性概念: 同时性并行Simultaneity:两个或两个以上事件在同一时刻发生 并发性并行Concurrency:两个或两个以上事件在同一时间间隔内发生 • 技术途径: 资源重复:通过重复设置多个处理部件来提高速度 时间重叠:流水线
8.1 并行处理机模型 8.2 并行处理机的基本结构 8.3 并行处理机实例 8.4 并行处理机算法举例
五道口 生活网 /bbs 五道
8.1 并行处理机模型
控制器
PE0 PE1 PE2 PE2 ……
P0
M0 M0
P1
P1
P2
M2 P2
PN-1
MN-1 PN-1
互连网络 H.J.Siegel提出的并行处理机模型
1、阵列控制器 • 阵列控制器CU实际上是一台小型控制计算机。 对阵列处理单元实行控制和完成标量操作。标量操作与各PE 的数组操作可以重叠执行。 • 控制器的功能有以下五个方面: (1) 对指令进行译码,并执行标量指令; (2) 向各处理单元发出执行数组操作指令所需的控制信号; (3) 产生和向所有处理单元广播公共的地址; (4) 产生和向所有处理单元广播公共的数据; (5) 接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。 2、输入输出系统 • IlliacIV的输入输出系统由磁盘文件系统DFS、I/O分系统和 一台B6700处理机组成。 • I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输 五道口 入输出缓冲存储器BIOM三个部分组成。 生活网
8.3.1 IlliavIV 并行处理机
• 1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer , Simultaneous Operation linked Ordinal Modular Network”。 • 1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合 同。原计划:256个PE,每个PE每240ns处理一个64位浮点数, 每个局部存储器PEM为2K64位,总的原算速度为1GFLOPS。 • 美国Burroughs公司和伊利诺依大学于1972年共同设计和生产, 1975年实际投入运行。用了4倍的经费,只达到1/20的速度。 只实现了88=64个PE,只达到50MFLOPS。 • IlliacIV系统的影响非常大。它是并行处理机的典型代表,也 是分布存储器并行处理机的典型代表。 • IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器, 五道口 一台标准的Burroughs B6700计算机。 生活网
B6700 内存
B6700 外围设备
B6700 多路开关
激光 存储器
48
B6700 CPU
48
48 BIOM 128
CDC
...
DF S
I / O 总线
256 1024
256
实 时
IOS 装 置 五道口 1024 生活网 /bbs 五道
五道口 生活网 /bbs 五道
CU PE0 PE1 互连网络 SM0 SM1 IOP SMk PEn
8.2.3 并行处理机的特点
• 速度高,依靠增加PE个数来提高速度,与流水线处理机主要 依靠缩短时钟周期相比,其提高速度的潜力要大得多。 • 模块性好,生产和维护方便。 • 可靠性高,容易实现容错和重构。 • 效率低,通常作为专用计算机,在很大程度上依赖于并行算 法。它依靠的是资源重复,而不是时间重叠,它的每个处理 单元要担负多种处理功能,其效率要低一些。 • 依赖于互连网络。互连网络决定了PE之间的连接模式,也决 定了并行处理机能够适应的算法。 • 需要有一台高性能的标量处理机。如果一台机器的向量处理 速度极高,但标量处理速度只是每秒一百万次,则对于标量 运算占10%的题目,总的有效速度就不超过每秒一千万次。
五道口 生活网 /bbs 五道
8.2 并行处理机的基本结构
• 并行处理机有两种典型结构: 分布存储器并行处理机、共享存储器并行处理机 • 一台并行处理机由五个部分组成: 多个处理单元PE,多个存储器模块M,一个控制器CU, 一个互连网络ICN,一台输入输出处理机IOP。
生活网 /bbs 五道
8.2.2 共享存储器并行处理机
• 共享多体并行存储器SM通过互连网络与各处理单元PE相连。 • 存储模块的数目等于或略大于处理单元的数目。 • 同时在存储模块之间合理分配数据,通过灵活、高速的互连 网络,使存储器与处理单元之间的数据传送在大多数向量运 算中都能以存储器的最高频率进行,而最少受存储器冲突的 影响。 • 共享存储器模型的处理单元数目一般不多,几个至几十个。 • Burroughs Scientific Processor(BSP)采用了这种结构。16个PE 通过一个16×17的对准互连网络访问17个共享存储器模块。 • 存储器模块数与PE数互质可以实现无冲突并行访问存储器。
/bbs 五道
普通网格必须8步:PU0PU1PU2PU3PU4PU12PU20PU28PU36 或 PU0PU8PU16PU24PU32PU33PU34PU35PU36 或 … 闭合螺旋线只要7步:PU0PU63PU62PU61PU60PU52PU44PU36 或 PU0PU63PU55PU47PU39PU38PU37PU36 或 ……
五道口 生活网 /bbs 五道
8.3 并行处理机实例
• 并行处理机的两种典型代表: 采用阵列结构分布存储器的IlliacIV并行处理 机 共享存储器结构BSP并行处理机。
五道口 生活网 /bbs 五道
五道口 生活网 /bbs 五道
• 并行处理机的定义: 多个PU按照一定方式互连,在同一个CU控制下,对各自的 数据完成同一条指令规定的操作。 从CU看,指令是串行执行的,从PU看,数据是并行处理的。 并行处理机也称为阵列处理机、SIMD处理机等 • 并行处理机的应用领域:主要用于高速向量或矩阵运算 • 并行处理机的操作模型可用五元组来表示: M=(N,C,I,M,R), 其中: N为PE个数。如IlliacIV有64个PE。 C为控制部件CU执行的指令集,包括标量指令和程序控制指 令。 I为所有PE并行执行的指令集,包括ALU、数据传送等操作 M为屏蔽操作集,将PE划分为允许操作和禁止操作两个子集 R是数据寻径集,互连网络中PE间通信所需要的各种模式
相关文档
最新文档