并行计算机系统的分类MIMD体系结构共87页

并行计算机体系结构

并行计算机系统的软件技术
计算模式:

单程序多数据模式:系统由多个独立的进程组成, 它们都运行相同的程序,但处理的数据集合不同流水线式: 分阶段计算模式: 分而治之式多完成人模式
并行计算机系统的软件技术
通信方式:

共享变量消息传递
:多指令流单数据流(流水线处理机): MIMD体系结构:多指令流多数据流
一致性内存访问(UMA) 非一致性内存访问(NUMA) 仅高速缓存访问(COMA) MPP:大规模并行处理系统 COW:工作站集群

多计算机系统:

并行计算机系统的性能问题
硬件性能指标: 延迟时间:CPU发送分组至接收到响应的时间间隔带宽:系统每秒能传送的信息量软件性能指标: 加速比:一个程序在有n个处理器的计算机上运行和在只有一个处理器的计算机上运行的速度之比获得更高的性能: 增加更多的CPU,但要能够保持相同的CPU平均带宽和不变的平均延迟时间减少或隐藏延迟时间的技术:数据复制,数据预取,多线程技术,使用无阻塞的写
并行计算机体系结构
计算机体系结构的分类
SISD体系结构:单指令流单数据流

以单一的指令流从存储器取指令,以单一的数据流从存储器取操作数并将结果写回存储器
单一的控制部件,多个处理部件阵列处理机和向量处理机多个处理部件,多条指令同时在一份数据上进行操作多处理机系统:共享物理内存

SIMD体系结构:单指令流多数据流
并行计算机系统的软件技术
控制模式: 使用一个控制线程的方式使用多个线程控制的方式并行粒度: 多个独立线程协同工作解决同一个问题在一个程序调用了一个过程后并不等待调用结束就继续往下执行,使调用者和被调用者并行运行进程用某种方法创建多个线程,所有的线程都在进程的地址空间中运行

02_2并行计算机(系统结构)

P
M
P M
P M
...
P M
2019/2/23
23
构建并行机系统的不同存储结构
PVP (Cray
中央存储器 T90)
UMA SMP SGI
多处理机（单地址空间共享存储器） (Intel SHV,SunFire,DEC 8400, PowerChallenge,IBMR60,etc.) (KSR-1,DDM) (Stanford Dash, SGI Origin 2000,Sequent NUMA-Q, HP/Convex Exemplar) (Cray T3E)
2019/2/23 10
MPP（Massively Parallel Processor）

处理节点采用微处理器系统中有物理上的分布式存储器采用高通信带宽和低延迟的互连网络（专门设计和定制的）能扩展至成百上千乃至上万个处理器异步MIMD，构成程序的多个进程有自己的地址空间，进程间通信消息传递相互作用
16
Origin3000 与 Altix3000
Origin3000
2019/2/23
Altix3000
17
并行计算机内存访问模型

UMA / NUMA / COMA / CC-NUMA / NORMA
2019/2/23
18
并行计算机访存模型（1）

UMA（Uniform Memory Access）模型是均匀存储访问模型的简称。其特点是：
节点1 P / C 节点N M e m P / C
… P/C
交叉开关总线或
…
I / O
…P/C
开关总线或交叉

并行计算机体系结构PPT课件

虚拟存储器的TLB用高速芯片组成
17
二、Amdahl定律
*基本思想：优化某部件所获得的系统性能的改善程度，取决于该部件被使用的频率，或所占总执行时间的比例
S T0
p
Te
1
(1
fe
)
fe re
*举例：某功能处理时间占系统时间的40%，将其处理速度加
快10倍后，整个系统性能提高多少？ Sp
10
解—已知fe=0.4，re=10，利
23
*特点：吞吐率与I/O软硬件组织方式及OS有很大关系；能够反映软硬件系统对多任务的响应能力
*提高吞吐率方法：流水化--使多个作业流水处理；并行处理--给每个PE分配多个作业，各PE相互协调
3、利用率 *定义：利用率＝持续性能÷峰值性能 *特点：不直接表示系统性能，与前两种指标有密切关系；对系统性能优化及结构改进起着至关重要的作用！
A系统 B系统
得到性能可扩放性曲线 1
n
影响因素—结构、处理器数、问题规模、存储系统等
25
二、性能评价与比较
1、评价技术
(1)分析技术 *思路：在一定假设条件下，计算机系统参数与性能指标间
存在着某种函数关系，按其工作负载的驱动条件列出方程，用数学方法求解后评价
*发展：从脱离实际的假设发展到近似求解近似求解算法—聚合法、均值分析法、扩散法等
2
二、参考教材
1、并行计算机体系结构，陈国良等著，高等教育出版社， ISBN 7-04—11558-1，2002.9
2、并行计算机体系结构，David E.Culler等著，李晓明等译，机械工业出版社，ISBN 7-111-07888-8，2002.10
3、可扩展并行计算—技术、结构与编程，黄铠、徐志伟著，陆鑫达等译，机械工业出版社，2000.5

第8章 MIMD计算机

数学计算机科学学院
计算机体系结构 +
主讲：陈付龙
2013-7-22
1
第8章 MIMD计算机
• 多指令流多数据流（Multiple Instruction Stream Multiple Data Stream，简称MIMD），它使用多个控制器来异步地控制多个处理器，从而实现空间上的并行性。
概念回顾
MIMD计算机硬件
• 多个处理机（CPU ，含有PU和CU）/计算机（含有CPU和I/O） • 互联网络 • 不只是外围设备共享，而且要用多个指令不见分别控制，通过机间复杂互联网络实现通信。
MIMD计算机软件
• 算法上，不局限于向量数组处理，还要挖掘和实现更多通用算法中的隐含性 • 系统管理上，更多依靠软件（操作系统）手段有效解决资源分配和管理问题，特别是处理机管理和进程调度。
8.1 多处理机系统概述
MIMD机器的崛起源于两个因素：（1） MIMD的灵活性。在合适的软硬件支持下， MIMD可以作为高性能单用户机使用，也能同时运行多个任务，或者是高性能多任务的组合。
（2） MIMD可由具有价格/性能比优势的微处理器建成。
事实上，目前几乎所有的多处理器计算机使用和工作站、小型单处理器服务器一样的微处理器芯片。
每个任务均与其余任务通信一次同一台处理机上任务间通信不计互联网络
处理机1
处理机2
处理机N
总的处理时间最小的情况
（3）通信开销为线性函数的模型
每个处理机与其余处理机通信一次互联网络
处理机1
处理机2
处理机N
平均分配法的时间开销
（4）机间通信可以多路同时进行的模型
• 每台处理机都有通信链路与其他处理机相连，通信操作可以与任务本身重叠。 • 任意一个时刻一个处理机只能与另外一个处理机通信

并行计算机的分类与发展

❖ SMP系统中的处理器一般为商用处理器
❖ 各个处理器的地位完全相等
❖ 单一操作系统映像
ห้องสมุดไป่ตู้
❖ 低通信延迟
❖ 所有处理器共享总线带宽
❖ 总线、存储器、操作系统失效可能导致系统崩溃
❖ 可扩展性较差
2020/6/1
6
分布存储MIMD型并行机
❖ 80年代中期出现，主要特征是
❖通过互连网络交换信息
❖各个结点有局部存储器
优点：编程容易，比分布存储系统更容易做到负载平衡
缺点：内存是瓶颈，可扩性差，造价相对高昂
2020/6/1
4
SMP与PVP的图示
…
… …
… … … …
VP
SM
交 VP 叉 SM
开
关
VP
SM
P/C 总 SM
线
P/C 或 SM
交
叉开
SM
P/C 关 I/O
PVP示意图
2020/6/1
SMP示意
图
5
SMP计算机系统
❖大规模并行处理机MPP、机群系统 (Cluster)
2020/6/1
7
MPP图示
MB
P/C
MB
P/C
LM ……
LM
…
NIC
NIC
定制网络
2020/6/1
8
机群系统(Cluster)图示
MB P/C
MB P/C
M Bridge LD IOB
…… …
M Bridge LD IOB
NIC
NIC
以太网等商品化网络
❖ 单一的系统映像
2020/6/1
11
DSM图示

多处理机的组成分类

多处理机的组成分类
多处理机的组成分类可以根据其工作方式、结构和架构进行划分：
1. 根据工作方式：
- 执行删除方式：根据指令的不同删除执行删除。

指令并行多处理机、数据并行多处理机。

- 线程级并行方式：通过同时执行多个线程来增加处理能力。

多线程多处理机。

- 任务级并行方式：将任务划分为多个子任务并同时执行以提高处理能力。

任务并行多处理机。

2. 根据结构：
- SIMD（单指令多数据）结构：多个处理器同时执行同一指令，但处理不同的数据。

SIMD多处理机。

- MIMD（多指令多数据）结构：多个处理器可以独立执行不同的指令和处理不同的数据。

MIMD多处理机。

3. 根据架构：
- 对称多处理架构（SMP）：所有处理器共享内存，可以同时访问相同的I/O设备。

对称多处理机。

- 非对称多处理架构（AMP）：每个处理器有自己独立的内存和I/O设备。

非对称多处理机。

- 分布式多处理架构：多个处理器通过网络进行通信和协作，每个处理器有自己的内存和I/O设备。

分布式多处理机。

请注意，以上是对多处理机的一般分类，具体的分类体系可能因为不同的上下文和应用而有所差异。

第11章__并行计算机体系结构简介

第11章__并行计算机体系结构简介1. 引言随着计算机应用的不断发展，对计算机性能和计算能力的需求越来越高，而单一计算机性能的提升已经达到了瓶颈。

面对这种情况，计算机学科开始关注并行计算机。

并行计算机的提出，为解决单一计算机的性能瓶颈开辟了一条新的道路。

本章将简要介绍并行计算机体系结构。

2. 并行计算机的概念并行计算机是使用并行处理器（即多个处理器）来执行并行任务的计算机。

并行处理器是一种能够在同一时间内处理多个指令或多个数据的处理器，因此对于需要进行大量计算的应用程序而言，使用并行计算机可以大大提高计算速度。

并行计算机可以分类为以下三类：（1）指令级并行计算机：每个指令被分成数个步骤，不同步骤可以并行执行，以提高计算速度。

（2）进程级并行计算机：多个处理器执行不同的程序或进程，从而提高计算速度。

（3）数据级并行计算机：多个处理器对同一数据进行不同的计算，以提高计算速度。

3. 并行计算机的体系结构并行计算机的体系结构包括处理器阵列、多处理器、超级计算机等。

（1）处理器阵列：处理器阵列是由多个同构的处理器组成的结构，每个处理器都有自己的主存储器和指令流。

处理器阵列相对简单，但是需要使用特殊的编程技术，在编写并行程序时需要考虑负载平衡、同步和通信等问题。

（2）多处理器：多处理器是由多个不同类型的处理器组成的计算机系统，这些处理器可以是同构的，也可以是异构的。

多处理器系统采用共享存储器结构或分布式内存结构。

由于多处理器系统特点是强一致性和数据共享，它需要使用特殊算法来避免死锁和竞争条件等问题。

（3）超级计算机：超级计算机是由数千个处理器组成的计算机系统，它的计算能力是常规计算机的数十倍或数百倍。

超级计算机一般使用NUMA结构、MPP结构或混合结构，采用分布式内存结构可以有效解决存储器容量的限制问题，同时使用高速互联技术可以提高计算速度。

4. 并行计算机的优缺点并行计算机相对于单一计算机性能的优势主要体现在以下几个方面：（1）计算速度快：并行计算机可以同时执行多个任务，因此可以大大缩短计算时间。

13并行计算机体系结构

互连网络的寻径方式
交换结点所做的工作就是接收到达输入端口的分组然后把分组发送到正确的输出端口，具有多种不同的工作方式。
互连网络的寻径算法
寻径算法：决定一个分组从源结点到达目的结点的过程中经过的结点序列的算法。
24
互连网络的分类
静态网络
静态网络(Static Networks)是指结点间有着固定连接通路且在程序执行期间，这种连接保持不变的网络。
第13章
并行计算机体系结构
本章主要内容
并行计算机系统结构概述并行计算机系统的设计问题
并行计算机系统的互连网络并行计算机系统的性能问题并行计算机系统的软件问题
SIMD计算机简介 MIMD多处理机简介 MIMD多计算机简介
2
计算机系统结构的发展历程
硬件技术和系统结构
软件和应用
第一代（1945～1954）
电子管和继电器。单CPU，以程序计数器PC和累加器顺序完成定点运算。
机器语言或汇编语言。单用户。用CPU程序控制I/O。
第二代（1955～1964）
晶体管和磁芯存储器。用印制电路互连。变址寄存器，浮点运算；多路存储器，I/O处理机。
有编译程序支持的高级语言，子程序库，批处理监控程序。
第三代（1965～1974）
中小规模集成电路。多层印制电路。微程序设计，流水线，高速缓存，先行处理机。
多道程序设计，分时操作系统，多用户应用。
第四代（1975～1990）
大规模集成电路。半导体存储器。用于并行处理的多处理机操作系
多处理机，多计算机，向量超级统、专用语言和编译器；并行处
计算机。
理或分布计算的软件工具和环境。
大量商品化的处理器的出现为设计并行计算机系统提供了可能。

并行计算机系统结构.

x’i=(xi±1) mod Mi
每一维内环形连接
度=2n 直径d =
n Mi
i1 2
链路总数L=nN n
结点总数N = Mi i 1
立方体网络
一般化的超立方体网络generalized hyper cube
采用混合基数制表示结点的地址
n
每一维的基数为Mi，1≤i≤n，节点总数N=
用硬件机制将分布的存储器构成一个逻辑上统一的共享存储器
cache及其一致性问题 CC-NUMA cache coherent NUMA COMA cache only memory access
MPP massively parallel processors
大规模并行处理机系统消息ห้องสมุดไป่ตู้递
使得每个处理器分得的问题规模（如数据量）保持不变
设a为串行部分的执行时间比例， (1-a)为并行部分的执行时间比例， n为处理器数，加速比为
a + (1-a)n
Tserial (1-P) P (1-P)
n=2
P/2
…
P/∞
并行处理器系统的性能
可伸缩性（scalability）限制可伸缩性的因素
性能
多核性能
单核性能
性能 ~ 面积
晶体管数（面积）
芯片级并行性
一个大核与多个小核的比较
cache 大核
小核 c 小核 a c h
小核 e 小核
功耗：性能：
功耗：性能：
Core 2 Processor Block Diagram
系统总线
L2 Cache
指令预取/预译码
微码
指令队列
ROM

第11章__并行计算机体系结构简介

向量运算举例
• 假定有一个向量运算：D=A×（B+C） • 式中A，B，C，D都是长度为N的向量。若按常规处理，则流水线不能连续流动。 • D1=A1×（B1+C1） • D2=A2×（B2+C2） D2=A2 B2+C2
⋮
• DN=AN×（BN+CN） • 计算这个向量流水线要反复进行加法和乘法的切换，即流水线功能切换。
每个CPU都带有Cache，当同时操作内存中某一块数据时，会出现Cache一致性问题。例如， CPU1与CPU2修改，此后CPU2读自己Cache中数据就已成为旧内容，因为CPU1修改自己的Cache后还没有写回内存，而 CPU2 CPU2读的数据相对CPU1来讲是旧数据。解决 CPU1 Cache一致性问题有两种方法，一种是监听型的 Cache（本书不再详述，请查阅有关书籍），另一种是“MESI”Cache一致性协议。
集群机系统的主要生命力来自其经济有效性，它采用高性能的普通日用品IA芯片、公开系统的主板、免费的公开源码操作系统与并行编程接口，使超级计算机系统的造价告别了天文数字，让具有一般规模的公司都用的起。基于集群机特点，它的规模可大可小。
2. Linux集群的特点集群机根据采用的操作系统不同而称为某某集群，例如采用Linux就称为Linux集群，采用 UNIX就称为UNIX集群。下面介绍Linux集群的特点。
图11－6 多计算机系统结构
多计算机系统一般分成两大类：MPP和COW。 1. MPP 大规模并行处理机（ Massively Parallel Processor）这是一种价值数百万到上亿美元的超级计算机系统。MPP系统已取代了原有SIMD计算机、向量超级计算机和阵列处理机，成为当今大型机、巨型机的主流。大多数的MPP系统都使用标准的CPU作为它们的处理器。大的系统都使用几百片以上的CPU集合而成，巨型机使用几千片CPU。

计算机并行体系结构的分类

并行体系结构的发展之路
033327 王庆龄 032116 宋佳思
目录
引言并行计算机发展的推动力并行体系结构的分类并行体系结构的发展过程并行体系结构的展望
引言
并行计算机的定义体系结构巨大变化 CPU性能发展软硬件技术进步
并行计算机发展的推动力
科学与工程计算领域对并行计算能力的要求总是永无止境的。计算机技术、网络技术的迅速发展及其对经济与生活影响的日益深入并行计算机体系结构的发展和处理器、存储器以及网络互连技术的发展密不可分
并行体系结构的发展过程
80年代末90年代初，共享存储器方式的大规模并行计算机又获得了新的发展。 90年代以来，主要的几种体系结构开始走向融合。不过，IBM近年来大获成功的SP1、SP2系列机群系统走的则是另外一条路线。面向的是通用的应用领域
并行体系结构展望
目前的并行计算机系统则主要有四类: 第一类是多向量处理系统,如Cray YMP90、NEC SX3和Fujitsu VP 2000等; 第二类是基于共享存储的多处理机（SMP）系统, 如SGI Power Challenge、曙光1号等; 第三类是基于分布存储的大规模并行处理(MPP) 系统,如Intel Paragon、IBM SP2、曙光1000等；第四类是基于RISC工作站或高档微机通过高速互连网络连接而构成的机群计算机系统，如清华同方探索集群计算机等。
参考文献
1．陈树清《并行计算机的现状与发展趋势》 2．郑纬民《并行计算机之路》 3．李国杰《可扩展高性能并行计算机的关键技术与发展远景》 4．陈国良《并行算法研究进展》 5．《机群服务器与小型机的优势比较》 /27/200668923571.shtml 6．徐志伟《高性能计算机与网格的研究开发态势》 /5-3.asp?id=39&letternum=9

并行计算机体系结构的分类按照Flynn分类法,可把

CPU0
CPU1
CPU2
CPU3
存储器
I/O
集中共享存储器计算机
7.1 引言
(2) 分布式存储器结构每个结点包含：
处理器存储器 I／O
动画
在许多情况下，分布式存储器结构优于集中式共享存储器结构
CPU0
CPU1
CPU2
CPU3
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
互连网络
7.1 引言
3. 并行程序的计算／通信比率 ➢ 反映并行程序性能的一个重要的度量计算与通信的比率 ➢ 计算／通信比率随着处理数据规模的增大而增加；随着处理器数目的增加而降低。
（NUMA: Non-Uniform Memory Access)
7.1 引言
(2) 整个地址空间由多个独立的地址空间构成，它们在逻辑上也是独立的，远程的处理器不能对其直接寻址。
每一个处理器-存储器模块实际上是一个单独的计算机，这种机器也称为多计算机。
7.1 引言
2. 两种通信模型共享地址空间的机器利用Load和Store指令中的地址隐含地进行数据通讯。多个地址空间的机器通过处理器间显式地传递消息完成。 (消息传递机器)
解有0.5%远程访问的机器的实际CPI CPI＝基本CPI＋远程访问率×远程访问开销＝1.0＋0.5%×
7.1 引言
远程访问开销＝远程访问时间/时钟时间＝2000ns/10ns＝200
∴ CPI＝1.0＋0.5%×200＝2.0 它为只有局部访问的机器的2.0／1.0＝2倍，因此在没有远程访问的状态下的机器速度是有0.5% 远程访问的机器速度的2倍。 ➢ 问题的解决并行性不足：采用并行性更好的算法远程访问延迟的降低：靠体系结构支持和编程技术

MIMD计算机

CPU
Cache
Cache
HUB
M
Router
CPU
CPU
Cache
Cache
HUB
M
Router
多计算机系统
• Massive Parallel Processor(MPP) • Parallel Vector Processors(PVP) • Cluster of Workstation(COW)
• （2）输入输出活动。如果输入输出处理机直接接在系统总线上，也会导致cache不一致。
• （3）进程迁移。进程迁移就是把一个尚未执行完的进程调度到另一个空闲的处理机中去执行。为提高整个系统的效率，有的
(1)共享可写数据的不一致性(sharing of writable data)
处理机 P1 P2
MPP
• 大规模并行处理机（Massively Parallel Processor）是由多个由微处理器，局部存储器及网络接口电路构成的节点组成的并行计算体系；节点间以定制的高速网络互联。大规模并行处理机是一种异步的多指令流多数据流，因为它的程序有多个进程，它们分布在各个微处理器上，每个进程有自己独立的地址空间，进程之间以消息传递进行相互通信。
Alma mater
Manhattan College Syracuse University Purdue University
Known for
Flynn's taxonomy
Notable awards
Harry H. Goode Memorial Award
概念回顾：SISD
• 传统的顺序执行的计算机在同一时刻只能执行一条指令（即只有一个控制流）、处理一个数据（即只有一个数据流），因此被称为单指令流单数据流计算机（Single Instruction Single Data, SISD）。

计算机组成原理第十一章

上一页下一页返回
11.2SIMD 计算机
• 20 世纪 70 年代前后，为了处理向量计算，人们研发了两种类型的巨型计算机系统：流水线处理机和并行处理机。两者比较，并行处理机的结构复杂，成本高，因而流水线处理机发展很快。它是处理向量计算的主要手段，因此人们已把它称为向量处理机。
• 由于向量元素主要是浮点数，浮点数的运算比较复杂，需要经过多个节拍才能完成，所以向量很适合用运算流水线处理。当用运算流水线处理一个数组时，对向量中的每个元素都执行相同的操作，而且每个向量的各元素间又是互相无关的，因而流水线就能以每拍送出一个结果的最高速度连续流动。为了配合它，向量处理机都配有一个大容量的、分成多个模块交叉工作的主存储器，并且采用三端口存储器模块。
上一页下一页返回
11.2SIMD 计算机
• Cray-1 机采用多功能部件结构，一共有 12 个功能部件，分为 4 组： 3 个向量整数单元部件（加、逻辑、移位）、3 个浮点标量/向量浮点单元部件（加、乘、求倒数）、4 个标量整数单元部件（加、逻辑、移位、“1”个数计数）、2 个地址功能部件（加、乘）。这些功能部件本身都采取流水线结构，只要不发生寄存器冲突，这些功能部件就都能并行工作。
上一页下一页返回
11.3MIMD 计算机
• 11.3.1 多处理器系统
• 根据共享内存的实现方式可以把多处理器系统分成三类：一致性内存访问（UniformMemory Access，UMA）、非一致性内存访问（ Non Uniform Memory Access，NUMA）和基于（Cache）的内存访问（Cache Only Memory Access，COMA）。
第11章并行计算机体系结构简介

并行计算机系统

FP Unit
EXE Core L1 Cache
L2 Cache
System Bus (667MHz, 5333MB/s)
Intel Core 2 Duo
Xeon
Core 2
Dual Core Server Processor Evolution
Core 2 Processor Block Diagram
• COMA
– 增加每个数据块的命中标志信息和状态信息 – 数据块可迁移 CPU
Cache 访存控制本地存储器标志 (a) CC-NUMA (b) COMA 远程存储器 CPU
Cache 访存控制远程存储器
本地存储器
多处理机系统的结构分类
• 按硬件层次
– 芯片级
• 芯片多处理器CMP
– 板级
*/ */
阵列机的程序设计
第三步，部分和累加，采用递归折叠方法。
limit=64; half=64; /* 100 execution units in SIMD do { half=half/2; /* send vs. receive dividing line if(Pn>=half && Pn<limit) send(Pn%half,sum); if(Pn<half) sum=sum+receive(); limit=half; /* upper limit of senders } while (half>1); /* exit with final sum
• MPP massively parallel processors
– 大规模并行处理机系统 – 消息传递
• 显式数据交换