第2章多机系统结构1

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2016/12/1
3
一般多处理机多为紧耦合系统、主从结构、
专用机多计算机多为松耦合系统，均衡结构、通用机但现在多计算机系统已经发展为紧耦合
2016/12/1
4
也可以从四个方面讨论并行计算机模型
并行计算机结构模型并行计算机访存模型并行计算机性能模型
并行计算机Cache一致性
2016/12/1
2016/12/1
9
分布共享存储多处理机DSM
Distributed Shared Memory
（网络接口电路NIC)
Stanford DASH, Cray T3D SGI/Cray , Origin 2000 高速缓存目录DIR用于支持分布高速缓存的一致性与SMP的主要差异：DSM在物理上有分布在各节点的LM从而形成
20178121均匀存储访问模型uma外设也可以一定形式共享uniformmemoryaccessuniformmemoryaccess20178122均匀存储访问模型uma所有处理机都能等同地访问所有io设备能同样地执行程序如os内核io内核io服务程序等只有一台或一组处理器称为主处理器它能执行os并能操纵io而其余处理器无io能力称为从处理器只在主处理器监控之下执行用户代码
了一个共享的存储器，对用户而言，形成了一个单地址的编址空间比MPP编程容易
2016/12/1
10
工作站机群COW
Cluster of Workstation
如：Berkeley NOW, Alpha FARM, Digital Tracluster 等 LD——本地磁盘 MB——存储总线 IOB——I/O总线
d.节点内的网络接口是松散耦合到I/O总线上的，而MPP的网
络接口是连到处理机接点的存储总线上的，可谓是紧耦合式的
2016/12/1
12
工作站机群COW
e.一个完整的OS系统驻留在每个节点之中，而MPP中通常只
是一个微核，COW的OS是工作站的UNIX，加上一个附加的软件层以支持单一系统映象、并行度、通信及负载平衡等 f.如今，MPP和COW之间的界线越来越模糊，如：IBM SP2虽视为MPP，但它却有机群结构 g.机群有性能价格比的优势，在发展可扩放并行机方面呼声
2016/12/1
15
公用结构
将无共享结构图(a)中节点内的磁盘(D)移出来构成共享磁盘的结构图(b)
2016/12/1
16
公用结构
把图(b)中主存(M)移出来就变成了共享存储结构图(c)
2016/12/1
17
小结
a.结构类型：皆为MIMD b.处理器类型：PVP为专用定制，其余为商用 c.互连网络： PVP：定制交叉开关 SMP：总线交叉开关 MPP：定制网络 DSM：定制网络 COW：商用网络(以太或ATM) d.通信机制： PVP、SMP、DSM：共享变量 MPP、COW：消息传递
2016/12/1
8
大规模并行处理机MPP
Massively Parallel Processing
Intel Paragon, IBM SP2,Intel TFLOPS
曙光-1000超大型计算机系统特性： a.处理节点采用商品微处理器 b.有物理上的分布式存储器 c.采用高通信带宽及低延迟的互连网络(专门定制) d.能扩放至成百上千个处理器 e. 是一种异步的 MIMD 机器，程序有多个进程构成，每个都有其私有空间，由进程传递消息主要应用：科学计算、工程模拟、信号处理等以计算为主的领域
2016/12/1
34
细粒度并行性：把一个程序尽可能地分解
成能并行执行的小任务。在极端情况下，一个小任务只完成一个操作。通常，一个小任务包含几条指令。
2016/12/1
第二章并行计算机模型
§2.1 概述
以MIMD模式运行的计算机系统包含多个处理机或计算机的单一计算机系统通过互连网将各处理机、计算机或存储单元相连接
2016/12/1
1
基本特性：单处理机的能力和处理机阵列大小的乘积决定并行计算机系统的能力互连网络决定解决问题的类型和系统的适应能力控制方式分为集中式和分布式
2016/12/1
33
在粗粒度（Coarsegrain）情况下，R/C
比值比较大，每个单位计算只需要少量的通信。在细粒度（Finegrain）情况下，R/C比值比较小，每个单位计算有很大的通信量和其它的开销。细粒度并行性需要许多台处理机，而粗粒度并行性只需较少台数的处理机。
5
§2.2并行计算机结构模型
现代计算机结构分类：
并行向量处理机PVP 对称多处理机SMP 大规模并行处理机MPP 分布共享存储多处理机DSM 工作站集群COW
通用结构
2016/12/1
6
并行向量处理机PVP
Parallel Vector Processor，典型的并行向量处理机的结构 1.性能向量处理机 2.瓶颈 3.扩展 4.改进共享存储器 5.可行性从5 Cray C-90 ,Cray T-90 , 个方面对结构进行分析 NEC SX-4 和我国的银河-І等都是PVP，这样的系统包含少量的高性能的向量处理器，每个至少具有 1Gflops的处理能力，系统中使用了高带宽的交叉开关网络，存储器可达每秒兆字节的速度。这样的机器通常无cache，使用大量的向量寄存器及指令缓冲器。
很高
2016/12/1
13
公用结构
SMP 、 MPP 、 DSM 、 COW 等并行结构渐趋一致 ,DSM 是 SMP 与 MPP的自然结合,MPP与COW的界线逐渐不清，它们最终趋于一致，形成当代并行机的公用结构。其三种不同的共享结构如下图：
2016/12/1
14
shell结构
系统中大量的节点通过高速网络连接，节点通常遵循shell结构(Shell Architecture)，其中一个专门设计定制的电路(叫做shell)，将商品微处理器及其余的节点，包括板级 cache 、局存、 NIC 及磁盘连接起来。在一个节点内可有不止一个处理器。这种Shell结构的优点是当处理器芯片更新换代时，只要改变shell。
2016/12/1
25
全高速缓存存储访问模型COMA
是NUMA的一种特例
Cache-only Memory Access
DIR：目录
2016/12/1
26
全高速缓存存储访问模型COMA
特点：
(1) 各处理器中无存储层次结构，全部高速缓存构成了全局地址空间
(2) 利用分布的高速缓存目录D进行远程高速缓存的访问
2016/12/1
29
非远程存储访问模型NORMA
在一个分布存储的多计算机系统中，如果所有存储器都是私有特点：的，仅能由其处理器所访问，就称为 NORMA 。 (1)所有M 皆为私有
(2)绝大多数NORMA不支持远程 M的访问 (3)在DSM中，NORMA消失
2016/12/1
30
小结
2016/12/1
2016/12/1
20
均匀存储访问模型UMA
Uniform Memory access
特点：
(1) (2) (3) (4)
2016/12/1
物理存储器被所有处理器均匀共享所有处理器访问任何存储字要相同的时间(均匀) 每台处理器可带有高速缓冲cache 外设也可以一定形式共享
21
均匀存储访问模型UMA
2016/12/1
22
非均匀存储访问模型NUMA
Non uniform Memory access
a.
共享本地存储器NUMA
2016/12/1
23
非均匀存储访问模型NUMA
b. 层次式机群模型
全局共享存储器
群内共享存储器
2016/12/1
24
非均匀存储访问模型NUMA
特点：
被共享的存储器在物理上分布在不同位置,所有存储器的集合组成全局地址空间各处理器访问时间不一样的，访问本地存储器或群内共享存储器较快，访问外地存储器或全局共享存储器较慢 (即为非均匀) 每个处理器可以带cache，且外设也可以某种形式共享
Tightly Coupled System
这种系统由于高度共享资源而称为紧耦合系统对称多处理机SMP: Symmetric Multiprocessor 所有处理机都能等同地访问所有I/O设备,能同样地执行
程序(如OS内核,I/O内核,I/O服务程序等) 非对称多处理机: 只有一台或一组处理器 ( 称为主处理器 ) ，它能执行 OS 并能操纵I/O，而其余处理器无I/O能力(称为从处理器)，只在主处理器监控之下执行用户代码。 UMA适用于通用或分时应用。
2016/12/1
18
小结
e.地址空间 MPP ：多地址空间 COW：多地址空间其余：单地址空间 f.M系统 PVP ：集中共享 SMP：集中共享 DSM：分布共享 MPP ：分布共享 COW：分布共享 g.访存模型 PVP、SMP：UMA MPP、COW：NORMA DSM：NUMA
2016/12/1
19
§2.3并行计算机访存模型
从系统访问存储器模式的角度来讨论多处理机，与上面所讨论的模型是并行计算机系统的两个方面。分类：
均匀存储访问模型UMA 非均匀存储访问模型NUMA
全高速缓存存储访问模型COMA
高速缓存一致性非均匀存储访问模型CC-NUMA 非远程存储访问模型NORMA 小结
2016/12/1
Multiprocessor
IBM R50 SGI Power Challenge DEC Alpha服务器8400和曙
光一号使用商品化的微处理器(带有片上或片外的高速缓存)，主要用于商务，如数据库、在线处理事务、数据仓库等对称性：每个处理器可等同地访问 SM 、 I/O 及 OS 服务，有利于开发高并行度共享存储：使系统中的 PE不能太多，总线与交叉开关也难以扩展
31
小结
1. 分布的存储器从编程的观点看可以是共享的，也可以非共享的 2. 共享存储结构多处理机可同时支持共享存储及消息传递编程模型 3. 共享存储的编程模型可同时执行共享存储结构和分布式存储结构
2016/12/1
32
§2.4并行计算机性能模型
粒度概述：粒度是衡量软件进程所含计算量的尺度设R代表程序的执行时间，C代表用于通信的开销，用R/C比值表示每一单位计算的开销，即衡量任务粒度（Task Granularity）大小的尺度。
2016/12/1
27
高速缓存一致性非均匀存储访问
CC-NUMA(Coherent-Cache Nonuniform Memory Access)
将一些SMP机器作为一个单节点而彼此连接起来所形成的较大系统
2016/12/1
28
CC-NUMA
特点：
(1) 绝大多数商用CC-NUMA多处理机系统都使用基于目录的高速缓存的一致性协议 (2) 它保留SMP结构易于编程的优点的同时，也改善了SMP的可扩放性问题 (3) CC-NUMA实际上是一个分布共享存储的DSM多处理机系统 (4)最显著的优点：程序员无需明确地在节点上分配数据，系统的软、硬件会自动地将数据移至它被使用的地方总之，CC-NUMA所发明的一些技术上开拓数据局部性及增强系统可扩放性方面很有效。不少商业应用的大多数据访问都可限制在本地节点内，网络上的主要通信不是传输数据，而是为高速缓存的无效性所用
2016/12/1
2
按通信方式：
多处理机系统——通过共享存储器的共享变量相互通信 (无协议）多计算机系统——通过节点间消息传递实现通信（协议）按耦合度：紧耦合——物理位置紧密(共享存储、宽频带低延迟）松耦合——物理位置分散（分布存储）按控制方式：主从式——一台处理机为主机，运行操作系统，其它为从机。从机通过中断和主机交换信息均衡式——各处理机地位均等
(3) COMA中的高速缓存容量一般都大于2级高速缓存的容量 (4) 使用COMA时，数据开始时可任意分配，因为在运行时它最终被
迁移到要用到它的地方
实例：
瑞典计算机科学研究所的DDM
注意：这里Cache和其它计算机结构的Cache的功能的差异
Kendall Square Research 公司的KSR-І等
2016/12/1
11
工作站机群COW
机群性：是低成本的变形的MPP
COW的重要界限及特征：
a.每个节点都是完整的工作站(不包括监视器、键盘、鼠标等) 有时也称“无头工作站”，节点也可以是一台PC或SMP
b.各节点通过一种低成本的商品网络(如以太网、FDDI和ATM
开关等)互连 c.各节点内总是有本地磁盘，而MPP无