第2章多机系统结构1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/12/1
3
一般多处理机多为紧耦合系统、主从结构、
专用机 多计算机多为松耦合系统,均衡结构、通 用机 但现在多计算机系统已经发展为紧耦合
2016/12/1
4
也可以从四个方面讨论并行计算机模型
并行计算机结构模型 并行计算机访存模型 并行计算机性能模型
并行计算机Cache一致性
2016/12/1
2016/12/1
9
分布共享存储多处理机DSM
Distributed Shared Memory
(网络接口电路NIC)
Stanford DASH, Cray T3D SGI/Cray , Origin 2000 高速缓存目录DIR用于支持分布高速缓存的一致性 与SMP的主要差异:DSM在物理上有分布在各节点的LM从而形成
20178121均匀存储访问模型uma外设也可以一定形式共享uniformmemoryaccessuniformmemoryaccess20178122均匀存储访问模型uma所有处理机都能等同地访问所有io设备能同样地执行程序如os内核io内核io服务程序等只有一台或一组处理器称为主处理器它能执行os并能操纵io而其余处理器无io能力称为从处理器只在主处理器监控之下执行用户代码
了一个共享的存储器,对用户而言,形成了一个单地址的编址空间 比MPP编程容易
2016/12/1
10
工作站机群COW
Cluster of Workstation
如:Berkeley NOW, Alpha FARM, Digital Tracluster 等 LD——本地磁盘 MB——存储总线 IOB——I/O总线
d.节点内的网络接口是松散耦合到I/O总线上的,而MPP的网
络接口是连到处理机接点的存储总线上的,可谓是紧耦合 式的
2016/12/1
12
工作站机群COW
e.一个完整的OS系统驻留在每个节点之中,而MPP中通常只
是一个微核,COW的OS是工作站的UNIX,加上一个附加的 软件层以支持单一系统映象、并行度、通信及负载平衡等 f.如今,MPP和COW之间的界线越来越模糊,如:IBM SP2虽 视为MPP,但它却有机群结构 g.机群有性能价格比的优势,在发展可扩放并行机方面呼声
2016/12/1
15
公用结构
将无共享结构图(a)中节点内的磁盘(D)移出来构成共享磁盘的结构图(b)
2016/12/1
16
公用结构
把图(b)中主存(M)移出来就变成了共享存储结构图(c)
2016/12/1
17
小结
a.结 构 类 型:皆为MIMD b.处理器类型:PVP为专用定制,其余为商用 c.互连网络: PVP:定制交叉开关 SMP:总线交叉开关 MPP:定制网络 DSM:定制网络 COW:商用网络(以太或ATM) d.通信机制: PVP、SMP、DSM:共享变量 MPP、COW:消息传递
2016/12/1
8
大规模并行处理机MPP
Massively Parallel Processing
Intel Paragon, IBM SP2,Intel TFLOPS
曙光-1000超大型计算机系统 特性: a.处理节点采用商品微处理器 b.有物理上的分布式存储器 c.采用高通信带宽及低延迟的互连网络(专门定制) d.能扩放至成百上千个处理器 e. 是一种异步的 MIMD 机器,程序有多个进程构成,每个都有其私有空 间,由进程传递消息 主要应用:科学计算、工程模拟、信号处理等以计算为主的领域
2016/12/1
34
细粒度并行性:把一个程序尽可能地分解
成能并行执行的小任务。在极端情况下, 一个小任务只完成一个操作。通常,一个 小任务包含几条指令。
2016/12/1
第二章 并行计算机模型
§2.1 概述
以MIMD模式运行的计算机系统 包含多个处理机或计算机的单一计 算机系统 通过互连网将各处理机、计算机或 存储单元相连接
2016/12/1
1
基本特性: 单处理机的能力和处理机阵列大小的乘积 决定并行计算机系统的能力 互连网络决定解决问题的类型和系统的适 应能力 控制方式分为集中式和分布式
2016/12/1
33
在粗粒度(Coarsegrain)情况下,R/C
比值比较大,每个单位计算只需要少量的 通信。 在细粒度(Finegrain)情况下,R/C比值 比较小,每个单位计算有很大的通信量和 其它的开销。 细粒度并行性需要许多台处理机,而粗粒 度并行性只需较少台数的处理机。
5
§2.2并行计算机结构模型
现代计算机结构分类:
并行向量处理机PVP 对称多处理机SMP 大规模并行处理机MPP 分布共享存储多处理机DSM 工作站集群COW
通用结构
2016/12/1
6
并行向量处理机PVP
Parallel Vector Processor,典型的并行向量处理机的结构 1.性能 向量处理机 2.瓶颈 3.扩展 4.改进 共享存储器 5.可行性 从5 Cray C-90 ,Cray T-90 , 个方面对结构进行分析 NEC SX-4 和我国的银河-І等都是PVP, 这样的系统包含少量的高性能的向量处理器,每个至少具有 1Gflops的处理能力,系统中使用了高带宽的交叉开关网络,存 储器可达每秒兆字节的速度。这样的机器通常无cache,使用大 量的向量寄存器及指令缓冲器。
很高
2016/12/1
13
公用结构
SMP 、 MPP 、 DSM 、 COW 等并 行 结构 渐趋 一 致 ,DSM 是 SMP 与 MPP的自然结合,MPP与COW的界线逐渐不清,它们最终趋于一致, 形成当代并行机的公用结构。其三种不同的共享结构如下图:
2016/12/1
14
shell结构
系统中大量的节点通过高速网络连接,节点通 常遵循shell结构(Shell Architecture),其中 一个专门设计定制的电路(叫做shell),将商品 微处理器及其余的节点,包括板级 cache 、局 存、 NIC 及磁盘连接起来。在一个节点内可有 不止一个处理器。这种Shell结构的优点是当处 理器芯片更新换代时,只要改变shell。
2016/12/1
25
全高速缓存存储访问模型COMA
是NUMA的一种特例
Cache-only Memory Access
DIR:目录
2016/12/1
26
全高速缓存存储访问模型COMA
特点:
(1) 各处理器中无存储层次结构,全部高速缓存构成了全局地址空间
(2) 利用分布的高速缓存目录D进行远程高速缓存的访问
2016/12/1
29
非远程存储访问模型NORMA
在一个分布存储的多计算机系统中,如果所有存储器都是私有 特点: 的,仅能由其处理器所访问,就称为 NORMA 。 (1)所有M 皆为私有
(2)绝大多数NORMA不支持远 程 M的访问 (3)在DSM中,NORMA消失
2016/12/1
30
小结
2016/12/1
2016/12/1
20
均匀存储访问模型UMA
Uniform Memory access
特点:
(1) (2) (3) (4)
2016/12/1
物理存储器被所有处理器均匀共享 所有处理器访问任何存储字要相同的时间(均匀) 每台处理器可带有高速缓冲cache 外设也可以一定形式共享
21
均匀存储访问模型UMA
2016/12/1
22
非均匀存储访问模型NUMA
Non uniform Memory access
a.
共享本地存储器NUMA
2016/12/1
23
非均匀存储访问模型NUMA
b. 层次式机群模型
全局共享 存储器
群内共享 存储器
2016/12/1
24
非均匀存储访问模型NUMA
特点:
被共享的存储器在物理上分布在不同位置,所有存储器的 集合组成全局地址空间 各处理器访问时间不一样的,访问本地存储器或群内共 享存储器较快,访问外地存储器或全局共享存储器较慢 (即为非均匀) 每个处理器可以带cache,且外设也可以某种形式共享
Tightly Coupled System
这种系统由于高度共享资源而称为紧耦合系统 对称多处理机SMP: Symmetric Multiprocessor 所有处理机都能等同地访问所有I/O设备,能同样地执行
程序(如OS内核,I/O内核,I/O服务程序等) 非对称多处理机: 只有一台或一组处理器 ( 称为主处理器 ) ,它能执行 OS 并能操纵I/O,而其余处理器无I/O能力(称为从处理器), 只在主处理器监控之下执行用户代码。 UMA适用于通用或分时应用。
2016/12/1
18
小结
e.地址空间 MPP :多地址空间 COW:多地址空间 其 余:单地址空间 f.M系统 PVP :集中共享 SMP:集中共享 DSM:分布共享 MPP :分布共享 COW:分布共享 g.访存模型 PVP、SMP:UMA MPP、COW:NORMA DSM:NUMA
2016/12/1
19
§2.3并行计算机访存模型
从系统访问存储器模式的角度来讨论多处理机,与上面所 讨论的模型是并行计算机系统的两个方面。 分类:
均匀存储访问模型UMA 非均匀存储访问模型NUMA
全高速缓存存储访问模型COMA
高速缓存一致性非均匀存储访问模型CC-NUMA 非远程存储访问模型NORMA 小结
2016/12/1
Multiprocessor
IBM R50 SGI Power Challenge DEC Alpha服务器8400和 曙
光一号 使用商品化的微处理器(带有片上或片外的高速缓存),主要用 于商务,如数据库、在线处理事务、数据仓库等 对称性:每个处理器可等同地访问 SM 、 I/O 及 OS 服务,有利 于开发高并行度 共享存储:使系统中的 PE不能太多,总线与交叉开关也难以 扩展
31
小结
1. 分布的存储器从编程的观点看可以是共享的,也 可以非共享的 2. 共享存储结构多处理机可同时支持共享存储及消 息传递编程模型 3. 共享存储的编程模型可同时执行共享存储结构和 分布式存储结构
2016/12/1
32
§2.4并行计算机性能模型
粒度概述: 粒度是衡量软件进程所含计算量的尺度 设R代表程序的执行时间,C代表用于通信 的开销,用R/C比值表示每一单位计算的 开销,即衡量任务粒度(Task Granularity)大小的尺度。
2016/12/1
27
高速缓存一致性非均匀存储访问
CC-NUMA(Coherent-Cache Nonuniform Memory Access)
将一些SMP机器作为一个单节点而彼此连接起来所形成的较大系统
2016/12/1
28
CC-NUMA
特点:
(1) 绝大多数商用CC-NUMA多处理机系统都使用基于目录的 高速缓存的一致性协议 (2) 它保留SMP结构易于编程的优点的同时,也改善了SMP的 可扩放性问题 (3) CC-NUMA实际上是一个分布共享存储的DSM多处理机系 统 (4)最显著的优点:程序员无需明确地在节点上分配数据,系 统的软、硬件会自动地将数据移至它被使用的地方 总之,CC-NUMA所发明的一些技术上开拓数据局部性及增强 系统可扩放性方面很有效。 不少商业应用的大多数据访问都可限制在本地节点内,网络 上的主要通信不是传输数据,而是为高速缓存的无效性所用
2016/12/1
2
按通信方式:
多处理机系统——通过共享存储器的共享变量相互通信 (无协议) 多计算机系统——通过节点间消息传递实现通信(协议) 按耦合度: 紧耦合——物理位置紧密(共享存储、宽频带低延迟) 松耦合——物理位置分散(分布存储) 按控制方式: 主从式——一台处理机为主机,运行操作系统,其它为从 机。从机通过中断和主机交换信息 均衡式——各处理机地位均等
(3) COMA中的高速缓存容量一般都大于2级高速缓存的容量 (4) 使用COMA时,数据开始时可任意分配,因为在运行时它最终被
迁移到要用到它的地方
实例:
瑞典计算机科学研究所的DDM
注意:这里Cache和其它计 算机结构的Cache的功能的 差异
Kendall Square Research 公司的KSR-І等
2016/12/1
11
工作站机群COW
机群性:是低成本的变形的MPP
COW的重要界限及特征:
a.每个节点都是完整的工作站(不包括监视器、键盘、鼠标等) 有时也称“无头工作站”,节点也可以是一台PC或SMP
b.各节点通过一种低成本的商品网络(如以太网、FDDI和ATM
开关 等)互连 c.各节点内总是有本地磁盘,而MPP无
3
一般多处理机多为紧耦合系统、主从结构、
专用机 多计算机多为松耦合系统,均衡结构、通 用机 但现在多计算机系统已经发展为紧耦合
2016/12/1
4
也可以从四个方面讨论并行计算机模型
并行计算机结构模型 并行计算机访存模型 并行计算机性能模型
并行计算机Cache一致性
2016/12/1
2016/12/1
9
分布共享存储多处理机DSM
Distributed Shared Memory
(网络接口电路NIC)
Stanford DASH, Cray T3D SGI/Cray , Origin 2000 高速缓存目录DIR用于支持分布高速缓存的一致性 与SMP的主要差异:DSM在物理上有分布在各节点的LM从而形成
20178121均匀存储访问模型uma外设也可以一定形式共享uniformmemoryaccessuniformmemoryaccess20178122均匀存储访问模型uma所有处理机都能等同地访问所有io设备能同样地执行程序如os内核io内核io服务程序等只有一台或一组处理器称为主处理器它能执行os并能操纵io而其余处理器无io能力称为从处理器只在主处理器监控之下执行用户代码
了一个共享的存储器,对用户而言,形成了一个单地址的编址空间 比MPP编程容易
2016/12/1
10
工作站机群COW
Cluster of Workstation
如:Berkeley NOW, Alpha FARM, Digital Tracluster 等 LD——本地磁盘 MB——存储总线 IOB——I/O总线
d.节点内的网络接口是松散耦合到I/O总线上的,而MPP的网
络接口是连到处理机接点的存储总线上的,可谓是紧耦合 式的
2016/12/1
12
工作站机群COW
e.一个完整的OS系统驻留在每个节点之中,而MPP中通常只
是一个微核,COW的OS是工作站的UNIX,加上一个附加的 软件层以支持单一系统映象、并行度、通信及负载平衡等 f.如今,MPP和COW之间的界线越来越模糊,如:IBM SP2虽 视为MPP,但它却有机群结构 g.机群有性能价格比的优势,在发展可扩放并行机方面呼声
2016/12/1
15
公用结构
将无共享结构图(a)中节点内的磁盘(D)移出来构成共享磁盘的结构图(b)
2016/12/1
16
公用结构
把图(b)中主存(M)移出来就变成了共享存储结构图(c)
2016/12/1
17
小结
a.结 构 类 型:皆为MIMD b.处理器类型:PVP为专用定制,其余为商用 c.互连网络: PVP:定制交叉开关 SMP:总线交叉开关 MPP:定制网络 DSM:定制网络 COW:商用网络(以太或ATM) d.通信机制: PVP、SMP、DSM:共享变量 MPP、COW:消息传递
2016/12/1
8
大规模并行处理机MPP
Massively Parallel Processing
Intel Paragon, IBM SP2,Intel TFLOPS
曙光-1000超大型计算机系统 特性: a.处理节点采用商品微处理器 b.有物理上的分布式存储器 c.采用高通信带宽及低延迟的互连网络(专门定制) d.能扩放至成百上千个处理器 e. 是一种异步的 MIMD 机器,程序有多个进程构成,每个都有其私有空 间,由进程传递消息 主要应用:科学计算、工程模拟、信号处理等以计算为主的领域
2016/12/1
34
细粒度并行性:把一个程序尽可能地分解
成能并行执行的小任务。在极端情况下, 一个小任务只完成一个操作。通常,一个 小任务包含几条指令。
2016/12/1
第二章 并行计算机模型
§2.1 概述
以MIMD模式运行的计算机系统 包含多个处理机或计算机的单一计 算机系统 通过互连网将各处理机、计算机或 存储单元相连接
2016/12/1
1
基本特性: 单处理机的能力和处理机阵列大小的乘积 决定并行计算机系统的能力 互连网络决定解决问题的类型和系统的适 应能力 控制方式分为集中式和分布式
2016/12/1
33
在粗粒度(Coarsegrain)情况下,R/C
比值比较大,每个单位计算只需要少量的 通信。 在细粒度(Finegrain)情况下,R/C比值 比较小,每个单位计算有很大的通信量和 其它的开销。 细粒度并行性需要许多台处理机,而粗粒 度并行性只需较少台数的处理机。
5
§2.2并行计算机结构模型
现代计算机结构分类:
并行向量处理机PVP 对称多处理机SMP 大规模并行处理机MPP 分布共享存储多处理机DSM 工作站集群COW
通用结构
2016/12/1
6
并行向量处理机PVP
Parallel Vector Processor,典型的并行向量处理机的结构 1.性能 向量处理机 2.瓶颈 3.扩展 4.改进 共享存储器 5.可行性 从5 Cray C-90 ,Cray T-90 , 个方面对结构进行分析 NEC SX-4 和我国的银河-І等都是PVP, 这样的系统包含少量的高性能的向量处理器,每个至少具有 1Gflops的处理能力,系统中使用了高带宽的交叉开关网络,存 储器可达每秒兆字节的速度。这样的机器通常无cache,使用大 量的向量寄存器及指令缓冲器。
很高
2016/12/1
13
公用结构
SMP 、 MPP 、 DSM 、 COW 等并 行 结构 渐趋 一 致 ,DSM 是 SMP 与 MPP的自然结合,MPP与COW的界线逐渐不清,它们最终趋于一致, 形成当代并行机的公用结构。其三种不同的共享结构如下图:
2016/12/1
14
shell结构
系统中大量的节点通过高速网络连接,节点通 常遵循shell结构(Shell Architecture),其中 一个专门设计定制的电路(叫做shell),将商品 微处理器及其余的节点,包括板级 cache 、局 存、 NIC 及磁盘连接起来。在一个节点内可有 不止一个处理器。这种Shell结构的优点是当处 理器芯片更新换代时,只要改变shell。
2016/12/1
25
全高速缓存存储访问模型COMA
是NUMA的一种特例
Cache-only Memory Access
DIR:目录
2016/12/1
26
全高速缓存存储访问模型COMA
特点:
(1) 各处理器中无存储层次结构,全部高速缓存构成了全局地址空间
(2) 利用分布的高速缓存目录D进行远程高速缓存的访问
2016/12/1
29
非远程存储访问模型NORMA
在一个分布存储的多计算机系统中,如果所有存储器都是私有 特点: 的,仅能由其处理器所访问,就称为 NORMA 。 (1)所有M 皆为私有
(2)绝大多数NORMA不支持远 程 M的访问 (3)在DSM中,NORMA消失
2016/12/1
30
小结
2016/12/1
2016/12/1
20
均匀存储访问模型UMA
Uniform Memory access
特点:
(1) (2) (3) (4)
2016/12/1
物理存储器被所有处理器均匀共享 所有处理器访问任何存储字要相同的时间(均匀) 每台处理器可带有高速缓冲cache 外设也可以一定形式共享
21
均匀存储访问模型UMA
2016/12/1
22
非均匀存储访问模型NUMA
Non uniform Memory access
a.
共享本地存储器NUMA
2016/12/1
23
非均匀存储访问模型NUMA
b. 层次式机群模型
全局共享 存储器
群内共享 存储器
2016/12/1
24
非均匀存储访问模型NUMA
特点:
被共享的存储器在物理上分布在不同位置,所有存储器的 集合组成全局地址空间 各处理器访问时间不一样的,访问本地存储器或群内共 享存储器较快,访问外地存储器或全局共享存储器较慢 (即为非均匀) 每个处理器可以带cache,且外设也可以某种形式共享
Tightly Coupled System
这种系统由于高度共享资源而称为紧耦合系统 对称多处理机SMP: Symmetric Multiprocessor 所有处理机都能等同地访问所有I/O设备,能同样地执行
程序(如OS内核,I/O内核,I/O服务程序等) 非对称多处理机: 只有一台或一组处理器 ( 称为主处理器 ) ,它能执行 OS 并能操纵I/O,而其余处理器无I/O能力(称为从处理器), 只在主处理器监控之下执行用户代码。 UMA适用于通用或分时应用。
2016/12/1
18
小结
e.地址空间 MPP :多地址空间 COW:多地址空间 其 余:单地址空间 f.M系统 PVP :集中共享 SMP:集中共享 DSM:分布共享 MPP :分布共享 COW:分布共享 g.访存模型 PVP、SMP:UMA MPP、COW:NORMA DSM:NUMA
2016/12/1
19
§2.3并行计算机访存模型
从系统访问存储器模式的角度来讨论多处理机,与上面所 讨论的模型是并行计算机系统的两个方面。 分类:
均匀存储访问模型UMA 非均匀存储访问模型NUMA
全高速缓存存储访问模型COMA
高速缓存一致性非均匀存储访问模型CC-NUMA 非远程存储访问模型NORMA 小结
2016/12/1
Multiprocessor
IBM R50 SGI Power Challenge DEC Alpha服务器8400和 曙
光一号 使用商品化的微处理器(带有片上或片外的高速缓存),主要用 于商务,如数据库、在线处理事务、数据仓库等 对称性:每个处理器可等同地访问 SM 、 I/O 及 OS 服务,有利 于开发高并行度 共享存储:使系统中的 PE不能太多,总线与交叉开关也难以 扩展
31
小结
1. 分布的存储器从编程的观点看可以是共享的,也 可以非共享的 2. 共享存储结构多处理机可同时支持共享存储及消 息传递编程模型 3. 共享存储的编程模型可同时执行共享存储结构和 分布式存储结构
2016/12/1
32
§2.4并行计算机性能模型
粒度概述: 粒度是衡量软件进程所含计算量的尺度 设R代表程序的执行时间,C代表用于通信 的开销,用R/C比值表示每一单位计算的 开销,即衡量任务粒度(Task Granularity)大小的尺度。
2016/12/1
27
高速缓存一致性非均匀存储访问
CC-NUMA(Coherent-Cache Nonuniform Memory Access)
将一些SMP机器作为一个单节点而彼此连接起来所形成的较大系统
2016/12/1
28
CC-NUMA
特点:
(1) 绝大多数商用CC-NUMA多处理机系统都使用基于目录的 高速缓存的一致性协议 (2) 它保留SMP结构易于编程的优点的同时,也改善了SMP的 可扩放性问题 (3) CC-NUMA实际上是一个分布共享存储的DSM多处理机系 统 (4)最显著的优点:程序员无需明确地在节点上分配数据,系 统的软、硬件会自动地将数据移至它被使用的地方 总之,CC-NUMA所发明的一些技术上开拓数据局部性及增强 系统可扩放性方面很有效。 不少商业应用的大多数据访问都可限制在本地节点内,网络 上的主要通信不是传输数据,而是为高速缓存的无效性所用
2016/12/1
2
按通信方式:
多处理机系统——通过共享存储器的共享变量相互通信 (无协议) 多计算机系统——通过节点间消息传递实现通信(协议) 按耦合度: 紧耦合——物理位置紧密(共享存储、宽频带低延迟) 松耦合——物理位置分散(分布存储) 按控制方式: 主从式——一台处理机为主机,运行操作系统,其它为从 机。从机通过中断和主机交换信息 均衡式——各处理机地位均等
(3) COMA中的高速缓存容量一般都大于2级高速缓存的容量 (4) 使用COMA时,数据开始时可任意分配,因为在运行时它最终被
迁移到要用到它的地方
实例:
瑞典计算机科学研究所的DDM
注意:这里Cache和其它计 算机结构的Cache的功能的 差异
Kendall Square Research 公司的KSR-І等
2016/12/1
11
工作站机群COW
机群性:是低成本的变形的MPP
COW的重要界限及特征:
a.每个节点都是完整的工作站(不包括监视器、键盘、鼠标等) 有时也称“无头工作站”,节点也可以是一台PC或SMP
b.各节点通过一种低成本的商品网络(如以太网、FDDI和ATM
开关 等)互连 c.各节点内总是有本地磁盘,而MPP无