并行计算机体系结构的分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1) MIMD
(2) MIMD可以充分利用商品化微处理器在性能价格
比方面的优势。
3. 根据系统中处理器个数的多少,可把现有的MIMD
机器分为两类
(每一类代表了一种存储器的结构和互连策略)
(1) 集中式共享存储器结构
这类机器有时被称为
动画
SMP机器(Symmetric shared-memory MultiProcessor ) UMA机器(Uniform Memory Access)
(2) 通信是显式的,从而引起编程者和编译程序的
注意,着重处理开销大的通信。
在共享存储器上支持消息传递相对简单 在消息传递的硬件上支持共享存储器就困难得多。 所有对共享存储器的访问均要求操作系统提供地 址转换和存储保护功能,即将存储器访问转换为消
7.1 引
言
7.1.3 并行处理面临的挑战
并行处理面临着两个重要的挑战:
的CPI为1.0(设所有访存均命中Cache),求在没有远程
程序中有限的并行性
相对较高的通信开销
。 系统加速比 =
1
可加速部分比例 ( 1 可加速部分比例) 理论加速比
7.1Hale Waihona Puke Baidu引
言
1. 第一个挑战:有限的并行性 使机器要达到好的加速比十分困难 例7.1 如果想用100个处理器达到80的加速比, 求原计算程序中串行部分所占比例。 解 动画演示
2. 第二个挑战:多处理机中远程访问的延迟较大
在现有的机器中,处理器之间的数据通信 大约需要50~10000个时钟周期。
远程访问一个字的延迟时间
机 器 通信机制 互连网络 处理机数量 典型远程存储
器访问时间
SPARC Center SGI Challenge Cray T3D Convex Exemplar KSR-1 CM-5 Intel Paragon 共享存储器 多层次环 32-256 32-1024 32-2048 2-6μs 10μs 10-30μs 共享存储器 总线 ≤20 ≤36 32-2048 8-64 1μs 1μs 1μs 2μs
第7章 多处理机
7.1 引 言
7.1.1 并行计算机体系结构的分类
1. 按照Flynn分类法,可把计算机分成
单指令流单数据流(SISD) 单指令流多数据流(SIMD) 多指令流单数据流(MISD) 多指令流多数据流(MIMD)
7.1 引
言
2. MIMD已成为通用多处理机体系结构的选择,原因:
作或代替远程处理器进行访问,并发送一个
应答消息将结果返回。
7.1 引
言
同步消息传递 请求处理器发送一个请求后一直要等到应答
结果才继续运行。 异步消息传递 发送方不先经请求就直接把数据送往数据接 受方。
3.通信机制的性能指标(3个)
(1) 通信带宽
理想状态下的通信带宽受限于处理器、存储 器和互连网络的带宽。
(NUMA: Non-Uniform Memory Access)
7.1 引
言
(2) 整个地址空间由多个独立的地址空间构成,它
们在逻辑上也是独立的,远程的处理器不能对 其直接寻址。 每一个处理器-存储器模块实际上是一个单独 的计算机,这种机器也称为多计算机。
7.1 引
言
2. 两种通信模型
共享地址空间的机器 利用Load和Store指令中的地址隐含地进行
数据通讯。
多个地址空间的机器
通过处理器间显式地传递消息完成。
(消息传递机器)
7.1 引
言
消息传递机器根据简单的网络协议,通过传递消息 来请求某些服务或传输数据,从而完成通信。 例如:一个处理器要对远程存储器上的数据进行访问 或操作: (1) 发送消息,请求传递数据或对数据进行操作; 远程进程调用(RPC, Remote Process Call) (2) 目的处理器接收到消息以后,执行相应的操
7.1 引
言
(2) 通信延迟 理想状态下通信延迟应尽可能地小。
通信延迟=发送开销 + 跨越时间 + 传输延迟 +
(3) 通讯延迟的隐藏
如何才能较好地将通信和计算或多次通信之 间重叠起来,以实现通讯延迟的隐藏。
通常的原则:只要可能就隐藏延迟。 通信延迟隐藏是一种提高性能的有效途径,但 它对操作系统和编程者来讲增加了额外的负担。
共享存储器
总线
共享存储器
3维环网 交叉开关+环
共享存储器
消息传递
胖树
消息传递
2维网格
IBM SP-2
消息传递
多级开关
2-512
30-100μs
7.1 引
言
例
一台32个处理器的计算机,对远程存储
器访问时间为2000ns。除了通信以外,假设计算中的
访问均命中局部存储器。当发出一个远程请求时,本 处理器挂起。处理器时钟时间为10ns,如果指令基本
7.1 引
言
4. 不同通信机制的优点
A. 共享存储器通信的主要优点 (1) 与常用的集中式多处理机使用的通信机制兼容。
(2) 易于编程 —— 与传统的编程模式一致
(3) 当通信数据较小时,通信开销较低,带宽利用 较好。 (4) 通过硬件控制的Cache减少了远程通信的频度,
7.1 引
言
B. 消息传递通信机制的主要优点 (1)
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
CPU4
CPU5
CPU6
CPU7
分布共享存储器计算机
7.1 引
言
分布式存储器结构的优点
如果大多数的访问是针对本结点的局部存储器,
则可降低对存储器和互连网络的带宽要求;
局部存储器的访问延迟低。
主要缺点
处理器之间的通信较为复杂,且各处理器之间的 访问延迟较大。 需要高带宽的互连。
CPU0
CPU1
CPU2
CPU3
存储器
I/O
集中共享存储器计算机
7.1 引
言
(2) 分布式存储器结构 每个结点包含:
动画
处理器 存储器 I /O
在许多情况下,分布式存储器结构优于集中式 共享存储器结构
CPU0
CPU1
CPU2
CPU3
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
互 连 网 络
簇:超结点
7.1 引
言
7.1.2
1. 地址空间的组织方案(两种) (1) 物理上分离的多个存储器作为一个逻辑上共享的
存储空间进行编址。
这类机器的结构被称为
分布式共享存储器结构 (DSM: Distributed Shared-Memory)
可缩放共享存储器结构
(SSM: Scalable Shared-Memory) NUMA机器
(2) MIMD可以充分利用商品化微处理器在性能价格
比方面的优势。
3. 根据系统中处理器个数的多少,可把现有的MIMD
机器分为两类
(每一类代表了一种存储器的结构和互连策略)
(1) 集中式共享存储器结构
这类机器有时被称为
动画
SMP机器(Symmetric shared-memory MultiProcessor ) UMA机器(Uniform Memory Access)
(2) 通信是显式的,从而引起编程者和编译程序的
注意,着重处理开销大的通信。
在共享存储器上支持消息传递相对简单 在消息传递的硬件上支持共享存储器就困难得多。 所有对共享存储器的访问均要求操作系统提供地 址转换和存储保护功能,即将存储器访问转换为消
7.1 引
言
7.1.3 并行处理面临的挑战
并行处理面临着两个重要的挑战:
的CPI为1.0(设所有访存均命中Cache),求在没有远程
程序中有限的并行性
相对较高的通信开销
。 系统加速比 =
1
可加速部分比例 ( 1 可加速部分比例) 理论加速比
7.1Hale Waihona Puke Baidu引
言
1. 第一个挑战:有限的并行性 使机器要达到好的加速比十分困难 例7.1 如果想用100个处理器达到80的加速比, 求原计算程序中串行部分所占比例。 解 动画演示
2. 第二个挑战:多处理机中远程访问的延迟较大
在现有的机器中,处理器之间的数据通信 大约需要50~10000个时钟周期。
远程访问一个字的延迟时间
机 器 通信机制 互连网络 处理机数量 典型远程存储
器访问时间
SPARC Center SGI Challenge Cray T3D Convex Exemplar KSR-1 CM-5 Intel Paragon 共享存储器 多层次环 32-256 32-1024 32-2048 2-6μs 10μs 10-30μs 共享存储器 总线 ≤20 ≤36 32-2048 8-64 1μs 1μs 1μs 2μs
第7章 多处理机
7.1 引 言
7.1.1 并行计算机体系结构的分类
1. 按照Flynn分类法,可把计算机分成
单指令流单数据流(SISD) 单指令流多数据流(SIMD) 多指令流单数据流(MISD) 多指令流多数据流(MIMD)
7.1 引
言
2. MIMD已成为通用多处理机体系结构的选择,原因:
作或代替远程处理器进行访问,并发送一个
应答消息将结果返回。
7.1 引
言
同步消息传递 请求处理器发送一个请求后一直要等到应答
结果才继续运行。 异步消息传递 发送方不先经请求就直接把数据送往数据接 受方。
3.通信机制的性能指标(3个)
(1) 通信带宽
理想状态下的通信带宽受限于处理器、存储 器和互连网络的带宽。
(NUMA: Non-Uniform Memory Access)
7.1 引
言
(2) 整个地址空间由多个独立的地址空间构成,它
们在逻辑上也是独立的,远程的处理器不能对 其直接寻址。 每一个处理器-存储器模块实际上是一个单独 的计算机,这种机器也称为多计算机。
7.1 引
言
2. 两种通信模型
共享地址空间的机器 利用Load和Store指令中的地址隐含地进行
数据通讯。
多个地址空间的机器
通过处理器间显式地传递消息完成。
(消息传递机器)
7.1 引
言
消息传递机器根据简单的网络协议,通过传递消息 来请求某些服务或传输数据,从而完成通信。 例如:一个处理器要对远程存储器上的数据进行访问 或操作: (1) 发送消息,请求传递数据或对数据进行操作; 远程进程调用(RPC, Remote Process Call) (2) 目的处理器接收到消息以后,执行相应的操
7.1 引
言
(2) 通信延迟 理想状态下通信延迟应尽可能地小。
通信延迟=发送开销 + 跨越时间 + 传输延迟 +
(3) 通讯延迟的隐藏
如何才能较好地将通信和计算或多次通信之 间重叠起来,以实现通讯延迟的隐藏。
通常的原则:只要可能就隐藏延迟。 通信延迟隐藏是一种提高性能的有效途径,但 它对操作系统和编程者来讲增加了额外的负担。
共享存储器
总线
共享存储器
3维环网 交叉开关+环
共享存储器
消息传递
胖树
消息传递
2维网格
IBM SP-2
消息传递
多级开关
2-512
30-100μs
7.1 引
言
例
一台32个处理器的计算机,对远程存储
器访问时间为2000ns。除了通信以外,假设计算中的
访问均命中局部存储器。当发出一个远程请求时,本 处理器挂起。处理器时钟时间为10ns,如果指令基本
7.1 引
言
4. 不同通信机制的优点
A. 共享存储器通信的主要优点 (1) 与常用的集中式多处理机使用的通信机制兼容。
(2) 易于编程 —— 与传统的编程模式一致
(3) 当通信数据较小时,通信开销较低,带宽利用 较好。 (4) 通过硬件控制的Cache减少了远程通信的频度,
7.1 引
言
B. 消息传递通信机制的主要优点 (1)
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
CPU4
CPU5
CPU6
CPU7
分布共享存储器计算机
7.1 引
言
分布式存储器结构的优点
如果大多数的访问是针对本结点的局部存储器,
则可降低对存储器和互连网络的带宽要求;
局部存储器的访问延迟低。
主要缺点
处理器之间的通信较为复杂,且各处理器之间的 访问延迟较大。 需要高带宽的互连。
CPU0
CPU1
CPU2
CPU3
存储器
I/O
集中共享存储器计算机
7.1 引
言
(2) 分布式存储器结构 每个结点包含:
动画
处理器 存储器 I /O
在许多情况下,分布式存储器结构优于集中式 共享存储器结构
CPU0
CPU1
CPU2
CPU3
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
互 连 网 络
簇:超结点
7.1 引
言
7.1.2
1. 地址空间的组织方案(两种) (1) 物理上分离的多个存储器作为一个逻辑上共享的
存储空间进行编址。
这类机器的结构被称为
分布式共享存储器结构 (DSM: Distributed Shared-Memory)
可缩放共享存储器结构
(SSM: Scalable Shared-Memory) NUMA机器