15_阵列处理机
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前端机 CU PE LM PE LM PE … LM
互连网络 分布式存储器的阵列机
9
分布式存储器的SIMD阵列处理机结构
• 指令送到控制部件进行译码
–如果是标量指令,则直接由标量处理机执行。 –如果是向量指令,则阵列控制部件通过广播总线将它 广播到所有PE并行执行。
• PE通过数据寻径网络互连,数据寻径网络执行PE 间的通信。 • 控制部件通过执行程序来控制数据寻径网络。 • PE在同一个周期执行同一条指令。但是可以用屏 蔽逻辑来决定任何一个PE在给定的指令周期执行 或不执行指令。 • 各种SIMD机器主要差别在于:进行PE之间互相通 信的数据寻径网络各不相同。
5
阵列处理机的特点
1. 阵列机是以单指令流多数据流方式工作的。 2. 利用资源重复(空间因素)而非时间重叠。 3. 阵列机是以某一类算法为背景的专用计算机。这是由于 阵列机中通常都采用简单、规整的互连网络来实现处理 单元间的连接操作,从而限定了它所适用的求解算法类 别。因此,对互连网络设计的研究就成为阵列机研究的 重点之一。 4. 阵列机的研究必须与并行算法的研究密切结合,以使它 的求解算法的适应性更强一些,应用面更广一些。 5. 从处理单元来看,由于结构都相同,因而可将阵列机看 成是一个同构型并行机。但它的控制器实质上是一个标 量处理机,而为了完成I/O操作以及操作系统的管理,尚 需一个前端机,因此实际的阵列机系统是由上述三部分 构成的一个异构型多处理机系统
IN
14
流水线向量处理机并行处理机的区别
• SIMD计算机与流水线向量处理机一样,特别适于高速数值计算。它是 以诸如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背 景而发展起来的。 • 与按多指令流多数据流方式工作的多处理机相比,SIMD计算机具有较 固定的结构,它直接与一定的算法相联系, • SIMD计算机利用大量处理单元对向量所包含的各个分量同时进行运算, 这正是它获得很高处理速度的主要原因。 • SIMD计算机主要依靠增多处理单元的个数,与流水线处理机主要依靠 缩短时钟周期相比,其提高速度的潜力要大得多。 • SIMD计算机机与流水线向量处理机的另一区别是它的互连网络,这是 由多处理单元这一特点所决定的。是SIMD计算机最有特色的一个组成 部分。正是它规定了处理单元的连接模式,决定了SIMD计算机能适应 的算法类别,对整个系统的各项性能指标产生了重要的影响,因此它 成为SIMD计算机结构的研究重点。同时,它也是多处理机的重要组成 部分。 • SIMD计算机还有一个重要特点,这就是,它基本上是一台向量处理专 用计算机。
7
并行处理机分类
并行处理机根据存贮器采用的组成方式不同分成两 种基本构成。
前端机 CU
前端机 CU
PE PE … 互连网络 SM SM … SM PE
PE LM
PE LM
PE … LM
互连网络 分布式存储器的阵列机
共享存储器的阵列机
8
(1)分布存贮的并行处理机
• 各个处理单元设有局部存贮 器存放分布式数据,只能被 本处理单元直接访问。此种 局部存贮器称为处理单元存 贮器(Processing Element Memory)PEM。在控制部件 CU内设有一个用来存放程序 的主存贮器CUM。整个系统 在CU统一控制下运行系统程 序的用户程序。执行主存中 的用户程序指令播送给各个 PE,控制PE并行地执行。
10
11
(2)共享存贮的并行处理机结构
• 共享的多体并行存储器SM通过 互连网络与各处理单元PE相连 • 存储模块的数目等于或略大于 处理单元的数目 • 为了减少存储器访问冲突,存 储器模块之间必须合理分配数 据 • 互连网络是共享存储器SM和处 理单元PE之间的必由之路 • 每个PE没有局部存储器 • 互连网IN受CU控制
4
• SIMD并行处理机的操作模型可用五元组表示: SIMD=(N,C,I,M,R)
–N为机器的处理单元数。 –C为控制部件CU直接执行的指令集,即标量指令和程序 流控制指令。 –I为由CU广播至所有PE进行并行执行的指令集,包括: 算术运算、逻辑运算、数据寻径、屏蔽以及其他由每 个PE对它的数据所执行的局部操作。 –M为屏蔽方案集,其中每种屏蔽将所有PE划分成允许操 作和禁止操作两种工作模式。 –R是数据寻径功能集,说明互连网络中PE间通信所需要 的各种设置模式。
3
并行处理机的操作模型和特点
一、并行处理机的基本结构
–运行方式:用一条指令同时对许多运算单元中 的数据进行运算。 –基本构成:控制器CU、处理单元PE、存储器模 块、互连网络IN –控制单元:执行串行指令,并行指令广播到各 个PE;PE以同步方式执行指令; –互连网络:集中式控制。 –阵列并行指令:向量运算,数据寻径,屏蔽操 作
计 算 机 系 统 结 构
第十五讲 并行处理机
1
• 并行处理机的操作模型和特点 • 并行处理机的基本结构 • 并行处理机的并行算法
2
SIMD并行处理机(阵列处理机)
并行处理机的基本构成
• 并行处理机是通过重复设置大量相同的处理单元PE (Processing Element),将它们按一定的方式互连,在 统一的控制部件CU(Control Unit)控制下,对各自分配 来的不同数据并行地完成同一条指令所规定的操作。它依 靠操作一级的并行处理来提高系统的速度。 • 并行处理机的控制部件中进行的是单指令流,因此与高性 能单处理机一样,指令基本上是串行执行,最多加上使用 指令重叠或流水线的方式工作。 • 指令重叠是将指令分成两类,把只适合串行处理的控制和 标量类指令留给控制部件自己执行,而把适合于并行处理 的向量类指令播送到所有处理单元,控制让处于活跃的那 些处理单元去并行执行。因此这是源自文库种标量控制类指令和 向量类指令的重叠执行。
6
阵列处理机的基本思想:
① 可以通过各种途径把它们转化成为对数组或向 量的处理,利用多个处理单元对向量或数组所 包含的各个分量同时进行运算, 从而易于获得 很高的处理速度。 ② 专用,应用算法相关 ③ 适合于规则数据运算,不适合于条件分支程序
阵列处理机发展缓慢的原因
① 指令广播瓶颈 ② 数据归约相关性 ③ 存储器速度难以提高
前端机 CU PE PE PE
… 互连网络
SM SM … SM
共享存储器的阵列机
12
13
分布式结构和集中式结构特点比较
特点 分布式结构 集中式结构
由每个PE自带局部 各个PE集中式共享m 存储模块 存储器LM 个共享存储模块SM
单向,PEPE 双向,PEM 处理单元之间的数 存储器与处理单元 据传送 之间的必由之路
互连网络 分布式存储器的阵列机
9
分布式存储器的SIMD阵列处理机结构
• 指令送到控制部件进行译码
–如果是标量指令,则直接由标量处理机执行。 –如果是向量指令,则阵列控制部件通过广播总线将它 广播到所有PE并行执行。
• PE通过数据寻径网络互连,数据寻径网络执行PE 间的通信。 • 控制部件通过执行程序来控制数据寻径网络。 • PE在同一个周期执行同一条指令。但是可以用屏 蔽逻辑来决定任何一个PE在给定的指令周期执行 或不执行指令。 • 各种SIMD机器主要差别在于:进行PE之间互相通 信的数据寻径网络各不相同。
5
阵列处理机的特点
1. 阵列机是以单指令流多数据流方式工作的。 2. 利用资源重复(空间因素)而非时间重叠。 3. 阵列机是以某一类算法为背景的专用计算机。这是由于 阵列机中通常都采用简单、规整的互连网络来实现处理 单元间的连接操作,从而限定了它所适用的求解算法类 别。因此,对互连网络设计的研究就成为阵列机研究的 重点之一。 4. 阵列机的研究必须与并行算法的研究密切结合,以使它 的求解算法的适应性更强一些,应用面更广一些。 5. 从处理单元来看,由于结构都相同,因而可将阵列机看 成是一个同构型并行机。但它的控制器实质上是一个标 量处理机,而为了完成I/O操作以及操作系统的管理,尚 需一个前端机,因此实际的阵列机系统是由上述三部分 构成的一个异构型多处理机系统
IN
14
流水线向量处理机并行处理机的区别
• SIMD计算机与流水线向量处理机一样,特别适于高速数值计算。它是 以诸如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背 景而发展起来的。 • 与按多指令流多数据流方式工作的多处理机相比,SIMD计算机具有较 固定的结构,它直接与一定的算法相联系, • SIMD计算机利用大量处理单元对向量所包含的各个分量同时进行运算, 这正是它获得很高处理速度的主要原因。 • SIMD计算机主要依靠增多处理单元的个数,与流水线处理机主要依靠 缩短时钟周期相比,其提高速度的潜力要大得多。 • SIMD计算机机与流水线向量处理机的另一区别是它的互连网络,这是 由多处理单元这一特点所决定的。是SIMD计算机最有特色的一个组成 部分。正是它规定了处理单元的连接模式,决定了SIMD计算机能适应 的算法类别,对整个系统的各项性能指标产生了重要的影响,因此它 成为SIMD计算机结构的研究重点。同时,它也是多处理机的重要组成 部分。 • SIMD计算机还有一个重要特点,这就是,它基本上是一台向量处理专 用计算机。
7
并行处理机分类
并行处理机根据存贮器采用的组成方式不同分成两 种基本构成。
前端机 CU
前端机 CU
PE PE … 互连网络 SM SM … SM PE
PE LM
PE LM
PE … LM
互连网络 分布式存储器的阵列机
共享存储器的阵列机
8
(1)分布存贮的并行处理机
• 各个处理单元设有局部存贮 器存放分布式数据,只能被 本处理单元直接访问。此种 局部存贮器称为处理单元存 贮器(Processing Element Memory)PEM。在控制部件 CU内设有一个用来存放程序 的主存贮器CUM。整个系统 在CU统一控制下运行系统程 序的用户程序。执行主存中 的用户程序指令播送给各个 PE,控制PE并行地执行。
10
11
(2)共享存贮的并行处理机结构
• 共享的多体并行存储器SM通过 互连网络与各处理单元PE相连 • 存储模块的数目等于或略大于 处理单元的数目 • 为了减少存储器访问冲突,存 储器模块之间必须合理分配数 据 • 互连网络是共享存储器SM和处 理单元PE之间的必由之路 • 每个PE没有局部存储器 • 互连网IN受CU控制
4
• SIMD并行处理机的操作模型可用五元组表示: SIMD=(N,C,I,M,R)
–N为机器的处理单元数。 –C为控制部件CU直接执行的指令集,即标量指令和程序 流控制指令。 –I为由CU广播至所有PE进行并行执行的指令集,包括: 算术运算、逻辑运算、数据寻径、屏蔽以及其他由每 个PE对它的数据所执行的局部操作。 –M为屏蔽方案集,其中每种屏蔽将所有PE划分成允许操 作和禁止操作两种工作模式。 –R是数据寻径功能集,说明互连网络中PE间通信所需要 的各种设置模式。
3
并行处理机的操作模型和特点
一、并行处理机的基本结构
–运行方式:用一条指令同时对许多运算单元中 的数据进行运算。 –基本构成:控制器CU、处理单元PE、存储器模 块、互连网络IN –控制单元:执行串行指令,并行指令广播到各 个PE;PE以同步方式执行指令; –互连网络:集中式控制。 –阵列并行指令:向量运算,数据寻径,屏蔽操 作
计 算 机 系 统 结 构
第十五讲 并行处理机
1
• 并行处理机的操作模型和特点 • 并行处理机的基本结构 • 并行处理机的并行算法
2
SIMD并行处理机(阵列处理机)
并行处理机的基本构成
• 并行处理机是通过重复设置大量相同的处理单元PE (Processing Element),将它们按一定的方式互连,在 统一的控制部件CU(Control Unit)控制下,对各自分配 来的不同数据并行地完成同一条指令所规定的操作。它依 靠操作一级的并行处理来提高系统的速度。 • 并行处理机的控制部件中进行的是单指令流,因此与高性 能单处理机一样,指令基本上是串行执行,最多加上使用 指令重叠或流水线的方式工作。 • 指令重叠是将指令分成两类,把只适合串行处理的控制和 标量类指令留给控制部件自己执行,而把适合于并行处理 的向量类指令播送到所有处理单元,控制让处于活跃的那 些处理单元去并行执行。因此这是源自文库种标量控制类指令和 向量类指令的重叠执行。
6
阵列处理机的基本思想:
① 可以通过各种途径把它们转化成为对数组或向 量的处理,利用多个处理单元对向量或数组所 包含的各个分量同时进行运算, 从而易于获得 很高的处理速度。 ② 专用,应用算法相关 ③ 适合于规则数据运算,不适合于条件分支程序
阵列处理机发展缓慢的原因
① 指令广播瓶颈 ② 数据归约相关性 ③ 存储器速度难以提高
前端机 CU PE PE PE
… 互连网络
SM SM … SM
共享存储器的阵列机
12
13
分布式结构和集中式结构特点比较
特点 分布式结构 集中式结构
由每个PE自带局部 各个PE集中式共享m 存储模块 存储器LM 个共享存储模块SM
单向,PEPE 双向,PEM 处理单元之间的数 存储器与处理单元 据传送 之间的必由之路