14并行算法设计(PCAM)

合集下载

《MPI并行程序设计》课件

有高度可移植性、灵活性和可扩展性，允许开发者在多个计算节点上进行并行计算。
MPI的应用领域
MPI广泛应用于科学计算、大规模数据处理和模拟等领域，提供了高性能和高效率的并行计算能力。
MPI基础
1
MPI的环境设置
在开始编写MPI程序之前，需要进行环境设置，包括MPI库的安装和配置，以及节点之间的网络连接。
据的能力。
总结
1 MPI的优点和缺点
MPI具有高性能、可扩展性和灵活性的优点，但也面临数据通信和负载平衡等挑战。
2 MPI的未来发展趋势
MPI在超级计算和并行计算领域仍发展空间，如更高的并行度、更低的通信延迟和更丰富的功能。
3 怎样提高MPI的性能
优化MPI程序的性能可以从算法、通信模式、负载均衡和并行度等方面入手，提高并行计算的效率。
宏定义和预处理
MPI提供了丰富的宏定义和预处理功能，可以简化并行程序的编写和调试过程，提高开发效率。
实战
1
MPI编程实战
通过实际编写MPI程序，学习如何利用
并行排序实战
2
MPI接口进行并行计算，解决实际问题，如矩阵运算、图算法等。
利用MPI的并行计算能力，实现高效的排序算法，提高排序性能和处理大规模数
2
MPI的通信模型
MPI采用消息传递的通信模型，通过发送和接收消息来实现不同进程之间的数据交换和同步。
3
点对点通信
MPI支持点对点通信操作，包括发送、接收和非阻塞通信，用于实现进程之间的直接消息传递。
4
集合通信
MPI提供了集合通信操作，如广播、栅栏、归约等，用于在整个进程组中进行数据的统一和协同计算。
MPI高级
MPI的拓扑结构

并行计算-中国科学技术大学

PCAM设计方法学
设计并行算法的四个阶段
划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping)
划分：分解成小的任务，开拓并发性；通讯：确定诸任务间的数据交换，监测划分的合理性；组合：依据任务的局部性，组合成更大的任务；映射：将每个任务分配到处理器上，提高算法的性能。
并行计算
中国科学技术大学计算机科学与技术系国家高性能计算中心(合肥)
2004年12月
第二篇并行算法的设计
第四章并行算法的设计基础第五章并行算法的一般设计方法第六章并行算法的基本设计技术第七章并行算法的一般设计过程
第七章并行算法的一般设计过程
7.1 PCAM设计方法学 7.2 划分 7.3 通讯 7.4 组合 7.5 映射 7.6 小结
通过增加任务的粒度和重复计算，可以减少通讯成本；
保持映射和扩展的灵活性，降低软件工程成本；
国家高性能计算中心（合肥）
2019/5/31
31
7.4 组合
7.4.1 方法描述 7.4.2 表面-容积效应 7.4.3 重复计算 7.4.4 组合判据
功能分解是一种更深层次的分解。
国家高性能计算中心（合肥）
2019/5/31
14
功能分解
示例1：搜索树
示例2：气候模型
国家高性能计算中心（合肥）
2019/5/31
15
7.2 划分
7.2.1 方法描述 7.2.2 域分解 7.2.3 功能分解 7.2.4 划分判据
划分判据
划分是否具有灵活性？划分是否避免了冗余计算和存储？划分任务尺寸是否大致相当？任务数与问题尺寸是否成比例？功能分解是一种更深层次的分解，是否

并行图计算模型与算法设计

并行图计算模型与算法设计并行计算是一种用于处理大规模数据和复杂计算任务的计算模型。

在过去的几十年里，随着计算机硬件技术的不断发展，单个计算节点的计算能力已经开始达到瓶颈，因此人们开始寻找新的计算模型来提高计算效率。

并行图计算模型就是这样一种新的计算模型，它利用多个计算节点同时进行计算，从而实现了高效的并行计算。

一、并行图计算模型的基本原理并行图计算模型是基于图的并行计算模型。

其中，图是由节点和边组成的数据结构，节点表示计算任务，边表示计算任务之间的依赖关系。

在并行图计算模型中，任务被分布到多个计算节点上，每个计算节点处理自己负责的子图。

节点之间可以通过边来进行通信和数据交换。

并行图计算模型的基本原理是将整个计算过程划分为多个小的计算任务，并将这些任务分配给多个计算节点进行并行计算。

每个计算节点相互独立地计算自己负责的任务，并根据任务之间的依赖关系进行数据交换和通信。

通过并行计算，可以充分利用计算节点的计算能力，加速计算过程。

二、并行图计算模型的优势与传统的串行计算模型相比，并行图计算模型具有以下几个优势：1. 高效利用计算资源：通过将计算任务分配给多个计算节点并行执行，可以充分利用计算资源，提高计算效率。

2. 处理大规模数据：并行图计算模型适用于处理大规模数据和复杂计算任务的场景。

通过将计算任务分布到多个计算节点上，并行计算可以有效地减少计算时间。

3. 灵活的任务调度：并行图计算模型采用分布式任务调度的方式，可以根据计算节点的可用性和负载情况，动态调整任务的分配和调度，进一步提高计算效率。

4. 高容错性：由于并行图计算模型中的计算节点相互独立地执行任务，当某个节点出现故障时，可以通过将任务重新分配给其他节点来实现容错。

这使得并行图计算模型具有很高的容错性。

三、并行图计算算法设计并行图计算算法设计是指设计并行图计算模型中的具体算法，以实现高效的并行计算。

在设计并行图计算算法时，需要考虑以下几个方面：1. 任务划分：将整个计算任务划分为多个小的计算任务，并将这些任务分配给不同的计算节点进行并行计算。

并行计算的算法与应用

并行计算模型与框架
了解和使用适合特定应用和算法的并行计算模型和框架，如MapReduce、MPI、OpenMP等，可以简化并行算法的设计和实现过程，并提高算法的性能和可移植性。
03
典型并行算法剖析
矩阵运算并行化方法
矩阵乘法并行化
通过分块矩阵乘法，将大矩阵拆分成小矩阵，在多个处理单元上并行计算，最后合并结果。
将多阶段决策问题拆分成多个子问题，每个子问题可以在多个处理单元上并行求解，最后合并子问题的解得到原问题的解。
04
并行计算在科学计算领域的应用
天气预报模型中的并行计算
01
数据并行处理
对大规模气象数据进行并行处理，提高数据预处理和模型输
入的效率。
02
模型并行计算
将天气预报模型拆分为多个子任务，在多个计算节点上并行
执行，加速模型运算过程。
03
结果并行输出
对模型运算结果进行并行处理和输出，提高天气预报的准确
性和时效性。
油藏数值模拟中的并行技术
网格划分与并行计算
01
对油藏数值模拟的网格进行划分，将计算任务分配到多个计算
节点上并行执行，提高计算效率。
并行求解器设计
02
针对油藏数值模拟中的线性方程组，设计高效的并行求解器，
并行化策略
采用区域分解法或功能分解法将计算域划分为多个子域，在每个子域上进行独立的CFD 模拟，并通过并行通信实现数据交换和同步。
应用案例
在航空航天、汽车工程、能源等领域中，并行CFD技术可用于模拟飞行器气动性能、汽车空气动力学、风力发电场流场等复杂流动现象。
电磁场仿真中的并行FDTD方法
01
并行FDTD方法的基本原理

14并行算法设计(PCAM)讲解

增加重复计算有可能减少通讯量；
二维网格计算周围有四个，所以计算量是1，通信量是4. 看四个小点周围有八个，计算量是4，通信量是8.
重复计算
重复计算也叫冗余计算，有时可用冗余计
算来减少通信。
减少通讯量，但增加了计算量，应保持恰当的平衡；
重复计算的目标应减少算法的总运算时间；
图中：三个处理器，有六个任务，怎样安排来执行的问题。
PCAM设计方法学
设计并行算法的四个阶段
划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping)
划分：分解成小的任务，开拓并发性；通讯：确定诸任务间的数据交换，监测划分的合理性；组合：依据任务的局部性，组合成更大的任务；映射：将每个任务分配到处理器上，提高算法的性能。
方法描述
每个任务要映射到具体的处理器，定位到运行机器上；
任务数大于处理器数时，存在负载平衡和任务调度问题；
映射的目标：减少算法的执行时间
并发的任务不同的处理器任务之间存在高通讯的同一处理器
映射实际是一种权衡，属于NP完全问题
NP就是Non-deterministic Polynomial的问题，也即是多项式复杂程度的非确定性问题。
同时也要保持灵活性和减少软件成本, 降低软件工程代价
重复计算
示例：二叉树上N个处理器求N个数的全和，要求每个处理器均保持全和。
s
s
b
b
s
s
s
s
b
b
b
b
0
1
2
3
0
1

利用并行计算技术加速图像处理算法

利用并行计算技术加速图像处理算法随着人工智能技术的发展，图像处理技术在越来越多领域得到了广泛应用。

然而，随着图像数据的不断增加，传统的串行算法已经不能很好地满足实时性和精度的要求。

因此，如何提高图像处理算法的效率成为了一个亟待解决的问题。

在这个问题上，利用并行计算技术加速图像处理算法是一个非常可行的解决方案。

1. 并行计算技术的特点并行计算技术是指利用多个处理器或计算机来同时处理一个任务的技术。

与传统的串行计算相比，它具有如下特点：（1）计算速度快：并行计算可以同时处理多个任务，因此计算速度比串行计算快得多。

（2）可扩展性好：随着计算机处理器数量的增加，可以通过加入更多的处理器来提高计算速度。

（3）适用性广：并行计算适用于各种类型的计算任务，包括图像处理、语音识别、机器学习等。

2. 利用并行计算技术加速图像处理算法（1）并行算法设计并行算法设计的关键在于任务的拆分和处理方式的设计。

图像处理算法涉及到的计算任务往往比较复杂，因此需要将任务拆分成多个小任务，并将每个小任务分配给不同的处理器来同时处理。

同时，需要考虑不同处理器之间的通信，保证数据传输的及时和准确。

（2）并行处理架构设计并行处理架构设计包括硬件和软件两个方面。

硬件方面，需要设计高效的并行处理器，提高并行计算的速度。

软件方面，需要设计高效的并行处理框架，保证处理器之间的协同和任务调度的及时。

（3）并行计算优化技术并行计算优化技术包括负载均衡、并行排序、并行计算模式等。

其中，负载均衡是指在多个处理器上分配任务时，保证每个处理器的工作量尽可能均衡；并行排序是指利用多个处理器同时排序多个数据流；并行计算模式是指设计特定的数据结构和计算模式，以最大化地利用并行计算的优势。

3. 应用实例（1）医学影像处理在医学影像处理中，常常需要对大量的图像数据进行分析、分类和诊断。

利用并行计算技术可以快速地完成这些任务，提高诊断速度和准确度。

（2）视频处理在视频处理中，常常需要对视频流进行处理和压缩。

并行算法的设计基础

end for
表示其间的 n (i=1 to n) 次语句序列的执行可以并行完成
2. for all 语句 for all Pi where 0 i k-1 do : :
end for 2019/11/20
表示 k 个处理器同时执行其间的语句序列 9
3. 并行算法的复杂性度量
令 f(n) 和 g(n) 是定义在自然数集合N 上的两个函数，
2019/11/20
4
定义3：同步算法(synchronized algorithm):是指算法的诸进程的执行必须相互等待的一类并行算法。 SIMD算法是同步算法中的一种特例。
定义4：异步算法(asynchronous algorithm):是指算法的诸进程的执行不必相互等待的一类并行算法。
定义5：分布并行算法(distributed algorithm)：将同一任务分解为若干个子任务，使之分布在由通信链路连接的多个节点上协同完成运算的算法。
定义12：一个并行算法的期望时间复杂性 ( expected time-complexity ) ：对于所有输入规模为 n 的问题，在给定的计算模型之下求解问题所需的时间的平均值。
2019/11/20
15
定义13：一个并行算法最坏情况下的空间复杂性 (worst-case space-complexity) ：对于所有输入规模为 n 的问题，在给定的并行计算模型之下求解问题所需的内存空间的最大值。
22
我们把 A 按列分为 p 个 n*r 的小矩阵A1 , A2 ,… , Ap 把 X 按行分为 p 个 r*1 的小向量X1 , X2 ,… , Xp
A = A1 A2 …
Ap
(n*r) (n*r)

并行算法

并行性条件数据相关性：流相关、反相关、输出相关相关性判别条件输入集合I1,I2, 输出集合U1,U2,
I1Λ U2=Φ ; I2Λ U1=Φ ; U1Λ U2=Φ ;
数据相关
• P1： A＝B+C • P2: D＝A×B
其中变量A是导致P1和P2发生数据相关的原因。
P1和P2不能并行执行
1)可并发执行的任务放在不同的处理器上，增强并行度 2)需要频繁通信的任务置于同一处理器上以提高局部性。 3)采用域分解技术，当分解算法复杂，工作量不一样，通信也许是非结构化的，此时需要负载平衡算法。 4)基于功能分解，会产生一些由短暂任务组成的计算，它们在开始与结束时需与别的任务协调，此时可采用任务调度算法。
假设 F(x)是D R n到D的一个映射, 要求解x* , 使得x*是方程F(x)=0的一个解.记F(x)的Jacobi矩阵为G(x)=F' ( x ), 对给定的初始值x (0) , 则Newton迭代法如下 : x (k+1) x (k) G 1 ( x (k) ) F ( x (k) ), k 0,..........
并行算法简介
解决方案中心高性能计算部姜金良
目录
并行算法基本概念并行算法分类并行化方法并行算法的一般设计方法并行算法的基本设计技术并行算法的一般设计过程并行程序设计方法并行编程模型
并行算法的概念
• 并行算法：是一些可同时执行的诸进程的集合，这些进程相互作
用和协调动作从而达到给定问题的求解。
• 同步和异步并行算法
同步并行算法需要在某一时刻需要与其它的处理机进行数据交换,然后才能继续进行.异步并行算法进行数据交换不需要严格确定在某一时刻,每个处理机按照预定的计算任务持续执行,但通常需要在一定的时候必须进行一次数据交换,以保证算法的正确性例:

并行算法——精选推荐

并行算法两个密切相关的并行计算模型。

电路模型z 通过电路连接的逻辑门（与/或/非）、 z 重要的措施– 门的数目– 深度（同步电路的时钟周期）PRAM 模型z P 个处理器，每个都有一个随机存取储存器和局部寄存器 z 全部与一个大的共享随机访问存储器M 相连 z 处理器之间的通信通过共享存储器实现 z 同步并行步骤z 不现实，但是启发了“并行度”的概念虽然用的相同的模型，却让我们关注不同的事情电路模型z 通过电路连接的逻辑门（与/或/非）、 z 重要的措施– 门的数目– 深度（同步电路的时钟周期） z 有界和无界输入/输出z ()AC k 和：对于规模为n 的问题深度为的无界和有界的输入 ()NC k (log )k O n +z 用完全二叉树 ()()(1)AC k NC k AC k ⊂⊂z()()NC NC k AC k ==∪∪附加z 考虑到加入和，以及进位i a i b 1i c −产生输出和下一个进位 i s i c z 行波进位：个门，时间复杂度 ()O n ()O n z 先行进位：个门，时间复杂度 ()O n ()O n z 为进行与先准备i c z 给出和，以及可能出现的三种情况：i a i b i c – 如果，不论为何值i a b =i i 1i c −i c a =：一般设11c =或删除 0i c =– 否则， 1i i c c −=– 依次写下,,i x k p g =z 考虑到3的“乘法表”，如右图，在同一行的二加法效果，只有当两个都是传递数时，对传递数才前位进位3×z 现在令0y k =，1i i y y x −=×i z通过引入右图来约束“乘法表”z 结论：i y k =意味着，0i c =i y g =意味着1i c =，i y p =不会发生 z 于是问题简化为在并行中计算所有的 i y 并行前缀z 建立一个完全二叉树 z 在每个节点有两个门 z 向上传递所有孩子的结果z 向下传递所有i x 前面的最左端孩子的结果 z 可以为任何联合的功能服务PRAM 模型各种冲突解决办法（CREW，EREW，CRCW）z ()(1)CRCW k EREW k ⊂+z()NC CRCW k =∪PRAM 仿真了电路，反过来也成立z 因此NC 很好的定义了在实践中的不同z EWER 需要时间来找到最大值（信息理论下界） log n z 用个处理器，CRCW 可以通过恒定的时间找到最大值2n – 每对对比– 如果某个目标丢失，则在这一项上面写“不是最大” – 检查所有项–如果某项最大（没有被覆盖），在结果中写下他的值z 用n 个处理器在时间内(log log )O n – 假设还有k 项留下 – 把n k 项分成2kn块– 每个的最大二次时间：22()()k n n k n = – 递推：2()1()T k T k=+– 2(2)1(2)ii T n T n =+ – 因此共有lo 项g n 并行前缀 z 用n 个处理器EREW 表排序z 下一组指针 ()n x z ；()(())d x d n x +=()(())n x n n x =z 经过归纳，在路径上的值的总和不变0.1高效工作算法主要观点：z 我们已经看到的并行算法是有点“低效”的z 比串行算法做的总工作更多（处理器个数乘以时间） z 理想的解决办法：把总的工作按比例分配最佳的串行工作 z 高效工作算法z 通过一个完全有效的方法，一些处理器（甚至一个）也能“模拟”出许多处理器 z 一旦你写了一个针对许多处理器的算法，并行模拟“缓存漠视算法”。

并行算法的设计与分析》ppt课件

1
m n1
1mD a O M (x E m /2,n/2)D ,O M (E m /2,n/2) 其他
普通地有 D O M ( m E ,n ) 1 D O M ( m E /2 , n /2 )
当m=n=2t时，不D 难O M推(E n,得n)long1
Parallel Algorithms 9 / Ch3
假设一个n输入的网络能排序一切2n种0,1序列，那么它也能排序n个数的恣意序列。
Parallel Algorithms 5 / Ch3
3.1.2 奇偶归并网络
1. 网络构造有序序列A:a1,a2,…,an
B: b1,b2,…,bm 归并思想： A, B中奇数号元素进入奇
归并器； A, B中偶数号元素进入偶
MIN MAX
Parallel Algorithms 11 / Ch3
3.1.3 双调归并网络
3. 例:双调序列(8,6,4,2,0,1,3,5)的(4,4)双调归并网络
8
80
6
08
MIN归并
0
1
4
61
2
16
0
43
1
34
2 3
MAX归并
4
5
3 5
22 55
6 8
两两比较 2个(2,2)双调归并网络
Knuth ==>
CO M(E n,n)O (nlon)g
当mCO M =En(n=,2n)t时2，CO 不ME(难n/推2,n得/2)n122CO ME(n/2,n/2)(n1)12
2CO ME(n/2,n/2)(n1)2(2CO ME(n/4,n/4)n/21)(n1)
22CO ME(n/22,n/22)(n2)(n1)...

《并行计算》教学大纲

教学大纲课程名称：并行计算预修课程：计算机体系结构、数据结构等开课学期：总学时：60学分：大纲撰写人：陈国良、徐云、孙广中一、教学目标及要求本课程是为计算机科学与技术专业的高年级本科生开设的专业课，也可作为面向科学和工程计算的非计算机专业的高年级本科生和研究生的选修课程。

通过此课程的学习，可使学生了解和掌握计算机学科中以及大型科学与工程问题中的基本的并行与分布计算方法及其软硬基础。

二、教学重点和难点重点：并行计算机系统结构、模型、互连方式和性能评价，并行计算模型，并行算法设计策略、基本设计技术和PCAM设计方法学，典型的并行数值算法，并行程序设计等。

难点：并行结构模型和计算模型的理解，并行算法基本设计技术，并行数值算法等。

三、教材及主要参考书教材陈国良，《并行计算：结构，算法，编程》，北京：高教出版社，1999(初版)，2003(修订版)主要参考书：1.陈国良等，《并行计算机体系结构》，北京：高教出版社，20022.陈国良，《并行算法的设计与分析》，北京：高教出版社，2002 (修订版)3.陈国良等，《并行算法实践》，北京：高教出版社，20034.Barry Wilkinson等，陆鑫达等译，《并行程序设计》，北京：机械工业出版社，2001四、课程章节及学时分配第一部分并行计算硬件基础1.并行计算机系统结构和模型4课时(1)并行计算机系统结构(PVP、SMP、MPP、DSM、COW)。

(2)并行计算机存储器访问模型(UMA、NUMA、COMA、NORMA)。

2.并行计算机系统互连4课时(1)系统互连技术(节点内的互连：总线，开关，Buses，switches；节点间的互连：SAN；系统间的互连：LAN，MAN，WAN）。

(2)互连网络拓扑(静态互连网络：LA，RC，MC，TC，HC，CCC；动态互连网络：Buses，crossbar，MINI)。

标准网络（FDDI、ATM、SCI）。

3.并行系统性能评价4课时(1)加速比（Amdahl负载固定加速定律；Gustafson负载可扩放加速定律；Sun和Ni存储受限加速定律）。

并行计算模型

·一般而言，分布存储的MIMD模型的可编程性比较差，但在BSP模型中，如果计算和通信可以合适的平衡（例如g=1），则它在可编程方面呈现出主要的优点；
·在BSP模型上，曾直接实现了一些重要的算法（如矩阵乘、并行前序运算、FFT和排序等），他们均避免了自动存储管理的额外开销；
· BSP模型可以有效的在超立方体络和光交叉开关互连技术上实现，显示出，该模型与特定的技术实现无关，只要路由器有一定的通信吞吐率；
LogP模型的特点
(1)抓住了络与处理机之间的性能瓶颈。g反映了通信带宽，单位时间内最多有L/g个消息能进行处理机间传送。
(2)处理机之间异步工作，并通过处理机间的消息传送来完成同步。 (3)对多线程技术有一定反映。每个物理处理机可以模拟多个虚拟处理机(VP)，当某个VP有访问请求时，计算不会终止，但VP的个数受限于通信带宽和上下文交换的开销。VP受限于络容量，至多有L/g个VP。 (4)消息延迟不确定，但延迟不大于L。消息经历的等待时间是不可预测的，但在没有阻塞的情况下，最大不超过L。 (5)LogP模型鼓励编程人员采用一些好的策略，如作业分配，计算与通信重叠以及平衡的通信模式等。 (6)可以预估算法的实际运行时间。
LogP模型的不足之处
（1）对络中的通信模式描述的不够深入。如重发消息可能占满带宽、中间路由器缓存饱和等未加描述。（2）LogP模型主要适用于消息传递算法设计，对于共享存储模式，则简单地认为远地读操作相当于两次消息传递，未考虑流水线预取技术、Cache引起的数据不一致性以及Cache命中率对计算的影响。（3）未考虑多线程技术的上下文开销。（4）LogP模型假设用点对点消息路由器进行通信，这增加了编程者考虑路由器上相关通信操作的负担。
PRAM模型的缺点

PC7--PCAM并行程序设计方法学

2020/12/7
20
7.3 通讯
7.3.1 方法描述 7.3.2 四种通讯模式 7.3.3 通讯判据
现代密码学理论与实践之五
2020/12/7
21
四种通讯模式
▪ 局部/全局通讯 ▪ 结构化/非结构化通讯 ▪ 静态/动态通讯 ▪ 同步/异步通讯
现代密码学理论与实践之五
2020/12/7
22
局部通讯
▪ 能分为两类划分:
▪ 域分解(domain decomposition) ▪ 功能分解(functional decomposition)
现代密码学理论与实践之五
2020/12/7
8
7.2 划分
7.2.1 方法描述 7.2.2 域分解 7.2.3 功能分解 7.2.4 划分判据
现代密码学理论与实践之五
▪ 示例2：气候模型
现代密码学理论与实践之五
2020/12/7
15
7.2 划分
7.2.1 方法描述 7.2.2 域分解 7.2.3 功能分解 7.2.4 划分判据
现代密码学理论与实践之五
2020/12/7
16
划分判据
▪ 划分是否具有灵活性? ▪ 划分是否避免了冗余计算和存储？ ▪ 划分任务尺寸是否大致相当？ ▪ 任务数与问题尺寸是否成比例？ ▪ 功能分解是一种更深层次的分解,是否合
7.2 划分
7.2.1 方法描述 7.2.2 域分解 7.2.3 功能分解 7.2.4 划分判据
现代密码学理论与实践之五
2020/12/7
7
划分方法描述
▪ 充分开拓算法的并发性和可扩放性;
▪ 先进行数据分解(称域分解),再进行计算功能的分解(称功能分解)；

14并行算法设计(PCAM)

并发的任务不同的处理器任务之间存在高通讯的同一处理器

映射实际是一种权衡，属于NP完全问题
负载平衡算法
静态的：事先确定；概率的：随机确定；动态的：执行期间动态负载；基于域分解的：

递归对剖局部算法概率方法循环映射

任务调度算法

任务放在集中的或分散的任务池中，使用任务调度算法将池中的任务分配给特定的处理器。下面是两种常用调度模式：经理/雇员模式
域分解
划分的对象是数据，可以是算法的输入数据、中间处理数据和输出数据；将数据分解成大致相等的小数据片；划分时考虑数据上的相应操作；如果一个任务需要别的任务中的数据，则会产生任务间的通讯；

域分解

示例：三维网格的域分解，各格点上计算都是重复的。下图是三种分解方法：
1‐D
2‐D

局部通讯

通讯限制在一个邻域内
全局通讯
通讯非局部的例如：

All to All Master-Worker

5
1 3 7 2
结构化通讯
每个任务的通讯模式是相同的；下面是否存在一个相同通讯模式？

通讯判据
所有任务是否执行大致相当的通讯? 是否尽可能的局部通讯？通讯操作是否能并行执行? 同步任务的计算能否并行执行？
4 Σ
7
4 Σ
7
0 Σ
1
0 Σ
1
2 Σ
3
2 Σ
3
4 Σ
5
4 Σ
5
6 Σ
7
6 Σ
7
0
1
2
3

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

评注

借用已有算法求解新问题

方法描述

找出求解问题和某个已解决问题之间的联系；改造或利用已知算法应用到求解问题上。这是一项创造性的工作；使用矩阵乘法算法求解所有点对间最短路径是一个很好的范例。

评注

PCAM设计过程
问题划分
通信
组合
映射

划分：是对任务并行的求解，把任务大任务都打散，打稀碎，分解成小任务。通信：原来是一个整体，不需要通信，分解后各个部分之间存在交流了，即通信。通信属于额外成本，越少越好。组合：任务组合形成更大的任务，目的是减少通信。映射：并行程序的实现过程。图中：三个处理器，有六个任务，怎样安排来执行的问题。
任务的合并使得算法更有效将任务分配到处理器，并保持负载平衡

通讯

组合

映射

权重轮询调度算法(Weighted Round-Robin Scheduling) 上面所讲的轮询调度算法并没有考虑每台服务器的处理能力，在实际情况中，可能并不是这种情况。由于每台服务器的配置、安装的业务应用等不同，其处理能力会不一样。所以，我们根据服务器的不同处理能力，给每个服务器分配不同的权值，使其能够接受相应权值数的服务请求。

由于权重轮询调度算法考虑到了不同服务器的处理能力，所以这种均衡算法能确保高性能的服务器得到更多的使用率，避免低性能的服务器负载过重。所以，在实际应用中比较常见。总结轮询调度算法以及权重轮询调度算法的特点是实现起来比较简洁，并且实用。目前几乎所有的负载均衡设备均提供这种功能。

PCAM设计方法学
划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping) 小结

映射(实现的考虑，系统来做)
方法描述负载平衡算法任务调度算法映射判据

方法描述
每个任务要映射到具体的处理器，定位到运行机器上；任务数大于处理器数时，存在负载平衡和任务调度问题；映射的目标：减少算法的执行时间
并行计算 Parallel Computing
并行算法设计（ PCAM ）
主讲人：张琪
并行算法的一般设计方法
串行算法的直接并行化从问题描述开始设计并行算法借用已有算法求解新问题

从问题描述开始设计并行算法

方法描述

从问题本身描述出发，不考虑相应的串行算法，设计一个全新的并行算法。挖掘问题的固有特性与并行的关系；设计全新的并行算法是一个挑战性和创造性的工作；
最短的期望的延迟（Shortest Expected Delay Scheduling SED）

举例来说 ABC三台机器分别权重123 ，连接数也分别是 123。那么如果使用WLC算法的话一个新请求进入时它可能会分给ABC中的任意一个。使用 sed算法后会进行这样一个运算 A:(1+1)/1 B:(1+2)/2 C:(1+3)/3 根据运算结果，把连接交给C 。
任务调度算法

任务放在集中的或分散的任务池中，使用任务调度算法将池中的任务分配给特定的处理器。下面是两种常用调度模式：经理/雇员模式
w w w w 员工 w p p p ppp 经理 w

非集中模式
w
Min-Min算法

ห้องสมุดไป่ตู้

Min-Min算法是一种实现起来很简单的算法，算法的执行时间也很快。算法的思想是首先映射小的任务，并且映射到执行快的机器上。执行过程为：计算要参与映射事件的每个任务在各个机器上的期望完成时间，找到每个任务的最早完成时间及其对应的机器；从中找出具有最小最早完成时间的任务，将该任务指派给获得它的机器；指派完成后，更新机器期望就绪时间并将已完成映射的任务从任务集合中删除。重复上面的过程，直到所有的任务都被映射完。
映射判据
采用集中式负载平衡方案，是否存在通讯瓶颈？采用动态负载平衡方案，调度策略的成本如何？

PCAM设计方法学
划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping) 小结

小结

划分

域分解和功能分解任务间的数据交换

前两个步骤是在算法层次上的，本部分和并行机、体系结构有关。增加粒度：在划分阶段,致力于尽可能多的任务以增大并行执行的机会.但定义大量的细粒度任务不一定产生一个有效的算法,因为这有可能增加通信的代价和任务创建的代价

表面-容积效应

通讯量与任务子集的表面成正比，计算量与任务子集的体积成正比；通信量与其附近的任务数有关，计数量与任务本身大小有关。

增加重复计算有可能减少通讯量；

二维网格计算周围有四个，所以计算量是1，通信量是4. 看四个小点周围有八个，计算量是4，通信量是8.
重复计算

重复计算也叫冗余计算，有时可用冗余计
算来减少通信。
减少通讯量，但增加了计算量，应保持恰当的平衡；重复计算的目标应减少算法的总运算时间；同时也要保持灵活性和减少软件成本, 降低软件工程代价
0 Σ
3
0 Σ
3
0 Σ
3
0 Σ
3
4 Σ
7
4 Σ
7
4 Σ
7
4 Σ
7
0 Σ
1
0 Σ
1
2 Σ
3
2 Σ
3
4 Σ
5
4 Σ
5
6 Σ
7
6 Σ
7
0
1
2
3
4
5
6
7
蝶式结构求和，使用了重复计算，共需logN步
组合判据
增加粒度是否减少了通讯成本？重复计算是否已权衡了其得益？是否保持了灵活性和可扩放性？组合的任务数是否与问题尺寸成比例? 是否保持了类似的计算和通讯？有没有减少并行执行的机会？
PCAM设计方法学

设计并行算法的四个阶段

划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping)

划分：分解成小的任务，开拓并发性；通讯：确定诸任务间的数据交换，监测划分的合理性；组合：依据任务的局部性，组合成更大的任务；映射：将每个任务分配到处理器上，提高算法的性能。

并发的任务不同的处理器任务之间存在高通讯的同一处理器

映射实际是一种权衡，属于NP完全问题

NP就是Non-deterministic Polynomial的问题，也即是多项式复杂程度的非确定性问题。 NP完全问题是不确定性图灵机在P时间内能解决的问题，是世界七大数学难题之一。NP完全问题是NP类中“最难”的问题，也就是说它们是最可能不属于P类的。这是因为任何NP 中的问题可以在多项式时间内变换成为任何特定NP完全问题的一个特例。属于计算机科学理论的一个基本概念。

该算法形式化描述如下： M为所有未调度的任务的集合（1）判断任务集合M是否为空，不为空，执行（2）；否则跳到步骤（7）。（2）对于任务集中的所有任务，求出它们映射到所有可用机器上的最早完成时间cij。（3）根据（2）的结果，找出最早完成时间最小的那个任务mi和所对应的机器hj。（4）将任务mi映射到机器hj上；并将该任务从任务集合中删除。（5）更新机器hj的期望就绪时间rj。（6）更新其它任务在机器hj上的最早完成时间；回到（1）。（7）此次映射事件结束，退出程序。

重复计算

示例：二叉树上N个处理器求N个数的全和，要求每个处理器均保持全和。
s s b b
0
b b
1
s
0
s
1
s
2
s
3
b
2
b
3
二叉树上求和，共需2logN步
重复计算

示例：二叉树上N个处理器求N个数的全和，要求每个处理器均保持全和。
0 Σ 7 0 Σ 7 0 Σ 7 0 Σ 7 0 Σ 7 0 Σ 7 0 Σ 7 0 Σ 7
PCAM设计方法学
划分(Partitioning) 通讯(Communication) 组合(Agglomeration) 映射(Mapping) 小结

组合
方法描述表面-容积效应重复计算组合判据

方法描述
组合是由抽象到具体的过程，是将组合的任务能在一类并行机上有效的执行；合并小尺寸任务，减少任务数。如果任务数恰好等于处理器数，则也完成了映射过程；如果任务数大于处理器数，需要进行映射；通过增加任务的粒度和重复计算，可以减少通讯成本；保持映射和扩展的灵活性，降低软件工程成本；（例如：开发和维护成本）
负载平衡算法
静态的：事先确定；概率的：随机确定；动态的：执行期间动态负载；基于域分解的：

递归对剖局部算法概率方法循环映射

静态调度——轮询算法

随着各站点访问量和信息交流量的迅猛增长，如何使用最小的资源成本，提高网络的效率，最优化用户体验，已经成为网络管理人员不得不面对的挑战。技术上讲，就是ICP--网际网路内容提供者 (internet content provider)行业面临的网络资源有效利用问题，也就是如何进行对网络的访问分流，以便能够快速响应用户反应，即：负载均衡。