第六章并行算法的基本设计技术

合集下载

并行算法综述

并行算法综述摘要：本文主要对并行算法的概念、设计等进行综述。

首先概要的介绍有关并行算法的相关概念，接着详细的介绍并行算法的设计策略、设计方法等，最后对并行算法的前景做简单的分析讨论，并做总结。

关键词：并行算法；算法设计；设计策略；设计方法中图分类号：tp393随着计算机时代的到来，计算机的应用和开发主要延伸到社会的各个领域，无论是国家的经济科技还是生活教育等，都能看到计算机的身影。

而高性能计算机的研究和开发更能直接体现出一个国家的经济科技水平，同时由于信息化国防建设也使得高性能计算机成为国防安全的宠儿。

世界各国都在努力争夺高性能计算机的战略制高点，这也充分说明高性能计算机对于一个国家科技实力的重要性。

计算机的发展迅速，从最初的电子管到现在大规模继承电路技术的应用，计算机的运算速度更快，功能也更加强大。

当然，其关键因素就是并行算法，并行算法直接决定着计算机性能的高低，同时并行算法的发展程度也相当明显的显示出国家计算机科技水平的发达程度，是国家综合国力的一个体现。

1 并行算法1.1 国内外研究现状并行算法研究的高峰期在70、80年代。

这一时期，涌现除了很多优秀的非数值并行算法，它们在整个并行算法研究历史上占据着非常辉煌的一页。

90年代中期以后，并行算法的研究渐渐面向实际，内容也有所扩展。

近年来，并行算法的研究更是趋于实际应用中。

比如：一种基于局部小型分布式存储架构的大规模fock矩阵建设的新的并行算法：rt并行算法；基于共享内存架构的节能性能权衡分析并行算法；在多核心cpu与gpu中基于块三角矩阵求解线性系统的并行算法；同构新的并行划分方法和巨人矩阵转置并行算法，等等。

图像匹配的并行算法；面向异构体系结构的粒子输运并行算法；海量数据拟合并行算法；基于gpu的高性能并行算法；遥感数字影像中提取植被指数的并行算法；fermi架构下超声成像组织运动可视化并行算法；分布式水文模型的并行计算；声纳图像对比度增强的并行算法；大规模稀疏矩阵特征问题求解的并行算法；分布动载荷识别的并行算法，等等。

并行计算概述课件

I/O
SCSI 磁盘
桥
系统 I
节点 2
节点 N
SAN(e.g.Myrinet)
I/O总线,系统总线
接口
LAN(e.g.以太网,FDDI)
系统 II
国家高性能计算中心（合肥）
2019/11/17
16
网络性能指标
节点度（Node Degree）：射入或射出一个节点的边数。在单向网络中，入射和出射边之和称为节点度。
CPU
本地外围设备 (SCSI总线)
IOC
存储器板存储器单元
本地总线
高速缓存
IF
存储器总线
IF
MC
系统总线
I/O板
IOP
IF
数据总线
缓冲
IF
(底板上)
通信板
IF
CC
数据总线
缓冲
IF
磁盘和磁带
打印机
国家高性能计算部中件心（合肥）或绘图仪
2019/11/17
网络
(以太网等)
26
动态互连网络（2）
交叉开关（Crossbar）：
N
2
1
N 1
2
（双
2
N / 2向）
4
2( N 1)
N
4
N 1
2N
4
2 N / 2
2N
3 2log N 1
1
非
N 1
是
N
非
2(N N )
非
2N
是
2N
非
N 1
星形
2
N
N 1
超立方
N 2n
n
n
非
N / 2

并行算法

并行性条件数据相关性：流相关、反相关、输出相关相关性判别条件输入集合I1,I2, 输出集合U1,U2,
I1Λ U2=Φ ; I2Λ U1=Φ ; U1Λ U2=Φ ;
数据相关
• P1： A＝B+C • P2: D＝A×B
其中变量A是导致P1和P2发生数据相关的原因。
P1和P2不能并行执行
1)可并发执行的任务放在不同的处理器上，增强并行度 2)需要频繁通信的任务置于同一处理器上以提高局部性。 3)采用域分解技术，当分解算法复杂，工作量不一样，通信也许是非结构化的，此时需要负载平衡算法。 4)基于功能分解，会产生一些由短暂任务组成的计算，它们在开始与结束时需与别的任务协调，此时可采用任务调度算法。
假设 F(x)是D R n到D的一个映射, 要求解x* , 使得x*是方程F(x)=0的一个解.记F(x)的Jacobi矩阵为G(x)=F' ( x ), 对给定的初始值x (0) , 则Newton迭代法如下 : x (k+1) x (k) G 1 ( x (k) ) F ( x (k) ), k 0,..........
并行算法简介
解决方案中心高性能计算部姜金良
目录
并行算法基本概念并行算法分类并行化方法并行算法的一般设计方法并行算法的基本设计技术并行算法的一般设计过程并行程序设计方法并行编程模型
并行算法的概念
• 并行算法：是一些可同时执行的诸进程的集合，这些进程相互作
用和协调动作从而达到给定问题的求解。
• 同步和异步并行算法
同步并行算法需要在某一时刻需要与其它的处理机进行数据交换,然后才能继续进行.异步并行算法进行数据交换不需要严格确定在某一时刻,每个处理机按照预定的计算任务持续执行,但通常需要在一定的时候必须进行一次数据交换,以保证算法的正确性例:

并行计算习题(全)

第二章习题例题：
1.
当代并行计算机系统介绍
请尽可能访问以下有关高性能并行计算的网址： IEEE/CS ParaScope (/parascope/)，world-wide parallel computing sites High Performance Computing Lists (/homes/mcbryan/public_html/bb/2/summary.html) The Language List (http://cuiwww.unige.ch/langlist) enumerate programming languages TOP 500 (/benchmark/top500.html) World's TOP 500 most powerful computing sites (at Netlib，University of Tennessee) Myrinet () DSM bibliography (http://www.cs.ualberta.ca/~rasit/dsmbiblio.html) Berkeley Active Message page (/AM/active_messages.html) The Cray Research system page (/products/systems/) SGI/Cray Origin 2000 (/Products/hardware/servers/index.html) Cray T3E (/products/systems/crayt3e/) PetaFLOPS web site (/hpcc/) NASA HPCC Program (/hpcc/) Cray T3E (/products/systems/crayt3e/) IBM SP (/hardware/largescale/) Intel Paragon (/Services/ Consult/Paragon/paragon.html) Kai Li (/~li/) SP2 at MHPCC (/doc/SP2.general/SP2.general.html) MPI Standard site (/mpi/index.html) MIT Parallel and Distributed Operating Systems Group (/). National Center for Supercomputer Applications at UIUC (NCSA) (/) Cornell Theory Center (CTC) (/ctc.html) Argonne Natl Laboratory，Mathematics & Computer Science Div. (/) Army Research Lab (/) Lawrence Livermore National Laboratory (/comp/comp.html) Los Alamos Natl Laboratory (LANL) Advanced Computing Laboratory (/). Maui High Performance Computing Center (MHPCC) (/mhpcc.html) San Diego Supercomputer Center (/SDSCHome.html) Sandia National Laboratories (/) Massively Parallel Comp. Res. Lab. Parallel Processing in Japan (/papers/ppij.html) Cray Research (/) IBM High-Performance Computing (/) ParaSoft Corporation (/)

02_6并行算法设计

串行算法的直接并行化

方法描述

发掘和利用现有串行算法中的并行性，直接将串行算法改造为并行算法。由串行算法直接并行化的方法是并行算法设计的最常用方法之一；不是所有的串行算法都可以直接并行化的；一个好的串行算法并不能并行化为一个好的并行算法；许多数值串行算法可以并行化为有效的数值并行算法。
PCAM设计过程
问题划分
通信
组合
映射
划分
方法描述域分解功能分解划分判据

划分方法描述

充分开拓算法的并发性和可扩放性；先进行数据分解(称域分解)，再进行计算功能的分解(称功能分解)；使数据集和计算集互不相交；划分阶段忽略处理器数目和目标机器的体系结构；能分为两类划分：
w w w w 员工 w p p p ppp 经理 w

非集中模式
w
映射判据
采用集中式负载平衡方案，是否存在通讯瓶颈？采用动态负载平衡方案，调度策略的成本如何？

并行语言实现方式与难度
实现难度
提供并行库
扩充语法成分
新语言
CPU 2
h()
q()
r()
s()
2013-8-4
27
任务分解
CPU 1 g()
CPU 0 f()
CPU 2
h()
q()
r()
s()
2013-8-4
28
任务分解
CPU 1 g()
CPU 0 f()
CPU 2
h()
q()
r()
s()
2013-8-4
29
划分判据
划分是否具有灵活性？划分是否避免了冗余计算和存储？划分任务尺寸是否大致相当？任务数与问题尺寸是否成比例？功能分解是一种更深层次的分解，是否合理？

高性能计算中的并行算法设计

高性能计算中的并行算法设计在现代科技的快速发展中，越来越多的问题需要通过计算机进行求解。

而对于一些复杂的计算问题，传统的串行算法已经无法满足实时性和效率的要求，因此并行算法的设计和优化成为了一个热门领域。

本文将探讨高性能计算中的并行算法设计的相关问题。

一、并行计算概述随着计算机硬件的发展，现代计算机系统中往往包含多个计算核心，这就为并行计算提供了可能。

并行计算是指将一个计算问题划分为多个子问题，并同时使用多个计算核心对这些子问题进行计算。

并行计算的关键在于如何将原问题划分为多个子问题，以及如何将多个计算核心之间的计算任务合理分配。

二、并行算法设计的挑战在进行并行算法设计时，首先需要面对的挑战是如何将原问题划分为多个子问题。

这需要分析原问题的特性，确定合适的划分方式，使得每个子问题的规模相近，并同时保证划分后的子问题之间没有依赖关系。

其次，在并行计算中，多个计算核心之间的通信和同步非常关键。

如何高效地进行数据通信和任务同步，以减少通信和同步开销，是并行算法设计中的另一个重要问题。

三、并行算法设计的常用技术为了解决上述挑战，研究者们提出了许多并行算法设计的常用技术。

其中，最常用的技术之一是任务并行。

任务并行是将原问题分解为多个独立的子任务，每个子任务由一个计算核心独立执行。

这种方式适用于原问题中各个子问题之间不存在依赖关系的情况。

另一种常用的技术是数据并行。

数据并行是将原问题的数据分割成多个部分，每个计算核心处理其中的一部分数据。

这种方式适用于原问题中各个子问题之间需要进行数据交换的情况。

四、并行算法设计的实例研究为了更好地理解并行算法设计的实际应用，我们举一个实例研究来说明。

在计算机视觉领域，图像处理是一个重要的研究方向。

假设我们要实现一个图像处理算法，该算法需要对输入图像进行分割和特征提取。

首先，我们可以将图像划分成多个小块，每个小块由一个计算核心进行处理。

然后，我们可以使用任务并行的方式对每个小块进行分割和特征提取。

并行算法设计及编程基本方法

第2卷第4期零陵学院学报(教育科学) V ol. 2 No.4 2004年8月 Journal of Lingling University Aug. 2004并行算法设计及编程基本方法孙兴文(永州职业技术学院,湖南永州,425006)摘要: 并行算法是指一次可执行多个操作的算法。

对并行算法的研究现在已发展为一个独立的研究领域。

很多用串行算法解决的问题也已经有了相应的并行算法。

在本文，我们阐述了一些简单的并行计算以说明并行算法的一些基本概念、应用和编程方法。

关键词: 并行算法; 效率 ;编程*中图分类号: TP311 文献标识码: A 文章编号：1671-9697(2004)04-0182-031. 并行算法设计1.1 并行算法的基本概念所谓并行，是只有一个以上的事件在同一时刻伙同时间段内发生，有人把并行分为几类：数据并性行，分布式并性行与人的并行性，世界上客观事物的发展过程很多是并行的，彼此相对独立，相互又有一定的联系和制约。

1.2 并行算法的目标从计算复杂性的角度来看，一个算法的复杂性表示为空间复杂性和时间复杂性两个方面。

并行算法的目标是尽可能减少时间复杂性，通常是增加空间复杂性（如增加空间的维数及增加处理器的台数）来实现。

从算法树的结构来看，通常的串行算法树“深而窄”。

递推算法是串行算法本质上是为一维问题设计的，而不少高维问题的计算本质上仍借助一维的张量积形式。

体现在矩阵计算则是70年代稀疏矩阵技术的广发应用。

并行算法树的结构则截然不同，为达到把时间复杂性转化为时间复杂性的目的，并行算法树采用“浅而宽”的结构，即每时刻可容纳的计算量相应增加，使整个算法的步数尽可能减少。

适当增加空间复杂性（如引入较复杂的基底，增加空间维数等），是不少并行算法所实际采用的有效的方法。

1.3 加速比定率与可扩展性顾名思义，并行加速比是表示采用多个矗立起计算速度所能得到的加速的倍数。

设t seq表示用串行机求解某个计算问题所需的时间，t P是用p个处理器求解该问题所需的时间。

计算机编程并行计算基础知识了解并行计算的概念和并行算法

计算机编程并行计算基础知识了解并行计算的概念和并行算法计算机编程并行计算基础知识：了解并行计算的概念和并行算法计算机编程是一个广泛而深入的领域，而并行计算是其中一个重要的概念。

在本文中，我们将介绍并行计算的基础知识，包括并行计算的概念和并行算法。

一、并行计算的概念并行计算是指在多个处理器或计算机上同时执行多个计算任务的过程。

与之相反的是串行计算，即在单个处理器或计算机上依次执行计算任务。

并行计算可以提高计算速度和效率，特别适用于处理大规模的数据和复杂的计算任务。

并行计算的主要优点包括：1. 提高计算速度：通过同时执行多个计算任务，可以大大缩短计算时间。

2. 提高计算效率：通过充分利用多个处理器或计算机的计算资源，可以更有效地完成计算任务。

3. 处理大规模数据：并行计算可以处理大规模的数据集，例如在科学研究、数据挖掘和机器学习等领域中。

二、并行算法并行算法是一种针对并行计算环境设计的算法，旨在充分利用多个处理器或计算机的计算能力。

并行算法可以分为两种类型：数据并行和任务并行。

1. 数据并行：数据并行是指将数据划分为多个部分，在多个处理器或计算机上同时进行计算。

每个处理器独立计算自己的数据，并通过通信来共享必要的结果。

数据并行常用于矩阵乘法、图像处理和模拟等领域。

2. 任务并行：任务并行是指将计算任务划分为多个子任务，在多个处理器或计算机上同时进行计算。

每个处理器独立执行自己的子任务，并通过通信来协调和共享计算结果。

任务并行常用于解决复杂的问题，如搜索、优化和排序等。

并行算法的设计要考虑以下几个方面：1. 任务划分：将计算任务划分为适当的子任务，以利用并行计算环境的处理能力。

2. 数据通信：在并行计算过程中，不同处理器之间需要及时交换和共享计算结果。

3. 数据同步：在并行计算过程中，确保不同处理器之间的计算步骤能够同步进行，避免数据冲突和错误的计算结果。

三、并行计算的应用并行计算在各个领域都有广泛的应用。

第六章并行处理和多处理

BSP的五级数据流水线构图
17个存储块存储器
（集中式共享存贮器）
NW1 对准网络
指令译码控制部件
NW2 对准网络
处理器
16个处理单元
BSP的五级数据流水线在BSP中，存储器-存储器型的浮点运算是流水进行的。 BSP的流水线组织由五个功能级组成。尤其是并行处理机包括有16个处理单元、17个存储器模块和2套互连网络（亦称对准网络）组合在一起，就形成了一条五级的数据流水线，使连续几条向量指令能在时间下重叠起来执行。作用：（1）由17个存储器模块并行读出16个操作数；（ 2 ）经对准网络 NW1 将 16 个操作数重新排列成 16 个处理单元所需要的次序；（3）将排列好的16个操作送到并行处理单元完成操作；（ 4 ）所得的 16 个结果经过对准网络 NW2 重新排列成 17 个存储器模块所需要的次序；（5）写入存储器；
对处理单元阵列实现控制,(发控制信号,广播公共地址, 广播公共数据)对指令流进行译码控制,利用CU内部资源可以进行标量操作,接受和处理各类中断，其他输入输出操作。 •I/O系统由磁盘文件系统DFS，输入输出子系统和宿主计算机S/C 构成（驻留操作系统，编译程序，I/O服务程序等）
控制器CU
ADB
6.2
并行处理技术及发展
提高计算机系统的并行性的技术途径：(单机系统) 时间重叠（Time Interleaving）：在并行性概念中引入时间因素。让多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。资源重复（Resource Replication）：并行性概念中引入空间因素。通过重复设置的硬件资源来提高系统可靠性或性能。例如，通过使用两台或多台完全相同的计算机完成同样的任务来提高可靠性。资源共享（Resource Sharing）：利用软件的方法让多个用户按一定时间顺序轮流地使用同一套资源，以提高其利用率，这样相应地提高整个系统的性能。例如多道程序分时系统. (多机系统) 功能专用化,机间互连,网络化技术途径发展成异构型多处理机,同构型多处理机,分布式处理机系统

并行算法设计与优化

▪ 并行机器学习算法
1.机器学习算法需要处理大规模的数据集，通过并行化可以加速训练过程。 2.常见并行机器学习算法包括并行随机梯度下降、并行决策树和并行神经网络等。 3.在并行机器学习算法的设计中，需要考虑到数据分布、模型复杂度和通信开销等因素。
典型并行算法案例
▪ 分布式存储与并行访问算法
1.分布式存储可以实现大规模数据的可靠存储和高效访问，是并行算法的重要基础。 2.常见分布式存储系统包括Hadoop分布式文件系统（HDFS ）和Google文件系统（GFS）等。 3.在分布式存储与并行访问算法的设计中，需要考虑到数据一致性、访问并发度和网络带宽等因素。
并行计算基础
并行计算基础
▪ 并行计算概述
1.并行计算是指同时使用多种计算资源解决计算问题的过程，可提高计算速度和解决更大规模的问题。 2.并行计算的基础包括并行硬件、并行编程模型和并行算法等方面。 3.并行计算的应用范围广泛，涉及科学计算、数据分析、机器学习等领域。
▪ 并行硬件
1.并行硬件包括多核处理器、GPU、TPU等，每种硬件有其特点和适用场景。 2.并行硬件的发展趋势是不断提高计算性能和扩展性，同时降低能耗和成本。 3.选择合适的并行硬件需要考虑计算问题的特点、计算资源的需求和预算等因素。
▪ 并行计算硬件平台
1.并行计算硬件平台包括多核CPU、GPU、众核处理器等，每种平台都有其特点和适用场景。 2.选择合适的硬件平台需要考虑算法的计算特性、数据规模、通信需求等因素。 3.针对不同的硬件平台，需要设计不同的并行算法和优化策略。
并行算法概述
▪ 并行算法设计原则
1.并行算法设计需要考虑任务的划分、调度和通信，以及数据的分配、访问和同步。 2.好的并行算法应该具有可扩展性、负载均衡、低通信开销等特点。 3.并行算法的设计需要结合实际问题和计算环境，进行针对性的优化。

并行算法的设计与分析课件

2.3 分治策略
n设计思想
• 将原问题划分成若干个相同的子问题分而治之，若子问题仍然
较大，则可以反复递归应用分治策略处理这些子问题，直至子问题易求解。
n求解步骤
• 将输入划分成若干个规模相等的子问题； • 同时(并行地)递归求解这些子问题； • 并行地归并子问题的解成为原问题的解。
n示例
• SIMD-SM模型上的FFT递归算法
Parallel Algorithms 3 / Ch2
2.1 平衡树方法
n算法2.1 SIMD-SM上求最大值算法
Begin for k=m-1 to 0 do for j=2k to 2k+1-1 par-do A[j]=max{A[2j], A[2j+1]} end for end for
end
时间分析 t(n)=m×O(1)=O(logn) p(n)=n/2 c(n)=O(nlogn) 非成本最优
2023/10/19
Y.Xu Copyright
USTC
Parallel Algorithms 4 / Ch2
2.1 平衡树方法
前缀和
n 问题定义
n个元素{x1,x2,…,xn}，前缀和是n个部分和： Si=x1*x2*…*xi, 1≤i≤n 这里*可以是＋或×
for j=1 to n/2h par-do B[h,j]=B[h-1,2j-1]*B[h-1,2j]
end for end for
时间分析:
(3)for h=logn to 0 do //反向遍历
for j=1 to n/2h par-do (i) if j=even then //该结点为其父结点的右儿子 C[h,j]=C[h+1,j/2]

高性能运算中的并行算法设计

高性能运算中的并行算法设计随着计算机性能的不断提高，对于大规模复杂计算的需求也不断增加，而并行计算技术作为一种有效的解决方案得到了广泛应用。

在高性能运算中，设计高效的并行算法是实现优秀性能的关键。

本文将从算法设计的角度出发，介绍高性能运算中的并行算法设计方法，并探讨并行算法优化的主要手段。

一、并行算法设计的基本思想并行算法是指将单个算法任务划分为若干个可并行执行的子任务，并利用多个计算单元同时处理这些子任务，从而提高计算效率。

基于这一思想，设计并行算法需要考虑以下几个方面：1. 任务分解与调度：将单个算法任务分解为若干个可并行执行的子任务，并合理安排和调度这些任务的执行顺序，以达到最优的执行效率。

2. 数据分布与同步：将算法数据分布到各个计算单元中，同时保证这些计算单元间的数据同步和交换，以确保算法正确性和执行效率。

3. 存储管理与通信优化：设计合理的存储管理方法和通信优化方案，以充分利用计算资源，降低存储和通信带宽的开销，提高算法性能。

二、并行算法设计的主要手段为了提高并行算法的效率，一般需要采用以下几种优化手段：1. 并行化框架设计：选择适合的并行计算框架和编程模型，如MPI、OpenMP、CUDA等，以充分发挥计算机的多核计算能力，加速算法的执行。

2. 线程和进程优化：通过选择合适的线程和进程数目，以及动态调整线程的执行顺序、优先级和任务调度策略等，充分利用计算资源，提高并行算法的效率。

3. 任务分解和负载均衡优化：通过合理的任务分解和任务调度策略，使各个计算单元间的任务负载均衡，以尽可能避免性能瓶颈和出现空闲计算资源等现象，提高并行算法的效率。

4. 数据分布和同步优化：通过合理的数据分布和同步策略，减少计算单元间的数据交换和同步开销，提高并行算法的效率。

5. 存储管理和通信优化：通过采用高效的存储管理方法和通信优化方案，减少存储和通信带宽的开销，提高算法性能。

三、并行算法优化案例分析以下是两个常见的并行算法优化案例：1. 矩阵乘法算法的并行化优化矩阵乘法是计算机科学中一个非常重要的数学问题，其计算量相对较大，因此对于大规模矩阵乘法的计算，通常需要采用并行算法进行优化。

并行计算的参考题目

并行计算的参考题目1、讨论某一种算法的可扩放性时，一般指什么？88答：讨论某一种算法的可扩放性时，实际上是指该算法针对某一特定机器结构的可扩放性2、使用“Do in Parallel”语句时，表示的是什么含义105答：表示算法的若干步要并行执行3、并行计算机的存储访问类型有哪几种？26答：存储访问类型有：UMA（均匀存储访问）、NUMA（非均匀存储访问）、COMA（全高速缓存存储访问）、CC-NUMA（高速缓存一致性非均匀存储访问）、NORMAl（非远程存储访问）4、什么是同步？它有什么作用？如何实现？107答：同步是在时间上强使各执行进程在某一点必须相互等待。

作用：确保个处理器的正确工作顺序以及对共享可写数据的正确访问（互斥访问）。

实现方法：用软件、硬件和固件的方法实现。

5 在并行加速比的计算中，常用的三种加速比定律分别是哪三种？（P83）答：常用的三种加速比定律分别是：适用于固定计算负载的Amdahl定律，适用于可扩放问题的Gustafson定律和受限于存储器的Sun和Ni定律。

6、试比较Amdahl定律、Gustafson定律、Sun和Ni定律三种加速定律的应用场合。

83 答：Amdahl定律适用于固定计算负载的问题Gustafson定律适用于可扩放性问题Sun和Ni定律适用于受限于存储器的问题。

7.并行算法的基本设计技术有哪些？它们的基本思想是什么？139答：(1)基本技术有：划分设计技术(又分为均匀划分技术、方根划分技术、对数划分技术和功能划分技术)、分治设计技术、平衡树设计技术、倍增设计技术、流水线设计技术等。

(2)基本思想分别如下：a.划分设计技术：(P139) 将一原始问题分成若干部分，然后各部分由相应的处理器同时执行。

b.分治设计技术：(P144)将一个大二复杂的问题分解成若干特性相同的子问题分而治之。

若所得的子问题规模仍嫌过大，可反复使用分治策略，直至很容易求解诸子问题为止。

6 并行算法基本设计策略

第二篇并行算法的设计第五章并行算法与并行计算模型第六章并行算法基本设计策略第七章并行算法常用设计技术第八章并行算法一般设计过程第六章并行算法基本设计策略6.1 串行算法的直接并行化6.1.1设计方法描述6.1.2快排序算法的并行化6.2 从问题描述开始设计并行算法6.3借用已有算法求解新问题设计方法的描述方法描述发掘和利用现有串行算法中的并行性，直接将串行算法改造为并行算法。

评注由串行算法直接并行化的方法是并行算法设计的最常用方法之一；不是所有的串行算法都可以直接并行化的；一个好的串行算法并不能并行化为一个好的并行算法；许多数值串行算法可以并行化为有效的数值并行算法。

第六章并行算法基本设计策略6.1 串行算法的直接并行化6.1.1设计方法描述6.1.2快排序算法的并行化6.2 从问题描述开始设计并行算法6.3借用已有算法求解新问题快排序算法的并行化（1） SISD上的快排序算法6.1输入：无序序列（Aq……Ar）输出：有序序列（Aq……Ar）Procedure Quicrsort(A，q，r);Beginif q<r then(1) x=Aq(2) s=q(3) for i=q+1 to r doif Ai≤x thens=s+1swap(As ,Ai)end ifendfor（4）swap(A q，A s)（5）Quicksort(A，q，s)（6）Quicksort(A，s+1，r)end ifend对于长度为n的序列，在最坏情况下的划分的两个子序别为n-1及1的长度、相应的运行时间为t(n)=t(n-1)+Θ(n)，其解为t(n) =Θ(n2).理想的情况是所划分的两个子序列等长，相应的运行时间为t(n)=2t(n/2)+Θ(n),其解为t(n)=Θ(n log n).快排序算法的并行化（2）快排序的并行化一种自然的并行化方法是并行地调用快排序对两个所划分的子序列进行快排序。

这种方法并不改变串行算法本身的属性，很容易改成并行形式。

并行算法PPT课件

▪ 课程内容、特点和授课方式 ▪ 教材和主要参考书目 ▪ 课程在并行计算技术中的地位 0.3 课程考核和评分要求 0.4 并行计算介绍 ▪ 什么是并行计算? ▪ 为什么需要并行计算? ▪ 几种实现方案 ▪ 并行计算的粒度 ▪ 并行计算的研究领域 ▪ TOP500和China TOP100 ▪ 问题示例
2021/3/12
《并行算法》 4 / Ch0
0.2 课程介绍: 内容、特点和学习方式
课程内容： ▪ 并行机结构模型、并行计算模型、并行算法基本知识； ▪ 非数值并行算法：排序、选择、组合搜索、串匹配、图论算法等； ▪ 数值并行算法：矩阵运算、线性方程组求解、FFT算法等； ▪ 并行计算理论。 ▪ 新增内容：多核计算和GPU上的并行算法
nature. But their existing applications are designed for uniprocessor systems. Their parallelization is required.
2021/3/12
《并行算法》 13 / Ch0
0.4 并行计算介绍: 几种实现方案
2021/3/12
《并行算法》 11 / Ch0
0.4 并行计算介绍: 为什么需要并行计算？(1)
Interest in parallelism since the very ancient era of computers(e.g. ILLIAC IV of 1967 had 64 processors)
0.2 课程简介: 课程在并行计算技术中的地位
算法理论
可计算性与
算法研究的
计算复杂性
数学基础
专业面博向士计生算机
算法设计与分析并行排序和选择算法

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

现代密码学理论与实践之五 2019/3/11 12
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
现代密码学理论与实践之五
2019/3/11
13
划分方法
功能划分技术
n个元素A[1..n]分成等长的p组，每组满足某种特性。示例：(m, n)选择问题(求出n个元素中前m个最小者) 功能划分：要求每组元素个数必须大于m；算法：p148算法6.4 输入：A=(a1,…,an); 输出：前m个最小者；
2019/3/11
现代密码学理论与实践之五
3
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
现代密码学理论与实践之五
2019/3/11
4
划分方法
均匀划分技术
n个元素A[1..n]分成p组，每组A[(i-1)n/p+1..in/p]，i=1~p
递归调用: 设 A,B 分成若干子段对为(p1,q1), (p2,q2),…… 则∑pi≤p, ∑qi≤q, 由 Cauchy 不等式＝>
pi qi
i i
p q pq k 综上，整个过程可用处理器数 k pq 完成。

pi qi

(2)时间分析
n个元素A[1..n]分成A[(i-1)logn+1..ilogn]，i=1~n/logn
示例：PRAM-CREW上的对数划分并行归并排序
(1)归并过程: 设有序组A[1..n]和B[1..m]
B = A = b1 a1
... blogm ... aj(1)
A0
B0
blogm +1 aj(1)+1
2019/3/11
现代密码学理论与实践之五
16
6.2 分治设计技术
6.2.1 并行分治设计步骤 6.2.2 双调归并网络
现代密码学理论与实践之五
2019/3/11
17
并行分治设计步骤
将输入划分成若干个规模相等的子问题；同时(并行地)递归求解这些子问题；并行地归并子问题的解，直至得到原问题的解。
输入：双调序列X=(x0,x1,…,xn-1) 输出：非降有序序列Y=(y0,y1,…,yn-1)
现代密码学理论与实践之五
2019/3/11
22
第六章并行算法的基本设计技术
6.1 划分设计技术 6.2 分治设计技术 6.3 平衡树设计技术 6.4 倍增设计技术 6.5 流水线设计技术
2019/3/11
现代密码学理论与实践之五 2019/3/11 8
方根划分技术

示例: A={1,3,8,9,11,13,15,16},p=8; B={2,4,5,6,7,10,12,14,17},q=9
(1)(2)
B:
A:
1 2 1 2
3 4 3 4
8* 5* 8* 5*
9 6 9 6
11 7 11 7
13* 10* 13* 10*
示例：MIMD-SM模型上的PSRS排序
begin (1)均匀划分：将n个元素A[1..n]均匀划分成p段，每个pi处理 A[(i-1)n/p+1..in/p] (2)局部排序：pi调用串行排序算法对A[(i-1)n/p+1..in/p]排序 (3)选取样本：pi从其有序子序列A[(i-1)n/p+1..in/p]中选取p个样本元素 (4)样本排序：用一台处理器对p2个样本元素进行串行排序 (5)选择主元：用一台处理器从排好序的样本序列中选取p-1个主元，并播送给其他pi (6)主元划分：pi按主元将有序段A[(i-1)n/p+1..in/p]划分成p段 (7)全局交换：各处理器将其有序段按段号交换到对应的处理器中 (8)归并排序：各处理器对接收到的元素进行归并排序 end.
并行计算
现代密码学理论与实践之五
2019/3/11
1
第二篇并行算法的设计
第四章第五章第六章第七章并行算法的设计基础并行算法的一般设计方法并行算法的基本设计技术并行算法的一般设计过程
现代密码学理论与实践之五
2019/3/11
2
第六章并行算法的基本设计技术
6.1 划分设计技术 6.2 分治设计技术 6.3 平衡树设计技术 6.4 倍增设计技术 6.5 流水线设计技术
2019/3/11
现代密码学理论与实践之五
5
均匀划分技术
例6.1 PSRS排序过程。N=27，p=3，PSRS排序如下：
(a) 均匀划分：15 46 48 93 39 6 72 91 14 36 69 40 89 61 97 12 21 54 53 97 84 58 32 27 33 72 20 (b) 局部排序： 6 14 15 39 46 48 72 91 93 12 21 36 40 54 61 69 89 97 20 27 32 33 53 58 72 84 97 (c) 正则采样： (d) 采样排序： (e) 选择主元： 6 6 33 39 12 69 72 20 12 33 40 39 69 40 20 69 33 72 72 72
12 13
14 15 16
17
现代密码学理论与实践之五
2019/3/11
9

算法分析
方根划分技术
q － 1 ） p （ pq ＝k
(1)算法在并行递归过程中所需的处理器数≤ k pq
＝k ；段间比较: p q 比较对数≤ pq
段内比较:

2 记λ i 是第 i 次递归后的 A 组最大长度，＝> 0 p , i i 1 p
i

算法在 i 常数C 时终止递归，即 p
tk ( p, q) O(loglog p)
现代密码学ห้องสมุดไป่ตู้论与实践之五
2 i
常数C
＝> i loglog p 常数C1
(p1=2) A2: 9 7
B 1: 2 4 5 6 A1: 1 3*
8(q1=6) B2: 10 12 13(q2=3) (p1=2) ...... ...... ...... ......
B1: 2 4 5* 6 7 8*(q1=6) A11: 1* A11:
B11: 2 3* B12: 4 5 6 7 8 A: B: 1 2 3 4 5 6 7 8 9 10 11
现代密码学理论与实践之五
2019/3/11
18
6.2 分治设计技术
6.2.1 并行分治设计步骤 6.2.2 双调归并网络
现代密码学理论与实践之五
2019/3/11
19
双调归并网络
双调序列(p149定义6.2)
(1,3,5,7,8,6,4,2,0) (8,7,6,4,2,0,1,3,5) (1,2,3,4,5,6,7,8) 以上都是双调序列
(f) 主元划分： 6 14 15 39 46 48 72 91 93 12 21 36 40 54 61 69 89 97 20 27 32 33 53 58 72 84 97
(g) 全局交换： 6 14 15 12 21 20 27 32 33 39 46 48 36 40 54 61 69 53 58 72 91 93 89 97 72 84 97
现代密码学理论与实践之五
2019/3/11
21
Batcher双调归并算法
双调归并网络
Procedure BITONIC_MERG(x) Begin (1)for i=0 to n/2-1 par-do (1.1) si=min{xi,xi+n/2} (1.2) li=max{xi,xi+n/2} end for (2)Recursive Call: (2.1)BITONIC_MERG(MIN=(s0,…,sn/2-1)) (2.2)BITONIC_MERG(MIN=(l0,…, ln/2-1)) (3)output sequence MIN followed by sequence MAX End
由(1)知算法中其他各步的时间为 O(1), 所以 Valiant 归并算法时间
pq
2019/3/11 10
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
现代密码学理论与实践之五
2019/3/11
11
划分方法
对数划分技术
Batcher定理
给定双调序列(x0,x1,…,xn-1), 对于si=min{xi,xi+n/2}和 li=max{xi,xi+n/2}，则小序列(s0,s1,…,sn-1)和大序列(l0,l1,…,ln-1) 仍是双调序列
现代密码学理论与实践之五 2019/3/11 20
双调归并网络
(4,4)双调归并网络
...
B1
b2logm
... ...
Bi bilogm +1 aj(i )+1
... b(i+1)logm ... ...
aj(i+1)
... aj(2)
A1
...
Ai
j[i]=rank(bilogm:A)为bilogm在A中的位序，即A中小于等于bilogm的元素个数 (2)例：A=(4,6,7,10,12,15,18,20), B=(3,9,16,21) n=8, m=4 =>logm=log4=2 => j[1]=rank(blogm:A)=rank(b2:A)=rank(9:A)=3, j[2]=…=8 B0: 3, 9 B1: 16, 21 A0: 4, 6, 7 A1: 10, 12, 15, 18, 20 A和B归并化为(A0, B0)和(A1, B1)的归并