中国海洋大学研究生并行计算参考答案-复习

合集下载

并行计算期末试题及答案

并行计算期末试题及答案1. 基础概念部分并行计算是一种计算模式，它使用多个处理单元同时执行计算操作，以加快计算速度。

在现代计算机系统中，我们常常使用多核处理器、图形处理器（GPU）或者分布式系统来实现并行计算。

1.1 并行计算的优势并行计算具有以下几个优势：加速计算速度：通过同时执行多个计算任务，可以极大地提高计算效率。

解决大规模问题：并行计算可以处理大规模和复杂的问题，提供更精确的结果。

降低能耗：通过合理利用处理器资源，可以降低计算任务的能耗。

应用广泛：并行计算可以应用于各个领域，如科学计算、大数据分析、机器学习等。

1.2 并行计算的分类并行计算按照任务之间的关系可以分为两类：数据并行：将数据划分为多个子集，同时在不同的处理器上进行计算，然后将计算结果汇总。

常见的应用包括矩阵运算、图像处理等。

任务并行：将任务划分为多个子任务，每个子任务由一个独立的处理器执行，最后将各个子任务的结果合并。

常见的应用包括并行搜索算法、并行排序等。

2. 并行计算的算法设计2.1 并行算法设计要点在设计并行算法时，需要考虑以下几个要点：任务划分：将计算任务划分为多个子任务，确保各个子任务之间的计算工作均衡，并保持任务之间的独立性。

任务调度：合理安排各个处理器上的任务执行顺序和时间，最大程度地减少通信开销和等待时间。

数据通信：处理器之间需要进行数据交换和通信，应选择合适的通信方式，并考虑通信延迟和带宽等因素。

数据同步：在多个处理器之间，可能需要进行数据同步操作，确保各个处理器之间的数据一致性。

2.2 并行算法实例：并行矩阵乘法并行矩阵乘法是一个常见的数据并行算法，可以有效地利用多核处理器加速大规模矩阵运算。

具体算法如下：步骤1：将输入矩阵划分为若干个小矩阵，每个小矩阵分配给一个处理器。

步骤2：每个处理器计算相应小矩阵的部分结果。

步骤3：将各个处理器计算得到的部分结果进行求和，得到最终的矩阵乘积结果。

3. 并行计算的应用举例3.1 科学计算在科学计算领域，有大量的计算任务需要处理大规模的数据和复杂的数学模型。

并行计算习题答案

并行计算习题答案并行计算习题答案在计算机科学领域，随着技术的不断发展，计算速度的提升成为了一个重要的课题。

并行计算作为一种有效的解决方案，被广泛应用于各个领域。

本文将通过回答一些并行计算习题，来探讨并行计算的原理和应用。

1. 什么是并行计算？并行计算是指同时执行多个计算任务的一种计算模式。

它通过将一个大问题分解为多个小问题，并在多个处理单元上同时执行这些小问题，从而加快计算速度。

并行计算可以应用于各种领域，包括科学计算、图像处理、人工智能等。

2. 并行计算的优势是什么？并行计算具有以下几个优势：- 加速计算速度：通过同时执行多个任务，可以大大提高计算速度，从而节省时间和资源。

- 处理大规模问题：并行计算可以处理大规模问题，将问题分解为多个小问题，分别在不同处理单元上计算，从而提高计算效率。

- 提高系统可靠性：并行计算中的多个处理单元可以相互协作，当一个处理单元发生故障时，其他处理单元可以继续工作，从而提高系统的可靠性。

3. 并行计算的模型有哪些？并行计算的模型有多种，常见的包括：- SIMD（单指令流多数据流）模型：所有处理单元执行相同的指令，但可以处理不同的数据。

- MIMD（多指令流多数据流）模型：每个处理单元可以执行不同的指令，处理不同的数据。

- SPMD（单程序多数据流）模型：所有处理单元执行相同的程序，但可以处理不同的数据。

4. 并行计算中的通信方式有哪些？并行计算中的通信方式包括：- 共享内存：多个处理单元共享同一块物理内存，通过读写内存来实现数据的传递和共享。

- 消息传递：处理单元之间通过发送和接收消息来进行通信，可以通过直接通信或者通过中间件来实现。

5. 如何评估并行计算的性能？评估并行计算的性能可以从以下几个方面考虑：- 加速比：加速比是指并行计算相对于串行计算的速度提升比例，可以通过计算并行计算时间与串行计算时间的比值得到。

- 效率：效率是指并行计算的实际加速比与理论加速比之间的比值，可以反映并行计算的利用率。

【中国海洋大学】2009并行算法与编程期末考试并行B卷

海洋地球科学学院《并行算法与编程》课程试题(B卷) 共3页第1页共3 页第2 页四、请写出下列程序的执行结果（假设共启动了2个进程）（15分）#include<stdio.h>#include<math.h>#include<mpi.h>#include <stdlib.h>void main(int argc,char *argv[]){int myid, n, m, i, count, ext, bufsize;const int N=128;double outbuf[N], inbuf[N], *buf;MPI_Status stat;MPI_Init(&argc,&argv);MPI_Comm_rank(MPI_COMM_WORLD,&myid);MPI_Pack_size(N,MPI_DOUBLE,MPI_COMM_WORLD,&ext);printf("ext=%d overhead=%d\n",ext,MPI_BSEND_OVERHEAD);bufsize=ext+MPI_BSEND_OVERHEAD;buf=(double *)malloc(bufsize);printf("buffersize=%d\n",bufsize);MPI_Buffer_attach(buf,bufsize);for (m=1; m<8; m++){n=(int) pow(2,m);if (myid == 0){for(i=0; i<N; i++)outbuf[i]=0;MPI_Bsend(outbuf,n,MPI_DOUBLE,1,0,MPI_COMM_WORLD);MPI_Recv(inbuf,n,MPI_DOUBLE,1,1,MPI_COMM_WORLD,&stat);MPI_Get_count(&stat,MPI_DOUBLE,&count);printf("Porcessor 0 received %d numbers\n",count);}else {for(i=0; i<N; i++)outbuf[i]=1;MPI_Bsend(outbuf,n,MPI_DOUBLE,0,1,MPI_COMM_WORLD);MPI_Recv(inbuf,n,MPI_DOUBLE,0,0,MPI_COMM_WORLD,&stat);MPI_Get_count(&stat,MPI_DOUBLE,&count);printf("Porcessor 1 received %d numbers\n",count);}}MPI_Buffer_detach(buf,&bufsize);free(buf);MPI_Finalize();}五、请说明下列MPI函数能够实现什么功能（每小题3分，共24分）1、MPI_WAITSOME2、MPI_GET_VERSION3、MPI_RECV4、MPI_COMM_SIZE5、MPI_GET_COUNT6、MPI_IPROBE7、MPI_SSEND_INIT 8、MPI_START六、编程题（26分）编写一个完整的MPI并行程序，求值。

中国海洋大学研究生并行计算参考答案-复习

中国海洋⼤学研究⽣并⾏计算参考答案-复习⼀、名词术语翻译1）SIMD ：Single Instruction Multiple Data, 单指令多数据流。

2）MIMD ：Multiple Instruction Multiple Data, 多指令多数据流。

3）SIMT ：Single Instruction Multiple Threads, 单指令多线程。

4）SPMD ：Single Program Multiple Data, 单程序多数据流。

5）MPMD ：Multiple Program Multiple Data, 多程序多数据流。

6）PVP ：Parallel Vector Processor, 并⾏向量处理机。

7）SMP ：Symmetric Multiprocessor, 对称多处理机。

8）MPP ：Massively Parallel Processor, ⼤规模并⾏处理机。

9）DSM ：Distributed Shared Memory, 分布式共享存储。

10）COW ：Cluster of Workstation, ⼯作站机群。

11）UMA ：Uniform Memory Access, 均匀存储访问模型。

12）NUMA ：Nonuniform Memory Access, ⾮均匀存储访问模型。

13）COMA ：Cache-Only Memory Access, 全⾼速缓存访问模型。

14）NORMA ：No-Remote Memory Access, ⾮远程存储访问模型。

15）CC-NUMA ：Coherent-Cache Nonuniform Memory Access, ⾼速缓存⼀致性⾮均匀存储访问模型。

16）CUDA ：Compute Unified Device Architecture, 统⼀计算架构。

17）GPU ：Graphics Process Unit, 图形处理器。

【中国海洋大学】2007并行算法与编程B卷答案

2007-2008学年第一学期《并行算法与编程》B卷答案与评分标准一、名词解释（每小题5分，共10分）1、对等模式所谓对等模式，就是说MPI程序中各个进程的功能、地位相同或相近，（2分） MPI程序的代码也应该是相近的（2分），所不同的只是处理的对象和操作的数据（1分）.2、非阻塞通信不须等到消息从本地送出就可以执行后续的语句（2分），但非阻塞调用的返回并不保证资源的可再用性（2分）。

发送和接受函数返回后，必须调用另一类函数来确保它们的正确完成（1分）。

二、问答题（10分）虚拟进程的意义与作用是什么？虚拟进程（MPI_PROC_NULL）是不存在的假想进程，在MPI中的主要作用是充当真实进程通信的目或源（3分），引入虚拟进程的目的是为了在某些情况下编写通信语句的方便（2分）。

以大大简化处理边界的代码，而且使程序显得简洁易懂。

在捆绑发送接收操作中经常用到这种通信手段。

一个真实进程向虚拟进程发送消息时会立即成功返回；一个真实进程从虚拟进程的接收消息时也会立即成功返回，并且对接收缓冲区没有任何改变。

（5分）三、判断对错，如果错误请给出理由（每小题5分，共15分）。

1、组通信调用是不会引起消息死锁的。

错误（2分）组通信要求通信域内的所有进程都必须参与通信，如果只有一部分进程参与了通信，而其它没有，则会引起死锁，发送与接收不匹配也会引起死锁（3分）2、MPI的消息传递过程中，收、发双方的数据类型必须匹配。

正确（5分）3、MPI的消息缓冲区由MPI系统管理，用户无权管理。

错误（2分）在缓存通信模式中，消息缓冲区必须由用户管理（3分）四、请写出下列程序的执行结果（假设共启动了2个进程）（15分）ext=1040 overhead=512ext=1040 overhead=512 （1分）buffersize=1552buffersize=1552 （1分）Porcessor 1 received 2 numbers （1分）Porcessor 0 received 2 numbers （1分）Porcessor 1 received 4 numbers （1分）Porcessor 0 received 4 numbers （1分）Porcessor 0 received 8 numbers （1分）Porcessor 1 received 8 numbers （1分）Porcessor 0 received 16 numbers （1分）Porcessor 1 received 16 numbers （1分）Porcessor 0 received 32 numbers （1分）Porcessor 1 received 32 numbers （1分）Porcessor 1 received 64 numbers （1分）Porcessor 0 received 64 numbers （1分）Porcessor 0 received 128 numbersPorcessor 1 received 128 numbers （1分）五、请给出下列MPI函数的参数，写出C语言的接口函数，说明各个参数的数据类型与意义并说明该函数能够实现的具体功能（每小题12分，共24分）。

并行计算题目答案汇总

！第１题（1）什么是并行计算（2）它的优点有哪些（3）可以通过哪些结构完成并行计算1．并行计算就是在并行计算或分布式计算机等高性能计算系统上所做的超级计算。

（P3）2．计算极大地增强了人们从事科学研究的能力，大大地加速了把科技转化为生产力的过程，深刻地改变着人类认识世界和改造世界的方法和途径。

计算科学的理论和方法，作为新的研究手段和新的设计与创造技术的理论基础，正推动着当代科学与技术向纵深发展。

（P4）3．单指令多数据流SIMD、对称多处理机SMP、大规模并行处理机MPP、工作站机群COW、分布共享存储DSM多处理机。

（P22）第2题什么是网络计算它的特点它与分布式计算、集群计算的关系（P104）网络计算：在工作站机群COW环境下进行的计算称为网络计算。

特点：网络计算结合了客户机/服务器结构的健壮性、Internet面向全球的简易通用的数据访问方式和分布式对象的灵活性，提供了统一的跨平台开发环境，基于开放的和事实上的标准，把应用和数据的复杂性从桌面转移到智能化的网络和基于网络的服务器，给用户提供了对应用和信息的通用、快速的访问方式。

与分布式计算、集群计算的关系：，分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。

集群计算是使用多个计算机，如典型的个人计算机或UNIX工作站；多个存储设备；冗余互联，来组成一个对用户来说单一的高可用性的系统。

因此，网络计算与分布式计算和集群计算都是属于计算密集型，数据密集型和网络密集型应用。

第3题表征并行系统的性能指标有哪些并行系统的加速比如何定义它能否完全确定系统的性能为什么a.表征并行系统的性能指标主要有：CPU和存储器的基本性能指标，通信开销以及系统机器的成本、价格与性价比，还有系统加速比和系统可扩放性（p88页）；其中CPU和存储器的基本性能指标包括：工作负载，并行执行时间，存储器的层次结构和存储器的带宽。

并行计算的参考题目

并行计算的参考题目1、讨论某一种算法的可扩放性时，一般指什么？88答：讨论某一种算法的可扩放性时，实际上是指该算法针对某一特定机器结构的可扩放性2、使用“Do in Parallel”语句时，表示的是什么含义105答：表示算法的若干步要并行执行3、并行计算机的存储访问类型有哪几种？26答：存储访问类型有：UMA（均匀存储访问）、NUMA（非均匀存储访问）、COMA（全高速缓存存储访问）、CC-NUMA（高速缓存一致性非均匀存储访问）、NORMAl（非远程存储访问）4、什么是同步？它有什么作用？如何实现？107答：同步是在时间上强使各执行进程在某一点必须相互等待。

作用：确保个处理器的正确工作顺序以及对共享可写数据的正确访问（互斥访问）。

实现方法：用软件、硬件和固件的方法实现。

5 在并行加速比的计算中，常用的三种加速比定律分别是哪三种？（P83）答：常用的三种加速比定律分别是：适用于固定计算负载的Amdahl定律，适用于可扩放问题的Gustafson定律和受限于存储器的Sun和Ni定律。

6、试比较Amdahl定律、Gustafson定律、Sun和Ni定律三种加速定律的应用场合。

83 答：Amdahl定律适用于固定计算负载的问题Gustafson定律适用于可扩放性问题Sun和Ni定律适用于受限于存储器的问题。

7.并行算法的基本设计技术有哪些？它们的基本思想是什么？139答：(1)基本技术有：划分设计技术(又分为均匀划分技术、方根划分技术、对数划分技术和功能划分技术)、分治设计技术、平衡树设计技术、倍增设计技术、流水线设计技术等。

(2)基本思想分别如下：a.划分设计技术：(P139) 将一原始问题分成若干部分，然后各部分由相应的处理器同时执行。

b.分治设计技术：(P144)将一个大二复杂的问题分解成若干特性相同的子问题分而治之。

若所得的子问题规模仍嫌过大，可反复使用分治策略，直至很容易求解诸子问题为止。

并行计算习题答案

对于一颗K 级二叉树（根为0级，叶为k-1级），共有N=2^k-1个节点，当推行至m-元树时（即每一个非叶节点有m 个子节点）时，试写出总节点数N 的表达式。

答：推行至M 元树时，k 级M 元树总结点数N 的表达式为：N=1+m 1+m 2+...+m （k-1）=(1-m k )*1/(1-m);试构造一个N=64的立方环网络，并将其直径和节点度与N=64的超立方比较之，你的结论是什么？答： N=64的立方环网络,为4立方环（将4维超立方每一个极点以4面体替代取得），直径d=9，节点度n=4一个在p 个处置器上运行的并行程序加速比是p-1，依照Amdahl 定律，串行分量为多少? 答： p/(1+f(p-1))=p-1, f=1/(p-1)2假定开始时P i (1《i 《n)存有数据 d i ，所谓累加求和是指用∑=i j i d 1，来代替中的原始值d i ，算法给出了在PRAM 模型上累加求和算法。

Input: di are kept in Pi, whereOutput: replaces di in processor PiBeginfor j=0 to logn-1 dofor i=2j +1 to n par-do(i) di= d i + d i-2j(ii) Pi=diend forend forEnd(1）试用n=8为例子，依照上述算法慢慢计算出累加和。

(2）分析算法的时刻复杂度。

（1）例:A={1,3,6,8,11,13} p=6;B={2,4,5,7,10,12,14} ,q=7p =3, q =3A={1,3,6*,8,11,13*}B={2,4,5*,7,10 ,12*,14},B ’={2,4,5,6*,7,10 12,13*,14}A11={1,3} , A12={8,11} , A13={} B11={2,4,5} , B12={7,10 12} , B13={14} A11={1,3*} , A12={8,11*} , B11={2,4*,5} , B12={7,10* , 12} ,B11’={2, 3* , 4,5} , B12’={7,10 , 11* , 12} ,A111={1},A112={} A121={8},A122={}B111={2},B112={4,5} B121={7,10 },B122={12}A111={1 *} A121={8 *}B111={2 *} B121={7,10 * }B111’={1 *,2 } B121’={7, 8 *,10 }3354 21 13 33 82 40 72A1111={}, A1112={} A1211={}, A1212={} B1111={}, B1111={} B1211={7}, A1212={}（1）pat = abaababa(m = 8)WIT[1] = 0，WIT[2] = 1，w=1,j=2,s=2-1+1=2 pat[w] = a pat[s]=b WIT[3] = 2，w=1,j=3,s=3-1+1=3 pat[w] = pat[s]=aw=2,j=3,s=3-1+2=4 pat[w] = b pat[s]=a WIT[4] = 4 w=1,j=4,s=4-1+1=4 pat[w] = pat[s]=aw=2,j=4,s=4-1+2=5 pat[w] = pat[s]=bw=3,j=4,s=4-1+3=6 pat[w] = pat[s]=aw=4,j=4,s=4-1+4=7 pat[w] = a pat[s]=b为非周期串（2）pat = abaabaaab(m = 9)WIT[1] = 0，WIT[2] =1 ，w=1,j=2,s=2-1+1=2 pat[w] = a pat[s]=b WIT[3] =2 ，w=1,j=3,s=3-1+1=3 pat[w] = a=pat[s]=aw=2,j=3,s=3-1+2=4 pat[w] = b pat[s]=a WIT[4] =5 w=1,j=4,s=4-1+1=4 pat[w] = pat[s]=aw=2,j=4,s=4-1+2=5 pat[w] =b=pat[s]=bw=3,j=4,s=4-1+3=6 pat[w] =a= pat[s]=aw=4,j=4,s=4-1+4=7 pat[w] = a= pat[s]=aw=5,j=4,s=4-1+5=8 pat[w] = b pat[s]=a WIT[5] =1 w=1,j=5,s=5-1+1=5 pat[w] =a pat[s]=b 非周期串(2)p=6,q=9j=q-p+1=9-6+1=4w=wit[j]=wit[4]=4T(q+w-1)=t(9+4-1)=b<>P(4)=awit[q]= wit[9]=w=4duel=p=6(2)请画出一个16输入的双调归并网络(2)给定序列（1，2，3，4，5，6，7，8 ），请求其前缀和（（1）正向遍历B(0,1)=1, B(0,2)=2 B(0,3)=3 B(0,4)=4 B(0,5)=5 B(0,6)=6 B(0,7)=7 B(0,8)=8B(1,1)=2, B(1,2)=12, B(1,3)=30, B(1,4)=56, B(2,1)=24, B(2,1)=1680, B(3,1)=40320,C(3,1)C(2,1)C(2,2)C(1,1)C(1,2)C(1,3)C(1,4)C(0,1)C(0,2)C(0,3)C(0,4)C(0,5)C(0,6)C(0,7)C(0,8)（2）反向遍历C(0,1)=1, C(0,2)=2 C(0,3)=6 C(0,4)=24 C(0,5)=120 C(0,6)=720 C(0,7)=5040 C(0,8)=40320 说明：求和或乘积都可,那个地址是求乘积。

【中国海洋大学】2008并行算法与编程期末考试B卷答案

中国海洋大学试卷答案(首页)2008—2009学年第1 学期试题名称:并行算法与编程（B卷）专业年级：地信06，勘工06 共3页第1页一、名词解释（每小题5分，共15分）1、PVM并行虚拟机：PVM并行虚拟机是一种常用的基于消息传递的并行编程环境（2分），它把工作站网络构成一个虚拟的并行机系统，为并行应用提供运行平台，使得大型计算在花费较少的情况下得以实现（2分）。

PVM的设计初衷是为了将由异种机构成的由低带宽、低传输速率相连的网络作为大规模的消息传递并行计算环境，使之较好地支持粗粒度和混合编程任务的执行。

PVM是一个自包含、通用的纯软件系统。

使用PVM时，用户可构造一个虚拟机，该虚拟机由一组全相联的结点组成，每个结点可以为任何一台计算机（1分）2、MPI：是一个库而不是一门语言（2分）；是一种标准或规范的代表而不特指某一个对它的具体实现（2分）；是一种消息传递编程模型,并成为这种编程模型的代表和事实上的标准（1分）。

3、通信域：MPI通信域包括两部分: (1)进程组：所有参加通信的进程的集合，进程的编号从0到N-1（2分），(2)通信上下文：提供一个相对独立的通信区域，不同的消息在不同的上下文中进行传递（2分），不同上下文的消息互不干涉MPI初始化后会产生通信域MPI_COMM_WORLD，它包括了初始化时可得的全部进程用户可以在原有的通信域的基础上定义新的通信域（1分）。

二、简答题（每小题5分，共10分）1、虚拟进程的意义与作用是什么？虚拟进程（MPI_PROC_NULL）是不存在的假想进程，在MPI中的主要作用是充当真实进程通信的目或源，引入虚拟进程的目的是为了在某些情况下编写通信语句的方便。

（3分）在很多情况下为通信指定一个虚拟的源或目标是非常方便的，这不仅可以大大简化处理边界的代码，而且使程序显得简洁易懂。

在捆绑发送接收操作中经常用到这种通信手段。

一个真实进程向虚拟进程发送消息时会立即成功返回；一个真实进程从虚拟进程的接收消息时也会立即成功返回，并且对接收缓冲区没有任何改变。

【中国海洋大学】2010并行算法与编程期末考试A卷

海洋地球科学学院《并行算法与编程》课程试题(A卷) 共3页第1页共3页第2 页共3页第3 页else{MPI_Recv(&m,1,MPI_FLOAT,0,myid,MPI_COMM_WORLD,&status);m=m*myid;MPI_Send(&m,1,MPI_FLOAT,0,myid,MPI_COMM_WORLD);}}三、请写出下列程序的运行结果（假设零进程读入的数为12.3，共启动了5个进程）（10分）#include “mpi.h”#include <stdio.h>main(int agrc,char **argv){int rank,num_processes,i,j,k;float a;MPI_Status status;MPI_Init(&argc,&argv);MPI_Comm_rank(&rank,MPI_COMM_WORLD);MPI_Comm_size(&num_processes,MPI_COMM_WORLD);if(rank==0) scanf(“%f”,&a);if(rank>0){MPI_Recv(&a,1,MPI_FLOAT,rank-1,rank-1,MPI_COMM_WORLD,status);a=a*（i+1.0）;}if(rank<num_processes-1){MPI_Send(&a,1,MPI_FLOAT,rank+1,rank,MPI_COMM_WORLD);}printf(“myid=%d, value=%f\n”,myid,a);MPI_Finalize();}四、请说明下列MPI函数能够实现什么功能（每小题2分，共24分）1、MPI_GET_PROCESSOR_NAME；2、 MPI_SENDRECV；3、MPI_BCAST；4、MPI_BUFFER_ATTACH；5、 MPI_SSEND；6、MPI_IRECV；7、MPI_WAIT；8、MPI_IPROBE9、MPI_GATHER； 10、MPI_BARRIER11、MPI_REDUCE； 12、MPI_COMM_RANK。

并行计算课后答案

并行计算课后答案第三章互连网络3.1 对于一颗K级二叉树（根为0级，叶为k-1级），共有N=2^k-1个节点，当推广至m-元树时（即每个非叶节点有m个子节点）时，试写出总节点数N 的表达式。

答：推广至M元树时，k级M元树总结点数N的表达式为：N=1+m^1+m^2+...+m^（k-1）=(1-m^k)*1/(1-m);3.2二元胖树如图3.46所示，此时所有非根节点均有2个父节点。

如果将图中的每个椭圆均视为单个节点，并且成对节点间的多条边视为一条边，则他实际上就是一个二叉树。

试问：如果不管椭圆，只把小方块视为节点，则他从叶到根形成什么样的多级互联网络？答：8输入的完全混洗三级互联网络。

3.3 四元胖树如图3.47所示，试问：每个内节点有几个子节点和几个父节点？你知道那个机器使用了此种形式的胖树？答：每个内节点有4个子节点，2个父节点。

CM-5使用了此类胖树结构。

3.4 试构造一个N=64的立方环网络，并将其直径和节点度与N=64的超立方比较之，你的结论是什么？答：A N=64的立方环网络,为4立方环（将4维超立方每个顶点以4面体替代得到），直径d=9，节点度n=4B N=64的超立方网络，为六维超立方（将一个立方体分为8个小立方，以每个小立方作为简单立方体的节点，互联成6维超立方），直径d=6，节点度n=63.5 一个N=2^k个节点的de Bruijin 网络如图3.48。

试问：该网络的直径和对剖宽度是多少？答：N=2^k个节点的de Bruijin网络直径d=k 对剖宽带w=2^(k-1)3.6 一个N=2^n个节点的洗牌交换网络如图3.49所示。

试问：此网络节点度==？网络直径==？网络对剖宽度==？答：N=2^n个节点的洗牌交换网络，网络节点度为=2 ，网络直径=n-1 ，网络对剖宽度=43.7 一个N=（k+1）2^k个节点的蝶形网络如图3.50所示。

试问：此网络节点度=？网络直径=？网络对剖宽度=？答：N=（k+1）2^k个节点的蝶形网络，网络节点度=4 ，网络直径=2*k ，网络对剖宽度=2^k3.9 对于如下列举的网络技术，用体系结构描述，速率范围，电缆长度等填充下表中的各项。

【中国海洋大学】2009并行算法与编程期末考试并行B卷答案

专业年级：地信07，勘工07共3页第2页
{ int myid,size,i,j,k,m
MPI_Status status;
MPI_Init(&argc,&argv);
i=100;j=200;
MPI_Comm_rank(MPI_COMM_WORLD,&myid);
if(myid==0)
{
MPI_Recv(&i,1,MPI_INT,1,1,MPI_COMM_WORLD,&status);
2、组通信：在某一特定通信域中要求所有进程都必须参与通信工作的一种通信方式（2分），组通信均为阻塞方式（1分），组通信一般实现消息传递、进程同步和计算三个功能（2分）。
二、简答题（每小题5分，共10分）
1、非阻塞通信的特点是什么？
答案：对于非阻塞通信，不必等到通信操作完成就可以返回，该通信操作可以交给特定的通信硬件去完成，在该通信硬件完成通信操作的同时，处理机可以同时进行计算操作，这样就实现了计算与通信的重叠,从而提高程序执行效率(2分)。非阻塞通信调用返回时一般通信操作还没有完成。因此对于非阻塞发送操作，发送缓冲区必须等到发送完成后才能释放或重用，因此需要引入新的手段（非阻塞通信完成对象）让程序员知道什么时候该消息已成功发送；同样，对于非阻塞的接收操作，该调用返回后并不意味着接收消息已全部到达，必须等到消息到达后才可以引用接收到的消息数据(2分)。对于阻塞通信，只需要一个调用函数即可以完成，但是对于非阻塞通信，一般需要两个调用函数，首先是非阻塞通信的"启动"，但启动并不意味着该通信过程的完成，因此，为了保证通信的完成，还必须调用与该通信相联系的通信"完成"调用接口，通信完成调用才真正将非阻塞通信完成(1分)。

【中国海洋大学】2010并行算法与编程期末考试B卷

while (nslave>0)
{Байду номын сангаас
MPI_Recv(buf,256,…,MPI_ANY_SOURCE,MPI_ANY_TAG,comm,&status);
switch (status.MPI_TAG)
{
case MSG_EXIT: nslave--; break;
case MSG_PRINT_UNORDERED:
sprintf(buf,"Hello from slave %d，ordered print\n", rank );
MPI_Send(buf,strlen(buf)+1,…,0,MSG_PRINT_ORDERED,comm);
sprintf(buf,"Goodbye from slave %d, ordered print\n",rank); MPI_Send(buf,strlen(buf)+1,…,0,MSG_PRINT_ORDERED,comm);
}
void master_io(void)
{
int nslave,size,rank;
MPI_Starus status;
MPI_Comm comm;
comm=MPI_COMM_WORLD;
MPI_Comm_rank(comm,&rank);
MPI_Comm_size(comm,&size);
nslave=size-1; /*size为总的进程个数*/
sprintf(buf,"I'm exiting (%d),unordered print\n",rank );
MPI_Send(buf,strlen(buf)+1,…,0,MSG_PRINT_UNORDERED,comm);

【中国海洋大学】2007并行算法与编程A卷答案

2007-2008学年第一学期《并行算法与编程》A卷答案与评分标准一、名词解释（每小题5分，共10分）1、MPI对MPI的定义是多种多样的，但不外乎下面三个方面，它们限定了MPI 的内涵和外延。

MPI是一个库，而不是一门语言（2分）。

- MPI是一种标准或规范的代表，而不特指某一个对它的具体实现（2分）。

? MPI是一种消息传递编程模型，并成为这种编程模型的代表和事实上的标准（1分）。

名词解释第2题2、阻塞通信：从程序员的角度看，当一个阻塞通信正确返回后，其后果是：1 该调用要求的通信操作已正确完成，即消息已成功发出或成功接收（2分）；2 该调用的缓冲区可用，若是发送操作，则该缓冲区可以被其它的操作更新，若是接收操作，该缓冲区中的数据已经完整，可以被正确引用（3分）。

二、问答题（10分）阻塞通信有哪几种通信模式，各有什么特点？1、阴塞通信有四种通信模式，它们分别为：标准、缓存、同步、就绪通信模式。

（2分）2、标准通信模式的特点是：（1）对数据的缓冲由具体MPI实现决定，与用户程序无关；（2）发送操作的正确返回而不要求接收操作收到发送的数据。

（3）任意时刻都可以发送，返回意味着消息传递的完成。

（4）任意时刻都可以接收。

（2分）3、缓存通信模式的特点是：（1）用户直接对通信缓冲区进行申请、使用和释放；（2）不管接收操作是否启动，发送操作都可以执行，但是在发送消息之前必须有缓冲区，这由用户保证；（3）消息发送能否进行及能否正确返回，不依赖于接收进程，完全依赖于是否有足够的通信缓冲区可用。

（2分）4、同步通信模式的特点是：（1）发送操作反回后，相应的接收进程已经开始接收同步通信模式发出的消息(发送缓冲区中的数据已经全部被系统缓冲区缓存并且已经开始发送，发送缓冲区可重用)；（2）不仅知道自己处于什么状态，而且知道对方处于什么状态；（3）非局部（Non_local）通信形式（涉及到对方的状态）；（4）开始不依赖于接收进程相应的操作是否启动。

【中国海洋大学】2008并行算法与编程期末考试A卷答案

main(int argc,char **argv)
{ int myid,size,i,j,k,m；
MPI_Init(&argc,&argv);
授课教师
命题教师或命题负责人
签字
院系负责人
签字
年月日
中国海洋大学试卷答案(附页)
2008—2009学年第1学期试题名称:并行算法与编程（A卷）
专业年级：地信06，勘工06共4页第2页
中国海洋大学试卷答案(附页)
2008—2009学年第1学期试题名称:并行算法与编程（A卷）
专业年级：地信06，勘工06共4页第3页
五、请说明下列MPI函数能够实现什么功能（每小题3分，共30分）
1、MPI_BARRIER：指定通信域中的各进程同步
2、MPI_BCAST：广播
3、MPI_WAITALL：完成非阻塞通信表中的所有非阻塞通信
中国海洋大学试卷答案(首页)
2008—2009学年第1学期试题名称:并行算法与编程（A卷）
专业年级：地信06，勘工06共4页第1页
一、名词解释（每小题5分，共15分）
1、主从模式：所谓主从模式，就是MPI程序的各个进程所起的作用和地位并不相同（3分），一个或者一些进程完成一类任务，而另外的进程完成其它的任务，这些功能或者地位不同的进程所对应的代码也有较大的差别。一种典型的主从模式就是一个主进程负责分配任务，而其它的所有从进程从主进程接受不同的任务执行（2分）。
六、编程题（25分）
编写一个完整的MPI并行程序，求矩阵A中各元素的极大值（注：A为100*100阶矩阵,且A[i][j]=i+j,给定进程数为5）
include 'mpif.h'(1分)

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、名词术语翻译1）SIMD ：Single Instruction Multiple Data, 单指令多数据流。

2）MIMD ：Multiple Instruction Multiple Data, 多指令多数据流。

3）SIMT ：Single Instruction Multiple Threads, 单指令多线程。

4）SPMD ：Single Program Multiple Data, 单程序多数据流。

5）MPMD ：Multiple Program Multiple Data, 多程序多数据流。

6）PVP ：Parallel Vector Processor, 并行向量处理机。

7）SMP ：Symmetric Multiprocessor, 对称多处理机。

8）MPP ：Massively Parallel Processor, 大规模并行处理机。

9）DSM ：Distributed Shared Memory, 分布式共享存储。

10）COW ：Cluster of Workstation, 工作站机群。

11）UMA ：Uniform Memory Access, 均匀存储访问模型。

12）NUMA ：Nonuniform Memory Access, 非均匀存储访问模型。

13）COMA ：Cache-Only Memory Access, 全高速缓存访问模型。

14）NORMA ：No-Remote Memory Access, 非远程存储访问模型。

15）CC-NUMA ：Coherent-Cache Nonuniform Memory Access, 高速缓存一致性非均匀存储访问模型。

16）CUDA ：Compute Unified Device Architecture, 统一计算架构。

17）GPU ：Graphics Process Unit, 图形处理器。

18）GPGPU ：General-Purpose Computing on GPU, 通用计算的图形处理器。

19）HPC ：High Performance Computing, 高性能计算。

二、简答题1、常用的MPI群集通信函数有哪些？简述其功能。

（4.5 P194）【群集通信是一个进程组中的所有进程都参加的全局通信操作。

群集通信一般实现三个功能：通信、聚集和同步。

通信功能主要完成组内数据的传输；聚集功能在通信的基础上对给定的数据完成一定的操作；同步功能实现组内所有进程在执行进度上取得一致。

】（1）通信：MPI_Bcast : 一对多广播同样的消息；MPI_Gather : 多对一收集各个进程的消息；MPI_Gatherv : MPI_Gather 的一般化；MPI_Allgather : 全局收集；MPI_Allgatherv : MPI_Allgather 的一般化；MPI_Scatter ：一对多散播不同的消息；MPI_Scatterv ： MPI_Scatter 的一般化；MPI_Alltoall：多对多全局交换消息；MPI_Alltoallv ： MPI_Alltoall 的一般化。

（2）聚集：MPI_Reduce ：多对一归约；MPI_Allreduce ：MPI_Reduce 的一般化；MPI_Reduce_scatter : MPI_Reduce 的一般化；MPI_Scan : 扫描。

（3）同步：MPI_Barrier : 路障同步。

2．MPI点对点通信有哪四种模式？简述其特点。

（4.4 P183）通信模式指的是缓冲管理，以及发送方和接收方之间的同步方式。

MPI点对点通信有如下四种模式：（1）同步通信模式：只有相应的接收过程已经启动，发送过程才正确返回。

因此，同步发送返回后，表示发送缓冲区中的数据已经全部被系统缓冲区缓存，并且已经开始发送。

当同步发送返回后，发送缓冲区可以被释放或者重新使用。

（2）缓冲通信模式：缓冲通信模式的发送不管接收操作是否已经启动都可以执行。

但是需要用户程序事先申请一块足够大的缓冲区，通过MPI_Buffer_attch实现，通过MPI_Buffer_detach来回收申请的缓冲区。

（3）标准通信模式：是否对发送的数据进行缓冲由MPI的实现来决定，而不是由用户程序来控制。

发送可以是同步的或者缓冲的，取决于实现。

（4）就绪通信模式：发送操作只有在接收进程相应的接收操作已经开始才进行发送。

当发送操作启动而相应的接收还没有启动，发送操作将出错。

就绪通信模式的特殊之处就是接收操作必须先于发送操作启动。

3．简述OpenMP中private、threadprivate、firstprivate、lastprivate子句的区别。

（P11）（1）private子句：用于将一个或多个变量声明成线程私有的变量，变量声明成私有变量后，指定每个线程都有它自己的变量私有副本，其他线程无法访问私有副本。

即使在并行区域外有同名的共享变量，共享变量在并行区域内不起任何作用，并且并行区域内不会操作到外面的共享变量。

（2）thread private子句：用来指定全局的对象被各个线程各自复制了一个私有的拷贝，即各个线程具有各自私有的全局对象。

threadprivate和private的区别在于threadprivate声明的变量通常是全局范围内有效的，而private声明的变量只在它所属的并行构造中有效。

（3）firstprivate子句：private声明的私有变量不能继承同名变量的值；firstprivate子句可以继承原有共享变量的值。

（4）lastprivate 子句：private 和firstprivate 子句在退出并行区域时都没有将私有变量的最后取值赋给对应的共享变量，lastprivate 子句就是用来实现在退出并行区域时将私有变量的值赋给共享变量。

4．OpenMP中schedule子句支持的三种任务调度方式是什么？简述其特点。

Schedule子句支持的三种任务调度方式是：static、dynamic、guided.（1）静态调度（static）当 parallel for 编译指导语句没有带schedule子句时,大部分系统中默认采用static调度方式。

假设有n次循环迭代，t个线程，那么给每个线程静态分配大约n/t次迭代计算。

n/t不一定是整数，因此实际分配的迭代次数可能存在差1的情况，如果指定了size参数，可能相差一个size。

静态调度时可以使用/不使用size参数。

不使用size参数：分配给每个线程n/t次连续的迭代。

使用size参数：分配给每个线程size次连续的迭代计算。

（2）动态调度（dynamic）动态调度是动态地将迭代分配到各个线程，动态调度可以使用/不使用size参数。

不使用size参数：将迭代逐个地分配到各个线程；使用size参数：每次分配给线程的迭代次数为指定的size次。

（3）guided调度（guided）guided调度是一种采用指导性的启发式自调度方法。

开始时每个线程会分配到较大的迭代块，之后分配到的迭代块会逐渐递减。

迭代块的大小会按指数级下降到指定的size大小，如果没有指定size参数，那么迭代块大小最小会降到1。

5．简述CUDA的线程结构与GPU硬件层次结构的对应关系。

线程的CUDA 层次结构映射到GPU 上处理器的层次结构：一个GPU 执行一个或多个Grid；Grid调度线程块block在流多处理器SM（Stream Multiprocessor）上执行，一个SM可以执行一个或多个线程块block；SM 中的标量流处理器SP（scalar processer）和其他计算单元执行线程thread指令。

在一个SM中可以同时存在多个block的上下文。

每个SM一批接一批地处理块批次，SM以32 个线程为一组的形式执行，这32 个线程叫做线程束warp，并以SIMD方式由SM执行。

同一个warp内是严格串行的，因此在warp内是无须同步。

warp的发射（issue）顺序是不确定，但是可以实现同步。

线程块网格中的线程块的发射也是不确定的，且块之间没有同步机制，在网格执行期间，同一网格的两个不同线程块中的线程无法通过全局内存互相通信。

6、CUDA设备端有哪六种存储器模型？简述其特点。

CUDA设备有如下六种存储器模型：寄存器(register)、共享存储器（shared memory）、全局存储器（global memory）、局部存储器（local memory）、常数存储器（constant memory）、纹理存储器（texture memory）。

三、并行程序设用MPI和OPENMP并行编程计算“累加和”和“π的近似值”(MPI-累加和，MPI-pi近似值，openmp-累加和，openmp-pi近似值，老师说四选二)1.Openmp-累加和#include <omp.h>const int N=100;void main(){int sum = 0;#pragma omp parallel for reduction(+:sum)for(int i=1;i<=N;i++)sum += i;print("Result of adding 1 to %d is : %d", N,sum);}2.Openmp-pi//openmp-π#include <omp.h>#include <stdio.h>#include <math.h>#define N 100000void main( ){double sum = 0.0, pi, w, temp = 0.0;int i;w = 1.0 / N;#pragma omp parallel for reduction(+:sum)private(x) for (i = 0; i < N; i ++){temp = (i + 0.5) * w;sum= 4.0 / (1 + temp*temp) + sum;}printf("PI = %0.9f\n ", pi * w);}3.mpi-π#include "mpi.h"#include <stdio.h>#include <math.h>#define N 100000void main(int argc, char* argv[]){double sum = 0.0, pi, w, temp = 0.0;int i, myid, NumProc;w = 1.0 / N;MPI_Init(&argc, &argv);MPI_Comm_rank(MPI_COMM_WORLD, &myid);MPI_Comm_size(MPI_COMM_WORLD, &NumProc);for (i = myid; i < N; i += NumProc){temp = (i + 0.5) * w;sum= 4.0 / (1 + temp*temp) + sum;}MPI_Reduce(&sum, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD);if (myid == 0){printf("PI = %0.9f\n ", pi * w);}MPI_Finalize();}4.mpi-sum#include "mpi.h"#include <stdio.h>#include <math.h>#define N 100void main(int argc, char* argv[]){int sum = 0,result;int i, myid, NumProc;MPI_Init(&argc, &argv);MPI_Comm_size(MPI_COMM_WORLD, &NumProc);MPI_Comm_rank(MPI_COMM_WOLD, &myid);for (i = myid; i <= N; i += NumProc){sum += i;}MPI_Reduce(&sum, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD);if (myid == 0){printf("sum of 1 to %d is: %d\n", N, result);}MPI_Finalize();}。