多核多线程技术OpenMP_实验报告2

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验二：OpenMP多线程编程
模块一：基础练习
3 编译执行，执行结果：
简答与思考：
1 写出关键的并行代码
（1）四个线程各自执行6次迭代。

#include"stdafx.h"
#include<omp.h>
int _tmain(int argc, _TCHAR* argv[])
{
printf("Hello World \n");
#pragma omp parallel
{
for(int i=0; i<6; i++)
{
printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());
}
}
printf("GoodBye World\n");
return 0;
}
（2）四个线程协同完成6次迭代。

#include"stdafx.h"
#include<omp.h>
int _tmain(int argc, _TCHAR* argv[])
{
printf("Hello World \n");
#pragma omp parallel
{
#pragma omp for
for(int i=0; i<6; i++)
{
printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());
}
}
printf("GoodBye World\n");
return 0;
}
2 附加练习：
（1）编译执行下面的代码，写出两种可能的执行结果。

int i=0,j = 0;
#pragma omp parallel for
for ( i= 2; i < 7; i++ )
for ( j= 3; j< 5; j++ )
printf(“i = %d, j = %d\n”, i, j);
可能的结果:
1种2种
i=2，j=3 i=2，j=3
i=2，j=4 i=2，j=4
i=3，j=3 i=3，j=3
i=3，j=4 i=3，j=4
i=6，j=3 i=5，j=3
i=6，j=4 i=5，j=4
i=4，j=3 i=5，j=3
i=4，j=4 i=5，j=4
i=5，j=3 i=6，j=3
i=5，j=4 i=6，j=4
（2）编译执行下面的代码，写出两种可能的执行结果。

int i=0,j = 0;
for ( i= 2; i < 7; i++ )
#pragma omp parallel for
for ( j= 3; j< 5; j++ )
printf(“i = %d, j = %d\n”, i, j);
可能的结果:
1种2种
i=2，j=3 i=2，j=3
i=2，j=4 i=2，j=4
i=3，j=3 i=3，j=4
i=3，j=4 i=3，j=3
i=4，j=3 i=4，j=3
i=4，j=4 i=4，j=4
i=5，j=3 i=5，j=4
i=5，j=4 i=5，j=3
i=6，j=3 i=6，j=3
i=6，j=4 i=6，j=4
（3）分析上述两段代码的不同并行效果。

1).代码，” #pragma omp parallel for”为并行区域只对外层循环起作用，因此外层循环 i 值出现的比较随机。

而” #pragma omp parallel for”对内层的循环不起作用，执行方式仍然是串行方式，于是内层循环的出现还是固定的先3 后4。

2).代码” #pragma omp parallel for”只对内层循环起作用，对外层循环不起作用，因此外层循环是串行方式执行的，内层循环是多个线程共同并发执行的。

因此i值的出现是随机的，j值的出现是有序的。

3 实验总结。

对于嵌套循环的，并行的结果只与并行化作用的循环有关，在每一个并行执行线程的内部，程序是继续按照顺序执行的。

模块二：数值积分计算Pi值
3 编译执行，计算执行时间为：11.200000s
6 编译执行，计算执行时间为： 5.192000s
7 加速比（写出计算公式）：11.200/5.192≈ 2.157
8 并行效率（写出计算公式）： 2.157/4*(100%)≈54%
简答与思考：
1 如何进行并行化的？为什么？
for循环被多个线程协同执行，因此变量x 为多个线程的共享变量，需要被私有化；sum也是多个线程的共享变量，也需要被私有话，但是sum值由于功能和效率的需要，最终结果需要相加，因此用 reduction(+:sum),reduction会为每个线程创建一个私有的sum变量的副本，最终结果相加并且返回到sum。

关键代码：(黄色部分已标记)
// OpenMPPi.cpp : 定义控制台应用程序的入口点。

//
#include"stdafx.h"
#include<time.h>
#include<omp.h>
long long num_steps = 1000000000;
double step;
int main()
{
clock_t start, stop;
double x, pi, sum=0.0;
int i;
step = 1./(double)num_steps;
start = clock();
#pragma omp parallel for reduction(+:sum),private(x)
for (i=0; i<num_steps; i++)
{
x = (i + .5)*step;
sum += 4.0/(1.+ x*x);
}
pi = sum*step;
stop = clock();
printf("The value of PI is %15.12f\n",pi);
printf("The time to calculate PI was %f seconds\n",((double)(stop - start)/1000.0));
return 0;
}
2 是否可以对该并行化方案进行进一步的优化？如何优化？效果如何？
还可以在sum += 4.0/(1.+ x*x);前面加上事件机制OpenMp临界区的编译指导语句#pragma omp critical,但这样优化和采用规约的执行效果是一样的。

3 是否有其他并行化方案？如何并行？效果如何？
暂时没想到其他进一步优化方案。

4 实验总结
当开发OpenMP程序时，针对出现在并行段的变量，尤其是共享变量，程序开发人员有必要告诉编译器那些变量可以保持它的共享性，哪些变量必须要转化为私有的。

模块三：Monte Carlo计算Pi值
2 编译执行，Pi的值为：Pi = 3.141821200
计算执行时间为：Seconds = 4.523000000
5 编译执行，Pi的值为：Pi = 3,141525100
计算执行时间为：Seconds = 2.188000000
6 加速比（写出计算公式）： 4.523/2.188 ≈ 2.067
7 并行效率（写出计算公式）： 2.067/4*(100%) ≈51.680%
简答与思考：
1 如何进行并行化的？为什么？
for循环被多个线程协同执行，因此变量x，y和stream 为多个线程的共享变量，需要被私有化；dUnderCurve也是多个线程的共享变量，也需要被私有话，但是dUnderCurve值由于功能和效率的需要，最终结果需要相加，因此用reduction(+:dUnderCurve),reduction会为每个线程创建一个私有的dUnderCurve变量的副本，最终结果相加并且返回到dUnderCurve。

同时要注意的是i和j也是每个线程各自的私有变量，在一个线程对其操作是不允许其他线程的干扰，所以把其包含在#pragma omp for指导语句中
关键代码：(已用黄色部分标记)
#include"stdafx.h"
#include<stdlib.h>
#include<time.h>
//VSL Variables
#include"mkl_vsl.h"
#define BRNG VSL_BRNG_MCG31
#define METHOD 0
#define BLOCK_SIZE 500
int _tmain(int argc, _TCHAR* argv[])
{
unsigned int iter=200000000;
double x;
double y;
double dUnderCurve=0.0;
double pi=0.0;
double end_time,start_time;
start_time=clock();
//you need a private copy of whole array for each thread
VSLStreamStatePtr stream; //You need one stream for each thread
#pragma omp parallel private(x, y, stream) reduction(+: dUnderCurve)
{
double r[BLOCK_SIZE*2]; //Careful!!!
vslNewStream(&stream,BRNG,(int)clock());
#pragma omp for
for(int j=0; j<iter/BLOCK_SIZE;j++)
{
vdRngUniform( METHOD, stream, BLOCK_SIZE*2, r, 0.0, 1.0 );//Create random numbers into array r
for (int i=0;i<BLOCK_SIZE;i++)
{
x=r[i]; //X Coordinate
y=r[i+BLOCK_SIZE]; //Y Coordinate
if (x*x + y*y <= 1.0)
dUnderCurve++;//is distance from Origin under Curve
}
}
vslDeleteStream(&stream);
}
pi = dUnderCurve / (double) iter * 4 ;
end_time=clock();
printf ("pi = %10.9f\n", pi);
printf ("Seconds = %10.9f\n",(double)((end_time-start_time)/1000.0));
return 0;
}
2 是否可以对该并行化方案进行进一步的优化？如何优化？效果如何？
还可以在dUnderCurve++;前面加上事件机制OpenMp临界区的编译指导语句#pragma omp critical,但这样优化和采用规约的执行效果是一样的。

3 是否有其他并行化方案？如何并行？效果如何？
暂时没想到其他进一步优化方案。

4 实验总结
通过本次试验我的收获还是很多的比如掌握了OpenMP的基本功能、构成方式、句法及OpenMP体系结构、特点与组成以及采用OpenMP进行多线程编程的基本使用和调试方法。