多核多线程技术OpenMP_实验报告2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验二:OpenMP多线程编程
模块一:基础练习
3 编译执行,执行结果:
简答与思考:
1 写出关键的并行代码
(1)四个线程各自执行6次迭代。
#include"stdafx.h"
#include<omp.h>
int _tmain(int argc, _TCHAR* argv[])
{
printf("Hello World \n");
#pragma omp parallel
{
for(int i=0; i<6; i++)
{
printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());
}
}
printf("GoodBye World\n");
return 0;
}
(2)四个线程协同完成6次迭代。
#include"stdafx.h"
#include<omp.h>
int _tmain(int argc, _TCHAR* argv[])
{
printf("Hello World \n");
#pragma omp parallel
{
#pragma omp for
for(int i=0; i<6; i++)
{
printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());
}
}
printf("GoodBye World\n");
return 0;
}
2 附加练习:
(1)编译执行下面的代码,写出两种可能的执行结果。
int i=0,j = 0;
#pragma omp parallel for
for ( i= 2; i < 7; i++ )
for ( j= 3; j< 5; j++ )
printf(“i = %d, j = %d\n”, i, j);
可能的结果:
1种2种
i=2,j=3 i=2,j=3
i=2,j=4 i=2,j=4
i=3,j=3 i=3,j=3
i=3,j=4 i=3,j=4
i=6,j=3 i=5,j=3
i=6,j=4 i=5,j=4
i=4,j=3 i=5,j=3
i=4,j=4 i=5,j=4
i=5,j=3 i=6,j=3
i=5,j=4 i=6,j=4
(2)编译执行下面的代码,写出两种可能的执行结果。
int i=0,j = 0;
for ( i= 2; i < 7; i++ )
#pragma omp parallel for
for ( j= 3; j< 5; j++ )
printf(“i = %d, j = %d\n”, i, j);
可能的结果:
1种2种
i=2,j=3 i=2,j=3
i=2,j=4 i=2,j=4
i=3,j=3 i=3,j=4
i=3,j=4 i=3,j=3
i=4,j=3 i=4,j=3
i=4,j=4 i=4,j=4
i=5,j=3 i=5,j=4
i=5,j=4 i=5,j=3
i=6,j=3 i=6,j=3
i=6,j=4 i=6,j=4
(3)分析上述两段代码的不同并行效果。
1).代码,” #pragma omp parallel for”为并行区域只对外层循环起作用,因此外层循环 i 值出现的比较随机。
而” #pragma omp parallel for”对内层的循环不起作用,执行方式仍然是串行方式,于是内层循环的出现还是固定的先3 后4。
2).代码” #pragma omp parallel for”只对内层循环起作用,对外层循环不起作用,因此外层循环是串行方式执行的,内层循环是多个线程共同并发执行的。
因此i值的出现是随机的,j值的出现是有序的。
3 实验总结。
对于嵌套循环的,并行的结果只与并行化作用的循环有关,在每一个并行执行线程的内部,程序是继续按照顺序执行的。
模块二:数值积分计算Pi值
3 编译执行,计算执行时间为:11.200000s
6 编译执行,计算执行时间为: 5.192000s
7 加速比(写出计算公式):11.200/5.192≈ 2.157
8 并行效率(写出计算公式): 2.157/4*(100%)≈54%
简答与思考:
1 如何进行并行化的?为什么?
for循环被多个线程协同执行,因此变量x 为多个线程的共享变量,需要被私有化;sum也是多个线程的共享变量,也需要被私有话,但是sum值由于功能和效率的需要,最终结果需要相加,因此用 reduction(+:sum),reduction会为每个线程创建一个私有的sum变量的副本,最终结果相加并且返回到sum。
关键代码:(黄色部分已标记)
// OpenMPPi.cpp : 定义控制台应用程序的入口点。
//
#include"stdafx.h"
#include<time.h>
#include<omp.h>
long long num_steps = 1000000000;
double step;
int main()
{
clock_t start, stop;
double x, pi, sum=0.0;
int i;
step = 1./(double)num_steps;
start = clock();
#pragma omp parallel for reduction(+:sum),private(x)
for (i=0; i<num_steps; i++)
{
x = (i + .5)*step;
sum += 4.0/(1.+ x*x);
}
pi = sum*step;
stop = clock();
printf("The value of PI is %15.12f\n",pi);
printf("The time to calculate PI was %f seconds\n",((double)(stop - start)/1000.0));
return 0;
}
2 是否可以对该并行化方案进行进一步的优化?如何优化?效果如何?
还可以在sum += 4.0/(1.+ x*x);前面加上事件机制OpenMp临界区的编译指导语句#pragma omp critical,但这样优化和采用规约的执行效果是一样的。
3 是否有其他并行化方案?如何并行?效果如何?
暂时没想到其他进一步优化方案。
4 实验总结
当开发OpenMP程序时,针对出现在并行段的变量,尤其是共享变量,程序开发人员有必要告诉编译器那些变量可以保持它的共享性,哪些变量必须要转化为私有的。
模块三:Monte Carlo计算Pi值
2 编译执行,Pi的值为:Pi = 3.141821200
计算执行时间为:Seconds = 4.523000000
5 编译执行,Pi的值为:Pi = 3,141525100
计算执行时间为:Seconds = 2.188000000
6 加速比(写出计算公式): 4.523/2.188 ≈ 2.067
7 并行效率(写出计算公式): 2.067/4*(100%) ≈51.680%
简答与思考:
1 如何进行并行化的?为什么?
for循环被多个线程协同执行,因此变量x,y和stream 为多个线程的共享变量,需要被私有化;dUnderCurve也是多个线程的共享变量,也需要被私有话,但是dUnderCurve值由于功能和效率的需要,最终结果需要相加,因此用reduction(+:dUnderCurve),reduction会为每个线程创建一个私有的dUnderCurve变量的副本,最终结果相加并且返回到dUnderCurve。
同时要注意的是i和j也是每个线程各自的私有变量,在一个线程对其操作是不允许其他线程的干扰,所以把其包含在#pragma omp for指导语句中
关键代码:(已用黄色部分标记)
#include"stdafx.h"
#include<stdlib.h>
#include<time.h>
//VSL Variables
#include"mkl_vsl.h"
#define BRNG VSL_BRNG_MCG31
#define METHOD 0
#define BLOCK_SIZE 500
int _tmain(int argc, _TCHAR* argv[])
{
unsigned int iter=200000000;
double x;
double y;
double dUnderCurve=0.0;
double pi=0.0;
double end_time,start_time;
start_time=clock();
//you need a private copy of whole array for each thread
VSLStreamStatePtr stream; //You need one stream for each thread
#pragma omp parallel private(x, y, stream) reduction(+: dUnderCurve)
{
double r[BLOCK_SIZE*2]; //Careful!!!
vslNewStream(&stream,BRNG,(int)clock());
#pragma omp for
for(int j=0; j<iter/BLOCK_SIZE;j++)
{
vdRngUniform( METHOD, stream, BLOCK_SIZE*2, r, 0.0, 1.0 );//Create random numbers into array r
for (int i=0;i<BLOCK_SIZE;i++)
{
x=r[i]; //X Coordinate
y=r[i+BLOCK_SIZE]; //Y Coordinate
if (x*x + y*y <= 1.0)
dUnderCurve++;//is distance from Origin under Curve
}
}
vslDeleteStream(&stream);
}
pi = dUnderCurve / (double) iter * 4 ;
end_time=clock();
printf ("pi = %10.9f\n", pi);
printf ("Seconds = %10.9f\n",(double)((end_time-start_time)/1000.0));
return 0;
}
2 是否可以对该并行化方案进行进一步的优化?如何优化?效果如何?
还可以在dUnderCurve++;前面加上事件机制OpenMp临界区的编译指导语句#pragma omp critical,但这样优化和采用规约的执行效果是一样的。
3 是否有其他并行化方案?如何并行?效果如何?
暂时没想到其他进一步优化方案。
4 实验总结
通过本次试验我的收获还是很多的比如掌握了OpenMP的基本功能、构成方式、句法及OpenMP体系结构、特点与组成以及采用OpenMP进行多线程编程的基本使用和调试方法。