OpenMP并行程序设计

saligon
2 ℃
2020-03-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

OpenMP并行程序设计（一）OpenMP是一个支持共享存储并行设计的库，特别适宜多核CPU上的并行程序设计。今天在双核CPU机器上试了一下OpenMP并行程序设计，发现效率方面超出想象，因此写出来分享给大家。在VC8.0中项目的属性对话框中，左边框里的“配置属性”下的“C/C++”下的“语言”页里，将OpenMP支持改为“是/（OpenMP）”就可以支持OpenMP了。先看一个简单的使用了OpenMP程序intmain(intargc,char*argv[]){#pragmaompparallelforfor(inti=0;i10;i++){printf(i=%d\n,i);}return0;}这个程序执行后打印出以下结果：i=0i=5i=1i=6i=2i=7i=3i=8i=4i=9可见for循环语句中的内容被并行执行了。（每次运行的打印结果可能会有区别）这里要说明一下，#pragmaompparallelfor这条语句是用来指定后面的for循环语句变成并行执行的，当然for循环里的内容必须满足可以并行执行，即每次循环互不相干，后一次循环不依赖于前面的循环。有关#pragmaompparallelfor这条语句的具体含义及相关OpenMP指令和函数的介绍暂时先放一放，只要知道这条语句会将后面的for循环里的内容变成并行执行就行了。将for循环里的语句变成并行执行后效率会不会提高呢，我想这是我们最关心的内容了。下面就写一个简单的测试程序来测试一下：voidtest(){inta=0;clock_tt1=clock();for(inti=0;i100000000;i++){a=i+1;}clock_tt2=clock();printf(Time=%d\n,t2-t1);}intmain(intargc,char*argv[]){clock_tt1=clock();#pragmaompparallelforfor(intj=0;j2;j++){test();}clock_tt2=clock();printf(Totaltime=%d\n,t2-t1);test();return0;}在test()函数中，执行了1亿次循环，主要是用来执行一个长时间的操作。在main（）函数里，先在一个循环里调用test()函数，只循环2次，我们还是看一下在双核CPU上的运行结果吧：Time=297Time=297Totaltime=297Time=297可以看到在for循环里的两次test()函数调用都花费了297ms，但是打印出的总时间却只花费了297ms，后面那个单独执行的test()函数花费的时间也是297ms，可见使用并行计算后效率提高了整整一倍。下一篇文章中将介绍OpenMP的具体指令和用法。OpenMP并行程序设计（二）1、fork/join并行执行模式的概念OpenMP是一个编译器指令和库函数的集合，主要是为共享式存储计算机上的并行程序设计使用的。前面一篇文章中已经试用了OpenMP的一个Parallelfor指令。从上篇文章中我们也可以发现OpenMP并行执行的程序要全部结束后才能执行后面的非并行部分的代码。这就是标准的并行模式fork/join式并行模式，共享存储式并行程序就是使用fork/join式并行的。标准并行模式执行代码的基本思想是，程序开始时只有一个主线程，程序中的串行部分都由主线程执行，并行的部分是通过派生其他线程来执行，但是如果并行部分没有结束时是不会执行串行部分的，如上一篇文章中的以下代码：intmain(intargc,char*argv[]){clock_tt1=clock();#pragmaompparallelforfor(intj=0;j2;j++){test();}clock_tt2=clock();printf(Totaltime=%d\n,t2-t1);test();return0;}在没有执行完for循环中的代码之前，后面的clock_tt2=clock();这行代码是不会执行的，如果和调用线程创建函数相比，它相当于先创建线程，并等待线程执行完，所以这种并行模式中在主线程里创建的线程并没有和主线程并行运行。2、OpenMP指令和库函数介绍下面来介绍OpenMP的基本指令和常用指令的用法，在C/C++中，OpenMP指令使用的格式为＃pragmaomp指令[子句[子句]…]前面提到的parallelfor就是一条指令，有些书中也将OpenMP的“指令”叫做“编译指导语句”，后面的子句是可选的。例如：#pragmaompparallelprivate(i,j)parallel就是指令，private是子句为叙述方便把包含#pragma和OpenMP指令的一行叫做语句，如上面那行叫parallel语句。OpenMP的指令有以下一些：parallel，用在一个代码段之前，表示这段代码将被多个线程并行执行for，用于for循环之前，将循环分配到多个线程中并行执行，必须保证每次循环之间无相关性。parallelfor，parallel和for语句的结合，也是用在一个for循环之前，表示for循环的代码将被多个线程并行执行。sections，用在可能会被并行执行的代码段之前parallelsections，parallel和sections两个语句的结合critical，用在一段代码临界区之前single，用在一段只被单个线程执行的代码段之前，表示后面的代码段将被单线程执行。flush，barrier，用于并行区内代码的线程同步，所有线程执行到barrier时要停止，直到所有线程都执行到barrier时才继续往下执行。atomic，用于指定一块内存区域被制动更新master，用于指定一段代码块由主线程执行ordered，用于指定并行区域的循环按顺序执行threadprivate,用于指定一个变量是线程私有的。OpenMP除上述指令外，还有一些库函数，下面列出几个常用的库函数：omp_get_num_procs,返回运行本线程的多处理机的处理器个数。omp_get_num_threads,返回当前并行区域中的活动线程个数。omp_get_thread_num,返回线程号omp_set_num_threads,设置并行执行代码时的线程个数omp_init_lock,初始化一个简单锁omp_set_lock，上锁操作omp_unset_lock，解锁操作，要和omp_set_lock函数配对使用。omp_destroy_lock，omp_init_lock函数的配对操作函数，关闭一个锁OpenMP的子句有以下一些private,指定每个线程都有它自己的变量私有副本。firstprivate，指定每个线程都有它自己的变量私有副本，并且变量要被继承主线程中的初值。lastprivate，主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。reduce，用来指定一个或多个变量是私有的，并且在并行处理结束后这些变量要执行指定的运算。nowait，忽略指定中暗含的等待num_threads，指定线程的个数schedule，指定如何调度for循环迭代shared，指定一个或多个变量为多个线程间的共享变量ordered，用来指定for循环的执行要按顺序执行copyprivate，用于single指令中的指定变量为多个线程的共享变量copyin，用来指定一个threadprivate的变量的值要用主线程的值进行初始化。default，用来指定并行处理区域内的变量的使用方式，缺省是shared3、parallel指令的用法parallel是用来构造一个并行块的，也可以使用其他指令如for、sections等和它配合使用。在C/C++中，parallel的使用方法如下：#pragmaompparallel[for|sections][子句[子句]…]{//代码}parallel语句后面要跟一个大括号对将要并行执行的代码括起来。voidmain(intargc,char*argv[]){#pragmaompparallel{printf(“Hello,World!\n”);}}执行以上代码将会打印出以下结果Hello,World!Hello,World!Hello,World!Hello,World!可以看得出parallel语句中的代码被执行了四次，说明总共创建了4个线程去执行parallel语句中的代码。也可以指定使用多少个线程来执行，需要使用num_threads子句：voidmain(intargc,char*argv[]){#pragmaompparallelnum_threads(8){printf(“Hello,World!,ThreadId=%d\n”,omp_get_thread_num());}}执行以上代码，将会打印出以下结果：Hello,World!,ThreadId=2Hello,World!,ThreadId=6Hello,World!,ThreadId=4Hello,World!,ThreadId=0Hello,World!,ThreadId=5Hello,World!,ThreadId=7Hello,World!,ThreadId=1Hello,World!,ThreadId=3从ThreadId的不同可以看出创建了8个线程来执行以上代码。所以parallel指令是用来为一段代码创建多个线程来执行它的。parallel块中的每行代码都被多个线程重复执行。和传统的创建线程函数比起来，相当于为一个线程入口函数重复调用创建线程函数来创建线程并等待线程执行完。4、for指令的使用方法for指令则是用来将一个for循环分配到多个线程中执行。for指令一般可以和parallel指令合起来形成parallelfor指令使用，也可以单独用在parallel语句的并行块中。#pragmaomp[parallel]for[子句]for循环语句先看看单独使用for语句时是什么效果：intj=0;#pragmaompforfor(j=0;j4;j++){printf(“j=%d,ThreadId=%d\n”,j,omp_get_thread_num());}执行以上代码后打印出以下结果j=0,ThreadId=0j=1,ThreadId=0j=2,ThreadId=0j=3,ThreadId=0从结果可以看出四次循环都在一个线程里执行，可见for指令要和parallel指令结合起来使用才有效果：如以下代码就是parallel和for一起结合成parallelfor的形式使用的：intj=0;#pragmaompparallelforfor(j=0;j4;j++){printf(“j=%d,ThreadId=%d\n”,j,omp_get_thread_num());}执行后会打印出以下结果：j=0,ThreadId=0j=2,ThreadId=2j=1,ThreadId=1j=3,ThreadId=3可见循环被分配到四个不同的线程中执行。上面这段代码也可以改写成以下形式：intj=0;#pragmaompparallel{#pragmaompforfor(j=0;j4;j++){printf(“j=%d,ThreadId=%d\n”,j,omp_get_thread_num());}}执行以上代码会打印出以下结果：j=1,ThreadId=1j=3,ThreadId=3j=2,ThreadId=2j=0,ThreadId=0在一个parallel块中也可以有多个for语句，如：intj;#pragmaompparallel{#pragmaompforfor(j=0;j100;j++){…}#pragmaompforfor(j=0;j100;j++){…}…}for循环语句中，书写是需要按照一定规范来写才可以的，即for循环小括号内的语句要按照一定的规范进行书写，for语