如何使用 openMP 并行化内部循环？答案

【问题标题】：How can I parallelize the inner loops with openMP?如何使用 openMP 并行化内部循环？
【发布时间】：2023-04-11 04:48:01
【问题描述】：

也许我的问题的解决方案非常明显。我想使用 openMP（进入英特尔至强融核）加速以下代码，但我不能。

int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
for(i=0; i < columns; i++)
{
  if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
  {
    for(c=0; c < rows; c++)
    {
      if(left_side[i + c * columns] > 0)
      {
        if(flag[c] == 0)
        {
          r_prob[c] = c_vect[c];
          flag[c] = 1;
          for(d=0; d < columns; d++)
          {
            switch(left_side[c * columns + d])
            {
              case 0:
                break;
              case 1:
                r_prob[c] *= M_in[d] * 1.0;
                break;
              case 2:
                r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
                break;
              default:
                for(e=1; e <= left_side[c * columns + d]; e++)
                  r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
                break;
            }
          }
        }
      }
    }
  }
}
//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.

此代码运行不正确，r_prob 中的值错误。如何并行化这段代码？

【问题讨论】：

没有在并行循环中声明c、d、e 和最重要的i 是否有具体原因？
我猜原因是因为它是用纯C语言编程的。在 C ++ 中，您可以在每个 FOR 中声明变量

标签： c++ openmp xeon-phi

【解决方案1】：

你的代码有一个错误，因为第一个FOR创建了多个线程，并且这些线程同时写入了数组r_prob，flag。解决方案可能是：

int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
 for(i=0; i < columns; i++)
 {

 if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
 {
  for(c=0; c < rows; c++)
  {
  if(left_side[i + c * columns] > 0)
  {
    if(flag[c] == 0)
    {
       #pragma omp critical //Only one thread at a time can enter 
      { 
      r_prob[c] = c_vect[c];
      flag[c] = 1;
      }

      for(d=0; d < columns; d++)
      {
        switch(left_side[c * columns + d])
        {
          case 0:
            break;
          case 1:
             #pragma omp critical //Only one thread at a time can enter 
             { 
            r_prob[c] *= M_in[d] * 1.0;
              }
            break;
          case 2:
             #pragma omp critical //Only one thread at a time can enter 
             { 
            r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
             }
            break;
          default:
            for(e=1; e <= left_side[c * columns + d]; e++)
               #pragma omp critical //Only one thread at a time can enter 
               {
              r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
              }
            break;
           }
          }
       }
     }
   }
 }
}//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.

【讨论】：

【解决方案2】：

问题是不同的线程写入和读取同一个r_prob[c] 变量。使用此算法，您可以仅在 c 上并行化循环。 IE。写：

for(int i=0; i < columns; i++)
{
  if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i]  > 0))
  {
    #pragma omp parallel for
    for(int c=0; c < rows; c++){
      //....

或者你可以使用语法：

#pragma omp critical
{
   r_prob[c] *= ...
}

语法一次只允许一个线程访问数组。

哪个更快取决于数组的大小和线程数。

正如 Haatschii 所说，最好在 for 循环中声明变量。

【讨论】：