【发布时间】:2024-01-21 17:27:01
【问题描述】:
我想测试#pragma omp parallel for 和#pragma omp simd 的简单矩阵加法程序。当我分别使用它们时,我没有收到任何错误,而且看起来很好。但是,我想测试使用它们两者可以获得多少性能。如果我在外循环之前使用#pragma omp parallel for,在内循环之前使用#pragma omp simd,我也不会出错。当我在外循环之前同时使用它们时会发生错误。我在运行时而不是编译时收到错误。 ICC 和 GCC 返回错误,但 Clang 没有。可能是因为Clang 接受了并行化。在我的实验中,Clang 不会并行化并仅使用一个线程运行程序。
程序在这里:
#include <stdio.h>
//#include <x86intrin.h>
#define N 512
#define M N
int __attribute__(( aligned(32))) a[N][M],
__attribute__(( aligned(32))) b[N][M],
__attribute__(( aligned(32))) c_result[N][M];
int main()
{
int i, j;
#pragma omp parallel for
#pragma omp simd
for( i=0;i<N;i++){
for(j=0;j<M;j++){
c_result[i][j]= a[i][j] + b[i][j];
}
}
return 0;
}
错误: 国际商会:
IMP1.c(20):错误:omp 指令后面没有可并行化 for loop #pragma omp parallel for ^
IMP1.c 的编译中止(代码 2)
海合会:
IMP1.c:在函数“main”中:
IMP1.c:21:10:错误:for 语句 预计在“#pragma”之前#pragma omp simd
因为在我的其他睾丸 pragma omp simd for 外循环中获得了更好的性能,我需要把它放在那里(不是吗?)。
平台:Intel Core i7 6700 HQ、Fedora 27
经过测试的编译器:ICC 18、GCC 7.2、Clang 5
编译器命令行:
icc -O3 -qopenmp -xHOST -no-vec
gcc -O3 -fopenmp -march=native -fno-tree-vectorize -fno-tree-slp-vectorize
clang -O3 -fopenmp=libgomp -march=native -fno-vectorize -fno-slp-vectorize
【问题讨论】:
-
你也试过
#pragma omp parallel for simd吗? -
#defien M N这实际上是在您的代码中还是在此处提问时出现拼写错误? -
@ChristianGibbons,我在这里简化时打错了。
-
虽然 icc 为 simd 实现了并行(gcc 将忽略 simd),但这不是这种情况的正确方法,因为内部(但不是外部)循环可以有效地使用 simd。因此,您可以将 omp simd 放在内部,将 omp parallel 放在外部,但您可能会遇到内存带宽饱和,因此不会看到理想的加速。 omp simd 是否对内部循环有影响取决于编译器和选择的选项。
标签: c parallel-processing x86 openmp simd