【发布时间】:2012-05-05 20:01:30
【问题描述】:
我有兴趣将 x86-64 的 SSE 矢量指令与 gcc 一起使用,并且不想为此使用任何内联汇编。有没有办法在 C 中做到这一点?如果是这样,有人可以举个例子吗?
【问题讨论】:
-
我还在这里发布了一些最小的内在函数示例:stackoverflow.com/questions/1389712/…
标签: c x86-64 sse simd intrinsics
我有兴趣将 x86-64 的 SSE 矢量指令与 gcc 一起使用,并且不想为此使用任何内联汇编。有没有办法在 C 中做到这一点?如果是这样,有人可以举个例子吗?
【问题讨论】:
标签: c x86-64 sse simd intrinsics
是的,您可以在 *mmintrin.h 标头中使用 intrinsics(emmintrin.h、xmmintrin.h 等,具体取决于您要使用的 SSE 级别)。出于多种原因,这通常比使用汇编程序更可取。
#include <emmintrin.h>
int main(void)
{
__m128i a = _mm_set_epi32(4, 3, 2, 1);
__m128i b = _mm_set_epi32(7, 6, 5, 4);
__m128i c = _mm_add_epi32(a, b);
// ...
return 0;
}
请注意,这种方法适用于各种平台上的大多数 x86 和 x86-64 编译器,例如Linux/Mac OS X/Windows 上的 gcc、clang 和 Intel 的 ICC,甚至 Microsoft 的 Visual C/C++(当然仅限于 Windows)。
【讨论】:
x86intrin.h,它包含所有MMX/SSE/AVX 和一些像bswap 或ror 这样的东西,使它们可用作内在函数并设置@ 987654328@ 预处理器宏,根据给定的体系结构或编译器标志。
x86intrin.h 不能移植到 MSVC,只有 GCC / clang,我认为是 ICC。英特尔定义的immintrin.h 可移植到定义每个英特尔 SIMD 内在函数的所有主流 x86 编译器。此外,__SSEx__ / __AVX__ / 等宏是由编译器本身预先定义的,与标头无关。这就是标题如何知道要定义哪些内在“功能”的方式。 x86intrin.h 使您的编译时间变慢,如果您实际上不需要它,这是另一个不使用它的原因。
在您的 gcc 包含中找到 *intrin.h 标头(此处为 /usr/lib/gcc/x86_64-unknown-linux-gnu/4.8.0/include/)。
也许值得注意的是,标题 immintrin.h 根据您允许的功能包含所有其他内部函数(例如使用 -msse2 或 -mavx)。
【讨论】:
-march=haswell什么的,而不是手动-mavx2。 “通用”调优选项不适用于 Intel CPU 上的 256 位向量:Why doesn't gcc resolve _mm256_loadu_pd as single vmovupd?
你想要的是intrinsics,它看起来像库函数,但实际上内置在编译器中,因此它们可以转换为特定的机器代码。
Paul R 和 hroptatyr 描述了在哪里可以找到 GCC 的文档。 Microsoft also has good documentation on the intrinsics in their compiler;即使您使用的是 GCC,您也可能会发现 MS 对这个想法的描述是一个更好的教程。
【讨论】: