如何使用 GCC 获得更好的矢量化？答案

【问题标题】：How can I get better vectorization with GCC?如何使用 GCC 获得更好的矢量化？
【发布时间】：2017-02-18 05:51:16
【问题描述】：

考虑执行相同计算的这三个函数：

#include <x86intrin.h>

void testfunc_loop(double a, double b, double* dst)
{
    double f[] = {a,b,-a,-b};

    for(int n = 0; n < 4; ++n)
    {
        dst[n] = 0.1 + f[n]*(1.0 + 0.5*f[n]);
    }
}

void testfunc_flat(double a, double b, double* dst)
{
    dst[0] = 0.1 + ( a)*(1.0 + 0.5*( a));
    dst[1] = 0.1 + ( b)*(1.0 + 0.5*( b));
    dst[2] = 0.1 + (-a)*(1.0 + 0.5*(-a));
    dst[3] = 0.1 + (-b)*(1.0 + 0.5*(-b));
}

void testfunc_avx(double a, double b, double* dst)
{
    __m256d one      = _mm256_set1_pd(1.0);
    __m256d half     = _mm256_set1_pd(0.5);
    __m256d tenth    = _mm256_set1_pd(0.1);

    __m256d v = _mm256_set_pd(-b,-a,b,a);

    __m256d q = _mm256_add_pd(tenth,_mm256_mul_pd(v,_mm256_add_pd(one,_mm256_mul_pd(half,v))));

    _mm256_store_pd(dst,q);
}

GCC 4.7.2（带有 -O3 -mavx）对循环版本进行矢量化，但对展开的循环使用标量操作。三个版本所采用的（标准化）时间分别为 3.3（循环、自动矢量化）、1.2（展开、标量）、1（手动 avx）。展开版本和手动矢量化函数之间的性能差异很小，但我想强制矢量化，因为它对完整代码有益。

用不同的编译器进行测试（参见https://godbolt.org/g/HJH2CX）表明clang 会自动对展开的循环进行矢量化（从版本3.4.1 开始），但直到版本7 的GCC 却没有。我可以使用 GCC 自动获得类似的矢量化吗？我只发现与循环矢量化相关的优化选项无济于事。 GCC website 显示自 2011 年以来没有任何消息。

【问题讨论】：

请注意，在 gcc 的 bugzilla 中为错过的优化提交问题是明智的做法。 AVX 矢量化失败，因为带有/不带有否定的表达式看起来与 gcc 太不同了。另一方面，它几乎做了 SSE 向量化，但拒绝它是无利可图的（使用 -fvect-cost-model=unlimited 来查看它会产生什么），因为它严重高估了序言成本（它构建了向量 {a,b } 至少 3 次，{1,1} 两次等）。
gcc.gnu.org/bugzilla/show_bug.cgi?id=78164 用于 llvm 获得但不是 gcc 的 testfunc_flat 的 SSE 矢量化。

标签： gcc clang sse avx auto-vectorization

【解决方案1】：

gcc 通常不会向量化单向量的东西。我在现有代码库 (Endless Sky) 中看到了与 Point{ double x,y; } 类类似的缺乏自动矢量化。

因此，如果您需要将 x86 内联到快速代码，您可能必须手动进行矢量化。（您也可以考虑传递 __m256d 值而不是存储到数组中。）

顺便说一句，手动矢量化版本可能会更快。我在 Godbolt 上玩了一下，注意到 _mm256_set_pd(-b,-a, b,a) 正在编译为愚蠢的代码，因此手动执行会更有效。此外，如果您没有可用的 FMA，您可以通过重构表达式来减少延迟。（允许 0.1 -/+ a 与平方并行发生）。 Code+asm here

// 0.1 + a  + 0.5*a*a   =  0.1 +   a  * (1.0 + 0.5*a)
//     + b
// 0.1 - a  + 0.5*a*a   =  0.1 + (-a) * (1.0 - 0.5*a)
//     - b

// only one of the mul+add pairs can fuse into an FMA
// but 0.1+/-a happens in parallel with 0.5*a*a, so it's lower latency without FMA
void testfunc_latency_without_fma(double a, double b, double* dst)
{
  // 6 AVX instructions other than the store:
  // 2 shuffles, 1 mul, 1 FMA, 1 add.  1 xor.  In theory could run one iteration per 2 clocks
    __m256d abab       = _mm256_setr_pd(a, b, a, b);    // 1c + 3c latency (unpck + vinsertf128)
    __m256d sq256      = _mm256_mul_pd(abab, abab);     // 5c
    const __m256d half = _mm256_set1_pd(0.5);
    __m256d sq_half256 = _mm256_mul_pd(sq256, half);    // 5c: dependency chain 1 ready in 14c from a and b being ready

    // we could use a smaller constant if we do _mm256_setr_m128d(ab, xor(ab, set1(-0.))
    // but that takes an extra vinsertf128 and this part isn't the critical path.
    const __m256d upper_signmask = _mm256_setr_pd(0. ,0. ,-0. ,-0.);
    __m256d ab_negab = _mm256_xor_pd(abab, upper_signmask); // chain2: 1c from abab

    const __m256d tenth   = _mm256_set1_pd(0.1);
    __m256d tenth_plusminus_ab = _mm256_add_pd(tenth, ab_negab); // chain2: 3c (ready way ahead of squared result)

    __m256d result = _mm256_add_pd(tenth_plusminus_ab, sq_half256);  // fuses with the sq_half
    _mm256_store_pd(dst, result);
}

IDK 为什么在您测试时自动矢量化循环如此缓慢。它确实将标量存储到数组中，然后进行向量加载，从而导致约 11 个周期的存储转发停止。因此它的延迟比其他两种方式中的任何一种都高得多，但是如果这会影响吞吐量，则 IDK 会影响吞吐量。 IDK 你是如何测试的；也许您正在使用一个调用的结果作为下一个调用的输入？或者可能在同一块堆栈空间上重复存储转发停止是一个问题？

一般来说，对于较大的数组，gcc 非常喜欢对齐指针。它生成巨大的完全展开的标量 intro/outro 代码以到达对齐的指针，然后使用对齐的存储/加载。

这对现代 CPU 没有多大帮助（但通常也不会造成太大伤害），尤其是对于在运行时通常对齐的数据，但如果数据通常是未对齐，或者它在 Nehalem 之前的 CPU 上运行。

IDK 如果这与 gcc 不愿自动矢量化小东西有关，但告诉它 double* 已对齐似乎没有帮助。

我认为问题的一部分在于插入 shuffle 以矢量化需要 shuffle 的代码并不是很好。

【讨论】：

感谢您的详尽回答。我在循环中测试函数，重复调用相同的参数并对结果求和。看来我将不得不坚持手动矢量化。