在 SSE 寄存器中存储常量（GCC、C++）答案

【问题标题】：Storing a constant in SSE register (GCC, C++)在 SSE 寄存器中存储常量（GCC、C++）
【发布时间】：2015-04-25 02:27:59
【问题描述】：

你好 StackOverflow 社区

我遇到了以下挑战：在我的 C++ 应用程序中，我有一个非常复杂的（三次）循环，我在其中执行以下操作：

计算 4 个浮点值
将所有 4 个值乘以一个常数
将浮点数转换为整数

此代码将在每个循环中运行数千次迭代（导致数十亿次操作），我希望使其尽可能快，因此我尝试利用 SSE 处理器指令。

在尝试手动优化代码时，我遇到了以下障碍：每次我到达将所有值乘以常数的部分时，都必须将常数加载到 XMM 寄存器中。我的想法是保留一个寄存器（并禁止编译器使用它），加载一次值，然后用那个特定的寄存器硬编码乘法，但是我找不到正确的方法来做到这一点。

顺便问一下，谁能给我解释一下，这段代码为什么会这样：

    vmovaps .LC0(%rip), %xmm1
    movl    $1000000000, %eax
    vmovaps .LC1(%rip), %xmm0
    .p2align 4,,10
    .p2align 3
.L2:
#APP
# 26 "sse.cpp" 1
    .intel_syntax noprefix;
    mulps %xmm1,%xmm0;
    .att_syntax prefix;

# 0 "" 2
#NO_APP
    subl    $1, %eax
    jne     .L2

性能比下面的差（真实 0m1.656s 与真实 0m1.618s）：

    vmovaps .LC0(%rip), %xmm1
    movl    $1000000000, %eax
    vmovaps .LC1(%rip), %xmm0
    .p2align 4,,10
    .p2align 3
.L2:
    vmulps  %xmm0, %xmm1, %xmm1
    subl    $1, %eax
    jne     .L2

（不同之处在于我在 gcc [first sn-p] 中的 inline asm 和旧版 SSE 指令中使用 intel 语法以实现兼容性，而 gcc 使用 AVX 向量 [second sn-p] 自动生成版本）

【问题讨论】：

您应该使用内置向量支持和/或内在函数。此外，如果您想使用 intel 语法，请使用 -masm=intel 进行编译，并且不要试图绕过编译器的背面。至于保留寄存器，这可能也是个坏主意，但 gcc 允许全局寄存器变量。
Umm 没有像stackoverflow.com/a/9080351/1133179 帮助中描述的那样声明const __mm128 变量？
@Jester -masm=intel 打破了一些 boost 依赖项，之前尝试过。

标签： c++ c assembly sse inline-assembly

【解决方案1】：

请注意，您需要更具体地说明如何编译内容，并可能提供最少的示例。我知道这可能不是最好的答案，但我认为它已经足够好了。它很长，但这是因为代码。

下面的工作的底线是离开编译器并使用适当的编译器标志应该是安全的。在底部我举了一个如何使用本地寄存器变量的例子，但它可能赢了'不是很有用（它很容易被忽略）。您可以使用全局寄存器变量，但它不会产生任何好的结果，不鼓励使用。

我的设置是Intel(R) Core(TM) i7-4770 CPU、gcc version 4.9.2 和clang version 3.5.0。下面的代码确实将avx_scalar 存储在xmm 寄存器中，-O1 及以上。什么都没有或-O0 他们没有。生成程序集的代码是：

[clang++|g++] -march=native -S -Ox ./sse.cpp,

x 是优化级别。

有趣的是，对于-march=archive，在我测试的任何情况下，两个编译器都决定使用 SSE4.1 版本而不是旧版 SSE，即使我在代码本身中使用了旧版 SSE 内在函数。这很好。

我还使用 SSE4.1 标头 smmintrin.h 进行了测试。如果没有标志 gcc 使用旧版 SSE，并且 clang 无法使用 error: "SSE4.1 instruction set not enabled" 进行编译。 xmmintrin.h 是旧版 SSE 标头，两个编译器在存在标志的情况下生成 AVX 版本，在不存在标志时生成旧版本。

测试代码avx.cpp:

extern "C" 
{
#include <smmintrin.h>
}

const float scalar = 3.14;
const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 vector;

__m128 its_me(){
    __m128 ret;
    __m128 result;
    for(int i = 0; i < 1000; ++i)
    {
        vector = _mm_set_ps(i*1,i*2,i*3,i*4);
        result = _mm_mul_ps(vector, avx_scalar);
        ret = _mm_add_ps(ret, result);
    }
    return ret;
}

g++ -march=native -S -O2 ./avx.cpp的相关部分：

.LFB639:
        .cfi_startproc
        vmovaps _ZL10avx_scalar(%rip), %xmm5
        xorl    %edx, %edx
        .p2align 4,,10
        .p2align 3
.L2:
        leal    (%rdx,%rdx), %ecx
        vxorps  %xmm2, %xmm2, %xmm2
        vxorps  %xmm1, %xmm1, %xmm1
        vxorps  %xmm3, %xmm3, %xmm3
        leal    0(,%rdx,4), %eax
        vcvtsi2ss       %ecx, %xmm3, %xmm3
        vxorps  %xmm4, %xmm4, %xmm4
        vcvtsi2ss       %eax, %xmm2, %xmm2
        leal    (%rcx,%rdx), %eax
        vcvtsi2ss       %edx, %xmm4, %xmm4
        addl    $1, %edx
        vcvtsi2ss       %eax, %xmm1, %xmm1
        vunpcklps       %xmm4, %xmm3, %xmm3
        vunpcklps       %xmm1, %xmm2, %xmm1
        vmovlhps        %xmm3, %xmm1, %xmm1
        vmulps  %xmm5, %xmm1, %xmm2
        vaddps  %xmm2, %xmm0, %xmm0
        cmpl    $1000, %edx
        jne     .L2
        vmovaps %xmm1, vector(%rip)
        ret
        .cfi_endproc

还有clang++ -march=native -S -O2 ./avx.cpp:

# BB#0:
        xorl    %eax, %eax
        movl    $4, %ecx
        movl    $2, %edx
        vmovaps _ZL10avx_scalar(%rip), %xmm1
        xorl    %esi, %esi
                                        # implicit-def: XMM0
        .align  16, 0x90
.LBB0_1:                                # =>This Inner Loop Header: Depth=1
        leal    -2(%rdx), %r8d
        leal    -4(%rcx), %edi
        vmovd   %edi, %xmm2
        vpinsrd $1, %eax, %xmm2, %xmm2
        vpinsrd $2, %r8d, %xmm2, %xmm2
        vpinsrd $3, %esi, %xmm2, %xmm2
        vcvtdq2ps       %xmm2, %xmm2
        vmulps  %xmm1, %xmm2, %xmm2
        vaddps  %xmm2, %xmm0, %xmm0
        leal    1(%rsi), %r8d
        leal    3(%rax), %edi
        vmovd   %ecx, %xmm2
        vpinsrd $1, %edi, %xmm2, %xmm2
        vpinsrd $2, %edx, %xmm2, %xmm2
        vpinsrd $3, %r8d, %xmm2, %xmm2
        vcvtdq2ps       %xmm2, %xmm2
        vmulps  %xmm1, %xmm2, %xmm3
        vaddps  %xmm3, %xmm0, %xmm0
        addl    $2, %esi
        addl    $6, %eax
        addl    $8, %ecx
        addl    $4, %edx
        cmpl    $1000, %esi             # imm = 0x3E8
        jne     .LBB0_1
# BB#2:
        vmovaps %xmm2, vector(%rip)
        retq

仅作记录，您可以手动将局部变量放入寄存器，但clang完全忽略并使用-01及以上的gcc。我鼓励在@的输出中寻找xmm13 987654342@ 以下代码具有不同的 x 值（假设您的 cpu 上至少有 13 个 xmm 寄存器）：

extern "C" 
{
#include <xmmintrin.h>
}

const float scalar = 3.14;

__m128 its_me(){
    __m128 vector;
    register __m128 avx_scalar asm ("xmm13") = _mm_set1_ps(scalar); // that's how you do it in gcc.
    //const __m128 avx_scalar = _mm_set1_ps(scalar);
    __m128 ret;
    __m128 result;
    for(int i = 0; i < 1000; ++i)
    {
        vector = _mm_set_ps(i*1,i*2,i*3,i*4);
            result = _mm_mul_ps(vector, avx_scalar);
        ret = _mm_add_ps(ret, result);
    }
    return ret;
}

【讨论】：

如果可以避免的话，不要在内循环中使用_mm_set_ps。将{ 0.0, 0.0, 0.0, 0.0 } 设置一次，然后将_mm_add_ps 设置为{1.0, 2.0, 3.0, 4.0} 的向量以生成vector。这将在循环中用vaddps 替换4 个整数加法vmovd、3x vpinsrd 和vcvtdq2ps。或者，如果您确实需要避免任何可能的舍入误差累积，请添加到整数向量，这样您的内部循环中就只有一个 vpaddd 和 vcvtdq2ps。
这是一个很好的分析，尽管对答案毫无用处。 __mm_set_ps 只是为了模拟“Compute 4 float values”，它可能很慢，而且它不是真正的实现。我真的没有看到优化某些东西的意义。从微优化的角度来看，我仍然觉得这是一个有趣的观察和建议。它当然有它的价值。
我认为我没有仔细阅读代码之外的文本，无法在循环计数器上找到 mm_set_ps 作为占位符。实际上，我似乎记得对此感到疑惑，但它对生成的代码有很大影响，所以我还是发布了。 >.