【问题标题】:MSYS2 GCC zeros out doubles on floating point operations with SSE disabledMSYS2 GCC 在禁用 SSE 的情况下将浮点运算的双精度数归零
【发布时间】:2018-10-04 14:20:17
【问题描述】:

考虑下面的 C 程序。

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char* argv[]) {
    double x = 4.5;
    double x2 = atof("3.5");
    printf("%.6f\n", x);
    printf("%.6f\n", x2);
    return 0;
}

当使用 MSYS2 提供的 GCC 版本进行编译时,输出最终取决于 SSE 的可用性:

$ gcc test.c && ./a.exe
4.500000
3.500000

$ gcc -mno-sse test.c && ./a.exe
4.500000
0.000000

这种行为有什么意义吗?如果没有,有没有办法让 GCC 在这种情况下产生合理的结果(除了删除 -mno-sse 的简单解决方案之外)?以下是一些版本信息:

$ gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-pc-msys/7.3.0/lto-wrapper.exe
Target: x86_64-pc-msys
Configured with: /msys_scripts/gcc/src/gcc-7.3.0/configure --build=x86_64-pc-msys --prefix=/usr --libexecdir=/usr/lib --
enable-bootstrap --enable-shared --enable-shared-libgcc --enable-static --enable-version-specific-runtime-libs --with-ar
ch=x86-64 --with-tune=generic --disable-multilib --enable-__cxa_atexit --with-dwarf2 --enable-languages=c,c++,fortran,lt
o --enable-graphite --enable-threads=posix --enable-libatomic --enable-libcilkrts --enable-libgomp --enable-libitm --ena
ble-libquadmath --enable-libquadmath-support --disable-libssp --disable-win32-registry --disable-symvers --with-gnu-ld -
-with-gnu-as --disable-isl-version-check --enable-checking=release --without-libiconv-prefix --without-libintl-prefix --
with-system-zlib --enable-linker-build-id --with-default-libstdcxx-abi=gcc4-compatible
Thread model: posix
gcc version 7.3.0 (GCC)

这是反汇编main的结果:

   0x0000000100401080 <+0>:     push   %rbp
   0x0000000100401081 <+1>:     mov    %rsp,%rbp
   0x0000000100401084 <+4>:     sub    $0x30,%rsp
   0x0000000100401088 <+8>:     mov    %ecx,0x10(%rbp)
   0x000000010040108b <+11>:    mov    %rdx,0x18(%rbp)
   0x000000010040108f <+15>:    callq  0x1004010f0 <__main>
   0x0000000100401094 <+20>:    fldl   0x1f76(%rip)        # 0x100403010
   0x000000010040109a <+26>:    fstpl  -0x8(%rbp)
   0x000000010040109d <+29>:    lea    0x1f5c(%rip),%rcx        # 0x100403000
   0x00000001004010a4 <+36>:    callq  0x100401100 <atof>
   0x00000001004010a9 <+41>:    mov    %rax,-0x10(%rbp)
   0x00000001004010ad <+45>:    mov    -0x8(%rbp),%rax
   0x00000001004010b1 <+49>:    mov    %rax,%rdx
   0x00000001004010b4 <+52>:    lea    0x1f49(%rip),%rcx        # 0x100403004
   0x00000001004010bb <+59>:    callq  0x100401110 <printf>
   0x00000001004010c0 <+64>:    mov    -0x10(%rbp),%rax
   0x00000001004010c4 <+68>:    mov    %rax,%rdx
   0x00000001004010c7 <+71>:    lea    0x1f36(%rip),%rcx        # 0x100403004
   0x00000001004010ce <+78>:    callq  0x100401110 <printf>
   0x00000001004010d3 <+83>:    mov    $0x0,%eax
   0x00000001004010d8 <+88>:    add    $0x30,%rsp
   0x00000001004010dc <+92>:    pop    %rbp
   0x00000001004010dd <+93>:    retq
   0x00000001004010de <+94>:    nop
   0x00000001004010df <+95>:    nop

值得注意的是,尝试在 Linux 版本的 GCC 上编译相同的程序会产生错误(原因在 this question 中讨论):

$ gcc -mno-sse test2.c
test2.c: In function ‘main’:
test2.c:6:12: error: SSE register return with SSE disabled
     double x2 = atof("3.5");
            ^~

$ gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/6/lto-wrapper
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Debian 6.3.0-18+deb9u1' --with-bugurl=file:///usr/share/doc/gcc-
6/README.Bugs --enable-languages=c,ada,c++,java,go,d,fortran,objc,obj-c++ --prefix=/usr --program-suffix=-6 --program-pr
efix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enabl
e-threads=posix --libdir=/usr/lib --enable-nls --with-sysroot=/ --enable-clocale=gnu --enable-libstdcxx-debug --enable-l
ibstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-libmpx --
enable-plugin --enable-default-pie --with-system-zlib --disable-browser-plugin --enable-java-awt=gtk --enable-gtk-cairo
--with-java-home=/usr/lib/jvm/java-1.5.0-gcj-6-amd64/jre --enable-java-home --with-jvm-root-dir=/usr/lib/jvm/java-1.5.0-
gcj-6-amd64 --with-jvm-jar-dir=/usr/lib/jvm-exports/java-1.5.0-gcj-6-amd64 --with-arch-directory=amd64 --with-ecj-jar=/u
sr/share/java/eclipse-ecj.jar --with-target-system-zlib --enable-objc-gc=auto --enable-multiarch --with-arch-32=i686 --w
ith-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-checking=release --build=x8
6_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 6.3.0 20170516 (Debian 6.3.0-18+deb9u1)

【问题讨论】:

  • 我很惊讶你没有得到同样的错误。该链接帖子的答案中与 ABI 相关的所有内容也适用于 64 位 Windows 调用约定。

标签: gcc x86-64 sse calling-convention msys2


【解决方案1】:

你应该从 msys gcc -mno-sse 得到同样的错误。标准调用约定(x64 Windows __fastcall)使用 xmm0..3(SSE 向量寄存器)来传递和返回 floatdouble

从您显示的 asm main 看来,-mno-sse 似乎改变了 gcc 调用约定的想法,以在整数寄存器中传递/返回 double,就像 ARM 上的软浮点。因此存在调用约定不匹配,而实际发生的情况取决于 asm 细节和机会。

Windows x64 调用约定有一个有趣的设计特性,它可以更简单地实现像 printf 这样的可变参数函数:调用可变参数函数时,该插槽的整数和 XMM 寄存器都必须包含值 (https://docs.microsoft.com/en-gb/cpp/build/varargs?view=vs-2017)。因此,该函数可以将 rcx、rdx、r8 和 r9 转储到影子空间并形成一个 8 字节 args 数组(与堆栈 args 连续),然后再查看 args 以确定哪些是 FP 哪些是整数。 (有关这样做的丑陋示例,请参阅 How to set function arguments in assembly during runtime in a 64bit application on Windows?。)与 x86-64 System V ABI 不同,第二个参数总体上位于 XMM1 中,而不是第二个 FP 参数。所以只有 4 个总 args 可以在 regs 中,即使有 FP 和整数的混合。

因此,gcc 在%rdx 中传递double 位模式确实有效,因为这个库printf 只关心%rdx 中的值,而忽略@ 中的值987654338@.

但是atof 在 XMM0 中返回,RAX 持有垃圾。您的 -mno-sse main 使用保存 RAX 并将其传递给第二个 printf。它要么为零,要么非常小double

如果 RAX 持有地址,则高 16 位将为 0,因此将该位模式键入 IEEE double (https://en.wikipedia.org/wiki/Double-precision_floating-point_format) 会得到指数 = 0,以及有效数字。一个小的正整数将是一个更小的double

因此,您可能打印了一个非常小的非正规double,它以该格式四舍五入到0,它来自RAX 中留下的任何垃圾atof,当它返回一个XMM0 中的值时。

【讨论】:

  • 谢谢;微妙的!我检查并确实使用-m32 -mno-sse 事情仍然有效。我想这首先被允许编译被认为是 MSYS2 的 GCC 中的一个错误?
  • @fuglede:是的,我会这么说,除非至少有一个大的警告。
  • 作为参考,请注意我留下了issue on GitHub 关于此行为。
  • @fuglede:几乎可以肯定,报告 GCC 错误代码错误的更好地方是 GCC 自己的 bugzilla,gcc.gnu.org/bugzilla。除非 MSys 应用他们自己的未被上游接受的补丁(被 GCC)。如果只是他们配置 GCC 的方式,那么主线 GCC 包括问题。
猜你喜欢
  • 2020-09-24
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-11-14
  • 2017-10-04
  • 1970-01-01
  • 1970-01-01
  • 2010-10-22
相关资源
最近更新 更多