【问题标题】:Inline asm fails to compile without optimization内联汇编在没有优化的情况下无法编译
【发布时间】:2020-11-11 08:09:12
【问题描述】:

我在 32 位 Linux 进程中需要 futex 系统调用,但不能使用 syscall 函数(标头不可用)。这仍然可以通过使用内联 asm 来完成,如下所示:

#include <time.h>

#define SYS_futex 0xf0

// We need -fomit-frame-pointer in order to set EBP
__attribute__((optimize("-fomit-frame-pointer")))
int futex(int* uaddr, int futex_op, int val, const struct timespec* timeout, int* uaddr2, int val3)
{
    register int ebp asm ("ebp") = val3;
    int result;
    asm volatile("int $0x80"
                 : "=a"(result)
                 : "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp)
                // : "memory"  // would make this safe, but could cause some unnecessary spills.  THIS VERSION IS UNSAFE ON PURPOSE, DO NOT USE.
          );
        
    if (result < 0)
    {
        // Error handling
        return -1;
    }
    return result;
}

按预期编译。

但是,由于我们没有指定可以读取和/或写入的内存位置,因此可能会导致一些隐秘的错误。因此,我们可以使用虚拟内存输入和输出 (How can I indicate that the memory *pointed* to by an inline ASM argument may be used?)

asm volatile("int $0x80"
             : "=a"(result), "+m"(uaddr2)
             : "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp), "m"(*uaddr), "m"(*timeout));

当使用gcc -m32 编译时,它会以'asm' operand has impossible constraints 失败。当使用clang -fomit-frame-pointer -m32 编译时,它会以inline assembly requires more registers than available 失败。不过,我不明白为什么。

但是,当使用-O1 -m32(或-O0 以外的任何级别)编译时,它可以正常编译。

我看到了两个明显的解决方案:

  1. 改用"memory" clobber,这可能过于严格,会阻止编译器将不相关的变量保存在寄存器中
  2. 使用__attribute__((optimize("-O3"))),我想避免这种情况

还有其他解决办法吗?

【问题讨论】:

  • @NateEldredge 我忘了说,第一个版本编译得很好。当我在第二个代码块中进行更改时出现问题。 godbolt.org/z/4Ko1eY
  • 快速说明:我认为futex调用可以写出futex字,那你是不是也需要*uaddr作为输出操作数?
  • @NateEldredge AFAIK 只有FUTEX_WAKE_OP 可以做到这一点,但它会写入*uaddr2,它已经被列为输出。我再看一下手册页。
  • 我不确定,但似乎值得检查。
  • @NateEldredge 似乎只有 FUTEX_WAKE_OP 和 PI-futex 操作修改 *uaddr2。我不打算使用这些,但无论如何我都可以将其添加为输出,以防万一。

标签: c linux x86 inline-assembly cpu-registers


【解决方案1】:

编译器不知道您实际上并未使用*uaddr*timeout 操作数,因此如果您要使用它们,它仍然必须决定%9%10 应该扩展到什么。这些对象的地址作为参数传递,因此无法生成直接内存引用;它必须是间接的,这意味着需要分配寄存器来存储这些地址;例如,编译器可以尝试将指针uaddr 加载到ecx 中,然后将%9 扩展为(%ecx)。不幸的是,您已经为其他操作数声明了所有机器的寄存器,因此没有可用于此目的的寄存器。

启用优化后,编译器足够聪明,可以确定指针ebx 中已经存在ebx,因此它可以将%9 扩展为(%ebx),同样将%10 扩展为(%esi)。那么它就不需要任何额外的寄存器,一切都很好。

如果您在内联 asm 中实际提及 %9%10(如 this example),您会看到这种情况。随着优化,它就像我说的那样。如您所知,如果没有优化,它无法编译,但是如果我们 drop a couple of the other operands 释放一些寄存器(这里是 ecxedx),我们会看到它现在正在扩展 %7, %8(它们被重新编号)到 @ 987654342@,并提前相应地加载这些寄存器。它不知道这是多余的,因为edxebx 都包含相同的值。

除了您已有的想法外,我认为没有任何好的方法可以避免这种情况:启用优化或使用“内存”破坏器。我怀疑“内存”破坏器实际上会影响如此短的函数中生成的代码,无论如何,如果您在没有优化的情况下进行编译,那么您已经放弃了任何高效代码的希望。或者,只需在汇编中编写整个函数。

【讨论】:

  • 感谢您的解释,这完全有道理。
  • 令我震惊的是,如果 gcc/clang 有一个“隐式”约束会很好,说 asm 将读/写引用的对象,但会自己弄清楚如何做到这一点并且编译器不需要担心生成引用。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-09-18
  • 1970-01-01
  • 1970-01-01
  • 2021-07-28
  • 2012-05-05
  • 2018-04-06
  • 1970-01-01
相关资源
最近更新 更多