【发布时间】:2019-03-02 16:55:02
【问题描述】:
考虑以下通过alloca() 函数在堆栈上分配内存的玩具示例:
#include <alloca.h>
void foo() {
volatile int *p = alloca(4);
*p = 7;
}
使用带有-O3 的gcc 8.2 编译上述函数会产生以下汇编代码:
foo:
pushq %rbp
movq %rsp, %rbp
subq $16, %rsp
leaq 15(%rsp), %rax
andq $-16, %rax
movl $7, (%rax)
leave
ret
老实说,我本来希望汇编代码更紧凑。
分配内存的 16 字节对齐
上述代码中的指令andq $-16, %rax 导致rax 包含地址rsp 和rsp + 15(包括两者)之间的(仅)16 字节对齐 地址。
这种对齐强制是我不明白的第一件事:为什么alloca() 将分配的内存对齐到 16 字节边界?
可能错过优化?
让我们考虑一下,我们希望alloca() 分配的内存是 16 字节对齐的。即便如此,在上面的汇编代码中,记住 GCC 在执行函数调用时假定堆栈与 16 字节边界对齐(即call foo),如果我们注意foo() 内的堆栈就在推送rbp 寄存器之后:
Size Stack RSP mod 16 Description
-----------------------------------------------------------------------------------
------------------
| . |
| . |
| . |
------------------........0 at "call foo" (stack 16-byte aligned)
8 bytes | return address |
------------------........8 at foo entry
8 bytes | saved RBP |
------------------........0 <----- RSP is 16-byte aligned!!!
我认为通过利用 red zone(即,无需修改 rsp)以及 rsp 已经包含 16 字节对齐地址这一事实,可以使用以下代码:
foo:
pushq %rbp
movq %rsp, %rbp
movl $7, -16(%rbp)
leave
ret
寄存器rbp 中包含的地址是16 字节对齐的,因此rbp - 16 也将对齐到16 字节边界。
更好的是,新堆栈帧的创建可以被优化掉,因为rsp 没有被修改:
foo:
movl $7, -8(%rsp)
ret
这只是一个错过的优化还是我在这里遗漏了其他东西?
【问题讨论】:
-
在 macOS 上运行? macOS ABI 需要 16 字节堆栈对齐...
-
@Macmade:该要求适用于
call之前。不要求函数始终保持 RSP 16 字节对齐。如果 gcc 必须为任何东西调整 RSP,它将使其 16 字节对齐,但如果它可以只为本地人使用红色区域,它将保持 RSP 不变(除了可能的推送/弹出)。
标签: gcc assembly optimization x86-64 alloca