零初始化器比 memset 快吗？答案

【问题标题】：Are zero initializers faster than memset?零初始化器比 memset 快吗？
【发布时间】：2016-11-24 12:24:29
【问题描述】：

我维护遗留的 C 代码，在许多地方他们都有像 int a[32]; 这样的小数组，然后是 memset(a, 0, sizeof a); 以将其初始化为零。

我正在考虑将其重构为 int a[32] = {0}; 并删除 memset。

问题是：使用零初始值设定项通常会比调用 memset 更快吗？

【问题讨论】：

这是平台相关问题。
视情况而定。编译器可能在编译时为both memset 和初始化进行归零。或者它可以在运行时使用memset 进行初始化。您只需构建（通过优化）并查看生成的代码。
你的分析器说了什么？更重要的是，对于整数以外的类型，它们可能不同，memset 可能不会像程序员在某些平台上所期望的那样。
只要不慢，我真的推荐这样的改变。换句话说，即使生成的代码仍然调用memset()，您的解决方案也更好，因为它更高级。此外，使用不带括号的 sizeof a 的遗留代码给我们留下了深刻的印象！
@unwind，这不是“传统”，而是强调大小取自对象而非类型的好习惯。

标签： c performance memset

【解决方案1】：

TL;DR：使用初始化器 - 它永远不会比 `memset()` 更糟糕。

这取决于您的编译器。 它不应该比调用memset() 慢（因为调用memset() 是编译器可用的一种选择）。

初始化器比强制覆盖数组更容易阅读；如果元素类型更改为您不想要的全位零，它也能很好地适应。

作为一个实验，让我们看看 GCC 对此做了什么：

#include <string.h>

int f1()
{
    int a[32] = {0};
    return a[31];
}

int f2()
{
    int a[32];
    memset(a, 0, sizeof a);
    return a[31];
}

使用gcc -S -std=c11 编译得到：

f1:
.LFB0:
    .file 1 "40786375.c"
    .loc 1 4 0
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    subq    $8, %rsp
    .loc 1 5 0
    leaq    -128(%rbp), %rdx
    movl    $0, %eax
    movl    $16, %ecx
    movq    %rdx, %rdi
    rep stosq
    .loc 1 6 0
    movl    -4(%rbp), %eax
    .loc 1 7 0
    leave
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc
f2:
.LFB1:
    .loc 1 10 0
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    addq    $-128, %rsp
    .loc 1 12 0
    leaq    -128(%rbp), %rax
    movl    $128, %edx
    movl    $0, %esi
    movq    %rax, %rdi
    call    memset@PLT
    .loc 1 13 0
    movl    -4(%rbp), %eax
    .loc 1 14 0
    leave
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc

表明f1() 使用rep stosq 作为初始化程序，而f2() 具有函数调用，与C 代码完全相同。 memset() 很可能对大型数组有更有效的矢量化实现，但对于像这样的小型数组，任何好处都可能被函数调用开销所抵消。

如果我们将a 声明为volatile，我们将看到启用优化后会发生什么 (gcc -S -std=c11 -O3)：

f1:
.LFB4:
    .cfi_startproc
    subq    $16, %rsp
    .cfi_def_cfa_offset 24
    xorl    %eax, %eax
    movl    $16, %ecx
    leaq    -120(%rsp), %rdi
    rep stosq
    movl    4(%rsp), %eax
    addq    $16, %rsp
    .cfi_def_cfa_offset 8
    ret
    .cfi_endproc
f2:
.LFB5:
    .cfi_startproc
    subq    $16, %rsp
    .cfi_def_cfa_offset 24
    xorl    %eax, %eax
    movl    $16, %ecx
    leaq    -120(%rsp), %rdx
    movq    %rdx, %rdi
    rep stosq
    movl    4(%rsp), %eax
    addq    $16, %rsp
    .cfi_def_cfa_offset 8
    ret
    .cfi_endproc

您可以看到这两个函数现在编译为相同的代码。

【讨论】：

memset() 在大多数编译器中都是固有的。它在海湾合作委员会中。所以这并不能证明什么。
@Hans，我的编辑与您的评论交叉。我希望我的答案现在更清楚了。没有优化，初始化器版本是内联的；通过优化，这两个示例生成相同的机器代码。

TL;DR：使用初始化器 - 它永远不会比 memset() 更糟糕。

TL;DR：使用初始化器 - 它永远不会比 `memset()` 更糟糕。