全球化 2 个小阵列如何导致性能显着下降？答案

【问题标题】：How can globalizing 2 small arrays result in significant performance drop?全球化 2 个小阵列如何导致性能显着下降？
【发布时间】：2015-09-23 13:15:30
【问题描述】：

我有 2 个小的本地数组：

short int xpLeft [4], xpRight [4];

当我使它们全局（以不同的方法访问它们，但只能在同一个 C 文件中（例如，其他模块无法访问））时，性能（在摩托罗拉 68000 上）下降。而不是 224 个 vblanks（用于本地），整个基准测试（渲染 320 帧场景）突然需要 249 个 vblanks（全局数组）！

我尝试了什么：
由于该函数中没有使用数组中的数据，我虽然那个编译器捕捉到了这一点并且没有费心将结果值（从寄存器）写入内存（68000上的一个非常慢的操作 - 访问内存）。因此，我在函数末尾添加了一些小代码来使用这些数组值，它相应地提高了性能成本（只有 1 个 vblank）。

有什么帮助：
我需要检查最终的 ASM 代码（并比较两个版本），但我不确定如何使用 vbcc 编译器（来自 Volker 博士）。我尝试了文档中的几个开关，虽然它们确实产生了一些中间输出，但我无法让它提供每个模块的完整 ASM 列表（使用 C 中的函数名称）。

我刚刚让开关“-k”开始工作。显然，开关的顺序很重要，我在命令行中找到了一个可以识别的位置，我终于得到了 *.ASM 输出（不少于 30 万行），但我终于有了一些东西（带有符号的 ASM）去挖掘。

我认为正在发生的事情：

使数组全局化会将它们放入RAM中的不同地址，内存控制器必须访问不同的bank，而bank switch 在目标平台上是一个极其缓慢的操作 - 导致RAS充电周期（访问不同的行地址）。
指针别名 - 编译器可能会生成不同的代码，并且实际上可能会访问实际内存以进行中间操作结果 - 但如果我有每个函数的 ASM 输出，我可以轻松搞定

关于为什么会发生这种情况或如何获取每个已编译模块的 vbcc 输出完整列表以及相应的 ASM 代码的任何提示？

使用 ASM 输出，我创建了一个小型测试重现案例：

short int tmpfn1 ()
{
    short int xpLeft [4], xpRight [4];
    short int i, tmp;

    for (i = 0; i < 4; i++)
    {
        xpLeft [i] = 137 + i;
        xpRight [i] = 215 + i;
    }

    tmp = xpLeft [0] + xpRight [0];
    return tmp;
}

这是生成的 ASM。虽然 ASM 是不言自明的，但我还是添加了一些 cmets：

    public  _tmpfn1
    cnop    0,4
_tmpfn1
    sub.w   #16,a7
    movem.l l4150,-(a7)
    moveq   #0,d1
    lea (0+l4152,a7),a1   ; a1 = &xpLeft [0]
    lea (8+l4152,a7),a2   ; a2 = &xpRight [0]
    move.w  #215,d3    ; d2/d3 = The Bulgarian constants 
    move.w  #137,d2
l4148
    move.w  d1,d0
    ext.l   d0
    lsl.l   #1,d0
    move.w  d2,(0,a1,d0.l)    ; xpLeft [i] = 137 + i;
    move.w  d3,(0,a2,d0.l)    ; xpRight [i] = 215 + i;
    addq.w  #1,d1    ; d1 = Loop Counter (i++)
    addq.w  #1,d2
    addq.w  #1,d3
    cmp.w   #4,d1
    blt l4148    ; Repeat the loop
    move.w  (8+l4152,a7),d0
    add.w   (0+l4152,a7),d0    ; tmp = xpLeft [0] + xpRight [0];
l4150   reg a2/d2/d3
    movem.l (a7)+,a2/d2/d3
    add.w   #16,a7
l4152   equ 12
    rts
; stacksize=28
    opt 0
    opt NQLPSMRBT

现在，我将把数组从本地放置到全局。

这是带有全局变量的代码。

    public  _tmpfn1
    cnop    0,4
_tmpfn1
    movem.l l4150,-(a7)
    moveq   #0,d1
    move.w  #215,d2
    move.w  #137,d3
l4148
    move.w  d1,d0
    ext.l   d0
    lsl.l   #1,d0
    lea _AxpLeft,a0
    move.w  d3,(0,a0,d0.l)
    lea _AxpRight,a0
    move.w  d2,(0,a0,d0.l)
    addq.w  #1,d1
    addq.w  #1,d3
    addq.w  #1,d2
    cmp.w   #4,d1
    blt l4148
    move.w  _AxpRight,d0
    add.w   _AxpLeft,d0
l4150   reg d2/d3
    movem.l (a7)+,d2/d3
l4152   equ 8
    rts
; stacksize=8
    opt 0
    opt NQLPSMRBT

唯一的区别是两条 lea 指令，如果内存正常，最多 16 个周期。
实际函数肯定发生了其他事情，但由于某种原因，它的代码在 ASM 中被混淆了（ASM 中只有 6 行，没有跳转，没有其他标签，什么都没有）。我会继续搜索 ASM，代码到底在哪里。

【问题讨论】：

代码显然切换到不同的寻址模式。（从 SP 相对到绝对）
是的，但是堆栈（在平台上）放在 RAM 的末尾，这意味着对堆栈变量的每次访问都会导致那些昂贵的 RAS 周期（除非您的代码恰好在最后RAM 页面 - 它没有，因为它位于 RAM 的开头）。虽然我不确定这两种寻址模式之间的周期有什么区别（我可以查一下），但我怀疑它是否会导致这种性能下降。
【我不知道68K指令时序/寻址模式】对于SP相对寻址，至少指令序列（+解码）可以更短。
我只是查看了循环表，move.w 需要 16（最佳）-24（最差）循环。由于该方法仅执行 320*3 = 960 次，因此差值最多应该是 960*(24-16) = 7,680 个周期。但它比这多 3-4 个数量级！
这也不能用 RAS 预充电周期来解释。编译器一定在做一些残酷的事情。我很确定如果我看到了生成的 ASM 代码，那将是一个怪物般的 WTF 时刻。我将再次重试那些编译器开关，也许在编译器中尝试一些不同的优化选项。

标签： c performance motorola 68000

【解决方案1】：

正如我所怀疑的，有一个怪物-WTF 编译器相关的时刻。对于局部变量，为什么只有 6 行代码的原因是编译器能够弄清楚，那 120 行 C 代码实际上并没有在全局级别上做任何事情，所以它完全忽略了代码干脆！这意味着该方法的 ASM 代码就是那 6 行（带有 rts）。然而，这对我得到的基准测试结果没有多大意义（但这将是另一回事）

故事的寓意：通过使变量成为全局变量，编译器实际上费心为函数创建代码（而不仅仅是空的 6-op 存根）。而且由于我内联了该函数内的所有内容，因此没有嵌套的函数调用。现在，这显然听起来很荒谬，因为我在目标设备上进行了大约 25 个变量和输出的调试会话。但是那一刻，我删除了那些外部打印/调试调用，那一定是编译器根本没有生成函数代码的那一刻。一个血腥的迷宫......

【讨论】：