【发布时间】:2015-09-23 13:15:30
【问题描述】:
我有 2 个小的本地数组:
short int xpLeft [4], xpRight [4];
当我使它们全局(以不同的方法访问它们,但只能在同一个 C 文件中(例如,其他模块无法访问))时,性能(在摩托罗拉 68000 上)下降。 而不是 224 个 vblanks(用于本地),整个基准测试(渲染 320 帧场景)突然需要 249 个 vblanks(全局数组)!
我尝试了什么:
由于该函数中没有使用数组中的数据,我虽然那个编译器捕捉到了这一点并且没有费心将结果值(从寄存器)写入内存(68000上的一个非常慢的操作 - 访问内存)。因此,我在函数末尾添加了一些小代码来使用这些数组值,它相应地提高了性能成本(只有 1 个 vblank)。
有什么帮助:
我需要检查最终的 ASM 代码(并比较两个版本),但我不确定如何使用 vbcc 编译器(来自 Volker 博士)。我尝试了文档中的几个开关,虽然它们确实产生了一些中间输出,但我无法让它提供每个模块的完整 ASM 列表(使用 C 中的函数名称)。
我刚刚让开关“-k”开始工作。显然,开关的顺序很重要,我在命令行中找到了一个可以识别的位置,我终于得到了 *.ASM 输出(不少于 30 万行),但我终于有了一些东西(带有符号的 ASM)去挖掘。
我认为正在发生的事情:
- 使数组全局化会将它们放入RAM中的不同地址,内存控制器必须访问不同的bank,而bank switch 在目标平台上是一个极其缓慢的操作 - 导致RAS充电周期(访问不同的行 地址)。
- 指针别名 - 编译器可能会生成不同的代码,并且实际上可能会访问实际内存以进行中间操作 结果 - 但如果我有每个函数的 ASM 输出,我可以 轻松搞定
关于为什么会发生这种情况或如何获取每个已编译模块的 vbcc 输出完整列表以及相应的 ASM 代码的任何提示?
使用 ASM 输出,我创建了一个小型测试重现案例:
short int tmpfn1 ()
{
short int xpLeft [4], xpRight [4];
short int i, tmp;
for (i = 0; i < 4; i++)
{
xpLeft [i] = 137 + i;
xpRight [i] = 215 + i;
}
tmp = xpLeft [0] + xpRight [0];
return tmp;
}
这是生成的 ASM。虽然 ASM 是不言自明的,但我还是添加了一些 cmets:
public _tmpfn1
cnop 0,4
_tmpfn1
sub.w #16,a7
movem.l l4150,-(a7)
moveq #0,d1
lea (0+l4152,a7),a1 ; a1 = &xpLeft [0]
lea (8+l4152,a7),a2 ; a2 = &xpRight [0]
move.w #215,d3 ; d2/d3 = The Bulgarian constants
move.w #137,d2
l4148
move.w d1,d0
ext.l d0
lsl.l #1,d0
move.w d2,(0,a1,d0.l) ; xpLeft [i] = 137 + i;
move.w d3,(0,a2,d0.l) ; xpRight [i] = 215 + i;
addq.w #1,d1 ; d1 = Loop Counter (i++)
addq.w #1,d2
addq.w #1,d3
cmp.w #4,d1
blt l4148 ; Repeat the loop
move.w (8+l4152,a7),d0
add.w (0+l4152,a7),d0 ; tmp = xpLeft [0] + xpRight [0];
l4150 reg a2/d2/d3
movem.l (a7)+,a2/d2/d3
add.w #16,a7
l4152 equ 12
rts
; stacksize=28
opt 0
opt NQLPSMRBT
现在,我将把数组从本地放置到全局。
这是带有全局变量的代码。
public _tmpfn1
cnop 0,4
_tmpfn1
movem.l l4150,-(a7)
moveq #0,d1
move.w #215,d2
move.w #137,d3
l4148
move.w d1,d0
ext.l d0
lsl.l #1,d0
lea _AxpLeft,a0
move.w d3,(0,a0,d0.l)
lea _AxpRight,a0
move.w d2,(0,a0,d0.l)
addq.w #1,d1
addq.w #1,d3
addq.w #1,d2
cmp.w #4,d1
blt l4148
move.w _AxpRight,d0
add.w _AxpLeft,d0
l4150 reg d2/d3
movem.l (a7)+,d2/d3
l4152 equ 8
rts
; stacksize=8
opt 0
opt NQLPSMRBT
唯一的区别是两条 lea 指令,如果内存正常,最多 16 个周期。
实际函数肯定发生了其他事情,但由于某种原因,它的代码在 ASM 中被混淆了(ASM 中只有 6 行,没有跳转,没有其他标签,什么都没有)。我会继续搜索 ASM,代码到底在哪里。
【问题讨论】:
-
代码显然切换到不同的寻址模式。 (从 SP 相对到绝对)
-
是的,但是堆栈(在平台上)放在 RAM 的末尾,这意味着对堆栈变量的每次访问都会导致那些昂贵的 RAS 周期(除非您的代码恰好在最后RAM 页面 - 它没有,因为它位于 RAM 的开头)。虽然我不确定这两种寻址模式之间的周期有什么区别(我可以查一下),但我怀疑它是否会导致这种性能下降。
-
【我不知道68K指令时序/寻址模式】对于SP相对寻址,至少指令序列(+解码)可以更短。
-
我只是查看了循环表,move.w 需要 16(最佳)-24(最差)循环。由于该方法仅执行 320*3 = 960 次,因此差值最多应该是 960*(24-16) = 7,680 个周期。但它比这多 3-4 个数量级!
-
这也不能用 RAS 预充电周期来解释。编译器一定在做一些残酷的事情。我很确定如果我看到了生成的 ASM 代码,那将是一个怪物般的 WTF 时刻。我将再次重试那些编译器开关,也许在编译器中尝试一些不同的优化选项。
标签: c performance motorola 68000