【发布时间】:2012-06-25 01:11:57
【问题描述】:
我想在 ARMv7 内核上复制图像。天真的实现是每行调用 memcpy。
for(i = 0; i < h; i++) {
memcpy(d, s, w);
s += sp;
d += dp;
}
我知道以下
d, dp, s, sp, w
都是 32 字节对齐的,所以我的下一个(仍然很天真)实现是沿着
for (int i = 0; i < h; i++) {
uint8_t* dst = d;
const uint8_t* src = s;
int remaining = w;
asm volatile (
"1: \n"
"subs %[rem], %[rem], #32 \n"
"vld1.u8 {d0, d1, d2, d3}, [%[src],:256]! \n"
"vst1.u8 {d0, d1, d2, d3}, [%[dst],:256]! \n"
"bgt 1b \n"
: [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
:
: "d0", "d1", "d2", "d3", "cc", "memory"
);
d += dp;
s += sp;
}
在大量迭代中比 memcpy 快约 150%(在不同的图像上,因此不利用缓存)。我觉得这应该远非最佳,因为我还没有使用预加载,但是当我这样做时,我似乎只能使性能大大降低。有人对此有任何见解吗?
【问题讨论】:
-
尝试将循环展开至少 2 倍。由于流水线和内存速度,NEON 负载不是瞬时的。如果您执行 2 次加载,然后执行 2 次存储,您应该会看到好处。缓存预加载绝对可以加快速度,但预读距离需要根据您的目标平台进行调整。
-
我试过了,但差别可以忽略不计。我遵循相同的推理,但请记住,这些加载和存储每个只有 2 个周期 (source)。缓存行大小为 64 字节,我尝试提前预取 64、128、192 和 256 字节,所有这些都使这变得相当慢(2-3 倍)。
-
你试过查看 memcpy 源吗?也许它已经过优化并在您的平台上使用 NEON 指令。
-
众所周知,预取很难正确进行,而且很少有帮助。对于 memcpy,您没有计算周期可言,因此可能无法从预取中获得任何收益。
-
您考虑过使用 DMA 吗?我不知道副本会快多少/慢多少,但您可能会进行其他处理,因此您的整体应用速度可能会提高?
标签: c assembly arm memcpy neon