快速 ARM NEON memcpy答案

【问题标题】：Fast ARM NEON memcpy快速 ARM NEON memcpy
【发布时间】：2012-06-25 01:11:57
【问题描述】：

我想在 ARMv7 内核上复制图像。天真的实现是每行调用 memcpy。

for(i = 0; i < h; i++) {
  memcpy(d, s, w);
  s += sp;
  d += dp;
}

我知道以下

d, dp, s, sp, w

都是 32 字节对齐的，所以我的下一个（仍然很天真）实现是沿着

for (int i = 0; i < h; i++) {
  uint8_t* dst = d;
  const uint8_t* src = s;
  int remaining = w;
  asm volatile (
    "1:                                               \n"
    "subs     %[rem], %[rem], #32                     \n"
    "vld1.u8  {d0, d1, d2, d3}, [%[src],:256]!        \n"
    "vst1.u8  {d0, d1, d2, d3}, [%[dst],:256]!        \n"
    "bgt      1b                                      \n"
    : [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
    :
    : "d0", "d1", "d2", "d3", "cc", "memory"
  );
  d += dp;
  s += sp;
}

在大量迭代中比 memcpy 快约 150%（在不同的图像上，因此不利用缓存）。我觉得这应该远非最佳，因为我还没有使用预加载，但是当我这样做时，我似乎只能使性能大大降低。有人对此有任何见解吗？

【问题讨论】：

尝试将循环展开至少 2 倍。由于流水线和内存速度，NEON 负载不是瞬时的。如果您执行 2 次加载，然后执行 2 次存储，您应该会看到好处。缓存预加载绝对可以加快速度，但预读距离需要根据您的目标平台进行调整。
我试过了，但差别可以忽略不计。我遵循相同的推理，但请记住，这些加载和存储每个只有 2 个周期 (source)。缓存行大小为 64 字节，我尝试提前预取 64、128、192 和 256 字节，所有这些都使这变得相当慢（2-3 倍）。
你试过查看 memcpy 源吗？也许它已经过优化并在您的平台上使用 NEON 指令。
众所周知，预取很难正确进行，而且很少有帮助。对于 memcpy，您没有计算周期可言，因此可能无法从预取中获得任何收益。
您考虑过使用 DMA 吗？我不知道副本会快多少/慢多少，但您可能会进行其他处理，因此您的整体应用速度可能会提高？

标签： c assembly arm memcpy neon

【解决方案1】：

ARM 对此有很好的技术说明。

http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.faqs/ka13544.html

您的性能肯定会因微架构而异，ARM 的说明是在 A8 上，但我认为它会给您一个不错的想法，底部的总结是对各种优缺点的很好讨论除了常规数字之外，例如哪些方法导致寄存器使用量最少等。

是的，正如另一位评论者所提到的，预取很难做到正确，并且在不同的微架构下会以不同的方式工作，具体取决于缓存有多大、每行有多大以及一堆其他细节关于缓存设计。如果你不小心，你最终可能会颠簸你需要的线条。对于可移植代码，我建议避免使用它。

【讨论】：