在 C# 中复制数组的任何更快的方法？答案

【问题标题】：Any faster way of copying arrays in C#?在 C# 中复制数组的任何更快的方法？
【发布时间】：2011-07-03 05:53:08
【问题描述】：

我有三个数组需要组合成一个三维数组。以下代码显示性能资源管理器中的低性能。有更快的解决方案吗？

for (int i = 0; i < sortedIndex.Length; i++) {
    if (i < num_in_left)
    {    
        // add instance to the left child
        leftnode[i, 0] = sortedIndex[i];
        leftnode[i, 1] = sortedInstances[i];
        leftnode[i, 2] = sortedLabels[i];
    }
    else
    { 
        // add instance to the right child
        rightnode[i-num_in_left, 0] = sortedIndex[i];
        rightnode[i-num_in_left, 1] = sortedInstances[i];
        rightnode[i-num_in_left, 2] = sortedLabels[i];
    }                    
}

更新：

我实际上正在尝试执行以下操作：

//given three 1d arrays
double[] sortedIndex, sortedInstances, sortedLabels;
// copy them over to a 3d array (forget about the rightnode for now)
double[] leftnode = new double[sortedIndex.Length, 3];
// some magic happens here so that
leftnode = {sortedIndex, sortedInstances, sortedLabels};

【问题讨论】：

我本来打算建议不安全的代码，但后来发现：stackoverflow.com/questions/85479/c-unsafe-fixed-code。 Array.Copy，正如马龙所说，这可能是最好的选择。

标签： c# arrays copy

【解决方案1】：

使用Buffer.BlockCopy。它的全部目的是快速执行（参见Buffer）：

与 System.Array 类中的类似方法相比，此类在操作原始类型方面提供了更好的性能。

诚然，我没有做过任何基准测试，但这就是文档。它也适用于多维数组；只需确保您始终指定要复制多少字节，而不是多少元素，并且您正在处理原始数组。

此外，我还没有对此进行测试，但是如果您将委托绑定到 System.Buffer.memcpyimpl 并直接调用它，您可能能够从系统中挤出更多性能。签名是：

internal static unsafe void memcpyimpl(byte* src, byte* dest, int len)

它确实需要指针，但我相信它已针对可能的最高速度进行了优化，因此我认为没有任何方法可以比这更快，即使您手头有组装。

更新：

由于请求（并满足我的好奇心），我对此进行了测试：

using System;
using System.Diagnostics;
using System.Reflection;

unsafe delegate void MemCpyImpl(byte* src, byte* dest, int len);

static class Temp
{
    //There really should be a generic CreateDelegate<T>() method... -___-
    static MemCpyImpl memcpyimpl = (MemCpyImpl)Delegate.CreateDelegate(
        typeof(MemCpyImpl), typeof(Buffer).GetMethod("memcpyimpl",
            BindingFlags.Static | BindingFlags.NonPublic));
    const int COUNT = 32, SIZE = 32 << 20;

    //Use different buffers to help avoid CPU cache effects
    static byte[]
        aSource = new byte[SIZE], aTarget = new byte[SIZE],
        bSource = new byte[SIZE], bTarget = new byte[SIZE],
        cSource = new byte[SIZE], cTarget = new byte[SIZE];


    static unsafe void TestUnsafe()
    {
        Stopwatch sw = Stopwatch.StartNew();
        fixed (byte* pSrc = aSource)
        fixed (byte* pDest = aTarget)
            for (int i = 0; i < COUNT; i++)
                memcpyimpl(pSrc, pDest, SIZE);
        sw.Stop();
        Console.WriteLine("Buffer.memcpyimpl: {0:N0} ticks", sw.ElapsedTicks);
    }

    static void TestBlockCopy()
    {
        Stopwatch sw = Stopwatch.StartNew();
        sw.Start();
        for (int i = 0; i < COUNT; i++)
            Buffer.BlockCopy(bSource, 0, bTarget, 0, SIZE);
        sw.Stop();
        Console.WriteLine("Buffer.BlockCopy: {0:N0} ticks",
            sw.ElapsedTicks);
    }

    static void TestArrayCopy()
    {
        Stopwatch sw = Stopwatch.StartNew();
        sw.Start();
        for (int i = 0; i < COUNT; i++)
            Array.Copy(cSource, 0, cTarget, 0, SIZE);
        sw.Stop();
        Console.WriteLine("Array.Copy: {0:N0} ticks", sw.ElapsedTicks);
    }

    static void Main(string[] args)
    {
        for (int i = 0; i < 10; i++)
        {
            TestArrayCopy();
            TestBlockCopy();
            TestUnsafe();
            Console.WriteLine();
        }
    }
}

结果：

Buffer.BlockCopy: 469,151 ticks
Array.Copy: 469,972 ticks
Buffer.memcpyimpl: 496,541 ticks

Buffer.BlockCopy: 421,011 ticks
Array.Copy: 430,694 ticks
Buffer.memcpyimpl: 410,933 ticks

Buffer.BlockCopy: 425,112 ticks
Array.Copy: 420,839 ticks
Buffer.memcpyimpl: 411,520 ticks

Buffer.BlockCopy: 424,329 ticks
Array.Copy: 420,288 ticks
Buffer.memcpyimpl: 405,598 ticks

Buffer.BlockCopy: 422,410 ticks
Array.Copy: 427,826 ticks
Buffer.memcpyimpl: 414,394 ticks

现在改变顺序：

Array.Copy: 419,750 ticks
Buffer.memcpyimpl: 408,919 ticks
Buffer.BlockCopy: 419,774 ticks

Array.Copy: 430,529 ticks
Buffer.memcpyimpl: 412,148 ticks
Buffer.BlockCopy: 424,900 ticks

Array.Copy: 424,706 ticks
Buffer.memcpyimpl: 427,861 ticks
Buffer.BlockCopy: 421,929 ticks

Array.Copy: 420,556 ticks
Buffer.memcpyimpl: 421,541 ticks
Buffer.BlockCopy: 436,430 ticks

Array.Copy: 435,297 ticks
Buffer.memcpyimpl: 432,505 ticks
Buffer.BlockCopy: 441,493 ticks

现在再次更改顺序：

Buffer.memcpyimpl: 430,874 ticks
Buffer.BlockCopy: 429,730 ticks
Array.Copy: 432,746 ticks

Buffer.memcpyimpl: 415,943 ticks
Buffer.BlockCopy: 423,809 ticks
Array.Copy: 428,703 ticks

Buffer.memcpyimpl: 421,270 ticks
Buffer.BlockCopy: 428,262 ticks
Array.Copy: 434,940 ticks

Buffer.memcpyimpl: 423,506 ticks
Buffer.BlockCopy: 427,220 ticks
Array.Copy: 431,606 ticks

Buffer.memcpyimpl: 422,900 ticks
Buffer.BlockCopy: 439,280 ticks
Array.Copy: 432,649 ticks

或者，换句话说：他们非常有竞争力；一般来说，memcpyimpl 最快，但不一定值得担心。

【讨论】：

来吧，伙计，对它进行基准测试！我一直认为 Buffer.BlockCopy 更快，但我不确定了。 Hans Passant（在页面下方）声称两者执行完全相同的 CLR 代码：social.msdn.microsoft.com/Forums/en-US/netfxbcl/thread/…
我很想知道您最后的建议是否有效，如果有效，效果如何。
@MusiGenesis：我猜memcpyimpl 是要走的路吗？（虽然我以前使用过它，但我也没有对其进行基准测试。我现在就对其进行基准测试。）
Hans Passant: 在 StackOverflow 还没有是之前就回答了 StackOverflow 的问题！我认为这正式让他进入了 Jon Skeet 的领域。
应该注意memcpyimpl 方法至少在 .NET 4.5.1 中不再存在，它现在被称为 Memcpy 并且它有各种重载，所以你需要传入参数类型来解析你想要的方法。

【解决方案2】：

您可以使用Array.Copy。

编辑

Array.Copy 确实适用于多维数组：请参阅this topic。

【讨论】：

我查看了您的链接，但我的情况有所不同。源来自三个不同的一维数组。 dest 数组是一个 N x 3 数组，其中每个维度都包含一个源数组。

【解决方案3】：

如果在 .NET Core 上运行，您可以考虑使用 source.AsSpan().CopyTo(destination)（但要注意 Mono）。

          Method |  Job | Runtime |      Mean |     Error |    StdDev | Ratio | RatioSD |
---------------- |----- |-------- |----------:|----------:|----------:|------:|--------:|
       ArrayCopy |  Clr |     Clr |  60.08 ns | 0.8231 ns | 0.7699 ns |  1.00 |    0.00 |
        SpanCopy |  Clr |     Clr |  99.31 ns | 0.4895 ns | 0.4339 ns |  1.65 |    0.02 |
 BufferBlockCopy |  Clr |     Clr |  61.34 ns | 0.5963 ns | 0.5578 ns |  1.02 |    0.01 |
                 |      |         |           |           |           |       |         |
       ArrayCopy | Core |    Core |  63.33 ns | 0.6843 ns | 0.6066 ns |  1.00 |    0.00 |
        SpanCopy | Core |    Core |  47.41 ns | 0.5399 ns | 0.5050 ns |  0.75 |    0.01 |
 BufferBlockCopy | Core |    Core |  59.89 ns | 0.4713 ns | 0.3936 ns |  0.94 |    0.01 |
                 |      |         |           |           |           |       |         |
       ArrayCopy | Mono |    Mono | 149.82 ns | 1.6466 ns | 1.4596 ns |  1.00 |    0.00 |
        SpanCopy | Mono |    Mono | 347.87 ns | 2.0589 ns | 1.9259 ns |  2.32 |    0.02 |
 BufferBlockCopy | Mono |    Mono |  61.52 ns | 1.1691 ns | 1.0364 ns |  0.41 |    0.01 |

【讨论】：

每列在哪里操作？

【解决方案4】：

对于原始类型数组（如double），您可以快速复制，即使对于带有指针的多维数组也是如此。

在下面的代码中，我用值 1 到 100 初始化了一个二维数组 A[10,10]。然后我将这些值复制到一个一维数组 B[100]

unsafe class Program
{ 
    static void Main(string[] args)
    {
        double[,] A = new double[10, 10];

        for(int i = 0; i < 10; i++)
        {
            for(int j = 0; j < 10; j++)
            {
                A[i, j] = 10 * i + j + 1;
            }
        }
        // A has { { 1 ,2 .. 10}, { 11, 12 .. 20}, .. { .. 99, 100} }
        double[] B = new double[10 * 10];

        if (A.Length == B.Length)
        {
            fixed (double* pA = A, pB = B)
            {
                for(int i = 0; i < B.Length; i++)
                {
                    pB[i] = pA[i];
                }
            }
            // B has {1, 2, 3, 4 .. 100}
        }
    }
}

它有多快。我的测试表明它比原生 C# 副本和Buffer.BlockCopy() 快很多倍。您可以根据自己的情况试一试，然后告诉我们。

编辑 1 我将复制与四种方法进行了比较。 1) 两个嵌套循环，2) 一个串行循环，3) 指针，4) BlockCopy。我测量了各种大小数组的每个刻度的副本数。

N =   10x  10 (cpy/tck) Nested = 50,  Serial = 33, Pointer =    100, Buffer =    16
N =   20x  20 (cpy/tck) Nested = 133, Serial = 40, Pointer =    400, Buffer =   400
N =   50x  50 (cpy/tck) Nested = 104, Serial = 40, Pointer =   2500, Buffer =  2500
N =  100x 100 (cpy/tck) Nested = 61,  Serial = 41, Pointer =  10000, Buffer =  3333
N =  200x 200 (cpy/tck) Nested = 84,  Serial = 41, Pointer =  40000, Buffer =  2666
N =  500x 500 (cpy/tck) Nested = 69,  Serial = 41, Pointer = 125000, Buffer =  2840
N = 1000x1000 (cpy/tck) Nested = 33,  Serial = 45, Pointer = 142857, Buffer =  1890
N = 2000x2000 (cpy/tck) Nested = 30,  Serial = 43, Pointer = 266666, Buffer =  1826
N = 5000x5000 (cpy/tck) Nested = 21,  Serial = 42, Pointer = 735294, Buffer =  1712

这里很清楚谁是赢家。指针复制比任何其他方法都要好几个数量级。

编辑 2 显然，我不公平地利用了编译器/JIT 优化，因为当我将循环移到代表后面以平衡竞争环境时，数字发生了巨大变化。

N =   10x  10 (cpy/tck) Nested =  0, Serial =  0, Pointer =      0, Buffer =     0
N =   20x  20 (cpy/tck) Nested = 80, Serial = 14, Pointer =    100, Buffer =   133
N =   50x  50 (cpy/tck) Nested =147, Serial = 15, Pointer =    277, Buffer =  2500
N =  100x 100 (cpy/tck) Nested = 98, Serial = 15, Pointer =    285, Buffer =  3333
N =  200x 200 (cpy/tck) Nested =106, Serial = 15, Pointer =    272, Buffer =  3076
N =  500x 500 (cpy/tck) Nested =106, Serial = 15, Pointer =    276, Buffer =  3125
N = 1000x1000 (cpy/tck) Nested =101, Serial = 11, Pointer =    199, Buffer =  1396
N = 2000x2000 (cpy/tck) Nested =105, Serial =  9, Pointer =    186, Buffer =  1804
N = 5000x5000 (cpy/tck) Nested =102, Serial =  8, Pointer =    170, Buffer =  1673

缓冲的副本在此处位于顶部（感谢@Mehrdad），指针副本位于第二位。现在的问题是为什么指针复制不如缓冲区方法快？

【讨论】：

Buffer.BlockCopy 在内部使用 memmove，我猜它在一个汇编命令中复制任意数量的字节。这应该比使用指针快得多，指针在一条指令中只复制 1 个 double 并且需要循环多次。
是的，这是有道理的。缓冲区小于 CPU 缓存以保持快速是有意义的。不知是否根据CPU架构调整。
缓冲区复制很可能使用数据并行 SIMD/SSE CPU 指令一次最多移动 512 位，每条指令移动 8 个双精度数

【解决方案5】：

如果以下形式的锯齿状数组可以工作，则可以避免复制：

double[][] leftNode = new double[3][];
leftNode[0] = sortedIndex;
leftNode[1] = sortedInstances;
leftNode[2] = sortedLabels;

【讨论】：