Microsoft Accelerator 比 C# 中的串行实现慢答案

【问题标题】：Microsoft Accelerator slower than serial implementation in C#Microsoft Accelerator 比 C# 中的串行实现慢
【发布时间】：2012-09-11 11:26:31
【问题描述】：

我在业余时间用 C# 编写了这个时髦的小 2D N 体模拟。它在串行实现中运行得非常好，以良好的帧速率运行到大约 1000 个物体，此时它开始滞后。

我修改了算法以在单独的块中进行位置和速度更新，以便在 CPU 的单独内核上运行，我注意到性能有小幅提升。

请注意，大部分时间都花在了实际的数学运算上，也有一点时间花在了场景的实际绘制上。

我刚刚下载了 Microsoft Accelerator V2 库并从头开始重新编写了整个代码以使用它。它像以前一样工作，但速度明显变慢！之前我可以得到近 1000 分才能顺利运行，而现在我在 Accelerator 下只能得到大约 10 分。

Here 是我的代码。这是我第一次用 Accelerator 做任何事情，所以很可能我搞砸了。

该课程被称为Test，因为这是我的第一次测试。构造函数只是为物体的 x 和 y 位置、它们的 x 和 y 速度以及它们的质量创建长度为 n 的数组。 dec 只是一个阻尼因子，因此舍入误差会使其内爆而不是爆炸，而g 只是我现在在1.0f 留下的引力常数。

Tick() 是执行所有更新的函数。我首先考虑关于任何给定点 i 的所有点，找到半径，在其他点的方向上构造一个单位向量，通过减速度和引力常数缩放该单位向量，然后求和到 x 和 y 速度更新对于这一点。

然后我更新所有速度和所有位置，并转换回float[]s。

正如我所说，代码在技术上确实有效。结果与我的串行实现相同，但速度大幅下降。

任何想法我可能做错了什么？

我感觉可能是第 85 行和第 86 行 - 我将 i 点的 x 和 y 速度更新相加，并将其存储到我的浮点数组中，这意味着我需要调用 Target.ToArray1D()[0] 来得到总和值。

我这样做的原因是我先更新所有点，然后更新点，然后根据速度应用位置更改。

即我不希望在时间 t + 1 我用时间 t 的其余点更新点 0，然后下一个在时间 t 用其余点再次更新点 1，但用新的 t + 1 更新点 0。如果这有意义的话。

public void Tick()
{
    FPA fxPos = new FPA(xPos);
    FPA fyPos = new FPA(yPos);
    FPA fxVel = new FPA(xVel);
    FPA fyVel = new FPA(yVel);
    FPA fMass = new FPA(mass);

    float[] xUpd = new float[n]; // x-update for velocity
    float[] yUpd = new float[n]; // y-update for velocity

    for (int i = 0; i < n; i++)
    {
        // x- and y-pos about point i:
        FPA ixPos = PA.Subtract(fxPos, xPos[i]);
        FPA iyPos = PA.Subtract(fyPos, yPos[i]);

        // radius from point i:
        FPA iRad = PA.Sqrt(PA.Add(PA.Multiply(ixPos, ixPos), PA.Multiply(iyPos, iyPos)));

        // x- and y-pos are now unit vectors:
        ixPos = PA.Divide(ixPos, iRad);
        iyPos = PA.Divide(iyPos, iRad);

        // vectors are now scaled by mass:
        ixPos = PA.Multiply(fMass, ixPos);
        iyPos = PA.Multiply(fMass, iyPos);

        // vectors are now scaled by G and deceleration:
        ixPos = PA.Multiply(dec * g, ixPos);
        iyPos = PA.Multiply(dec * g, iyPos);

        // sum to get ith update value:
        xUpd[i] = target.ToArray1D(PA.Sum(ixPos))[0];
        yUpd[i] = target.ToArray1D(PA.Sum(iyPos))[0];
    }

    FPA fxUpd = new FPA(xUpd);
    FPA fyUpd = new FPA(yUpd);

    // update velocities:
    fxVel = PA.Add(fxUpd, fxVel);
    fyVel = PA.Add(fyUpd, fyVel);

    // update positions:
    fxPos = PA.Add(fxVel, fxPos);
    fyPos = PA.Add(fyVel, fyPos);

    xPos = target.ToArray1D(fxPos);
    yPos = target.ToArray1D(fyPos);
    xVel = target.ToArray1D(fxVel);
    yVel = target.ToArray1D(fyVel);
}

【问题讨论】：

仅供参考，很少会查看代码的外部链接。请尝试压缩您的问题和代码，以便所有内容都适合这里。如果文本和代码变得太大，您需要重新考虑您的问题。
已发布解决方案的替代方案是探索替代算法。对于 2D 中的 N-Body 问题，可以尝试使用Quad Tree 数据结构来加速力计算。这将它从O(N^2) 带到O(N log N)。

标签： c# gpu simulation gpgpu accelerator

【解决方案1】：

您应该重新考虑您的逻辑以真正使用并行计算。你仍然在一个时间点工作。要利用库的优势，您应该考虑对整个元素数组执行一项操作。

【讨论】：

我的串行实现使用双循环，因为 n-body 是 O(n²)。使用并行库，有一个循环。我认为没有办法解决它？