【问题标题】:Can I use .NET SIMD on Raspberry Pi 4?我可以在 Raspberry Pi 4 上使用 .NET SIMD 吗?
【发布时间】:2021-05-27 06:28:09
【问题描述】:

我正在编写代码,它将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它确实会从 .NET SIMD 中受益,但是当我在 Raspberry Pi 4 上编译 C# 时,System.Numerics.Vector.IsHardwareAccelerated 返回 false。

我的dotnet版本是3.1.406,我加了

  <PropertyGroup>
    <Optimize>true</Optimize>
  </PropertyGroup>

到 csproj 并运行 release 配置。

有什么方法可以在 Raspberry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?

更新 我安装了 .NET 5 并尝试了 .NET Intrinsics,但都不支持:

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);  //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false

我使用的是 32 位 Raspbian(Debian 衍生产品),我是否需要 64 位版本才能使用它?

附:澄清一下,在纯 C# 中,算法如下所示:

        public static int ScalarTest(byte[] lhs, byte[] rhs)
        {
            var result = 0;

            for (int index = 0; index < lhs.Length; index++)
            {
                var a = lhs[index];
                var b = rhs[index];
                if (b > a)
                {
                    (b, a) = (a, b);
                }
                result += ((a - b) >= 16) ? 1 : 0;
            }

            return result;
        }

【问题讨论】:

  • "..减去相应字节..." 两个相应字节的减法总是为零,对吧? ????
  • @JHBonarius 我不是这个最好的术语,我的意思是arr1[i] - arr2[i]。我将添加 C# 循环实现来解释我的意思。

标签: c# raspberry-pi arm simd neon


【解决方案1】:

按照@Soonts 的回答,在切换到 64 位 Raspbian 后,这是我在 NET 5 中得到的。我正在寻找的大多数指令都受支持。

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64

Console.WriteLine(System.Environment.Is64BitOperatingSystem);           //true

Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated);        //true
Console.WriteLine(Vector<byte>.Count);                                  //16
Console.WriteLine(Vector<sbyte>.Count);                                 //16
Console.WriteLine(Vector<short>.Count);                                 //8
Console.WriteLine(Vector<ushort>.Count);                                //8
Console.WriteLine(Vector<int>.Count);                                   //4
Console.WriteLine(Vector<uint>.Count);                                  //4
Console.WriteLine(Vector<long>.Count);                                  //2
Console.WriteLine(Vector<ulong>.Count);                                 //2

Console.WriteLine(Vector<float>.Count);                                 //4
Console.WriteLine(Vector<double>.Count);                                //2

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported);     //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported);        //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported);      //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported);    //false

在实现了将两个字节数组的元素与 abs 进行比较的算法之后。超过某个阈值的差异,在我的 Pi 4 上,我得到了以下基准测量值(预热后 3 次运行的平均值):

C#循环:

59 毫秒

System.Numerics.Vector:

21 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd:

17 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd 优化矢量创建 https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e

2ms !!!

【讨论】:

【解决方案2】:

尽管 API 已完成,甚至已记录在案,但仍缺少实现。 Take a look. 8 字节 SIMD 向量几十年来一直是 NEON ISA 的重要组成部分(于 2005 年推出),但 .NET 运行时仅在为 ARM64 编译时才实现它们(2013 年发布)。

我不为微软工作,不知道他们是如何编译他们的二进制文件的,但源代码告诉他们在为 ARM64 目标构建时至少对 NEON 有一些支持。如果您想在 .NET 中使用这些内在函数,可以尝试 64 位操作系统。

有一种解决方法——在 C++ 中实现对性能至关重要的部分,为 Linux 编译一个共享库,然后使用 [DllImport] 从 .NET 中使用这些函数。我以这种方式构建了非平凡的 Linux 软件 (example),使用以下 gcc 标志来构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC 这样它将适用于 32 位操作系统,并且不需要任何特殊的 .NET运行时,我已经使用 .NET Core 2.1 进行了测试。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-09-09
    • 2013-08-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多