C# 与 C++ 性能——为什么 .NET 不执行最基本的优化（如死代码消除）？答案

【问题标题】：C# vs. C++ performance -- why doesn't .NET perform the most basic optimizations (like dead code elimination)?C# 与 C++ 性能——为什么 .NET 不执行最基本的优化（如死代码消除）？
【发布时间】：2013-12-22 01:06:34
【问题描述】：

我严重怀疑 C# 或 .NET JIT 编译器是否执行任何有用的优化，更不用说它们是否真的与 C++ 编译器中最基本的竞争。

考虑一下这个极其简单的程序，我很方便地把它做成在 C++ 和 C# 中都有效：

#if __cplusplus
#else
static class Program
{
#endif
    static void Rem()
    {
        for (int i = 0; i < 1 << 30; i++) ;
    }
#if __cplusplus
    int main()
#else
    static void Main()
#endif
    {
        for (int i = 0; i < 1 << 30; i++)
            Rem();
    }
#if __cplusplus
#else
}
#endif

当我在最新版本的 C# (VS 2013) 中以发布模式编译和运行它时，它不会在任何合理的时间内终止。

编辑：这是另一个例子：

static class Program
{
    private static void Test2() { }

    private static void Test1()
    {
#if TEST
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
        Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2(); Test2();
#else
        Test2();
#endif
    }

    static void Main()
    {
        for (int i = 0; i < 0x7FFFFFFF; i++)
            Test1();
    }
}

当我运行这个时，如果 TEST 被定义，它需要很多更长的时间，即使一切都是空操作并且应该内联 Test2。

即使是最古老的 C++ 编译器我也能掌握，但是，优化一切，让程序立即返回。

是什么阻止了 .NET JIT 优化器进行如此简单的优化？为什么？

【问题讨论】：

用户在 JIT 优化器运行时正在等待，因此他们通常只执行您通常可以期望成本低且回报高的优化。
消除不执行的代码。这个循环执行，所以它是定义的实时代码。
@CatPlusPlus：不，这不是定义。您应该阅读 Wikipedia 中关于消除死代码的第一句和第二句。
@CatPlusPlus：如果你没有一个好的答案，你就没有有回答这个问题。我也没有，这就是我问这个问题的原因。也许其他人会，我们都可以学习。
@CatPlusPlus 天哪，如果只有编译器作者能够获得您的智慧。如果他们知道消除死代码毫无意义，他们本可以节省大量时间。奇怪的是他们继续花时间改进它，你不觉得吗？他们一定很愚蠢

标签： c# c++ .net performance optimization

【解决方案1】：

.NET JIT 是一个糟糕的编译器，这是事实。幸运的是，一个新的 JIT (RyuJIT) 和一个似乎基于 VC 编译器的 NGEN 正在开发中（我相信这是 Windows Phone cloud compiler 使用的）。

虽然它是一个非常简单的编译器，但它确实内联小函数并在一定程度上消除了无副作用的循环。这一切都不好，但它确实发生了。

在我们进入详细调查结果之前，请注意 x86 和 x64 JIT 是不同的代码库，执行方式不同并且存在不同的错误。

测试 1：

您在 32 位模式下以发布模式运行程序。我可以在 .NET 4.5 上以 32 位模式重现您的发现。是的，这很尴尬。

但在 64 位模式下，第一个示例中的 Rem 是内联的，并且两个嵌套循环中最里面的一个被删除：

我已经标记了三个循环指令。外环还在。我认为这在实践中并不重要，因为您很少有两个嵌套的死循环。

请注意，循环展开了 4 次，然后展开的迭代被折叠成一个迭代（展开产生 i += 1; i+= 1; i+= 1; i+= 1; 并折叠成 i += 4;）。诚然，可以优化整个循环，但 JIT 确实执行了实践中最重要的事情：展开循环和简化代码。

我还在Main 中添加了以下内容，以便于调试：

    Console.WriteLine(IntPtr.Size); //verify bitness
    Debugger.Break(); //attach debugger

测试 2：

我无法在 32 位或 64 位模式下完全重现您的发现。在所有情况下，Test2 都内联到 Test1 中，使其成为一个非常简单的函数：

Main 在循环中调用 Test1，因为 Test1 太大而无法内联（因为非简化的大小很重要，因为方法是单独进行 JIT 的）。

当您在Test1 中只有一个Test2 调用时，这两个函数都足够小，可以内联。这使Main 的 JIT 能够发现该代码中根本没有做任何事情。

最终答案：我希望我能对正在发生的事情有所了解。在这个过程中，我确实发现了一些重要的优化。 JIT 只是不是很彻底和完整。如果相同的优化只是在第二次相同的传递中执行，那么这里可以简化更多。但是大多数程序只需要一次通过所有的简化器。我同意 JIT 团队在这里所做的选择。

那么，为什么 JIT 如此糟糕？一方面是它必须很快，因为 JITing 对延迟敏感。另一部分是它只是一个原始的JIT，需要更多的投资。

【讨论】：

+1 这是一个非常好的答案，我没有意识到 64 位可能会有所不同（事实上，我没有意识到我运行的不是 64 位版本）！而且我不知道另一个 JIT 正在开发中。非常感谢您发布这个！
“一方面是它必须快，因为 JITing 对延迟敏感”，我认为权衡是关键。如果我分析我的代码并发现它很慢，因为它有一个死循环，我拍了拍我的额头说“为什么我把它留在那里？！”，删除死循环，问题解决了。如果 JIT 必须在每次运行世界上的每个应用程序时执行死循环分析，我们都会遭受性能损失。然而，如果我们必须手动进行自己的内联，那将破坏大多数语言/运行时特性的价值，因此 JIT 应该（并且确实）为我们内联。
(cont) 但是，这并没有说明 C# 编译器应该/可以做什么来改善这种情况。权衡是编译时间而不是运行时/启动的开销，但肯定一些控制优化强度的编译器标志可以解决这个问题？
据我了解，大多数死代码和简化机会来自内联等其他转换。内联可能会传播常量，导致某些代码路径静态地被认为是不可访问的。那是很多死代码来自。我也认为 csc.exe 可以做得更好。更好的是带有完整的 Visual C 编译器后端的预编译模型（如 ngen）。这也将启用自动矢量化/SIMD。
^ 是的，死代码通常来自其他转换，谢谢提及。 :)