【问题标题】:Is it feasible for GCC to optimize isnan(x) || isnan(y) into isunordered(x, y)?GCC优化isnan(x)是否可行|| isnan(y) 变成 isunordered(x, y)?
【发布时间】:2024-04-22 07:50:02
【问题描述】:

这是我的代码:

int f(double x, double y)
{
  return std::isnan(x) || std::isnan(y);
}

如果您使用 C 而不是 C++,只需将 std:: 替换为 __builtin_(不要简单地删除 std::,原因如下:Why does GCC implement isnan() more efficiently for C++ <cmath> than C <math.h>?)。

这是程序集:

ucomisd %xmm0, %xmm0 ; set parity flag if x is NAN
setp    %dl          ; copy parity flag to %edx
ucomisd %xmm1, %xmm1 ; set parity flag if y is NAN
setp    %al          ; copy parity flag to %eax
orl     %edx, %eax   ; OR one byte of each result into a full-width register

现在让我们尝试一个替代的公式来做同样的事情:

int f(double x, double y)
{
  return std::isunordered(x, y);
}

这是替代方案的程序集:

xorl    %eax, %eax
ucomisd %xmm1, %xmm0
setp    %al

这太棒了——我们将生成的代码几乎减半!这是因为ucomisd 设置奇偶校验标志,如果 either 它的操作数是 NAN,所以我们可以一次测试两个值,SIMD 样式。

你可以在野外看到类似原始版本的代码,例如:https://svn.r-project.org/R/trunk/src/nmath/qnorm.c

如果我们能让 GCC 变得足够聪明,可以在任何地方组合两个 isnan() 调用,那就太酷了。我的问题是:我们可以吗,怎么做?我对编译器的工作原理有一些了解,但我不知道在 GCC 的哪个位置可以执行这种优化。基本思想是每当有一对isnan()(或__builtin_isnan)调用OR'd一起,它应该同时使用两个操作数发出一个ucomisd指令。

编辑添加了一些由 Basile Starynkevitch 的回答提示的研究:

如果我使用 -fdump-tree-all 进行编译,我会找到两个看起来相关的文件。首先,*.gimple 包含这个(以及更多):

D.2229 = x unord x;
D.2230 = y unord y;
D.2231 = D.2229 | D.2230;

在这里我们可以清楚地看到 GCC 知道它会将(x, x) 传递给isunordered()。如果我们想通过在这个级别进行转换来优化,规则大致是:“将a unord a | b unord b替换为a unord b。”这是编译我的第二个 C 代码时得到的结果:

D.2229 = x unord y;

另一个有趣的文件是*.original:

return <retval> = (int) (x unord x || y unord y);

这实际上是-fdump-tree-original 生成的整个非注释文件。对于更好的源代码,它看起来像这样:

return <retval> = x unord y;

显然可以应用相同类型的转换(只是这里是|| 而不是|)。

但不幸的是,如果我们将源代码修改为例如:

if (__builtin_isnan(x))
  return true;
if (__builtin_isnan(y))
  return true;
return false;

然后我们得到完全不同的 Gimple 和 Original 输出文件,尽管最终的组装和以前一样。所以也许在管道的后期尝试这种转变会更好? *.optimized 文件(以及其他文件)显示带有“if”的版本的代码与原始版本相同,因此很有希望。

【问题讨论】:

  • 当然是可能 - 但这并不意味着它是可取的,因为它会增加复杂性、开销、要维护的代码、使用优化的频率等。无论如何,建议给 GCC 开发人员肯定是考虑的下一步,而不是在这里发布。
  • @TonyD:如果您认识一位愿意并且有能力并且有时间实现此功能的 GCC 开发人员,请务必将其传递给他们或告诉我他们的电子邮件地址,我会这样做。否则,问题是我是否可以自己做而不需要过多的努力(我知道这些事情的学习曲线非常陡峭)。这里已经发布了一个关于主题的有用答案,它教会了我一些我仅通过将其作为 GCC 错误提交就不会学到的东西。
  • 在 gcc-5 中,它可能与其中一个 .pd 文件中的 (simplify (or (unordered @0 @0) (unordered @1 @1)) (unordered @0 @1)) 一样简单(好吧,可能不适用于带有 if 的最后一个版本)。请提交 PR。
  • @MarcGlisse:我在gcc.gnu.org/bugzilla/show_bug.cgi?id=63387 提交了您对 GCC 5 的建议,谢谢。

标签: c++ c gcc optimization compiler-optimization


【解决方案1】:

有两个问题:

  • 是您提出的优化始终在严格的 C++11 标准中是合法的(我不知道)。

  • 可以通过添加这样的优化来自定义 GCC:是的!您可以使用 MELT 扩展它 -e.g.编写您自己的 MELT 扩展,或者使用您自己的 GCC 插件(痛苦地)用 C++ 编码。

但是,在 GCC 中添加额外的优化是一项重要的工作(即使使用 MELT):您需要了解 GCC 的内部结构。所以这可能是一个多星期的工作。

而且我不确定这样的优化是否真的值得。

【讨论】:

  • 谢谢,我知道你是 MELT 的作者。显然需要做一些工作才能掌握它,但我确实运行了 gcc -fdump-tree-all 并将我的一些发现编辑到问题中。
  • 好吧,我尝试构建 MELT 1.0(用于 GCC 4.7),但它给我带来了很多麻烦。首先,我需要一个比我的系统更新的unifdef(我的系统不支持-o,你可以在构建系统中克服它)。然后它在 melt.so 中对 libgmp 中的某些内容有一个未定义的引用,所以我将它添加到 Makefile 中。然后它抱怨缺少meltbuild-stage0-quicklybuilt/warmelt-first+meltdesc.c,所以我做了清理,现在我得到了melt-runtime.h:675:24: fatal error: meltrunsup.h: Too many levels of symbolic links
  • 我还尝试使用 GCC 4.9 构建 MELT 1.1。我必须将-lrt 添加到melt.so 的链接行(否则取消引用到clock_gettime),然后我得到了关于warmelt-first+meltdesc.c 的相同错误。接下来我收到一个错误,因为您依赖pstree -s 而我系统的pstree 没有该选项。我正在使用 Ubuntu 10.04。对不起,旧系统,我对此无能为力。我的另一个系统是 Mac,它使用 Clang。 :(
  • 至少使用 MELT 1.1.2(甚至是最新的快照),请在 gcc-melt@googlegroups.com 上报告错误 - 并订阅它
  • 我认为使用某些“功能”是非常糟糕的主意,当他们必须重新构建和/或维护代码时,并非每个人都可以使用。
【解决方案2】:

这种优化不仅是可能的,它现在在 gcc-6 中可用: https://gcc.gnu.org/viewcvs/gcc?view=revision&revision=222077

【讨论】:

  • 很高兴您花时间添加简化。
  • 它也在 Clang 3.7+ 中。