【发布时间】:2024-04-22 07:50:02
【问题描述】:
这是我的代码:
int f(double x, double y)
{
return std::isnan(x) || std::isnan(y);
}
如果您使用 C 而不是 C++,只需将 std:: 替换为 __builtin_(不要简单地删除 std::,原因如下:Why does GCC implement isnan() more efficiently for C++ <cmath> than C <math.h>?)。
这是程序集:
ucomisd %xmm0, %xmm0 ; set parity flag if x is NAN
setp %dl ; copy parity flag to %edx
ucomisd %xmm1, %xmm1 ; set parity flag if y is NAN
setp %al ; copy parity flag to %eax
orl %edx, %eax ; OR one byte of each result into a full-width register
现在让我们尝试一个替代的公式来做同样的事情:
int f(double x, double y)
{
return std::isunordered(x, y);
}
这是替代方案的程序集:
xorl %eax, %eax
ucomisd %xmm1, %xmm0
setp %al
这太棒了——我们将生成的代码几乎减半!这是因为ucomisd 设置奇偶校验标志,如果 either 它的操作数是 NAN,所以我们可以一次测试两个值,SIMD 样式。
你可以在野外看到类似原始版本的代码,例如:https://svn.r-project.org/R/trunk/src/nmath/qnorm.c
如果我们能让 GCC 变得足够聪明,可以在任何地方组合两个 isnan() 调用,那就太酷了。我的问题是:我们可以吗,怎么做?我对编译器的工作原理有一些了解,但我不知道在 GCC 的哪个位置可以执行这种优化。基本思想是每当有一对isnan()(或__builtin_isnan)调用OR'd一起,它应该同时使用两个操作数发出一个ucomisd指令。
编辑添加了一些由 Basile Starynkevitch 的回答提示的研究:
如果我使用 -fdump-tree-all 进行编译,我会找到两个看起来相关的文件。首先,*.gimple 包含这个(以及更多):
D.2229 = x unord x;
D.2230 = y unord y;
D.2231 = D.2229 | D.2230;
在这里我们可以清楚地看到 GCC 知道它会将(x, x) 传递给isunordered()。如果我们想通过在这个级别进行转换来优化,规则大致是:“将a unord a | b unord b替换为a unord b。”这是编译我的第二个 C 代码时得到的结果:
D.2229 = x unord y;
另一个有趣的文件是*.original:
return <retval> = (int) (x unord x || y unord y);
这实际上是-fdump-tree-original 生成的整个非注释文件。对于更好的源代码,它看起来像这样:
return <retval> = x unord y;
显然可以应用相同类型的转换(只是这里是|| 而不是|)。
但不幸的是,如果我们将源代码修改为例如:
if (__builtin_isnan(x))
return true;
if (__builtin_isnan(y))
return true;
return false;
然后我们得到完全不同的 Gimple 和 Original 输出文件,尽管最终的组装和以前一样。所以也许在管道的后期尝试这种转变会更好? *.optimized 文件(以及其他文件)显示带有“if”的版本的代码与原始版本相同,因此很有希望。
【问题讨论】:
-
当然是可能 - 但这并不意味着它是可取的,因为它会增加复杂性、开销、要维护的代码、使用优化的频率等。无论如何,建议给 GCC 开发人员肯定是考虑的下一步,而不是在这里发布。
-
@TonyD:如果您认识一位愿意并且有能力并且有时间实现此功能的 GCC 开发人员,请务必将其传递给他们或告诉我他们的电子邮件地址,我会这样做。否则,问题是我是否可以自己做而不需要过多的努力(我知道这些事情的学习曲线非常陡峭)。这里已经发布了一个关于主题的有用答案,它教会了我一些我仅通过将其作为 GCC 错误提交就不会学到的东西。
-
在 gcc-5 中,它可能与其中一个 .pd 文件中的
(simplify (or (unordered @0 @0) (unordered @1 @1)) (unordered @0 @1))一样简单(好吧,可能不适用于带有if的最后一个版本)。请提交 PR。 -
@MarcGlisse:我在gcc.gnu.org/bugzilla/show_bug.cgi?id=63387 提交了您对 GCC 5 的建议,谢谢。
标签: c++ c gcc optimization compiler-optimization