【问题标题】:How to choose AVX compare predicate variants如何选择 AVX 比较谓词变体
【发布时间】:2013-06-04 00:03:43
【问题描述】:

在高级向量扩展 (AVX) 中的比较指令(如 _m256_cmp_ps)中,最后一个参数是比较谓词。 谓词的选择让我不知所措。 它们似乎是类型、排序、信号的三重奏。 例如。 _CMP_LE_OS '小于或等于,有序,信号。

首先,选择信令或非信令是否有性能原因, 同样,有序或无序比另一个更快?

“无信号”是什么意思? 我在文档中根本找不到这个。 关于何时选择什么的任何经验法则?

以下是来自 avxintrin.h 的谓词选择:

/* Compare */
#define _CMP_EQ_OQ    0x00 /* Equal (ordered, non-signaling)  */
#define _CMP_LT_OS    0x01 /* Less-than (ordered, signaling)  */
#define _CMP_LE_OS    0x02 /* Less-than-or-equal (ordered, signaling)  */
#define _CMP_UNORD_Q  0x03 /* Unordered (non-signaling)  */
#define _CMP_NEQ_UQ   0x04 /* Not-equal (unordered, non-signaling)  */
#define _CMP_NLT_US   0x05 /* Not-less-than (unordered, signaling)  */
#define _CMP_NLE_US   0x06 /* Not-less-than-or-equal (unordered, signaling)  */
#define _CMP_ORD_Q    0x07 /* Ordered (nonsignaling)   */
#define _CMP_EQ_UQ    0x08 /* Equal (unordered, non-signaling)  */
#define _CMP_NGE_US   0x09 /* Not-greater-than-or-equal (unord, signaling)  */
#define _CMP_NGT_US   0x0a /* Not-greater-than (unordered, signaling)  */
#define _CMP_FALSE_OQ 0x0b /* False (ordered, non-signaling)  */
#define _CMP_NEQ_OQ   0x0c /* Not-equal (ordered, non-signaling)  */
#define _CMP_GE_OS    0x0d /* Greater-than-or-equal (ordered, signaling)  */
#define _CMP_GT_OS    0x0e /* Greater-than (ordered, signaling)  */
#define _CMP_TRUE_UQ  0x0f /* True (unordered, non-signaling)  */
#define _CMP_EQ_OS    0x10 /* Equal (ordered, signaling)  */
#define _CMP_LT_OQ    0x11 /* Less-than (ordered, non-signaling)  */
#define _CMP_LE_OQ    0x12 /* Less-than-or-equal (ordered, non-signaling)  */
#define _CMP_UNORD_S  0x13 /* Unordered (signaling)  */
#define _CMP_NEQ_US   0x14 /* Not-equal (unordered, signaling)  */
#define _CMP_NLT_UQ   0x15 /* Not-less-than (unordered, non-signaling)  */
#define _CMP_NLE_UQ   0x16 /* Not-less-than-or-equal (unord, non-signaling)  */
#define _CMP_ORD_S    0x17 /* Ordered (signaling)  */
#define _CMP_EQ_US    0x18 /* Equal (unordered, signaling)  */
#define _CMP_NGE_UQ   0x19 /* Not-greater-than-or-equal (unord, non-sign)  */
#define _CMP_NGT_UQ   0x1a /* Not-greater-than (unordered, non-signaling)  */
#define _CMP_FALSE_OS 0x1b /* False (ordered, signaling)  */
#define _CMP_NEQ_OS   0x1c /* Not-equal (ordered, signaling)  */
#define _CMP_GE_OQ    0x1d /* Greater-than-or-equal (ordered, non-signaling)  */
#define _CMP_GT_OQ    0x1e /* Greater-than (ordered, non-signaling)  */
#define _CMP_TRUE_US  0x1f /* True (unordered, signaling)  */

【问题讨论】:

  • 如果你不会遇到NaNs 那真的没关系。

标签: simd avx


【解决方案1】:

Ordered vs Unordered 与比较是否为真有关,如果其中一个操作数包含 NaN(请参阅What does ordered / unordered comparison mean?)。信令 (S) 与非信令(Q 表示安静?)将确定如果操作数包含 NaN 是否引发异常。

从性能的角度来看,这些都应该是相同的(当然假设没有引发异常)。如果您想在有 NaN 时收到警报,那么您需要发出信号。至于有序 vs 无序,这完全取决于你想如何处理 NaN。

【讨论】:

  • 信令实际上仅意味着即使在比较“安静”(正常)NaN 时也会设置 FP“无效”标志。要真正得到“警报”,您必须在 MXCSR 中有未屏蔽的 FP 无效异常,或者检查 MXCSR 粘滞标志以查看自上次清除后是否发生任何无效异常。 Q 与 S 的重点在于,它可以让您比较正常的 NaN,而无需将其视为除以零或inf - inf 或 sqrt(-1)。 (SNaN 不是自然发生的;如果异常被屏蔽,则其他无效操作会产生 QNaN,这是默认设置。)
【解决方案2】:

当任一操作数为 NaN 时,有序 vs 无序决定结果值。

有序比较对 NaN 操作数返回 false

  • _CMP_EQ_OQ 的 1.01.0 给出 true(普通平等)。
  • NaN1.0 的_CMP_EQ_OQ 给出false
  • 1.0NaN 的_CMP_EQ_OQ 给出false
  • NaNNaN 的_CMP_EQ_OQ 给出false

无序比较为 NaN 操作数返回 true

  • 1.01.0 的 _CMP_EQ_UQ 给出 true(普通平等)。
  • NaN1.0 的_CMP_EQ_UQ 给出true
  • 1.0NaN 的_CMP_EQ_UQ 给出true
  • NaNNaN 的_CMP_EQ_UQ 给出true

信令非信令之间的区别仅影响 MXCSR 的值。要观察效果,​​您需要清除 MXCSR,执行一个或多个比较,然后从 MXCSR 中读取(感谢 Peter Cordes 澄清这一点!)。

枚举值的顺序非常混乱。把它们放在一张桌子上会很有帮助......

comparison ordered (non-signalling) unordered (non-signalling)
a < b _CMP_LT_OQ _CMP_NGE_UQ
a <= b _CMP_LE_OQ _CMP_NGT_UQ
a == b _CMP_EQ_OQ _CMP_EQ_UQ
a != b _CMP_NEQ_OQ _CMP_NEQ_UQ
a >= b _CMP_GE_OQ _CMP_NLT_UQ
a > b _CMP_GT_OQ _CMP_NLE_UQ
true _CMP_ORD_Q _CMP_TRUE_UQ (useless)
false _CMP_FALSE_OQ (useless) _CMP_UNORD_Q

使用 MXCSR“信号”:

comparison ordered (signalling) unordered (signalling)
a < b _CMP_LT_OS _CMP_NGE_US
a <= b _CMP_LE_OS _CMP_NGT_US
a == b _CMP_EQ_OS _CMP_EQ_US
a != b _CMP_NEQ_OS _CMP_NEQ_US
a >= b _CMP_GE_OS _CMP_NLT_US
a > b _CMP_GT_OS _CMP_NLE_US
true _CMP_ORD_S _CMP_TRUE_US (useless)
false _CMP_FALSE_OS (useless) _CMP_UNORD_S

枚举值的顺序可以解释为:

  • 前四个操作是规范的(EQLTLEUNORD)。请注意,如果 0x000x03 的值是 LE/UNORDUNORD/LE,则四个规范操作可以被视为两个独立位的组合,但这对于它们来说是不可能的实际订单。

  • 其余的操作是前四个的转换。

  • 0x04 位精确地反转了结果值,这也有效地切换了有序与无序。比如LT_O变成NLT_U,和GE类似,但是看无序命名规则。

  • 0x08 位切换有序与无序(不更改任何其他内容)。

  • 同时设置 0x040x08 位会否定数值操作数的结果,同时保留 NaN 操作数的相同排序行为。例如,LT_O 变为 GE_O

  • 请注意,当比较是无序的(即设置了0x040x08 之一)时,将使用否定名称:NGE 而不是LTNGT 而不是LENLT 代替 GENLE 代替 GT;但是EQNEQ 都需要定义有序和无序变体,因此这些名称仅在0x04 否定转换下更改,而不是0x08 有序切换转换。

  • FALSE/TRUE 大部分是无用的0x08 转换UNORD/ORD,总是返回相同的值。例如,UNORD (0x03) 如果两个操作数都是数字,则返回 false,如果其中一个是 NaN,则返回 true;添加0x08,我们得到FALSE (0x0b),它切换了NaN 操作数的行为,导致它在两种情况下都返回false

    有趣的事实:TRUE 操作并不总是完全没用。在 AVX2 之前,它是将 YMM 寄存器设置为全 1 的最紧凑的机制。详情请参阅https://godbolt.org/z/Yb5TjP(感谢 Peter Cordes)。

  • 0x10 位切换信号与否。请注意,在规范操作中,LELT 是信令,而 EQUNORD 不是,因此设置 0x10 位会从 LE/LT 操作中删除信令并添加它到EQ/UNORD 操作。因为这显然是明智的,一点也不令人困惑。

【讨论】:

  • 我只是 commented 关于信号与安静的另一个答案:FP 异常默认情况下被屏蔽,因此除非您检查 MXCSR 以查看自上次清除它以来是否发生了任何被屏蔽的“无效”异常,你不会知道的。或者揭露那个例外。哦,问题是问这个,我想我应该回答。
  • 其实我在What does ordered / unordered comparison mean? 上的回答已经涵盖了。不过,为了清楚起见,也许可以使用编辑。
  • 顺便说一句,_CMP_TRUE_UQ 不是 100% 没用,只有 98% - 这是将 YMM 寄存器设置为 AVX1 但不是 AVX2 的最紧凑的方法,所以你没有 @987654415 @。如果您使用_mm256_set1_epi8(-1)(FP 向量很少需要,几乎是人工/不切实际的),一些编译器将在针对 SandyBridge(-mavx 没有-mavx2)时使用它。它确实具有错误的依赖关系,因此您当然会在可用时使用 AVX2 整数。是的,假谓词是没用的,vxorps xmm15, xmm0,xmm0 是一种更有效的归零 ymm15 的方法。
  • @PeterCordes - 这是一个有趣的事实!在godbolt.org/z/eW1Ws8 中验证。对于 AVX1,编译器首先执行vxorps,可能是为了减轻错误依赖;但是,在 AVX2 中,编译器使用 vpcmpeqd,正如您所预测的那样,前面没有 vxorps。 CPU 是否有特殊的逻辑来消除这种错误的依赖关系? (就像 xor 指令一样)
  • 是的,Agner Fog 的微架构指南确认 pcmpeq* 在所有 CPU(silvermont 除外)上都具有破坏性,即使它确实需要一个执行单元来编写这些 CPU(即使在 Sandybridge-family 上xor-zeroing is eliminated)。 (您可以通过注意到吞吐量优于 1 来验证这一点,即使使用相同的寄存器。)另请参阅 Fastest way to set __m256 value to all ONE bits
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-10-10
  • 2018-10-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-09-19
相关资源
最近更新 更多