【问题标题】:Clang vector extensions and the equality operator in C++C++ 中的 Clang 向量扩展和相等运算符
【发布时间】:2015-06-10 11:26:52
【问题描述】:

我使用 Clang SIMD 向量扩展编写了一个向量类型。它工作得很好,除非我需要检查两个向量是否相等。 == 运算符似乎没有为 Clang 的向量类型正确定义。尝试将两个向量与== 进行比较奇怪地似乎评估为与被比较的两个向量相同类型的第三个向量,而不是bool。我觉得这很奇怪,因为应用 +- 等其他操作可以毫无问题地编译,并输出预期的结果。这是我的代码,使用 Clang 3.5 (Xcode) 编译:

// in vect.h 
template <typename NumericType>
using vec2 = NumericType __attribute__((ext_vector_type(2))) ;

//in main.cpp
#include "vect.h"

int main(int argc, const char ** argv) {

    vec2<int> v0 {0, 1} ;
    vec2<int> v1 {0, 1} ;

    vec2<int> sumVs = v0 + v1 ; //OK: evaluates to {0, 2} when run

    bool equal = (v0 == v1) ; /* Compiler error with message: "Cannot initialize
        a variable of type 'bool' with an rvalue of type 'int __attribute__((ext_vector_type(2)))'" */

    return 0;
}

有没有什么方法可以让operator == 与 Clang 的向量类型一起使用,或者有任何其他解决方法来解决这个问题?由于它们被认为是原始类型而不是类类型,因此我不能自己重载比较运算符,并且编写全局 equals() 函数似乎很笨拙和不雅。

更新:或者如果没有人有我正在寻找的解决方案,也许有人可以解释比较两个 SIMD 向量时== 运算符的默认行为?

更新 #2:Hurkyl 建议 == 对两个向量进行向量化比较。我更新了我的代码以测试这种可能性:

template <typename NumericType>
using vec3 = NumericType __attribute__((ext_vector_type(3))) ;

int main(int argc, const char ** argv) {

    vec3<int> v0 {1, 2, 3} ;
    vec3<int> v1 {3, 2, 1} ;

    auto compareVs = (v0 == v1) ;

    return 0;
}

LLDB 将 compareVs 的值报告为 {0, -1, 0},如果发生这种情况,这似乎几乎是正确的,但 true 会是 -1,false 会是 0 似乎很奇怪。

更新 #3:好的,多亏了我得到的反馈,我现在对如何将关系和比较运算符应用于向量有了更好的理解。但是我的基本问题仍然是一样的。我需要一种简单而优雅的方法来检查任何两个 SIMD 类型向量 v1v2,它们是否等效。换句话说,我需要能够检查v1v2 中的每个索引iv1[i] == v2[i],表示为单个布尔值(即,not bool 的向量/数组)。如果唯一的答案真的是这样的函数:

template <typename NumericType>
bool equals(vec2<NumericType> v1, vec2<NumericType> v2) ...

...那我就接受了。但我希望有人能提出一些不那么笨拙的建议。

【问题讨论】:

标签: c++ clang simd


【解决方案1】:

如果您不使用特定于编译器的语言扩展,而是使用 instrinsics(例如,xmmintrin.h 中提供的),那么您可以使用 _mm_movemask_ps(__m128) 及其亲属。例如

__m128 a,b;
/* some code to fill a,b with integer elements */
bool a_equals_b = 15 == _mm_movemask_ps(_mm_cmpeq_epi32(a,b));

此代码的工作方式如下。首先,_mm_cmpeq_ps(a,b) 生成另一个__m128,其中四个元素中的每一个都是位 0 或位 1——我假设 operator== 编译器生成的向量扩展调用正是这个内在的)。接下来,int _mm_movemask_ps(__m128) 返回一个整数,其中第 k 位设置为其参数的第 k 个元素的符号位。因此,如果a==b 用于所有元素,则_mm_movemask_ps(_mm_cmpeq_epi32(a,b)) 返回1|2|4|8=15

我不知道编译器支持的语言扩展,但是如果你可以获得底层的__m128(对于128位宽的向量),那么你可以使用这种方法(可能只调用_mm_movemask_ps())。

【讨论】:

    【解决方案2】:

    使用 false 的按位补码作为真值并不少见(例如,参见 BASIC)。

    如果你想用它来实现一个无分支的三元运算符,它在向量算术中特别有用:

    r = (a == c)? b: d
    

    变成

    selector = (a == c)
    r = (b & selector) | (d & ~selector)
    

    【讨论】:

      猜你喜欢
      • 2014-10-10
      • 2021-08-18
      • 1970-01-01
      • 1970-01-01
      • 2017-12-20
      • 2010-10-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多