【问题标题】:How can I add together two SSE registers如何将两个 SSE 寄存器加在一起
【发布时间】:2014-06-11 11:00:50
【问题描述】:

我有两个 SSE 寄存器(128 位是一个寄存器),我想把它们加起来。我知道如何在其中添加相应的单词,例如,如果我在寄存器中使用 16 位单词,我可以使用 _mm_add_epi16 来完成,但我想要的是类似于 _mm_add_epi128 (不存在),它将使用寄存器作为一个大词。 即使需要多条指令,有什么方法可以执行此操作吗?
我正在考虑使用_mm_add_epi64,检测右字中的溢出,然后在需要时在寄存器的左字中加1,但我也希望这种方法适用于256位寄存器(AVX2),而且这种方法似乎太复杂了为此。

【问题讨论】:

  • 您可以使用 64 位加法并自己处理元素之间的进位,或者您可以使用按位运算实现全加器(异或进行半加,然后移位等进行进位传播)。我认为第一个想法会更有效。
  • 我建议你先让它与 SSE 一起工作,然后对其进行基准测试,看看是否值得进一步发展这个想法。请注意,(i) 256 位版本需要 AVX2(不仅仅是 AVX),并且 (ii) AVX/AVX2 对于水平操作可能有些棘手,因为大多数指令实际上只是 2 x 128 位操作。另请注意,gcc 已经支持 128 位 int,因此您可能想先尝试一下,否则您最终可能会重新发明轮子。
  • 感谢您的澄清。无论如何,这应该不会太难:对于 AVX2,使用 _mm256_add_epi64 执行 4 x 64 位加法,实现一些逻辑来测试每个元素的进位,然后打乱进位并为进位执行另一个 _mm256_add_epi64。重复直到没有更多的进位。这可能会非常低效,但我认为你不能做得比这更好。
  • 将其转储到堆栈中并将其重新加载到 GPR 以使用 adc/adcx/adox 可能会更快。 Bignum 算术进位根本不喜欢 SIMD。
  • 您可以使用中国剩余定理执行类似“宽”添加 AVX2 寄存器的操作。将您的数字模四个互质数(2^59-1、2^61-1、2^62-1 和 2^63-1)存储在 ymm 寄存器的四个 64 位字段中。然后每个加法只用三个指令完成(加/移位/加或加/比较/减)。这使您可以非常快速地执行一长串添加。但是 256 位中的大约 11 位不会用于数字的表示,您需要将数字从二进制表示转换回来。

标签: c++ c intel sse avx2


【解决方案1】:

要添加两个 128 位数字 xy 以提供带有 SSE 的 z,您可以这样做

z = _mm_add_epi64(x,y);
c = _mm_unpacklo_epi64(_mm_setzero_si128(), unsigned_lessthan(z,x));
z = _mm_sub_epi64(z,c);

这是基于此链接how-can-i-add-and-subtract-128-bit-integers-in-c-or-c

函数unsigned_lessthan 定义如下。没有 AMD XOP 会很复杂(如果 XOP 不可用,实际上找到了一个更简单的 SSE4.2 版本 - 请参阅我答案的结尾)。可能这里的其他一些人可以提出更好的方法。这是一些显示此工作的代码。

#include <stdint.h>
#include <x86intrin.h>
#include <stdio.h>

inline __m128i unsigned_lessthan(__m128i a, __m128i b) {
#ifdef __XOP__  // AMD XOP instruction set
    return _mm_comgt_epu64(b,a));
#else  // SSE2 instruction set
    __m128i sign32  = _mm_set1_epi32(0x80000000);          // sign bit of each dword
    __m128i aflip   = _mm_xor_si128(b,sign32);             // a with sign bits flipped
    __m128i bflip   = _mm_xor_si128(a,sign32);             // b with sign bits flipped
    __m128i equal   = _mm_cmpeq_epi32(b,a);                // a == b, dwords
    __m128i bigger  = _mm_cmpgt_epi32(aflip,bflip);        // a > b, dwords
    __m128i biggerl = _mm_shuffle_epi32(bigger,0xA0);      // a > b, low dwords copied to high dwords
    __m128i eqbig   = _mm_and_si128(equal,biggerl);        // high part equal and low part bigger
    __m128i hibig   = _mm_or_si128(bigger,eqbig);          // high part bigger or high part equal and low part
    __m128i big     = _mm_shuffle_epi32(hibig,0xF5);       // result copied to low part
    return big;
#endif
}

int main() {
    __m128i x,y,z,c;
    x = _mm_set_epi64x(3,0xffffffffffffffffll);
    y = _mm_set_epi64x(1,0x2ll);
    z = _mm_add_epi64(x,y);
    c = _mm_unpacklo_epi64(_mm_setzero_si128(), unsigned_lessthan(z,x));
    z = _mm_sub_epi64(z,c);

    int out[4];
    //int64_t out[2];
    _mm_storeu_si128((__m128i*)out, z);
    printf("%d %d\n", out[2], out[0]);
}

编辑:

使用 SSE 添加 128 位或 256 位数字的唯一可能有效的方法是使用 XOP。 AVX 的唯一选择是尚不存在的 XOP2。即使您有 XOP,也只能并行添加两个 128 位或 256 位数字(如果存在 XOP2,您可以使用 AVX 做四个)以避免水平指令,例如 mm_unpacklo_epi64

一般来说,最好的解决方案是将寄存器压入堆栈并使用标量运算。假设您有两个 256 位寄存器 x4 和 y4,您可以像这样添加它们:

__m256i x4, y4, z4;

uint64_t x[4], uint64_t y[4], uint64_t z[4]    
_mm256_storeu_si256((__m256i*)x, x4);
_mm256_storeu_si256((__m256i*)y, y4);
add_u256(x,y,z);
z4 = _mm256_loadu_si256((__m256i*)z);

void add_u256(uint64_t x[4], uint64_t y[4], uint64_t z[4]) {
    uint64_t c1 = 0, c2 = 0, tmp;
    //add low 128-bits
    z[0] = x[0] + y[0];
    z[1] = x[1] + y[1];
    c1 += z[1]<x[1];
    tmp = z[1];
    z[1] += z[0]<x[0];
    c1 += z[1]<tmp;
    //add high 128-bits + carry from low 128-bits
    z[2] = x[2] + y[2];
    c2 += z[2]<x[2];
    tmp = z[2];
    z[2] += c1;
    c2 += z[2]<tmp; 
    z[3] = x[3] + y[3] + c2;
}

int main() {
    uint64_t x[4], y[4], z[4];
    x[0] = -1; x[1] = -1; x[2] = 1; x[3] = 1;
    y[0] = 1; y[1] = 1; y[2] = 1; y[3] = 1;
    //z = x + y  (x3,x2,x1,x0) = (2,3,1,0)
    //x[0] = -1; x[1] = -1; x[2] = 1; x[3] = 1;
    //y[0] = 1; y[1] = 0; y[2] = 1; y[3] = 1;
    //z = x + y  (x3,x2,x1,x0) = (2,3,0,0)
    add_u256(x,y,z);
    for(int i=3; i>=0; i--) printf("%u ", z[i]); printf("\n");
}

编辑:根据 Stephen Canon 在saturated-substraction-avx-or-sse4-2 的评论,我发现如果 XOP 不可用,有一种更有效的方法可以将无符号 64 位数字与 SSE4.2 进行比较。

__m128i a,b;
__m128i sign64 = _mm_set1_epi64x(0x8000000000000000L);
__m128i aflip = _mm_xor_si128(a, sign64);
__m128i bflip = _mm_xor_si128(b, sign64);
__m128i cmp = _mm_cmpgt_epi64(aflip,bflip);

【讨论】:

  • @Mysticial,如果 OP 有一个带有 XOP 的系统并且想要独立计算两个(或更多)128 位和,它可能会很有效。然后 OP 可以跳过_mm_unpacklo_epi64,只需要_mm_add_epi64_mm_comgt_epu64_mm_sub_epi64。这可能是没有 SSE 的两倍(取决于 _mm_comgt_epu64 的效率)。
  • 感谢您提供此解决方案,但它没有显示如何计算 256 个寄存器,这让我更关心 128 位寄存器
  • @Martinsos,使用 SSE 执行此操作的唯一可能有效的方法是使用 AMD XOP。还没有 XOP2,所以没有有效的方法来使用 AVX2 来做到这一点。最好的解决方案是将寄存器压入堆栈并使用标量代码执行此操作,然后将其弹出回 SIMD 寄存器。如果您不知道如何使用标量 64 位整数添加 256 位数字,请发布一个关于此的新问题。您的问题的标题是“如何将两个 SSE 寄存器相加”。我想我已经回答了。
  • @Martinsos,我用一些文本和代码更新了我的答案,展示了如何将 256 位数字与 64 位整数相加。
  • @Zboson 太好了,谢谢!我真的很希望有一些不涉及存储和加载的解决方案,但我想那是行不通的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-08-20
  • 2012-01-22
  • 1970-01-01
  • 2015-10-25
  • 2014-11-08
相关资源
最近更新 更多