【发布时间】:2016-06-23 12:41:15
【问题描述】:
由于溢出问题,我需要将 2 个 16 位向量相乘,并希望得到 32 位向量的输出,如下所示。
A = [ 1, 2, 3, 4, 5, 6, 7, 8]
B = [ 1, 3, 5, 6, 8, 9, 10 ,12 ]
C1= [ 1*1 + 2*3, 3*5, 4*6]
c2= [ 5*8, 6* 9, 7*10, 8*12 ]
我能够做到这一点,首先将 A 和 B 分成 32 位向量,然后使用下面的乘法函数
static inline __m128i muly(const __m128i &a, const __m128i &b)
{
__m128i tmp1 = _mm_mul_epu32(a, b); /* mul 2,0*/
__m128i tmp2 = _mm_mul_epu32(_mm_srli_si128(a, 4), _mm_srli_si128(b, 4)); /* mul 3,1 */
return _mm_unpacklo_epi32(_mm_shuffle_epi32(tmp1, _MM_SHUFFLE(0, 0, 2, 0)), _mm_shuffle_epi32(tmp2, _MM_SHUFFLE(0, 0, 2, 0))); /* shuffle results to [63..0] and pack */
}
但我认为这并不高效,我们可以使用_mm_mullo_epi16 来提高效率。有人可以建议/发布代码来实现这一点吗?
【问题讨论】: