【发布时间】:2020-04-07 21:53:44
【问题描述】:
想象一下这段代码:
void Function(int16 *src, int *indices, float *dst, int cnt, float mul)
{
for (int i=0; i<cnt; i++) dst[i] = float(src[indices[i]]) * mul;
};
这确实需要收集内在函数,例如_mm_i32gather_epi32。在加载浮点数时,我在这些方面取得了巨大的成功,但是有 16 位整数吗?这里的另一个问题是我需要从输入的 16 位转换为输出的 32 位(浮点数)。
【问题讨论】:
标签: optimization avx2 avx512