使用 SIMD 查找表答案

【问题标题】：Look-Up Table using SIMD使用 SIMD 查找表
【发布时间】：2023-12-26 12:48:01
【问题描述】：

我有一个大像素处理函数，我目前正在尝试使用内部函数进行优化。

作为 SSE 新手，我不知道如何处理涉及查找表的代码部分。

基本上，我正在尝试对以下 vanilla C++ 代码进行矢量化：

 //outside loop
const float LUT_RATIO = 1000.0F;

//in loop
float v = ... //input value
v = myLookupTable[static_cast<int>(v * LUT_RATIO)];

我正在尝试什么：

//outside loop
const __m128 LUT_RATIO = _mm_set1_ps(1000.0F);

//in loop
__m128 v = _mm_set_ps(v1, v2, v3, v4); //input values
__m128i vI = _mm_cvtps_epi32(_mm_mul_ps(v, LUT_RATIO)); //multiply and convert to integers
v = ??? // how to get vI indices of myLookupTable?

edit：ildjarn 提出了一个需要我澄清的观点。我不是想加快查找表代码的速度，我只是想避免必须将寄存器存储回专门用于查找的浮点数，因为这部分夹在理论上可以从 SSE 中受益的两个其他部分之间。

【问题讨论】：

你说服谁你可以改进myLookupTable[static_cast<int>(v) * LUT_RATIO]？这里没有进行计算，为什么会适用 SSE？
@ildjarn 我很确定我本身无法改进这部分，但我希望改进功能的其他部分，并避免在__m128 之间来回移动的惩罚float[4] 我还必须对这段代码进行矢量化处理。

标签： c++ sse simd

【解决方案1】：

如果您可以等到明年，那么英特尔的 Haswell CPU 将配备 AVX2，其中包括用于收集负载的指令。这使您能够执行例如在一条指令中进行 8 个并行 LUT 查找（参见例如 VGATHERDPS）。除此之外，你运气不好，除非你的 LUT 非常小（例如 16 个元素），在这种情况下你可以使用 PSHUFB。

【讨论】：

不幸的是，我的 LUT 有 10000 个元素。即使我要等待新的处理器，也需要数年才能将 Haswell 指定为最低 cpu。 :) 感谢您的信息。
OK - 如果你可以近似你的 LUT，例如使用多项式，那么您仍然可以使用 SSE 获胜，否则恐怕您会陷入标量代码。
然后是标量代码。这在某种程度上是个好消息，我可以不再担心这部分，并着手研究可能被证明更可优化的部分。
为什么不能这样工作：_mm_storeu_si128((__m128i*) LutIndex, _mm_cvtps_epi32(_mm_mul_ps(LUT_RATIO, floatData))); __m128 www = _mm_set_ps(myLUT[LutIndex[3]], myLUT[LutIndex[2]], myLUT[LutIndex[1]], myLUT[LutIndex[0]]);
@Drazick：它可以工作，但是_mm_set_ps 内在隐藏了很多标量代码和多个内存访问。