【发布时间】:2023-12-26 12:48:01
【问题描述】:
我有一个大像素处理函数,我目前正在尝试使用内部函数进行优化。
作为 SSE 新手,我不知道如何处理涉及查找表的代码部分。
基本上,我正在尝试对以下 vanilla C++ 代码进行矢量化:
//outside loop
const float LUT_RATIO = 1000.0F;
//in loop
float v = ... //input value
v = myLookupTable[static_cast<int>(v * LUT_RATIO)];
我正在尝试什么:
//outside loop
const __m128 LUT_RATIO = _mm_set1_ps(1000.0F);
//in loop
__m128 v = _mm_set_ps(v1, v2, v3, v4); //input values
__m128i vI = _mm_cvtps_epi32(_mm_mul_ps(v, LUT_RATIO)); //multiply and convert to integers
v = ??? // how to get vI indices of myLookupTable?
edit:ildjarn 提出了一个需要我澄清的观点。我不是想加快查找表代码的速度,我只是想避免必须将寄存器存储回专门用于查找的浮点数,因为这部分夹在理论上可以从 SSE 中受益的两个其他部分之间。
【问题讨论】:
-
你说服谁你可以改进
myLookupTable[static_cast<int>(v) * LUT_RATIO]?这里没有进行计算,为什么会适用 SSE? -
@ildjarn 我很确定我本身无法改进这部分,但我希望改进功能的其他部分,并避免在
__m128之间来回移动的惩罚float[4]我还必须对这段代码进行矢量化处理。