【发布时间】:2014-10-09 09:03:23
【问题描述】:
我正在使用英特尔 AVX2 指令编写程序。我在我的程序中发现了一个错误,它只出现在优化级别 -O2 或更高级别(使用 -O1 很好)。经过大量调试后,我缩小了错误区域。现在该错误似乎是由于编译器错误地优化了 __m256i 变量的简单复制分配造成的。
考虑以下代码 sn-p。 Foo 是一个模板函数。我用CMP = kLess, OPT=kSet 测试。我知道优化器可能会优化开关。它甚至可以优化变量y。
有问题的线路是y = m_lt;。当使用 -O2 编译时,这行似乎被忽略了。然后y 没有得到正确的值,程序生成错误的结果。但是,使用 -O1 时程序是正确的。
为了验证我的判断,我将y = m_lt; 替换为两个备选方案:
y = avx_or(m_lt, avx_zero()); 对 m_lt 和一个全 0 的向量进行按位或运算
y = _mm256_load_si256(&m_lt);使用SIMD加载指令从m_lt的地址加载数据。
两者在语义上都应该等同于y = m_lt; 我的意图是通过添加一些功能来防止一些优化。该程序在所有优化级别下都可以正确使用这两个替换。所以问题很奇怪。据我所知,直接分配 SIMD 变量绝对没问题(我以前用过很多)。会不会是编译器的问题?
typedef __m256i AvxUnit;
template <Comparator CMP, Bitwise OPT>
void Foo(){
AvxUnit m_lt;
//...
assert(!avx_iszero(m_lt)); //always pass
AvxUnit y;
switch(CMP){
case Comparator::kEqual:
y = m_eq;
break;
case Comparator::kInequal:
y = avx_not(m_eq);
break;
case Comparator::kLess:
y = m_lt; //**********Bug?*************
//y = avx_or(m_lt, avx_zero()); //Replace with this line is good.
//y = _mm256_load_si256(&m_lt); //Replace with this line is good too.
break;
case Comparator::kGreater:
y = m_gt;
break;
case Comparator::kLessEqual:
y = avx_or(m_lt, m_eq);
break;
case Comparator::kGreaterEqual:
y = avx_or(m_gt, m_eq);
break;
}
switch(OPT){
case Bitwise::kSet:
break;
case Bitwise::kAnd:
y = avx_and(y, bvblock->GetAvxUnit(bv_word_id));
break;
case Bitwise::kOr:
y = avx_or(y, bvblock->GetAvxUnit(bv_word_id));
break;
}
assert(!avx_iszero(y)); //pass with -O1, fail with -O2 or higher
bvblock->SetAvxUnit(y, bv_word_id);
//...
}
【问题讨论】:
-
也许是一个旁注,但
y = avx_or(m_lt, avx_ones());真的能让事情正常运行吗?它应该给出所有的值...? -
@JoachimIsaksson 哦,抱歉,这是一个错误。我已经更正了。
-
内在函数不会比直接赋值更快吗?并不是说您没有遇到错误,但实际解决它可能会更快。
-
如果您认为存在编译器错误,请首先生成一个 SSCCE,如果执行缩减没有指出您的代码有问题,请将其发布到 gcc 的 bugzilla。这几乎是推动事情发展的唯一途径。
-
这是哪个版本?
标签: c++ optimization g++ sse avx2