【发布时间】:2011-06-27 03:39:26
【问题描述】:
我最近经常以内部函数的形式使用 x86 SIMD 指令 (SSE1234)。我发现令人沮丧的是,SSE ISA 有几个简单的指令,这些指令仅适用于浮点数或整数,但理论上两者的性能应该相同。例如,浮点向量和双精度向量都有从地址(movhps、movhpd)加载 128 位向量的高 64 位的指令,但对于整数没有这样的指令向量。
我的问题:
在整数向量上使用浮点指令时,是否有任何理由预期性能会受到影响,例如使用 movhps 将数据加载到整数向量?
我写了几个测试来检查,但我想他们的结果不可信。编写一个正确的测试来探索此类事情的所有极端情况真的很难,尤其是当指令调度最有可能涉及到这里时。
相关问题:
其他琐碎相似的事情也有几条基本相同的指令。例如,我可以对 por、orps 或 orpd 进行按位或运算。谁能解释这些附加说明的目的是什么?我猜这可能与应用于每条指令的不同调度算法有关。
【问题讨论】:
-
我不认为自 MMX/SSE 早期以来一直存在此问题。任何合理的现代 x86 CPU(例如从过去 5 年左右开始)都不应有任何此类限制。这只是 MMX/SSE 只是用螺栓固定在 FPU 上的那些日子的遗产。
-
@Paul R:我同意这一点。然而,SSE ISA 不仅有来自旧时代的有趣部分,例如SSE3 提供了仅适用于双打的“movddup”指令。这实际上是让我感到困惑的原因:限制不应该存在,但英特尔似乎暗示并非如此。
-
嗯,整个优化过程,尤其是在 SIMD 方面,涉及大量实验 - 尝试想法,收集计时/分析数据,重复 ad 令人作呕...所以最好的办法可能是采取经验方法 - 尝试一切,看看有什么不同。
-
@Paul.R:除非我从了解 x86 SIMD 内部工作原理的专家那里得到答案,否则我很可能会采用这种方式。
-
即使您对某一代 x86 有明确的答案,但在下一代中很可能会是另一回事 - 没有什么东西是一成不变的,所以您必须不断重新评估、试验,基准测试等,如果您需要绝对最大的 SIMD 性能。
标签: c assembly sse simd intrinsics