两个看似等效的汇编代码之间的性能差异答案

【问题标题】：Performance difference between two seemingly equivalent assembly codes两个看似等效的汇编代码之间的性能差异
【发布时间】：2019-01-14 08:52:57
【问题描述】：

tl;dr：我有两个功能等效的 C 代码，我用 Clang 编译（事实上它是 C 代码并不重要；我认为只有程序集很有趣），以及 IACA告诉我应该更快，但我不明白为什么，我的基准测试显示两种代码的性能相同。

我有以下 C 代码（暂时忽略 #include "iacaMarks.h"、IACA_START、IACA_END）：

ref.c:

#include "iacaMarks.h"
#include <x86intrin.h>

#define AND(a,b)  _mm_and_si128(a,b)
#define OR(a,b)   _mm_or_si128(a,b)
#define XOR(a,b)  _mm_xor_si128(a,b)
#define NOT(a)    _mm_andnot_si128(a,_mm_set1_epi32(-1))

void sbox_ref (__m128i r0,__m128i r1,__m128i r2,__m128i r3,
               __m128i* r5,__m128i* r6,__m128i* r7,__m128i* r8) {
  __m128i r4;

  IACA_START
  r3 = XOR(r3,r0);
  r4 = r1;
  r1 = AND(r1,r3);
  r4 = XOR(r4,r2);
  r1 = XOR(r1,r0);
  r0 = OR(r0,r3);
  r0 = XOR(r0,r4);
  r4 = XOR(r4,r3);
  r3 = XOR(r3,r2);
  r2 = OR(r2,r1);
  r2 = XOR(r2,r4);
  r4 = NOT(r4);
  r4 = OR(r4,r1);
  r1 = XOR(r1,r3);
  r1 = XOR(r1,r4);
  r3 = OR(r3,r0);
  r1 = XOR(r1,r3);
  r4 = XOR(r4,r3);
  *r5 = r1;
  *r6 = r4;
  *r7 = r2;
  *r8 = r0;
  IACA_END

}

我想知道是否可以通过手动重新调度一些指令来优化它（我很清楚 C 编译器应该产生有效的调度，但我的实验表明并非总是如此）。在某些时候，我尝试了以下代码（与上面相同，只是没有使用临时变量来存储稍后分配给*r5 和*r6 的异或结果）：

resched.c:

#include "iacaMarks.h"
#include <x86intrin.h>

#define AND(a,b)  _mm_and_si128(a,b)
#define OR(a,b)   _mm_or_si128(a,b)
#define XOR(a,b)  _mm_xor_si128(a,b)
#define NOT(a)    _mm_andnot_si128(a,_mm_set1_epi32(-1))

void sbox_resched (__m128i r0,__m128i r1,__m128i r2,__m128i r3,
                   __m128i* r5,__m128i* r6,__m128i* r7,__m128i* r8) {
  __m128i r4;

  IACA_START
  r3 = XOR(r3,r0);
  r4 = r1;
  r1 = AND(r1,r3);
  r4 = XOR(r4,r2);
  r1 = XOR(r1,r0);
  r0 = OR(r0,r3);
  r0 = XOR(r0,r4);
  r4 = XOR(r4,r3);
  r3 = XOR(r3,r2);
  r2 = OR(r2,r1);
  r2 = XOR(r2,r4);
  r4 = NOT(r4);
  r4 = OR(r4,r1);
  r1 = XOR(r1,r3);
  r1 = XOR(r1,r4);
  r3 = OR(r3,r0);
  *r7 = r2;
  *r8 = r0;
  *r5 = XOR(r1,r3); // This two lines are different
  *r6 = XOR(r4,r3); // (no more temporary variables)
  IACA_END
}

我正在使用针对我的 i5-6500 (Skylake) 的 Clang 5.0.0 编译这些代码，并带有 -O3 -march=native 标志（我省略了生成的汇编代码，因为它们可以在下面的 IACA 输出中找到，但如果您希望将它们直接放在此处，请询问我，我会添加它们）。我对这两个代码进行了基准测试，并没有发现它们之间的任何性能差异。出于好奇，我对它们运行了 IACA，我惊讶地发现它说第一个版本需要 6 个周期才能运行，而第二个版本需要 7 个周期。以下是 IACA 的产出：

对于第一个版本：

dada@dada-ubuntu ~/perf % clang -O3 -march=native -c ref.c && ./iaca -arch SKL ref.o        
Intel(R) Architecture Code Analyzer Version -  v3.0-28-g1ba2cbb build date: 2017-10-23;16:42:45
Analyzed File -  ref_iaca.o
Binary Format - 64Bit
Architecture  -  SKL
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 6.00 Cycles       Throughput Bottleneck: FrontEnd
Loop Count:  23
Port Binding In Cycles Per Iteration:
--------------------------------------------------------------------------------------------------
|  Port  |   0   -  DV   |   1   |   2   -  D    |   3   -  D    |   4   |   5   |   6   |   7   |
--------------------------------------------------------------------------------------------------
| Cycles |  6.0     0.0  |  6.0  |  1.3     0.0  |  1.4     0.0  |  4.0  |  6.0  |  0.0  |  1.4  |
--------------------------------------------------------------------------------------------------

DV - Divider pipe (on port 0)
D - Data fetch pipe (on ports 2 and 3)
F - Macro Fusion with the previous instruction occurred
* - instruction micro-ops not bound to a port
^ - Micro Fusion occurred
# - ESP Tracking sync uop was issued
@ - SSE instruction followed an AVX256/AVX512 instruction, dozens of cycles penalty is expected
X - instruction not supported, was not accounted in Analysis

| Num Of   |                    Ports pressure in cycles                         |      |
|  Uops    |  0  - DV    |  1   |  2  -  D    |  3  -  D    |  4   |  5   |  6   |  7   |
-----------------------------------------------------------------------------------------
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm4, xmm3, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpand xmm5, xmm4, xmm1
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm2, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm5, xmm5, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpor xmm0, xmm3, xmm0
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm0, xmm0, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm1, xmm4, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm3, xmm4, xmm2
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm2, xmm5, xmm2
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm2, xmm2, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpcmpeqd xmm4, xmm4, xmm4
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm1, xmm4
|   1      | 1.0         |      |             |             |      |      |      |      | vpor xmm1, xmm5, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm4, xmm5, xmm3
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm3, xmm0, xmm3
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm4, xmm4, xmm3
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm4, xmm4, xmm1
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm1, xmm3
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdi], xmm4
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rsi], xmm1
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdx], xmm2
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rcx], xmm0
Total Num Of Uops: 26

对于第二个版本：

dada@dada-ubuntu ~/perf % clang -O3 -march=native -c resched.c && ./iaca -arch SKL resched.o
Intel(R) Architecture Code Analyzer Version -  v3.0-28-g1ba2cbb build date: 2017-10-23;16:42:45
Analyzed File -  resched_iaca.o
Binary Format - 64Bit
Architecture  -  SKL
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 7.00 Cycles       Throughput Bottleneck: Backend
Loop Count:  22
Port Binding In Cycles Per Iteration:
--------------------------------------------------------------------------------------------------
|  Port  |   0   -  DV   |   1   |   2   -  D    |   3   -  D    |   4   |   5   |   6   |   7   |
--------------------------------------------------------------------------------------------------
| Cycles |  6.0     0.0  |  6.0  |  1.3     0.0  |  1.4     0.0  |  4.0  |  6.0  |  0.0  |  1.3  |
--------------------------------------------------------------------------------------------------

DV - Divider pipe (on port 0)
D - Data fetch pipe (on ports 2 and 3)
F - Macro Fusion with the previous instruction occurred
* - instruction micro-ops not bound to a port
^ - Micro Fusion occurred
# - ESP Tracking sync uop was issued
@ - SSE instruction followed an AVX256/AVX512 instruction, dozens of cycles penalty is expected
X - instruction not supported, was not accounted in Analysis

| Num Of   |                    Ports pressure in cycles                         |      |
|  Uops    |  0  - DV    |  1   |  2  -  D    |  3  -  D    |  4   |  5   |  6   |  7   |
-----------------------------------------------------------------------------------------
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm4, xmm3, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpand xmm5, xmm4, xmm1
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm2, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm5, xmm5, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpor xmm0, xmm3, xmm0
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm0, xmm0, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm1, xmm4, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm3, xmm4, xmm2
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm2, xmm5, xmm2
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm2, xmm2, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpcmpeqd xmm4, xmm4, xmm4
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm1, xmm4
|   1      | 1.0         |      |             |             |      |      |      |      | vpor xmm1, xmm5, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm4, xmm5, xmm3
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm3, xmm0, xmm3
|   2^     |             |      | 0.3         | 0.4         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdx], xmm2
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.4  | vmovdqa xmmword ptr [rcx], xmm0
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm0, xmm4, xmm3
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm0, xmm0, xmm1
|   2^     |             |      | 0.4         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdi], xmm0
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm0, xmm1, xmm3
|   2^     |             |      | 0.3         | 0.4         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rsi], xmm0
Total Num Of Uops: 26
Analysis Notes:
Backend allocation was stalled due to unavailable allocation resources.

如您所见，在第二个版本中，IACA 表示瓶颈是后端，并且“由于分配资源不可用，后端分配已停止”。

两个汇编代码包含相同的指令，唯一的区别是最后 7 条指令的调度，以及它们使用的寄存器。

我能想到的唯一可以解释为什么第二个代码较慢的事实是它在最后 4 条指令中写入了两次 xmm0，从而引入了依赖关系。但由于这些写入是独立的，我希望 CPU 为它们使用不同的物理寄存器。但是，我无法真正证明这个理论。此外，如果像这样使用两次xmm0 是个问题，我希望 Clang 为其中一条指令使用不同的寄存器（特别是因为这里的寄存器压力很低）。

我的问题：第二个代码应该更慢（基于汇编代码），为什么？

编辑：IACA 追踪：

第一版：https://pastebin.com/qGXHVW6a
第二版：https://pastebin.com/dbBNWsc2

注意：C 代码是 Serpent 密码的第一个 S-box 的实现，由 Osvik here 计算。

【问题讨论】：

我不太喜欢这个标题，也不确定我应该使用哪些标签，所以请随意编辑其中的任何一个。
IACA 可能是错误的，这种情况并不罕见。它可以方便地计算 uops 和识别端口压力，但它不是超级可靠。但是，您必须在循环中对此进行基准测试。您是否尝试将 IACA_START 放在循环体的顶部，并将 IACA_END 放在右大括号之后？这样 IACA 就可以看到整个实际循环，包括条件分支和循环开销。
顺便说一句，不，现代 OoO 执行 CPU 没有输出依赖性。他们使用寄存器重命名来避免 WAW（写后写危险）。请参阅Why does mulss take only 3 cycles on Haswell, different from Agner's instruction tables?，以获取有关寄存器重命名的更详细说明以及它对同一寄存器的依赖写入和独立写入的含义。（请注意，vpxor xmm0, xmm0, xmm1 也读取 XMM0 以及写入它，因此指令确实对 XMM0 有依赖）。
那就错了：/跳转指令确实在端口上执行，而不是在问题/重命名阶段处理，如异或归零或移动消除。
@PeterCordes 哦，抱歉，当您提到将代码置于循环中时，我不明白其中一个目标是删除负载/存储。根据 IACA，通过手动编写循环并保持代码不变，只需附加 add/jnz 即可。但是，如果我让 Clang 处理循环，它将删除加载/存储，提升 vpcmpeqd（并进行一些展开，但 -fno-unroll-loops 负责处理），事实上，两个代码都是相同的.

标签： performance x86 intel micro-optimization iaca

【解决方案1】：

弄清楚为什么第二个代码是后端绑定的，需要进行一些手动分析，因为 IACA 发出的输出过于原始，尽管信息非常丰富。请注意，IACA 发出的跟踪对于分析循环特别有用。它们对于理解如何执行直线指令序列也很有用（这不是很有用），但发出的跟踪需要以不同的方式解释。通过这个答案的其余部分，我将展示我对循环场景的分析，这更难做到。

您在没有将代码放入循环的情况下发出跟踪的事实会影响以下事情：

编译器无法内联和优化输出操作数的存储。它们根本不会出现在真正的循环中，或者如果将其链接到不同的 S-box。
从输出到输入的数据依赖是巧合，因为编译器使用 xmm0..3 来准备要存储的数据，而不是选择将哪个输出反馈到同一个 S-box 的哪个输入。李>
创建全为向量（表示 NOT）的 vpcmpeqd 将在内联后被吊出循环。
会有dec/jnz 或等效的循环开销（可以宏融合到端口 6 的单个微指令中）。

但是您已经要求 IACA 分析这个确切的 asm 块，就好像它在循环中运行一样。所以为了解释结果，这就是我们的想法（即使如果你在循环中使用这个函数，这不是你从 C 编译器得到的结果）。

底部的jmp 或dec/jnz 使其成为循环在这种情况下不是问题：它将始终在端口6 上执行，任何向量指令都不使用该端口。这意味着跳转指令不会在端口 6 上竞争，也不会消耗调度程序的 uop 带宽，否则这些带宽会被其他指令使用。但是，这可能会影响问题/重命名阶段的资源分配器带宽（每个周期不超过 4 个融合域 uops），但这在这种特殊情况下并不重要，正如我将讨论的那样。

我们先来看看端口压力ASCII图：

| Num Of   |                    Ports pressure in cycles                         |      |
|  Uops    |  0  - DV    |  1   |  2  -  D    |  3  -  D    |  4   |  5   |  6   |  7   |
-----------------------------------------------------------------------------------------
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm4, xmm3, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpand xmm5, xmm4, xmm1
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm2, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm5, xmm5, xmm0
|   1      |             | 1.0  |             |             |      |      |      |      | vpor xmm0, xmm3, xmm0
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm0, xmm0, xmm1
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm1, xmm4, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm3, xmm4, xmm2
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm2, xmm5, xmm2
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm2, xmm2, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpcmpeqd xmm4, xmm4, xmm4
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm1, xmm1, xmm4
|   1      | 1.0         |      |             |             |      |      |      |      | vpor xmm1, xmm5, xmm1
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm4, xmm5, xmm3
|   1      |             |      |             |             |      | 1.0  |      |      | vpor xmm3, xmm0, xmm3
|   2^     |             |      | 0.3         | 0.4         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdx], xmm2
|   2^     |             |      | 0.3         | 0.3         | 1.0  |      |      | 0.4  | vmovdqa xmmword ptr [rcx], xmm0
|   1      | 1.0         |      |             |             |      |      |      |      | vpxor xmm0, xmm4, xmm3
|   1      |             | 1.0  |             |             |      |      |      |      | vpxor xmm0, xmm0, xmm1
|   2^     |             |      | 0.4         | 0.3         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rdi], xmm0
|   1      |             |      |             |             |      | 1.0  |      |      | vpxor xmm0, xmm1, xmm3
|   2^     |             |      | 0.3         | 0.4         | 1.0  |      |      | 0.3  | vmovdqa xmmword ptr [rsi], xmm0

融合域微指令的总数为 22。已为端口 0、1 和 5 中的每一个分配了 6 个不同的微指令。其他 4 个微指令均由 STD 和 STA 微指令组成。 STD 需要端口 4。这个分配是合理的。如果我们忽略所有数据依赖关系，调度程序似乎应该能够在每个周期调度至少 3 个融合域微指令。但是，端口 4 可能存在严重争用，这可能导致预留站被填满。根据 IACA，这不是该代码的瓶颈。请注意，如果调度程序能够以某种方式实现等于分配器的最大吞吐量的吞吐量，那么代码只能是前端绑定的。显然，这里不是这样。

下一步是仔细检查 IACA 跟踪。我根据trace做了如下的数据流图，比较容易分析。水平黄线根据在同一周期中分配的微指令划分图表。请注意，IACA 总是假设完美的分支预测。另请注意，此划分的准确率约为 99%，但不是 100%。这并不重要，您可以认为它 100% 准确。节点代表融合的微指令，箭头代表数据依赖性（箭头指向目标微指令）。节点的颜色取决于它们所属的循环迭代。为清楚起见，省略了图表顶部箭头的来源。右侧的绿色框包含为相应的微指令执行分配的周期数。所以前一个周期是 X，当前周期是 X + 1，不管 X 是什么。停止标志表示关联的 uop 在其中一个端口上发生争用。所有的红色停止标志都表示端口 1 上的争用。只有一个不同颜色的其他停止标志表示端口 5 上的争用。存在争用的情况，但为了清楚起见，我将省略它们。箭头有两种颜色：蓝色和红色。那些是关键的。请注意，分配 2 次迭代的指令需要 11 个周期，然后重复分配模式。请记住，Skylake 有 97 个 RS 整体。

每个分区中节点的位置（“本地”位置）是有意义的。如果两个节点在同一行，并且它们的所有操作数都可用，则意味着它们可以在同一个周期内调度。否则，如果节点不在同一行，那么它们可能不会在同一个周期中被调度。这仅适用于作为一个组一起分配的动态微指令，而不适用于作为不同组的一部分分配的动态微指令，即使它们恰好位于图中的同一分区中。

我将使用符号(it, in) 来标识特定的融合微指令，其中it 是从零开始的循环迭代编号，in 是从零开始的微指令编号。 IACA 跟踪中最重要的部分是显示 (11, 5) 的流水线阶段的部分：

11| 5|vpxor xmm0, xmm0, xmm1                            :          |         |         |         |         |         |         |         |         |         |         |         |         |         |         
11| 5|    TYPE_OP (1 uops)                              :          |         |         |         |         |         |_A--------------------dw----R-------p  |         |         |         |         |

这告诉我们，由于资源不可用（在这种情况下，预留站中的条目），此时分配带宽未得到充分利用。这意味着调度程序无法维持足够高的未融合微指令吞吐量来跟上前端每个周期 4 个融合微指令。既然 IACA 已经告诉我们代码是后端绑定的，那么显然这种未充分利用的原因不是因为某些长的依赖链或特定执行单元的争用，而是更复杂的事情。所以我们需要做更多的工作来弄清楚发生了什么。我们必须分析过去 (11, 5)。

每次迭代的微指令 1、4、7、10、13、18 都分配给端口 1。在 11 个周期内会发生什么？总共有 12 条微指令需要端口 1，因此不可能在 11 个周期内调度所有微指令，因为它至少需要 12 个周期。不幸的是，需要相同端口的微控制器内部和需要其他端口的微控制器之间的数据依赖性显着加剧了问题。考虑以下 11 个周期内的管道流程：

在周期 0：(0, 0) 和 (0, 1) 被分配（以及我们现在不关心的其他微指令）。 (0, 1) 依赖于 (0, 0) 的数据。
1: (0, 4) 和 (0, 7) 被分配。假设没有旧的和就绪的微指令分配给端口 0，并且 (0, 0) 的操作数已准备好，则将 (0, 0) 分派到端口 0。端口 1 可能保持空闲，因为 (0, 1) 尚未准备好.
2： (0, 0) 的结果可通过旁路网络获得。此时，(0, 1) 可以并且将被调度。但是，即使 (0, 4) 或 (0, 7) 已准备好，最旧的 uop 也没有分配给端口 1，因此它都被阻塞了。 (0, 10) 被分配。
3：(0, 4) 被分派到端口 1。(0, 7) 和 (0, 10) 都被阻塞，即使它们的操作数已准备好。 (0, 13) 被分配。
4：(0, 7) 被分派到端口 1。(0, 10) 被阻塞。 (0, 13) 必须等待 (0, 7)。 (0, 18) 被分配。
5：(0, 10) 被分派到端口 1。(0, 13) 被阻塞。 (0, 18) 必须等待 (0, 17)，这取决于 (0, 13)。 (1, 0) 和 (1, 1) 被分配。
6: (0, 13) 被分派到端口 1。(0, 18) 必须等待 (0, 17)，这取决于 (0, 13)。 (1, 1) 必须等待 (1, 0)。 (1, 0) 无法调度，因为 (1, 0) 和 (0, 7) 之间的距离是 3 uop，其中一个可能会发生端口冲突。 (1, 4) 被分配。
7：由于 (0, 18)、(1, 1) 和 (1, 4) 尚未准备好，因此没有任何内容被分派到端口 1。 (1, 7) 被分配。
8：由于 (0, 18)、(1, 1)、(1, 4) 和 (1, 7) 未准备好，没有任何内容被分派到端口 1。 (1, 10) 和 (1, 13) 被分配。
9：(0, 18) 被分派到端口 1。(1, 10) 和 (1, 4) 已准备好，但由于端口争用而被阻塞。 (1, 1)、(1, 7) 和 (1, 13) 尚未准备好。
10：(1, 1) 被分派到端口 1。(1, 4)、(1, 7) 和 (1, 10) 已准备好，但由于端口争用而被阻塞。 (1, 13) 还没有准备好。 (1, 18) 被分配。

嗯，理想情况下，我们希望在 11 个周期内将 12 个微指令中的 11 个分派到端口 1。但这一分析表明，情况远非理想。端口 1 在 11 个周期中有 4 个处于空闲状态！如果我们假设前一次迭代中的一些 (X, 18) 在周期 0 被分派，那么端口 1 将空闲 3 个周期，考虑到我们有 12 个微指令每 11 个周期需要它，这是一个很大的浪费。在 12 个微指令中，最多只有 8 个被派出。情况会变得多糟糕？我们可以继续分析跟踪并记录 p1-bound uop 的数量如何准备好调度但由于冲突而阻塞，或者由于数据错误而未准备好。我能够确定由于端口冲突而停止的 p1-bound uops 的数量永远不会大于 3。但是，由于数据错误而停止的 p1-bound uops 的数量随着时间的推移总体上逐渐增加。我没有看到它增加的任何模式，所以我决定对跟踪的前 24 个周期使用线性回归来预测在什么时候会有 97 个这样的微指令。下图显示。

x 轴表示从左到右增加的从零开始的循环。请注意，前 4 个周期的微指令数为零。 y 轴表示相应循环中此类微指令的数量。线性回归方程为：

y = 0.3624x - 0.6925。

通过将 y 设置为 97，我们得到：

x = (97 + 0.6925) / 0.3624 = 269.57

也就是说，大约在第 269 个周期时，我们预计 RS 中有 97 个微指令都是 p1 绑定的，并等待它们的操作数准备好。正是在这一点上，RS 已满。但是，由于其他原因，可能还有其他微指令在 RS 中等待。因此，我们预计分配器在周期 269 或之前未充分利用其带宽。通过查看指令 (11, 5) 的 IACA 跟踪，我们可以看到这种情况发生在周期 61，比 269 早得多。这意味着我的预测要么非常乐观，要么绑定到其他端口的 uops 数量也表现出类似的行为。我的直觉告诉我是后者。但这足以理解为什么 IACA 说代码是后端绑定的。您可以对第一个代码执行类似的分析，以了解它为何受前端约束。我想我会留给读者作为练习。

如果 IACA 不支持特定的代码片段，或者当特定微架构不存在像 IACA 这样的工具时，可以执行此手动分析。线性回归模型能够估计分配器在多少次迭代后未充分利用其带宽。例如在这种情况下，循环 269 对应于迭代 269/11/2 = 269/22 = 12。因此，只要最大迭代次数不大于 12 次，循环的后端性能就会小于问题。

@Bee 有一个相关的帖子：How are x86 uops scheduled, exactly?。

稍后我可能会发布前 24 个周期中发生的情况的详细信息。

旁注：Wikichip 关于Skylake 的文章中有两个错误。首先，Broadwell 的调度器有 60 个整体，而不是 64 个。其次，分配器的吞吐量最多只有 4 个融合微指令。

【讨论】：

未能将代码放入循环中不仅仅意味着在此块的底部添加端口 6 dec/jnz。这意味着存储消失了，输出最终将在正确的寄存器中作为下一次迭代的输入。（我还没有得到你的全部答案，也许你是对的，它最终并不重要，但在花费大量时间分析之前做到这一点仍然很重要东西。）
在一个循环中，pcmpeqd 将（希望）被提升，即使将其与其他 S-box 链接（因为它们可能也使用一些 NOT）。如果 RS 大小是瓶颈（而不是任何特定端口），那么是的，摆脱微融合存储可能很重要。我认为它们只是内联时会优化的输出操作数。有趣的答案，我一直想知道但从未深入了解 RS 大小与 ROB 大小对于在有/没有软件流水线的情况下跨循环迭代查找 ILP 是否更重要。
如果 RS 确实比其他端口更多地填充了 uops，则问题/重命名阶段将调整调度。我认为How are x86 uops scheduled, exactly?/ 是您要查找的链接。延迟关键路径的资源冲突将减少，因为为后面的端口（因此当前是关键路径）建立了更多未执行的微指令。 IDK IACA 对其建模的准确度。
我不明白你在说什么是在一个组中发布的 uops 与可以在同一个周期中发送的 uops（在依赖关系图之前的段落中）。我得到部门内的行代表数据依赖关系，但我不知道为什么在同一个 4-uop 组中发布很重要。如果它们被分配到不同的端口，它们可以在同一个周期中调度，而不管它们被分配在哪个周期中。
...正如跟踪所示，p1 偶尔会空闲，在这种情况下，这对 perf 来说是灾难性的。我也不知道 IACA 有多准确，但它必须足够准确才能使该工具有用。感谢您找到 Bee 的帖子，这确实是我想要的。

【解决方案2】：

我对这两个代码进行了基准测试，没有发现它们之间有任何性能差异。

我在我的 Skylake i7-6700k 上做了同样的事情，实际上是对你告诉 IACA 分析的内容进行基准测试，采用该 asm 并在其周围加上 dec ebp / jnz .loop。

我发现sbox_ref 每次迭代的运行周期约为 7.50 个周期，而 sbox_resched 的运行周期约为 8.04 c/iter，在 Linux 上的静态可执行文件中进行了测试，并带有性能计数器。（有关我的测试方法的详细信息，请参阅Can x86's MOV really be "free"? Why can't I reproduce this at all?）。 IACA 的数字是错误的，但sbox_resched 较慢是正确的。

Hadi 的分析似乎是正确的：asm 中的依赖链足够长，以至于 uop 调度中的任何资源冲突都会导致后端失去它永远无法赶上的吞吐量。

您可能通过让 C 编译器将该函数内联到一个循环中来进行基准测试，并为输出操作数使用局部变量。这将显着改变 asm （这些是我在编写自己的答案之前编辑到@Hadi 答案中的要点的反面）：

编译器在函数后期使用 xmm0..3 作为暂存寄存器，而不是偶然发生，从输出到输入的数据依赖关系对编译器是可见的，因此它可以适当地调度。您的源代码将选择哪个输出反馈到同一个 S-box 的哪个输入。

或者 deps 不存在（如果您使用常量输入并避免使用 volatile 或空的内联 asm 语句优化循环）。
输出操作数的存储优化掉了，如果将其链接到不同的 S-box 就会发生这种情况。
创建全为向量（表示 NOT）的 vpcmpeqd 将在内联后被吊出循环。

正如 Hadi 所说，1 uop 宏融合 dec/jnz 循环开销不会与向量 ALU 竞争，因此它本身并不重要。至关重要的是，将编译器未优化为循环体的内容围绕一个 asm 循环拍打会产生愚蠢的结果。

【讨论】：

我在旧的浏览器选项卡中得到了这个部分编写的答案。我不知道为什么我之前没有发布它；我忘记了我还打算说什么，所以我想我现在就发布它。如果有什么不合理的地方请告诉我。