TAGE 预测精度随着循环更大的数组而提高？答案

【问题标题】：TAGE prediction accuracy improves with loop over larger array?TAGE 预测精度随着循环更大的数组而提高？
【发布时间】：2021-04-25 12:13:54
【问题描述】：

代码 sn-p 遍历一维矩阵。（N是矩阵的大小）。

for (i=0; i< N; i++) // outer loop for Rows

当我在处理器模拟器上运行这段代码来测量 TAGE 准确度时，我意识到随着数组大小 (N) 的增加，TAGE 准确度也会增加。

这是什么原因？

【问题讨论】：

如果您要编辑您的问题，请不要使用错误的标签和更通用的标题。 [branch-prediction] 标签已经涵盖了它与预测准确性有关的事实。您的“TAGE Accuracy - Loop Accuracy”标题确实提到了循环，但没有我上次编辑时回滚的标题那么具体。我再次编辑以修复它，所以我认为现在很好。但下次请谨慎修改，尤其是标签。

标签： cpu-architecture branch-prediction

【解决方案1】：

循环分支通常只会在最后一次迭代中出现错误预测，此时执行会跳出循环而不是跳转到顶部。（出于相当明显的原因：他们很快就知道分支总是被占用，并以这种方式进行预测。）

您的循环运行的迭代次数越多，对于相同数量的错误预测的未采用特殊情况，您拥有的已采用分支的正确预测就越多。

有趣的事实：在现代 Intel CPU（如 Haswell / Skylake）上，他们的 IT-TAGE branch predictors 可以“学习”最多约 22 次迭代的模式，正确预测循环退出。使用非常长的外循环给 CPU 时间来学习模式，只运行 22 次或更少迭代的内循环往往可以正确预测循环退出分支。因此，如果循环体非常简单，当内循环大小超过该点时，性能（和指令吞吐量）会显着下降。

但它可能需要相当多的外循环迭代来训练具有这么多历史的预测器。我正在测试大约 1000 万次外循环迭代，以在 Linux 下的真实硬件上使用perf stat 来平均整个进程的噪声和启动开销。所以启动/学习阶段可以忽略不计。

使用较旧的更简单的分支预测器（在 TAGE 之前），我认为某些 CPU 确实使用计数器实现了循环模式预测，以预测每次到达时都会运行恒定迭代次数的内部循环的循环退出。 https://danluu.com/branch-prediction/ 也这么说，“现代 CPU”“经常”有这样的预测器。

【讨论】：