【问题标题】:TAGE prediction accuracy improves with loop over larger array?TAGE 预测精度随着循环更大的数组而提高?
【发布时间】:2021-04-25 12:13:54
【问题描述】:

代码 sn-p 遍历一维矩阵。 (N是矩阵的大小)。

for (i=0; i< N; i++) // outer loop for Rows

当我在处理器模拟器上运行这段代码来测量 TAGE 准确度时,我意识到随着数组大小 (N) 的增加,TAGE 准确度也会增加。

这是什么原因?

【问题讨论】:

  • 如果您要编辑您的问题,请不要使用错误的标签和更通用的标题。 [branch-prediction] 标签已经涵盖了它与预测准确性有关的事实。您的“TAGE Accuracy - Loop Accuracy”标题确实提到了循环,但没有我上次编辑时回滚的标题那么具体。我再次编辑以修复它,所以我认为现在很好。但下次请谨慎修改,尤其是标签。

标签: cpu-architecture branch-prediction


【解决方案1】:

循环分支通常只会在最后一次迭代中出现错误预测,此时执行会跳出循环而不是跳转到顶部。 (出于相当明显的原因:他们很快就知道分支总是被占用,并以这种方式进行预测。)

您的循环运行的迭代次数越多,对于相同数量的错误预测的未采用特殊情况,您拥有的已采用分支的正确预测就越多。


有趣的事实:在现代 Intel CPU(如 Haswell / Skylake)上,他们的 IT-TAGE branch predictors 可以“学习”最多约 22 次迭代的模式,正确预测循环退出。使用非常长的外循环给 CPU 时间来学习模式,只运行 22 次或更少迭代的内循环往往可以正确预测循环退出分支。因此,如果循环体非常简单,当内循环大小超过该点时,性能(和指令吞吐量)会显着下降。

但它可能需要相当多的外循环迭代来训练具有这么多历史的预测器。我正在测试大约 1000 万次外循环迭代,以在 Linux 下的真实硬件上使用perf stat 来平均整个进程的噪声和启动开销。所以启动/学习阶段可以忽略不计。

使用较旧的更简单的分支预测器(在 TAGE 之前),我认为某些 CPU 确实使用计数器实现了循环模式预测,以预测每次到达时都会运行恒定迭代次数的内部循环的循环退出。 https://danluu.com/branch-prediction/ 也这么说,“现代 CPU”“经常”有这样的预测器。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-06-17
    • 1970-01-01
    • 1970-01-01
    • 2019-04-14
    • 2020-12-17
    • 2020-02-08
    • 1970-01-01
    • 2019-08-11
    相关资源
    最近更新 更多