nVIDIA CC 2.1 GPU warp 调度程序如何一次发出 2 条指令进行 warp？答案

【问题标题】：How do nVIDIA CC 2.1 GPU warp schedulers issue 2 instructions at a time for a warp?nVIDIA CC 2.1 GPU warp 调度程序如何一次发出 2 条指令进行 warp？
【发布时间】：2012-03-27 08:39:53
【问题描述】：

注意：此问题专门针对 nVIDIA Compute Capability 2.1 设备。以下信息来自 CUDA Programming Guide v4.1：

在计算能力 2.1 设备中，每个 SM 有 48 个 SP（核心）用于整数和浮点运算。每个 warp 都由 32 个连续线程。每个 SM 有 2 个warp 调度器。在每一个指令发布时间，一个warp调度器选择一个准备好的warp 线程并发出 2 条指令 用于核心上的扭曲。

我的疑惑：

一个线程将在一个内核上执行。设备如何在单个时钟周期或单个多周期操作中向线程发出 2 条指令？
这是否意味着这两条指令应该相互独立？
这两条指令可以在内核上并行执行，可能是因为它们在内核中使用了不同的执行单元？这是否也意味着仅在 2 条指令执行完毕后，warp 才准备就绪，还是在其中一条指令执行完毕后才准备好？

【问题讨论】：

是经典的指令级并行。请记住，在 Fermi 上，warp 会在至少 2 个周期内退出 16 个内核上的指令。 Compute 2.1 硬件每个 SM 有一个“备用”16 个内核，可以处理来自每个 SM 的 2 个并发扭曲中的任何一个的第二条指令（如果可用）。如果 ILP 不可行，则指令发出率将变为每 4 个周期 2 条指令的理论最大值，而不是每 2 个周期 1 条指令，就像在计算 2.0 设备上一样。
Talonmies：感谢您的解释。你能详细说明退休和理论上的最大值吗？请添加为答案，以便我接受，其他人可以编辑。
我没有也不会将其添加为答案，因为我对您所询问的“计算机体系结构视角”一无所知。理论上的最大值仅仅来自一条指令需要多少个周期才能退出。单精度 FMAD 可以在一个周期内退出，但其他的可能/比这慢。对于 32 个线程的扭曲，16 个内核上的 1 个周期退休指令需要 2 个周期才能退休。这是理论上的最大指令吞吐量。
小心。 FMAD 或任何其他指令的延迟比 1 个周期长得多。您不能反转吞吐量来获得延迟。它是每周期 1 条指令，而不是每条指令 1 周期。
@harrism：是的，这不是很好的措辞。在给定指令的延迟中需要担心流水线 - 我只考虑硬件指令吞吐量/退休率。我猜从白痴那里接受硬件建议的危险。

标签： cuda gpu gpu-warp

【解决方案1】：

这是指令级并行性 (ILP)。同时从warp发出的指令必须彼此独立。它们由 SM 指令调度器发出，用于分离 SM 中的功能单元。

例如，如果在 warp 的指令流中有两条独立的 FMAD 指令准备发布，并且 SM 有两组可用的 FMAD 单元可以在其上发布它们，则它们都可以在同一个周期内发布。（指令可以多种组合一起发出，但我没有记住它们，所以我不会在这里提供细节。）

SM 2.1 中的 FMAD/IMAD 执行单元是 16 个 SP 宽。这意味着需要 2 个周期来向 16 个宽的执行单元之一发出 warp（32 线程）指令。每个 SM 有多个 (3) 个这 16 个范围的执行单元（总共 48 个 SP），外加特殊功能单元。每个 warp 调度器每个周期可以向其中两个发出。

假设 FMAD 执行单元是 pipe_A、pipe_B 和 pipe_C。假设在第 135 个周期，有两条独立的 FMAD 指令 fmad_1 和 fmad_2 在等待：

在第 135 周期，指令调度程序会将 fmad_1 的前半个 warp（16 个线程）发送到 FMAD pipe_A，并将 fmad_2 的前半个 warp 发送到 FMAD pipe_B。
在第 136 个周期，fmad_1 的前半经线将移至 FMAD pipe_A 的下一阶段，同样fmad_2 的前半经线将移至 FMAD pipe_B 的下一阶段. warp 调度器现在将fmad_1 的后半部分warp 发送给FMAD pipe_A，并将fmad_2 的后半部分warp 发送给FMAD pipe_B。

所以从同一个 warp 发出 2 条指令需要 2 个周期。但是正如 OP 提到的，有两个 warp 调度程序，这意味着整个过程可以同时完成，以获取来自另一个 warp 的指令（假设有足够的功能单元）。因此，最大发布率为每个周期 2 条 warp 指令。请注意，这是程序员视角的抽象视图——实际的低级架构细节可能有所不同。

至于您关于接下来何时准备好经线的问题，如果有更多指令不依赖于任何未完成的（已发出但未退休）指令，那么它们可以在下一个周期中发出。但是一旦唯一可用的指令依赖于飞行中的指令，warp 将无法发出。然而，这就是其他 warp 进来的地方——SM 可以为任何具有可用（非阻塞）指令的驻留 warp 发出指令。扭曲之间的这种任意切换提供了 GPU 依赖于高吞吐量的“延迟隐藏”。

【讨论】：

在这个答案中还包括一些关于以两倍于调度程序频率运行的内核的内容是否合适？
CUDA核心的数量和执行单元的频率与答案无关。
Harrism：CUDA 编程指南说 2.0 扭曲调度程序向扭曲发出指令如下：一个周期中的前半扭曲和下一个循环中的第二半扭曲。这本身有点令人困惑，但是当我将其拉起 2.1 调度程序时变得更加混乱，每个调度程序执行 2 条指令。您能否在答案中详细说明一下细节？
哈里斯：非常感谢！ StackOverflow 上最好的 CUDA 答案之一。接受:-)