CUDA 全局内存事务的成本答案

【问题标题】：The cost of CUDA global memory transactionsCUDA 全局内存事务的成本
【发布时间】：2012-10-09 22:56:04
【问题描述】：

根据 CUDA 5.0 编程指南，如果我同时使用 L1 和 L2 缓存（在 Fermi 或 Kepler 上），所有全局内存操作都使用 128 字节内存事务完成。但是，如果我只使用 L2，则使用 32 字节内存事务（第 F.4.2 章）。

让我们假设所有缓存都是空的。如果我有一个扭曲，每个线程以完全对齐的方式访问单个 4 字节字，这将导致 L1+L2 情况下的 1x128B 事务，以及仅 L2 情况下的 4x32B 事务。对吗？

我的问题是 - 4 个 32B 事务是否比单个 128B 事务慢？我对前费米硬件的直觉表明它会更慢，但也许在较新的硬件上不再如此？或者我应该只看带宽利用率来判断我的内存访问效率？

【问题讨论】：

标签： cuda

【解决方案1】：

是的，在缓存模式下，将生成一个 128 字节的事务（从 L1 缓存级别来看）。在非缓存模式下，将生成四个 32 字节的事务（从 L2 缓存级别来看 - 它仍然是一个 128 字节由于合并而来自扭曲的请求。）在您描述的情况下，对于完全合并的访问，无论缓存模式还是非缓存模式，四个 32 字节事务都不会变慢。在任何一种情况下，内存控制器（在给定的 GPU 上）都应该生成相同的事务以满足 warp 的请求。由于内存控制器由多个（最多 6 个）“分区”组成，每个分区都有一个 64 位宽的路径，最终将使用多个内存事务（可能跨越多个分区）来满足任一请求（4x32 字节或1x128 字节）。跨分区的特定事务和组织数量可能因 GPU 而异，（这不是您的问题的一部分，但是具有 DDR 泵送内存的 GPU 将在每个内存事务中每个分区返回 16 字节，并且使用 QDR 泵送内存，每个内存事务的每个分区将返回 32 个字节）。这也不是特定于 CUDA 5 的。您可能想查看 NVIDIA 的 webinars 之一以获取此材料，特别是“CUDA 优化：内存带宽限制内核”。即使您不想观看video，快速回顾一下slides 也会提醒您所谓的“缓存”和“未缓存”访问（这里指的是 L1）之间的各种差异，以及还为您提供尝试每种情况所需的编译器开关。

查看幻灯片的另一个原因是它会提醒您在什么情况下可能要尝试“未缓存”模式。特别是，如果您的 warp 有分散（未合并）访问模式，则未缓存模式访问可能会产生改进，因为与 128 字节相比，从内存中请求 32 字节数量以满足单个线程的请求时“浪费”更少数量。但是，在回答您的最后一个问题时，很难对其进行分析，因为您的代码可能是有序和无序访问模式的混合体。由于未缓存模式是通过编译器开关打开的，因此幻灯片中给出的建议只是“尝试两种方式的代码”，看看哪个运行得更快。以我的经验，在非缓存模式下运行很少能提高性能。

编辑：对不起，我有错误演示文稿的链接和标题。修复了幻灯片/视频链接和网络研讨会标题。

【讨论】：

对 L1 的对齐、合并的 32 位加载请求为 128 字节。如果 L1 中的加载请求未命中，则 L1 将向 L2 发出 4 个 32 字节的加载请求。所有 L2 事务都是 32 字节。可以使用内联 PTX 在每条指令的基础上控制缓存运算符。