【发布时间】:2023-03-13 16:14:02
【问题描述】:
假设(CUDA 内核网格)块中的许多扭曲正在重复更新相当数量的共享内存位置。
在哪些情况下这样的工作会更快完成? :
- intra-warp 访问locality的情况,例如每个warp访问的内存位置总数很少,并且大多数确实是由多个lane访问的
- 访问anti-locality的情况,所有车道通常都访问不同的位置(可能是为了避免银行冲突)?
同样重要的是 - 此微架构是否依赖于所有最近的 NVIDIA 微架构?
【问题讨论】:
标签: cuda gpu-shared-memory gpu-atomics