【发布时间】:2020-08-29 01:19:55
【问题描述】:
这主要来自《计算机体系结构:定量方法》一书。
这本书指出 32 个线程组在所谓的线程块中分组并一起执行,但显示了一个函数调用的示例,每个线程块有 256 个线程,并且 CUDA 的文档指出您最多可以有每个线程块 512 个线程。
函数调用如下所示:
int nblocks = (n+255)/256
daxpy<<<nblocks,256>>>(n,2.0,x,y)
谁能解释一下线程块的结构?
【问题讨论】:
-
您正在混合扭曲和黑色尺寸的概念。在上面链接的官方编程指南中阅读有关 CUDA 执行模型的信息,并查看this discussion 以及在互联网上很容易找到的许多其他讨论。此外,每个块最多可以有 1024 个线程。查看deviceQuery 打印输出的限制。
标签: cuda