【发布时间】:2013-08-25 12:44:56
【问题描述】:
我有一个关于 (py)CUDA 中块和网格的尺寸的问题。我知道块的总大小有限制,但网格没有限制
并且实际的块大小会影响运行时。但我想知道的是:如果我有一个 256 个线程块,像 (256,1) 一样启动它还是像 (128,2) 一样启动它,像 (64,4) 等一样.
如果有区别:哪个最快?
【问题讨论】:
-
其实我也读过那个帖子,但是它没有回答我的问题,因为讨论只是关于块的总大小以及如何在理想情况下确定它。我的问题是:如果我采用 256 的块大小并在 (256,1,1) 或 (128,2,1) 或 (64,2, 2)时尚。当然,给定一个适应的实现。