【发布时间】:2016-08-01 02:19:23
【问题描述】:
我是 CUDA 的新手,我想请你帮忙,以了解是否可以更改内核数量来计算程序的效率和可扩展性,除了使用每个块的线程数修改内核和用于执行的线程块。也就是说,如果假设效率和可扩展性基于处理器的数量,并且我从 FERMI GPU 中的 512 个内核开始,我如何从 512 更改为 256、128 等内核以获得不同的加速给定数据负载?? 提前致谢!!
【问题讨论】:
-
CUDA 不提供执行此操作的直接方法。类似的问题here,我相信还有其他类似的问题。使用仔细的块编码技术可能会占用单个 SM,但这不会为您提供 CUDA 内核级别的粒度。
-
您想减少核心数量,是否意味着您要停用部分硬件?还是您指的是逻辑 cuda 线程?
-
感谢您的回答,对我很有用!!!我的意思是想停用部分硬件,但我理解。那么有没有其他方法可以计算具有固定内核数的程序的效率和可扩展性?
标签: cuda