编译时的 CUDA 设备属性和计算能力答案

【问题标题】：CUDA device properties and compute capability when compiling编译时的 CUDA 设备属性和计算能力
【发布时间】：2011-08-28 03:00:36
【问题描述】：

假设我有一个代码可以让用户通过threads_per_block 来调用内核。然后我想检查输入是否有效（例如 =2.0）。

现在我想知道如果我用nvcc -arch=sm_13 编译代码，而我的计算机中有一个CC2.0 显卡，当用户通过threads_per_block == 1024 时会发生什么？这是：

或者nvcc -arch=sm_13只是意味着CC1.3至少是必要的，但是在更高的CC上运行时，尽管可以使用那些更高的功能？

【问题讨论】：

【解决方案1】：

来自 nvcc 手册：

-arch

此选项指定的架构是编译链假定的架构，直到 ptx 阶段，...

这意味着它指定了编译器可以使用的 PTX 功能（如特殊指令）。 PTX ISA 未指定每个块的最大线程数，因此此编译器参数与您要解决的问题无关。

检查threads_per_block是否有效的最佳方法是启动内核并查看是否发生任何错误。

【讨论】：