【发布时间】:2011-07-11 06:56:41
【问题描述】:
也许这个问题有点太笼统了,但也许有人遇到过同样的问题。
我有一个使用推力的小型 cuda 程序,一切都很好。它按预期工作。
但是当我将同一个程序移植到另一台机器上时,整个程序的性能比原来的机器慢了大约 10 到 100 倍。第二台机器的硬件应该更快(GTX480而不是GTX265),所以我猜问题出在第二台机器本身。有谁知道可能出了什么问题?
【问题讨论】:
-
我想我找到了解决方案。必须在 GTX480 设备上使用 --arch=sm_20 进行编译。我使用了 --arch=sm_13。