【发布时间】:2013-05-19 14:14:47
【问题描述】:
我写了一个字符串匹配测试的程序,来测试性能与cpu的关系。
我只是通过<<<1,1>>>调用内核,一个block包含一个线程,执行时间是430ms,然后我用一个block两个线程<<<1,2>>>调用内核,执行时间是303ms,最后我通过<<<2,1><<调用内核,两个block一个线程,时间刚好是430ms的一半(也就是215ms)。
块中的线程和经线有什么区别?是什么让一个包含两个线程的块比两个块一个线程慢?
【问题讨论】:
标签: cuda