【发布时间】:2013-09-24 03:27:50
【问题描述】:
我有一个问题,即使我使用的是同步线程,一个线程似乎落后于其他线程。以下摘录摘自一个大型程序,我已经尽可能多地删减了它,但它仍然重现了我的问题。我发现在运行此代码时,test4 变量不会为所有线程返回相同的值。我的理解是,使用 TEST_FLAG 变量它应该引导所有线程进入if (TEST_FLAG == 2) 条件,因此数组 test4 中的每个元素都应该返回一个值 43。但是我发现所有元素都返回 43,除了返回的线程 0 0. 看起来好像不是所有线程都到达相同的同步线程。我进行了多次测试,发现删除更多代码(例如for (l=0; l<1; ++l) 循环)可以解决问题,但我不明白为什么。任何关于为什么我的线程不都返回相同值的帮助将不胜感激。
import numpy as np
import pycuda.driver as drv
import pycuda.compiler
import pycuda.autoinit
import pycuda.gpuarray as gpuarray
import pycuda.cumath as cumath
from pycuda.compiler import SourceModule
gpu_code=SourceModule("""
__global__ void test_sync(double *test4, double *test5)
{
__shared__ double rad_loc[2], boundary[2], boundary_limb_edge[2];
__shared__ int TEST_FLAG;
int l;
if (blockIdx.x != 0)
{
return;
}
if(threadIdx.x == 0)
{
TEST_FLAG = 2;
boundary[0] = 1;
}
test4[threadIdx.x] = 0;
test5[threadIdx.x] = 0;
if (threadIdx.x == 0)
{
rad_loc[0] = 0.0;
}
__syncthreads();
for (l=0; l<1; ++l)
{
__syncthreads();
if (rad_loc[0] > 0.0)
{
test5[threadIdx.x] += 1;
if ((int)boundary[0] == -1)
{
__syncthreads();
continue;
}
}
else
{
if (threadIdx.x == 0)
{
boundary_limb_edge[0] = 0.0;
}
}
__syncthreads();
if (TEST_FLAG == 2)
{
test4[threadIdx.x] = 43;
__syncthreads();
TEST_FLAG = 99;
}
__syncthreads();
return;
}
return;
}
""")
test_sync = gpu_code.get_function("test_sync")
DATA_ROWS=[100,100]
blockshape_data_mags = (int(64),1, 1)
gridshape_data_mags = (int(sum(DATA_ROWS)), 1)
test4 = np.zeros([1*blockshape_data_mags[0]], np.float64)
test5 = np.zeros([1*blockshape_data_mags[0]], np.float64)
test_sync(drv.InOut(test4), drv.InOut(test5), block=blockshape_data_mags, grid=gridshape_data_mags)
print test4
print test5
【问题讨论】:
-
__synchthreads() 可能在条件语句中没有用户定义的行为,即使所有线程都在同一个代码块中。 stackoverflow.com/questions/12519573/… 给出了一个例子
-
我的印象是,如果所有线程都没有遵循相同的分支,那么只有在您链接的示例中才会出现问题。在我的示例中,所有线程都遵循相同的路径,所以我不希望同步线程有任何问题。从B.6. Synchronization Functions of the CUDA programming guide __syncthreads() 允许在条件代码中使用,但前提是条件在整个线程块中的计算结果相同,否则代码执行可能会挂起或产生意外的副作用
-
能否请您提供一个完整的复制器,而不仅仅是内核?我不知道你的启动配置是什么,以及其他细节,我不想猜测。这绝对是奇怪的代码。例如,您在初始化之前在条件中使用
boundary[0]的值。请注意,SO 期望:“有关您编写的代码问题的问题必须在问题本身中描述特定问题 - 并包括有效的代码来重现它。有关指导,请参阅 SSCCE.org。” -
我在 Tesla C2075 卡上的 python 2.7.3 中使用 pycuda(版本 2011,2,2)运行它。我正在使用一块(64,1,1),网格(200,0,0)运行它。但它们对结果没有任何影响,test4 和 5 是长度等于线程数的数组。我已经用整个 python 脚本替换了上面的代码,包括对缺少边界 [0] 初始化的修正,我一定是不小心从原始代码中删除了。我希望这个信息帮助。如果您需要更多信息,请告诉我。
-
我相信我已经复制了这个问题(虽然我没有使用 python)并将进一步研究它。同时,我相信如果您可以告诉 pyCUDA 将
-G传递给nvcc编译器,您可能能够解决这个问题。我不知道该怎么做,但我认为应该很容易在某个地方找到答案。使用-G开关,您的代码可能会运行得更慢。
标签: cuda