【发布时间】:2011-07-05 12:31:55
【问题描述】:
我一直在玩 GPU (GTX580) 分析计数器。谁能告诉我是什么导致分析计数器结果的不确定性。我有一个非常简单的内核,它只是将一个缓冲区复制到另一个缓冲区。我分析了在这个内核中执行的指令。对于工作项计数和工作组大小的一些配置,结果在不同的运行中是稳定的。但对于其他一些配置,不同运行之间的差异显着。 有人告诉我,因为扭曲(和工作组)到 SM 的映射是不确定的。但据我所知,至少,属于一个工作组的warp只会在一个SM中执行,并且内核中没有分支,所以理论上无论warp如何映射到SM,结果应该仍然是相同的。 任何帮助将不胜感激。
编辑:这是有问题的代码:
#pragma OPENCL EXTENSION cl_khr_byte_addressable_store : enable
__kernel void histogram(__global float* x, __global float* y)
{
int id = get_global_id(0);
y[id] = x[id];
}
【问题讨论】:
标签: cuda opencl gpu gpgpu nvidia