【发布时间】:2012-07-19 05:23:52
【问题描述】:
我正在编写一个必须执行块间同步(N 维和其他内存传输操作的总和)的代码。当我增加问题的维度时,结果是错误的。
我正在与__threadfence() 和第一个维度(N__threadfence(),则结果对于更多维度是正确的。
一个threadfence() 不够同步?另外,数据结果在同一个block中使用。
在编程指南中的信息表明threadfence 等待所有内存空间都准备好(共享和全局)
【问题讨论】:
-
欢迎来到 Stack Overflow。我认为您的问题中没有足够的信息让某人能够给出一个好的答复。您是否检查过 CUDA C 编程指南中关于
__threadfence()的部分,看看它是否按您期望的方式工作? -
请为您的问题提供示例代码。
标签: synchronization cuda gpgpu