【发布时间】:2014-03-13 01:19:43
【问题描述】:
在许多 cublas 或 cusparse 函数调用中,它们使用标量变量,我们可以传入主机指针或设备指针,例如此处的 alpha 和 beta 变量 http://docs.nvidia.com/cuda/cublas/#cublas-lt-t-gt-gemm
这实际上是如何实现的?如果数据在主机中,我认为它需要在设备上分配内存,然后调用 cudaMemcpyAsync 来复制数据。但是,执行 cudaMalloc 会使函数调用同步。我们该如何解决这个问题?
【问题讨论】: