【发布时间】:2026-01-06 03:00:02
【问题描述】:
我有大量线程运行的任务,每个线程都做一个小的矩阵乘法。所有小矩阵都已加载到全局内存中。我希望通过让每个线程将其小矩阵加载到共享内存中来提高性能,然后计算产品。但问题是我在编译期间不知道矩阵的大小。所以我不能像__shared__ double mat1[XSIZE][YSIZE] 那样创建变量。在 PC 上,我会进行动态分配。但我不知道我是否可以在共享内存上做到这一点。如果在内核中调用 malloc 只会在全局内存中分配(假设这样的调用是可能的),那也无济于事。
有没有办法在内核运行时声明数组?有没有其他方法可以解决这个问题?
【问题讨论】:
标签: cuda