【发布时间】:2021-02-12 17:51:19
【问题描述】:
我在 stackoverflow 上看到过一篇类似的帖子,它解决了 C++ 中的问题:Parallel implementation for multiple SVDs using CUDA 我想在 python 中做同样的事情,这可能吗?我有多个矩阵(大约 8000 个,大小为 15x3),我想使用 SVD 分解它们中的每一个。这需要数年的 CPU 时间。有可能在python中做到这一点吗?我的电脑安装了 NVIDIA GPU。我已经看过几个库,例如 numba、pycuda、scikit-cuda、cupy,但没有找到用这些库实现我的计划的方法。我会很高兴得到一些帮助。
【问题讨论】:
-
事实证明,cusolver 有一个批处理实现。我第一次看文档时错过了它。