【发布时间】:2020-04-06 09:21:12
【问题描述】:
我正在为目标检测系统开发 tensorflow-gpu 和 pyqt5。
我开发了一个基于神经网络模型的项目,该模型经过训练 通过 tensorflow 很好,但我需要加快检测速度。
我的 GPU 是 GTX 1060,CPU 是 Corei7。
如何使用 CUDA 内核来划分我的计算?
我搜索了很多文章,并在 *堆栈**溢出*但没有响应。
我如何使用 tensorflow-gpu 通过库等库对 CUDA 内核进行编程 PYCUDA 或 numba 或 CUPY?
我以多种方式提出了这个问题,但我正在寻找一种正确的方法来使用 CUDA 对 GPU 内核进行编程(GTX1060 有 1280 个 CUDA 内核,但 Corei7 有 8 个内核,通过向 GPU 提供计算,程序将加速大规模)
【问题讨论】:
标签: python tensorflow