【发布时间】:2018-02-04 03:01:11
【问题描述】:
当训练两个不同的神经网络中的任何一个时,一个使用 Tensorflow,另一个使用 Theano,有时在随机时间(可能是几小时或几分钟,主要是几小时)之后,执行冻结,我得到此消息通过运行“nvidia-smi”:
“无法确定 GPU 0000:02:00.0 的设备句柄:GPU 丢失。重新启动系统以恢复此 GPU”
我尝试监控 GPU 性能 13 小时执行,一切似乎都很稳定:
我正在合作:
- Ubuntu 14.04.5 LTS
- GPU 是 Nvidia Titan Xp(此行为在同一台机器上的另一个 GPU 上重复)
- CUDA 8.0
- CuDNN 5.1
- 张量流 1.3
- Theano 0.8.2
我不知道如何解决这个问题,任何人都可以就可能导致此问题的原因以及如何诊断/解决此问题提出建议吗?
【问题讨论】:
-
您找到解决方案/答案了吗?
-
是的,添加了一个答案,我希望这会有所帮助。
标签: gpu nvidia tensorflow-gpu cudnn theano-cuda