【发布时间】:2017-08-17 20:14:18
【问题描述】:
在使用多个 GPU 使用 tensorflow 进行训练时,我的服务器崩溃并自动重启。
我的任务是这样的:
CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training]
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]
当两个任务都在运行时,服务器崩溃并自动重启。我尝试使用不同的服务器,但所有服务器的行为都相同。
我的硬件配置:
戴尔 T7610 服务器
2* E5-2609 CPU
1* Nvidia GTX 1080(Inno 3D 基础版)
1* Nvidia GTX 1080Ti(技嘉基础版)
64G内存
我的软件配置:
Ubuntu 14.04 LTS (Linux 3.13.0-87-generic)
Nvidia 驱动程序版本 378.13(来自 ppa:graphics-drivers 的 nvidia-378)
CUDA 8.0 (CuDNN 5.1.5)
Python 2.7.13 |Anaconda 4.3.0(64 位)
tensorflow-gpu-1.0.1(来自 pip 安装)
PSU 有足够的容量容纳显卡。而且从memtest的结果来看,不是内存相关的问题。没有任何syslog 和kern.log 日志可以帮助定位问题。
我知道a similar question。但是,降级 Linux 内核的解决方法是不可接受的,因为我与实验室人员共享机器。
【问题讨论】:
标签: ubuntu cuda tensorflow