在多个 GPU 上使用 TensorFlow 进行训练时计算机崩溃答案

【问题标题】：Computer crashes while training with tensorflow on multiple GPUs在多个 GPU 上使用 TensorFlow 进行训练时计算机崩溃
【发布时间】：2017-08-17 20:14:18
【问题描述】：

在使用多个 GPU 使用 tensorflow 进行训练时，我的服务器崩溃并自动重启。

我的任务是这样的：

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training]
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]

当两个任务都在运行时，服务器崩溃并自动重启。我尝试使用不同的服务器，但所有服务器的行为都相同。

我的硬件配置：

戴尔 T7610 服务器
2* E5-2609 CPU
1* Nvidia GTX 1080（Inno 3D 基础版）
1* Nvidia GTX 1080Ti（技嘉基础版）
64G内存

我的软件配置：

Ubuntu 14.04 LTS (Linux 3.13.0-87-generic)
Nvidia 驱动程序版本 378.13（来自 ppa:graphics-drivers 的 nvidia-378）
CUDA 8.0 (CuDNN 5.1.5)
Python 2.7.13 |Anaconda 4.3.0（64 位）
tensorflow-gpu-1.0.1（来自 pip 安装）

PSU 有足够的容量容纳显卡。而且从memtest的结果来看，不是内存相关的问题。没有任何syslog 和kern.log 日志可以帮助定位问题。

我知道a similar question。但是，降级 Linux 内核的解决方法是不可接受的，因为我与实验室人员共享机器。

【问题讨论】：

标签： ubuntu cuda tensorflow

【解决方案1】：

现在我已经解决了这个问题。我决定回答我自己的问题。

这是一个电源问题。当 GPU 消耗的电量超过 PSU 所能提供的电量时，计算机将重新启动。虽然 PSU 有足够的容量，但 18A PCIe 电缆的功率限制为 217W。

我的解决方法是使用两条 PCIe 电源线通过双 6 针到 8 针连接器为 GTX1080 供电。

【讨论】：

“当 GPU 消耗的电量超过 PSU 所能提供的电量时”……您的意思是“不能”吗？

【解决方案2】：

也可能存在驱动程序问题。运行“nvidia-smi”时能否显示正确的 GPU 设备名称？

【讨论】：

1080Ti 显示“图形设备”，1080 显示“Geforce GTX 1080”。