【问题标题】:Tensorflow 2.0.1 training freezes the systemTensorFlow 2.0.1 训练冻结系统
【发布时间】:2020-06-10 00:38:32
【问题描述】:

我正在使用 tensorflow 2.0.1 的 gradienttape() 训练 GAN。训练一直持续到第 0 个 epoch 的 2000/2562 个批次并冻结系统。我什至将 gpu 内存限制为 8GB:

if gpus:
  # Restrict TensorFlow to only allocate 1GB of memory on the first GPU
  try:
    tf.config.experimental.set_virtual_device_configuration(
        gpus[0],
        [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=8172)])

系统配置:
GPU:Nvidia 1080ti 11GB 内存
内存:16GB DDR4
TensorFlow 版本:2.0.1
Cuda 版本:10.0
操作系统:Ubuntu 18.04

如果您需要,我可以提供代码。
注意:Tensorflow 是从源代码构建的

【问题讨论】:

  • 你为什么从源代码构建

标签: tensorflow gpu tensorflow2.0


【解决方案1】:

系统冻结的原因确实很难查明。在您的情况下,我将首先使用 pip 安装 tensorflow 的预编译版本。

如果您观察到相同的症状,我会怀疑电源太弱或 PC 的通风问题。

为了检查电源不足是否会导致死机,您可以尝试通过以下方式限制 GPU 使用的电流:

nvidia-smi.exe" -i 0 -pl 100

这会将你的卡使用的功率限制为100W(1080Ti峰值消耗在不限制的情况下应该在250W-300W左右)。训练会更慢,但如果它不再崩溃电源。

您还可以使用nvidia-smi 监控 GPU 温度并检查它是否保持在可接受的范围内。

【讨论】:

    猜你喜欢
    • 2019-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-20
    • 1970-01-01
    • 2016-03-09
    • 2020-04-02
    • 2017-11-27
    相关资源
    最近更新 更多