【问题标题】:Google cloud GPU machines reboot abruptly谷歌云 GPU 机器突然重启
【发布时间】:2023-12-03 01:37:01
【问题描述】:

在 GPU 机器上训练模型时,由于某些系统补丁过程而中断。由于谷歌云 GPU 机器没有实时迁移的选项,因此每次发生这种情况都重新开始训练是一项痛苦的任务。谷歌已经明确提到没有办法解决这个问题,只能重启这个Doc中的机器。
有没有一种聪明的方法来检测机器是否重新启动并自动恢复训练。
有时也会发生由于某些内核更新,CUDA 驱动程序停止工作,GPU 不可见,需要重新安装 CUDA 驱动程序。所以编写启动脚本来恢复训练也不是万无一失的解决方案。

【问题讨论】:

    标签: tensorflow google-cloud-platform deep-learning cloud gcloud


    【解决方案1】:

    是的,有。如果你使用 tensorflow,你可以使用它的检查点功能来保存你的进度并从你离开的地方继续。

    这里提供了一个很好的例子:https://github.com/GoogleCloudPlatform/ml-on-gcp/blob/master/gce/survival-training/README-tf-estimator.md

    【讨论】: