【发布时间】:2023-12-03 01:37:01
【问题描述】:
在 GPU 机器上训练模型时,由于某些系统补丁过程而中断。由于谷歌云 GPU 机器没有实时迁移的选项,因此每次发生这种情况都重新开始训练是一项痛苦的任务。谷歌已经明确提到没有办法解决这个问题,只能重启这个Doc中的机器。
有没有一种聪明的方法来检测机器是否重新启动并自动恢复训练。
有时也会发生由于某些内核更新,CUDA 驱动程序停止工作,GPU 不可见,需要重新安装 CUDA 驱动程序。所以编写启动脚本来恢复训练也不是万无一失的解决方案。
【问题讨论】:
标签: tensorflow google-cloud-platform deep-learning cloud gcloud