谷歌云 GPU 机器突然重启

【问题标题】：Google cloud GPU machines reboot abruptly谷歌云 GPU 机器突然重启
【发布时间】：2023-12-03 01:37:01
【问题描述】：

在 GPU 机器上训练模型时，由于某些系统补丁过程而中断。由于谷歌云 GPU 机器没有实时迁移的选项，因此每次发生这种情况都重新开始训练是一项痛苦的任务。谷歌已经明确提到没有办法解决这个问题，只能重启这个Doc中的机器。
有没有一种聪明的方法来检测机器是否重新启动并自动恢复训练。
有时也会发生由于某些内核更新，CUDA 驱动程序停止工作，GPU 不可见，需要重新安装 CUDA 驱动程序。所以编写启动脚本来恢复训练也不是万无一失的解决方案。

【问题讨论】：

标签： tensorflow google-cloud-platform deep-learning cloud gcloud

【解决方案1】：

是的，有。如果你使用 tensorflow，你可以使用它的检查点功能来保存你的进度并从你离开的地方继续。

这里提供了一个很好的例子：https://github.com/GoogleCloudPlatform/ml-on-gcp/blob/master/gce/survival-training/README-tf-estimator.md

【讨论】：

猜你喜欢

生成多个随机数 2025-11-21
iOS ARC 为 iOS4.3 启用了自定义框架问题 2025-11-21
如何让 nginx 等待我的上游服务在 Docker Swarm 中启动？ 2025-11-21
iOS 5 检测重复/连续摇晃 2025-11-21
gearman 中的错误条件和重试？ 2025-11-21
Java Tcp Socket 管理数据包重传 2025-11-21
如何获取 Material-UI 日期选择器值 2025-11-21
jQuery 元素 .index() 在不同容器中的位置 2025-11-21
为什么编译器会生成这段代码？ 1970-01-01
scala：如何在 specs2 中实现这个匹配器 2025-11-21

相关资源

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式