Google CloudML：即使培训尚未完成，“完成拆除培训计划”后作业也会失败答案

【问题标题】：Google CloudML: Job fails after "Finished tearing down training program" even though the training hasn't completedGoogle CloudML：即使培训尚未完成，“完成拆除培训计划”后作业也会失败
【发布时间】：2019-06-12 09:43:10
【问题描述】：

我正在尝试使用 Google Cloud Platform (GCP) 训练模型。

我选择了standard-1 缩放层（使用基本层会产生内存异常，我认为这是由于数据的大小（2.6GB）造成的），但是在“完成拆除的日志后我的工作失败了训练程序”，即使它仍在将数据从云存储下载到虚拟机中。

它没有提供任何关于错误可能是什么的 Tracebacks。

我将数据存储在云存储中并使其可用，我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()') 将数据存储在分配的 VM 中，以便程序可以直接访问它。然后通过生成器将这些数据加载到 model.fit_generator() 方法中。

可以看到2.6GB的数据还没有完全下载，但是之前job失败了！

【问题讨论】：

如果需要更多详细信息，请指出，我是使用 GCP 的新手！

标签： python tensorflow google-cloud-platform deep-learning computer-vision

【解决方案1】：

以后偶然发现这个问题的任何其他人（可能是我；）），上面的问题发生是因为机器无法处理计算，所以我不得不使用standard_p100 scale-扩展机器来自 GCP 中 basic scale-tier 的层解决了这个问题！

【讨论】：