【问题标题】:Google CloudML: Job fails after "Finished tearing down training program" even though the training hasn't completedGoogle CloudML:即使培训尚未完成,“完成拆除培训计划”后作业也会失败
【发布时间】:2019-06-12 09:43:10
【问题描述】:

我正在尝试使用 Google Cloud Platform (GCP) 训练模型。

我选择了standard-1 缩放层(使用基本层会产生内存异常,我认为这是由于数据的大小(2.6GB)造成的),但是在“完成拆除的日志后我的工作失败了训练程序”,即使它仍在将数据从云存储下载到虚拟机中。

它没有提供任何关于错误可能是什么的 Tracebacks。

我将数据存储在云存储中并使其可用,我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()') 将数据存储在分配的 VM 中,以便程序可以直接访问它。然后通过生成器将这些数据加载到 model.fit_generator() 方法中。

可以看到2.6GB的数据还没有完全下载,但是之前job失败了!

【问题讨论】:

  • 如果需要更多详细信息,请指出,我是使用 GCP 的新手!

标签: python tensorflow google-cloud-platform deep-learning computer-vision


【解决方案1】:

以后偶然发现这个问题的任何其他人(可能是我;)),上面的问题发生是因为机器无法处理计算,所以我不得不使用standard_p100 scale-扩展机器来自 GCP 中 basic scale-tier 的层解决了这个问题!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-02-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-10
    • 1970-01-01
    • 1970-01-01
    • 2021-11-28
    相关资源
    最近更新 更多