【发布时间】:2019-06-12 09:43:10
【问题描述】:
我正在尝试使用 Google Cloud Platform (GCP) 训练模型。
我选择了standard-1 缩放层(使用基本层会产生内存异常,我认为这是由于数据的大小(2.6GB)造成的),但是在“完成拆除的日志后我的工作失败了训练程序”,即使它仍在将数据从云存储下载到虚拟机中。
它没有提供任何关于错误可能是什么的 Tracebacks。
我将数据存储在云存储中并使其可用,我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()') 将数据存储在分配的 VM 中,以便程序可以直接访问它。然后通过生成器将这些数据加载到 model.fit_generator() 方法中。
可以看到2.6GB的数据还没有完全下载,但是之前job失败了!
【问题讨论】:
-
如果需要更多详细信息,请指出,我是使用 GCP 的新手!
标签: python tensorflow google-cloud-platform deep-learning computer-vision