【问题标题】:Error while running model training in google cloud ml在 google cloud ml 中运行模型训练时出错
【发布时间】:2018-02-15 20:14:32
【问题描述】:

我想在云端运行模型训练。我正在关注this link,它运行示例代码来训练基于花卉数据集的模型。本教程由 4 个阶段组成:

  1. 设置您的 Cloud Storage 存储分区
  2. 在云端预处理训练和评估数据
  3. 在云端运行模型训练
  4. 部署和使用模型进行预测

我能够完成第 1 步和第 2 步,但是在第 3 步中,作业已成功提交,但发生了某种错误,并且任务以非退出状态 1 退出。这是任务的日志

扩展日志的截图是:

我使用了以下命令:

gcloud ml-engine jobs submit training test${JOB_ID} \
    --stream-logs \
    --module-name trainer.task \
    --package-path trainer\ 
    --staging-bucket ${BUCKET_NAME} \
    --region us-central1 \
    --runtime-version=1.2 \
    -- \
    --output_path "${GCS_PATH}/training" \
    --eval_data_paths "${GCS_PATH}/preproc/eval*" \
    --train_data_paths "${GCS_PATH}/preproc/train*"

提前致谢!

【问题讨论】:

    标签: machine-learning google-cloud-ml


    【解决方案1】:

    您能否确认输入文件(eval_data_paths 和 train_data_paths)不为空?此外,如果您仍有问题,请提交问题https://github.com/GoogleCloudPlatform/cloudml-samples,因为它更容易在 Github 上处理问题。

    【讨论】:

      【解决方案2】:

      我遇到了同样的问题,想不通,然后我跟着this,从git clone再做一次,在gcs上运行后没有错误。

      【讨论】:

        【解决方案3】:

        从您的错误消息中可以清楚地看出

        The replica worker 1 exited with a non-zero status of 1. Termination reason: Error
        

        您有一些编程错误(语法、未定义等)。

        更多信息,请查看return code and meaning

        返回码-------------含义-------------- Cloud ML Engine响应

        0 成功完成关闭并释放作业资源。

        1-128 Unrecoverable error 结束作业并记录错误。

        您需要先找到您的错误并修复它,然后再试一次。

        我建议您先在本地运行您的任务(如果您的配置支持),然后再在云中提交。如果您发现任何错误,您可以在本地机器上轻松修复。

        【讨论】:

        • 是的 Hafizur,你是对的,但仅供参考,我已经解决了这个问题。训练脚本在我的本地系统上运行良好,但我必须对脚本进行一些小改动才能使其在云平台上运行。
        猜你喜欢
        • 2018-03-24
        • 2019-03-20
        • 1970-01-01
        • 1970-01-01
        • 2018-12-24
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多