【问题标题】:Intermittent Error on ML Engine when training large data using custom code training使用自定义代码训练训练大数据时 ML Engine 出现间歇性错误
【发布时间】:2019-10-05 19:03:58
【问题描述】:

在 Google ML Engine 上运行自定义代码训练作业时遇到间歇性问题。该代码正在运行 Python TensorFlow 分割任务。它是间歇性的,因为当我们第二次运行相同的任务时,该作业是成功的。

这种间歇性问题反复出现多次(超过 30 次)。 我已经使用相同的数据集离线运行相同的自定义代码,到目前为止它们没有产生相同的错误。

下面是payload错误:

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

问题是我们如何解决这个问题?

更新:我最初的测试是,在这种情况下,这可能是由较新版本的 tensorflow (1.12) 引起的,因为在以前的版本 (1.8) 上不会出现问题。这两种情况都在 GPU 卡 Tesla K80(计算配置文件 3.7)上运行。

【问题讨论】:

    标签: tensorflow google-cloud-platform google-cloud-ml


    【解决方案1】:

    要解决此问题,显然您可以将 TF 日志记录级别提高到更详细(并在必要时调试日志记录)。

    此外,请检查与图形驱动程序相关的任何错误。具体来说,这个问题和这个topic有关

    【讨论】:

      【解决方案2】:

      解决此问题的方法是在 1.8 的早期 ML 引擎(早期 TensorFlow 版本)上运行训练代码。

      从那以后,我们没有遇到类似的问题。

      【讨论】:

        猜你喜欢
        • 2022-08-15
        • 1970-01-01
        • 2022-10-08
        • 2017-10-09
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-11-08
        • 2017-04-20
        相关资源
        最近更新 更多