使用自定义代码训练训练大数据时 ML Engine 出现间歇性错误答案

【问题标题】：Intermittent Error on ML Engine when training large data using custom code training使用自定义代码训练训练大数据时 ML Engine 出现间歇性错误
【发布时间】：2019-10-05 19:03:58
【问题描述】：

在 Google ML Engine 上运行自定义代码训练作业时遇到间歇性问题。该代码正在运行 Python TensorFlow 分割任务。它是间歇性的，因为当我们第二次运行相同的任务时，该作业是成功的。

这种间歇性问题反复出现多次（超过 30 次）。我已经使用相同的数据集离线运行相同的自定义代码，到目前为止它们没有产生相同的错误。

下面是payload错误：

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

问题是我们如何解决这个问题？

更新：我最初的测试是，在这种情况下，这可能是由较新版本的 tensorflow (1.12) 引起的，因为在以前的版本 (1.8) 上不会出现问题。这两种情况都在 GPU 卡 Tesla K80（计算配置文件 3.7）上运行。

【问题讨论】：

标签： tensorflow google-cloud-platform google-cloud-ml

【解决方案1】：

要解决此问题，显然您可以将 TF 日志记录级别提高到更详细（并在必要时调试日志记录）。

此外，请检查与图形驱动程序相关的任何错误。具体来说，这个问题和这个topic有关

【讨论】：

【解决方案2】：

解决此问题的方法是在 1.8 的早期 ML 引擎（早期 TensorFlow 版本）上运行训练代码。

从那以后，我们没有遇到类似的问题。

【讨论】：