【发布时间】:2019-10-05 19:03:58
【问题描述】:
在 Google ML Engine 上运行自定义代码训练作业时遇到间歇性问题。该代码正在运行 Python TensorFlow 分割任务。它是间歇性的,因为当我们第二次运行相同的任务时,该作业是成功的。
这种间歇性问题反复出现多次(超过 30 次)。 我已经使用相同的数据集离线运行相同的自定义代码,到目前为止它们没有产生相同的错误。
下面是payload错误:
jsonPayload: {
created: 1563475627.0648582
levelname: "CRITICAL"
lineno: 274
message: "Unexpected Event status: 1"
pathname: "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
}
问题是我们如何解决这个问题?
更新:我最初的测试是,在这种情况下,这可能是由较新版本的 tensorflow (1.12) 引起的,因为在以前的版本 (1.8) 上不会出现问题。这两种情况都在 GPU 卡 Tesla K80(计算配置文件 3.7)上运行。
【问题讨论】:
标签: tensorflow google-cloud-platform google-cloud-ml