当 Vertex AI 训练作业失败（尝试 3 次后）时，如何创建 Logs Router Sink？答案

【问题标题】：How to create a Logs Router Sink when a Vertex AI training job failed (after 3 attempts)?当 Vertex AI 训练作业失败（尝试 3 次后）时，如何创建 Logs Router Sink？
【发布时间】：2021-10-02 13:05:39
【问题描述】：

我正在GCP 上运行Vertex AI custom training job（使用自定义容器进行机器学习训练）。我想在作业失败时创建一个Pub/Sub 消息，以便我可以在 Slack 之类的聊天中发布消息。日志文件（Cloud Logging) 看起来像这样：

{
insertId: "xxxxx"
labels: {
ml.googleapis.com/endpoint: ""
ml.googleapis.com/job_state: "FAILED"
}
logName: "projects/xxx/logs/ml.googleapis.com%2F1113875647681265664"
receiveTimestamp: "2021-07-09T15:05:52.702295640Z"
resource: {
labels: {
job_id: "1113875647681265664"
project_id: "xxx"
task_name: "service"
}
type: "ml_job"
}
severity: "INFO"
textPayload: "Job failed."
timestamp: "2021-07-09T15:05:52.187968162Z"
}

我正在使用以下查询创建日志路由器接收器：

resource.type="ml_job" AND textPayload:"Job failed" AND labels."ml.googleapis.com/job_state":"FAILED"

我面临的问题是 Vertex AI 会在将作业声明为失败之前重试作业 3 次，但在日志文件中消息是相同的。下面你有 3 个例子，只有最后一个失败了 3 次的例子最后真的失败了。

例如，在日志文件中，我没有任何计数 ID。知道如何解决这个问题吗？如果我需要在我的所有项目中这样做，创建一个 BigQuery 表来跟踪每个 resource.labels.job_id 的失败次数似乎有点过头了。有没有办法通过resource.labels.job_id 进行分组并在 Logs Router Sink 中计数？

【问题讨论】：

标签： google-cloud-platform google-cloud-logging google-cloud-vertex-ai

【解决方案1】：

日志接收器非常简单：提供一个过滤器，它将在 PubSub 主题中发布与此过滤器匹配的每个条目。没有分组，没有计数，什么都没有！！

我建议您结合使用基于日志的指标和云监控。

首先，在您的作业失败日志条目上创建一个log based metrics
使用以下键值创建alert on this log based metrics

根据需要设置组，例如 jobID（我不知道 VertexAI 作业的相关值是什么）
当阈值等于或高于 3 时设置警报
添加通知渠道并设置 PubSub 通知（仍处于测试阶段）

使用此配置，当出现 3 次相同的 jobID 时，警报将仅在 PubSub 中发布一次。

【讨论】：

谢谢@guillaume，我快到了。只需要修复 SA，因为我看到“在监控通知服务帐户被授权发布到该主题之前，Pub/Sub 主题将不会收到警报。”但我收到一封电子邮件。