Vertex AI（谷歌云平台）上的错误代码 429

【问题标题】：Error Code 429 on Vertex AI (Google Cloud Platform)Vertex AI（谷歌云平台）上的错误代码 429
【发布时间】：2022-10-15 00:55:26
【问题描述】：

我目前正在 Vertex AI 上运行作业，但遇到了以下问题：

"error": {
    "code": 429,
    "message": "The following quota metrics exceed quota limits: aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus",
    "status": "RESOURCE_EXHAUSTED"
  }

上周五，我遇到了这个错误，周一，它又起作用了。从那以后，我跑了 8 个工作，错误又回来了。

我阅读了有关配额的 Google 文档并检查了 IAM 和 Admin 上的配额，但我并没有真正理解它。我似乎没有超过什么。有人可以向我解释配额是如何工作的吗？

【问题讨论】：

标签： google-cloud-platform quota google-cloud-vertex-ai

【解决方案1】：

该特定配额aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus 似乎与Vertex AI quotas doc 中列出的“每个区域用于训练的并发 P4 GPU 数量”相同。据我了解，此配额意味着您不能同时运行在任何给定时间使用超过配额的培训。因此，例如，如果您在 us-central1 中训练，P4 GPU 的默认配额限制为 6，那么您当前运行的所有训练作业总共不能使用超过 6 个 P4 GPU。

解决此问题的一些选项：

您可以等待培训作业完成，这将释放配额（这可能是它在上一个星期五不工作后在那个星期一再次工作的原因）。
您可以为训练选择不同的加速器类型，因为不同的加速器类型有不同的配额。
您可以在 another region that has quota 中训练 P4 GPU。但是，生成的模型将位于您训练的任何区域，以防您遇到问题。

【讨论】：