【问题标题】:Error Code 429 on Vertex AI (Google Cloud Platform)Vertex AI(谷歌云平台)上的错误代码 429
【发布时间】:2022-10-15 00:55:26
【问题描述】:

我目前正在 Vertex AI 上运行作业,但遇到了以下问题:

"error": {
    "code": 429,
    "message": "The following quota metrics exceed quota limits: aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus",
    "status": "RESOURCE_EXHAUSTED"
  }

上周五,我遇到了这个错误,周一,它又起作用了。从那以后,我跑了 8 个工作,错误又回来了。

我阅读了有关配额的 Google 文档并检查了 IAM 和 Admin 上的配额,但我并没有真正理解它。我似乎没有超过什么。 有人可以向我解释配额是如何工作的吗?

【问题讨论】:

    标签: google-cloud-platform quota google-cloud-vertex-ai


    【解决方案1】:

    该特定配额aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus 似乎与Vertex AI quotas doc 中列出的“每个区域用于训练的并发 P4 GPU 数量”相同。据我了解,此配额意味着您不能同时运行在任何给定时间使用超过配额的培训。因此,例如,如果您在 us-central1 中训练,P4 GPU 的默认配额限制为 6,那么您当前运行的所有训练作业总共不能使用超过 6 个 P4 GPU。

    解决此问题的一些选项:

    • 您可以等待培训作业完成,这将释放配额(这可能是它在上一个星期五不工作后在那个星期一再次工作的原因)。
    • 您可以为训练选择不同的加速器类型,因为不同的加速器类型有不同的配额。
    • 您可以在 another region that has quota 中训练 P4 GPU。但是,生成的模型将位于您训练的任何区域,以防您遇到问题。

    【讨论】:

      猜你喜欢
      • 2023-02-17
      • 2022-01-12
      • 1970-01-01
      • 2020-06-22
      • 1970-01-01
      • 2019-02-27
      • 2020-06-02
      • 1970-01-01
      • 2020-09-04
      相关资源
      最近更新 更多