【问题标题】:Error Code 429 on Vertex AI (Google Cloud Platform)Vertex AI(谷歌云平台)上的错误代码 429
【发布时间】:2022-10-15 00:55:26
【问题描述】:
我目前正在 Vertex AI 上运行作业,但遇到了以下问题:
"error": {
"code": 429,
"message": "The following quota metrics exceed quota limits: aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus",
"status": "RESOURCE_EXHAUSTED"
}
上周五,我遇到了这个错误,周一,它又起作用了。从那以后,我跑了 8 个工作,错误又回来了。
我阅读了有关配额的 Google 文档并检查了 IAM 和 Admin 上的配额,但我并没有真正理解它。我似乎没有超过什么。
有人可以向我解释配额是如何工作的吗?
【问题讨论】:
标签:
google-cloud-platform
quota
google-cloud-vertex-ai
【解决方案1】:
该特定配额aiplatform.googleapis.com/custom_model_training_nvidia_p4_gpus 似乎与Vertex AI quotas doc 中列出的“每个区域用于训练的并发 P4 GPU 数量”相同。据我了解,此配额意味着您不能同时运行在任何给定时间使用超过配额的培训。因此,例如,如果您在 us-central1 中训练,P4 GPU 的默认配额限制为 6,那么您当前运行的所有训练作业总共不能使用超过 6 个 P4 GPU。
解决此问题的一些选项:
- 您可以等待培训作业完成,这将释放配额(这可能是它在上一个星期五不工作后在那个星期一再次工作的原因)。
- 您可以为训练选择不同的加速器类型,因为不同的加速器类型有不同的配额。
- 您可以在 another region that has quota 中训练 P4 GPU。但是,生成的模型将位于您训练的任何区域,以防您遇到问题。