【问题标题】:Vertex AI model batch prediction failed with internal errorVertex AI 模型批量预测因内部错误而失败
【发布时间】:2021-12-23 19:10:56
【问题描述】:

我已经在 Vertex AI 上训练了 AutoMl 分类模型,不幸的是,该模型不适用于批量预测,每当我尝试使用 Vertex AI 上的批量预测对训练数据集(与成功的模型训练相同)进行评分时,我都会得到一个以下错误:

“由于一个或多个错误,此培训作业已于 2021 年 11 月 11 日上午 9:42 取消”。

有一个选项可以从此错误中获取详细信息,并且那些说以下内容:

“批量预测作业 customer_value_label_cv_automl_gui 遇到以下错误:INTERNAL”

有谁知道出现这种错误的原因可能是什么?我很惊讶该模型无法对它训练过的数据集进行评分。我的数据集由 570 列和大约 300k 条记录组成。

【问题讨论】:

  • 这种问题调试起来很复杂。根据official documentation,你甚至必须去谷歌支持。在这样做之前,我认为你应该修改你的训练/测试数据。检查列值的完整性是否与其定义匹配,避免使用特殊字符,避免使用过长的值并符合 automl 建议的限制。为此,请检查此link
  • 我们终于能够弄清楚这一点。当我们使用 official documentation 中描述的 model.batch_predict 方法时,我们不需要设置 machine_type 参数。最后我们能够弄清楚是它导致了这个问题,机器可能太弱了。一旦我们删除了这个声明,这个方法就开始使用自动资源并解决了这个问题。我希望 Vertex AI 错误能够提供更多信息,因为我们需要进行大量试验和错误才能弄清楚。

标签: google-cloud-platform google-cloud-ml google-cloud-automl google-cloud-vertex-ai


【解决方案1】:

我们终于能够弄清楚这一点。当我们使用official documentation 中描述的 model.batch_predict 方法时,我们不需要设置 machine_type 参数。最后,我们能够弄清楚是它导致了这个问题,机器可能太弱了。一旦我们删除了这个声明,这个方法就开始使用自动资源并解决了这个问题。我希望 Vertex AI 错误能够提供更多信息,因为我们需要进行大量试验和错误才能弄清楚。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-02-06
    • 2021-11-19
    • 2021-12-09
    • 2022-11-10
    • 2021-12-24
    • 2021-10-29
    • 1970-01-01
    • 2022-01-01
    相关资源
    最近更新 更多