【发布时间】:2021-12-23 19:10:56
【问题描述】:
我已经在 Vertex AI 上训练了 AutoMl 分类模型,不幸的是,该模型不适用于批量预测,每当我尝试使用 Vertex AI 上的批量预测对训练数据集(与成功的模型训练相同)进行评分时,我都会得到一个以下错误:
“由于一个或多个错误,此培训作业已于 2021 年 11 月 11 日上午 9:42 取消”。
有一个选项可以从此错误中获取详细信息,并且那些说以下内容:
“批量预测作业 customer_value_label_cv_automl_gui 遇到以下错误:INTERNAL”
有谁知道出现这种错误的原因可能是什么?我很惊讶该模型无法对它训练过的数据集进行评分。我的数据集由 570 列和大约 300k 条记录组成。
【问题讨论】:
-
这种问题调试起来很复杂。根据official documentation,你甚至必须去谷歌支持。在这样做之前,我认为你应该修改你的训练/测试数据。检查列值的完整性是否与其定义匹配,避免使用特殊字符,避免使用过长的值并符合 automl 建议的限制。为此,请检查此link。
-
我们终于能够弄清楚这一点。当我们使用 official documentation 中描述的 model.batch_predict 方法时,我们不需要设置 machine_type 参数。最后我们能够弄清楚是它导致了这个问题,机器可能太弱了。一旦我们删除了这个声明,这个方法就开始使用自动资源并解决了这个问题。我希望 Vertex AI 错误能够提供更多信息,因为我们需要进行大量试验和错误才能弄清楚。
标签: google-cloud-platform google-cloud-ml google-cloud-automl google-cloud-vertex-ai