【发布时间】:2021-10-09 08:40:10
【问题描述】:
所以我在这里有一个 Azure 机器学习管道,其中包含许多 PythonScriptStep 任务 - 非常基本。
由于网络问题或其他原因,其中一些脚本步骤会间歇性失败 - 确实没有什么意外。这里的解决方案始终是在 Azure 机器学习工作室的浏览器界面中简单地触发失败的实验重新运行。
尽管我尽了最大努力,但我还是无法弄清楚如何在脚本步骤对象、管道对象或任何其他 AZ ML 相关对象上设置重试参数。 这是任何类型管道中的常见模式:任务失败一次 - 在确定它实际失败之前重试几次。
请问有大神指点一下吗?
编辑:一位乐于助人的用户为此建议了一个外部解决方案,它需要一个 Azure 逻辑应用程序来侦听 ML 管道事件并通过 HTTP 请求重新触发失败的管道。虽然这个解决方案可能对某些人有用,但它只会让您陷入另一个设置、调试和维护另一个外部组件的兔子洞。我正在寻找一个简单的“在任务失败时重试”选项,必须将 (IMO) 纳入 Azure ML 管道框架,并且希望文档记录不充分。
【问题讨论】:
标签: azure azure-machine-learning-studio azure-machine-learning-service azure-machine-learning-workbench