【发布时间】:2020-07-13 05:01:12
【问题描述】:
我已经开始在我们的 ML 管道中使用 Dagster,并且遇到了一些基本问题,我想知道我是否在这里遗漏了一些微不足道的东西,或者这就是它的本来面目......
假设我有一个简单的 ML 管道:
Load raw data --> Process data into table --> Split train / test --> train model --> evaluate model.
线性模型在 Dagster 中是直截了当的。但是如果我想添加一个小循环怎么办,比如说用于交叉验证:
Load raw data --> Process data into table --> Split into k folds, and for each fold:
- fold 1: train model --> evaluate
- fold 2: train model --> evaluate
- fold 3: train model --> evaluate
--> summarize cross validation results.
在 Dagster 中是否有一种很好且干净的方法可以做到这一点?我一直做事的方式是:
Load raw data --> Process data into table --> Split into K folds --> choose fold k --> train model --> evaluate model
使用折叠“k”作为管道的输入参数。然后运行管道 K 次。
我在这里错过了什么?
【问题讨论】:
标签: python machine-learning architecture pipeline dagster