【发布时间】:2022-10-06 15:25:08
【问题描述】:
我知道 Kubeflow 只使用要安装的指定库修改容器。但我想在管道的培训组件部分使用我的自定义模块。
所以让我澄清一下我的情况;我正在部署一个存在预处理和训练步骤的 GCP Vertex AI 管道。还有我使用 scikit 等库创建的自定义库。我的主要问题是我想在训练步骤中重新使用该库对象,如下所示;
packages_to_install = [
\"pandas\",
\"sklearn\",
\"mycustomlibrary?\"
],
)
def train_xgb_model(
dataset: Input[Dataset],
model_artifact: Output[Model]
):
from MyCustomLibrary import XGBClassifier
import pandas as pd
data = pd.read_csv(dataset.path)
model = XGBClassifier(
objective=\"binary:logistic\"
)
model.fit(
data.drop(columns=[\"target\"]),
data.target,
)
score = model.score(
data.drop(columns=[\"target\"]),
data.target,
)
model_artifact.metadata[\"train_score\"] = float(score)
model_artifact.metadata[\"framework\"] = \"XGBoost\"
model.save_model(model_artifact.path)```
标签: kubeflow google-cloud-vertex-ai kubeflow-pipelines