【发布时间】:2021-03-15 18:25:27
【问题描述】:
我想澄清一下:vaex.ml.sklearn 是否允许执行核外 ML?
我尝试使用文档中的示例,并查看如果我在 xgboosting 过程中使用 hdf5 文件中的数据集(评估的数据集消耗 ~3 Gb 的 RAM),则 RAM 使用量约为 ~7-8 Gb。天真地,我假设核外不消耗这么多内存。我哪里错了?
我的代码是
import vaex.ml.sklearn
xgb_model = xgboost.sklearn.XGBRegressor(max_depth=4,
learning_rate=0.1,
n_estimators=100,
subsample=0.75,
random_state=42,
)
vaex_xgb_model = vaex.ml.sklearn.Predictor(features=features,
target='target',
model=xgb_model,
prediction_name='prediction_xgb')
vaex_xgb_model.fit(df_train)
df_train = vaex_xgb_model.transform(df_train)
features 是大约 40 个项目的列表。
【问题讨论】: