如何保存占用更少内存的机器学习模型答案

【问题标题】：How can i save a machine learning model that takes less memory如何保存占用更少内存的机器学习模型
【发布时间】：2020-05-12 07:21:34
【问题描述】：

我正在训练一个 RandomForest 分类器，该分类器具有大约 580mb 的较大数据集，并且需要 30 多分钟才能适应。现在，当我尝试使用 joblib 保存模型时，保存的模型需要大约 11.1gb 的空间。这是正常的，还是我可以在考虑部署模型时更有效地保存模型。

是否值得使用占用这么多空间的模型，因为我有一个占用 278mb 空间的相同数据的决策树模型，它的准确性仅低 2% (91%)

my notebook

这是模型保存代码

from sklearn.externals import joblib  
# Save the model as a pickle in a file 
joblib.dump(Random_classifier, '/content/drive/My Drive/Random_classifier.pkl')

我是新手，所以不要投票结束问题，只需发表评论即可。我愿意尽快修改问题。

【问题讨论】：

标签： python machine-learning scikit-learn random-forest joblib

【解决方案1】：

随机森林分类方法在内存上非常昂贵。尝试降低您的决策树数量，可能会减少一些内存。看来您的数据集也很大，所以我认为您的权重大小似乎是合法的。另外我知道有泡菜的方法可以减轻重量，我也建议您检查一下。

【讨论】：

Avivzx 所以你建议使用pickle而不是joblib，但它们与我在很多地方（网站）读到的非常相似