【发布时间】:2020-02-28 09:49:45
【问题描述】:
我正在使用带有 scikit learn 的随机森林。 RF 过拟合数据,预测结果很差。
过拟合不依赖于 RF 的参数: NBtree, Depth_Tree
过拟合发生在许多不同的参数上(在 grid_search 中测试过)。
补救措施: 我调整了初始数据/下采样了一些结果 为了影响拟合(手动预处理噪声样本)。
Loop on random generation of RF fits,
Get RF prediction on the data for prediction
Select the model which best fits the "predicted data" (not the calibration data).
这个蒙特卡洛斯非常消耗, 只是想知道是否还有其他方法可以做 随机森林的交叉验证? (即不是超参数优化)。
已编辑
【问题讨论】:
-
阅读文档即可。特别是this.
-
当您说您的模型过度拟合时,您使用的是 oob_score 还是准确率?
-
看混淆矩阵 False Positive/Negative.... 训练没问题。但是,样本外并不一致(通常不好,有时还可以)。
标签: scikit-learn