【发布时间】:2020-08-31 14:19:48
【问题描述】:
对于一个探索性学期项目,我正在尝试使用在生产过程中进行的各种测量来预测质量控制测量的结果值。对于这个项目,我正在测试不同的算法(LinearRegression、RandomForestRegressor、GradientBoostingRegressor,...)。我通常会得到相当低的 r2 值(大约 0.3),这可能是由于特征值的分散而不是我的真正问题。
最初,我有大约 100 个特征,我试图使用 RFE 和 LinearRegression() 作为估计器来减少这些特征。交叉验证表明,我应该将我的功能减少到只有 60 个功能。但是,当我这样做时,对于某些模型,R2 值增加。这怎么可能?我的印象是向模型中添加变量总是会增加 R2,因此减少变量的数量会导致 R2 值降低。
任何人都可以对此发表评论或提供解释吗?
提前致谢。
【问题讨论】:
标签: python regression feature-selection