【发布时间】:2019-10-15 11:17:25
【问题描述】:
我有一个数据框,其中包含目标列和其他列之间或多或少的三个显着相关性(来自 sklearn 的 LinarRegressionModel.coef_ 显示 57、97 和 79)。而且我不知道要选择什么确切的模型:我应该只使用最相关的列进行回归还是使用所有三个预测变量的回归。有没有办法比较模型的有效性?抱歉,我对数据分析很陌生,我无法用谷歌搜索任何工具来完成这项任务
【问题讨论】:
-
这很可能会被忽略或关闭太广泛。您应该将此问题迁移到交叉验证的社区并尝试更具体。您可以通过多种方式比较不同线性回归模型的有效性,但如果不知道您要做什么,就无法回答。也可以尝试搜索特征选择,这是选择特征作为模型输入的过程。
标签: pandas scikit-learn linear-regression