如何比较不同线性回归模型的有效性答案

【问题标题】：How do I compare effectiveness of different linear regression models如何比较不同线性回归模型的有效性
【发布时间】：2019-10-15 11:17:25
【问题描述】：

我有一个数据框，其中包含目标列和其他列之间或多或少的三个显着相关性（来自 sklearn 的 LinarRegressionModel.coef_ 显示 57、97 和 79）。而且我不知道要选择什么确切的模型：我应该只使用最相关的列进行回归还是使用所有三个预测变量的回归。有没有办法比较模型的有效性？抱歉，我对数据分析很陌生，我无法用谷歌搜索任何工具来完成这项任务

【问题讨论】：

这很可能会被忽略或关闭太广泛。您应该将此问题迁移到交叉验证的社区并尝试更具体。您可以通过多种方式比较不同线性回归模型的有效性，但如果不知道您要做什么，就无法回答。也可以尝试搜索特征选择，这是选择特征作为模型输入的过程。

标签： pandas scikit-learn linear-regression

【解决方案1】：

首先，你必须知道，当我们为新数据选择最佳模型时，我们将选择适合out of sample数据的最佳模型，这是可能不适合的样本类型在训练过程中，毕竟要预测新的概率或案例。在你的情况下，预测一个新数字。

那么，我们该怎么做呢？好吧，最好的方法是使用可以帮助我们选择哪种模型更适合我们的数据集的指标。

回归的指标有很多种：

MAE：平均绝对误差是误差绝对值的平均值。这是最容易理解的指标，因为它只是平均误差。
MSE：均方误差是均方误差的平均值。它比平均绝对误差更受欢迎，因为重点更倾向于大误差。
RMSE：Root 表示平方误差是均方误差的平方根。这是最受欢迎的评估指标之一，因为根意味着平方误差可以用与响应向量或 y 单位相同的单位进行解释，从而可以轻松关联其信息。
RAE：相对绝对误差，也称为残差平方和，其中 y bar 是 y 的平均值，取总绝对误差并通过除以总绝对误差来归一化简单的预测器。

您可以使用其中任何一种，但我强烈建议您使用 MSE 和 RMSE。

【讨论】：

谢谢！嵌入式 Scikit MSE 真的很有帮助