【发布时间】:2021-08-11 15:49:19
【问题描述】:
我正在使用 python 构建一个多元线性回归模型。我找到了所有自变量和因变量之间的相关系数。它们都大于 0.5。然而,回归模型给出的方程有一些负系数。这是为什么呢?
【问题讨论】:
标签: python machine-learning linear-regression correlation coefficients
我正在使用 python 构建一个多元线性回归模型。我找到了所有自变量和因变量之间的相关系数。它们都大于 0.5。然而,回归模型给出的方程有一些负系数。这是为什么呢?
【问题讨论】:
标签: python machine-learning linear-regression correlation coefficients
你描述的情况并非不可能。关键是分析自变量之间的相关性。如果两者之间存在强相关性,则这两者中的一个可能在您的线性回归中具有负系数。
例如,以以下示例为例,您希望使用 x1 和 x2 作为独立变量来预测 y:
y 是确定性的并遵循y = x1 + 2 * x2。x2也是确定性的,而x2 = 0.1 * x1
那么,您的线性回归有无限多的可能性,您可以说y = 1.2 * x1 + 0 * x2 以及y = 0 * x1 + 12 * x2 或y = 2 * x1 - 8 * x2。在后一种情况下,尽管y 和x2 之间存在正相关,但您的线性回归中有一个负系数。没有错,没有错。
这就是为什么您不应该草率下结论并说因为线性回归模型中存在正斜率,这必然意味着自变量和预测变量之间存在正相关。当然,您无法从结果中推断出任何因果关系。
我希望能回答这个问题。
【讨论】: