【问题标题】:Negative coefficients in regression for positive coefficient of correlation正相关系数回归中的负系数
【发布时间】:2021-08-11 15:49:19
【问题描述】:

我正在使用 python 构建一个多元线性回归模型。我找到了所有自变量和因变量之间的相关系数。它们都大于 0.5。然而,回归模型给出的方程有一些负系数。这是为什么呢?

【问题讨论】:

    标签: python machine-learning linear-regression correlation coefficients


    【解决方案1】:

    你描述的情况并非不可能。关键是分析自变量之间的相关性。如果两者之间存在强相关性,则这两者中的一个可能在您的线性回归中具有负系数。

    例如,以以下示例为例,您希望使用 x1x2 作为独立变量来预测 y

    • 假设y 是确定性的并遵循y = x1 + 2 * x2
    • 假设x2也是确定性的,而x2 = 0.1 * x1

    那么,您的线性回归有无限多的可能性,您可以说y = 1.2 * x1 + 0 * x2 以及y = 0 * x1 + 12 * x2y = 2 * x1 - 8 * x2。在后一种情况下,尽管yx2 之间存在正相关,但您的线性回归中有一个负系数。没有错,没有错。

    这就是为什么您不应该草率​​下结论并说因为线性回归模型中存在正斜率,这必然意味着自变量和预测变量之间存在正相关。当然,您无法从结果中推断出任何因果关系。

    我希望能回答这个问题。

    【讨论】:

    • 确实如此。谢谢你解释得这么好。
    • 在这种情况下,有没有办法将自变量视为非确定性值?我知道他们中的一些人之间有很高的相关性,但我也知道这并不意味着因果关系。
    • 好吧,我举了一个最容易理解的例子。直觉与非确定性值保持一致。实际上,随机变化将定义线性回归如何在不确定情况的无限可能性中选择系数。
    • 如果某些自变量相关性太强,我建议您删除其中一个。它不应该使结果恶化太多,但会降低过度拟合的风险。
    • 对不起,如果我没有回答您的评论,我不确定我是否理解您的问题。
    猜你喜欢
    • 2016-05-29
    • 2018-04-03
    • 2019-01-19
    • 2018-10-06
    • 2018-10-28
    • 1970-01-01
    • 2020-07-25
    • 1970-01-01
    • 2013-03-01
    相关资源
    最近更新 更多