【问题标题】:how can I find the highest R squared value for a particular variable (in python)?如何找到特定变量的最高 R 平方值(在 python 中)?
【发布时间】:2018-11-15 07:30:12
【问题描述】:

在线性模型中 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ ,i∈[3,4,…,100] 的值是多少,模型的 R-Squared 最高?

给定包含一个因变量和 100 个自变量的 CSV 文件。

【问题讨论】:

    标签: python-3.x statistics data-science linearmodels


    【解决方案1】:

    这个问题没有多大意义。

    让我们看一下coefficient of determination的定义(即“R平方”):

    R^2 = 1 - sum(e_i) / ((n - 1) * s^2)
    

    其中sum(e_i) 是残差平方和,s^2 是样本方差。

    添加越来越多的预测变量可能会降低残差平方和,但由于过度拟合,预测性能会很差。

    所以这里的关键问题是:哪些特征(变量)对于具有强大预测性能的最佳模型很重要。

    这个问题远远超出 SO(或任何其他论坛),我推荐一本(任何)关于统计建模的教科书。

    【讨论】:

      猜你喜欢
      • 2021-08-19
      • 1970-01-01
      • 2018-07-24
      • 1970-01-01
      • 2021-12-01
      • 1970-01-01
      • 2022-08-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多