如何找到特定变量的最高 R 平方值（在 python 中）？

【问题标题】：how can I find the highest R squared value for a particular variable (in python)?如何找到特定变量的最高 R 平方值（在 python 中）？
【发布时间】：2018-11-15 07:30:12
【问题描述】：

在线性模型中 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ ，i∈[3,4,…,100] 的值是多少，模型的 R-Squared 最高？

给定包含一个因变量和 100 个自变量的 CSV 文件。

【问题讨论】：

标签： python-3.x statistics data-science linearmodels

【解决方案1】：

这个问题没有多大意义。

让我们看一下coefficient of determination的定义（即“R平方”）：

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

其中sum(e_i) 是残差平方和，s^2 是样本方差。

添加越来越多的预测变量可能会降低残差平方和，但由于过度拟合，预测性能会很差。

所以这里的关键问题是：哪些特征（变量）对于具有强大预测性能的最佳模型很重要。

这个问题远远超出 SO（或任何其他论坛），我推荐一本（任何）关于统计建模的教科书。

【讨论】：