【发布时间】:2018-11-15 07:30:12
【问题描述】:
在线性模型中 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ ,i∈[3,4,…,100] 的值是多少,模型的 R-Squared 最高?
给定包含一个因变量和 100 个自变量的 CSV 文件。
【问题讨论】:
标签: python-3.x statistics data-science linearmodels
在线性模型中 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ ,i∈[3,4,…,100] 的值是多少,模型的 R-Squared 最高?
给定包含一个因变量和 100 个自变量的 CSV 文件。
【问题讨论】:
标签: python-3.x statistics data-science linearmodels
这个问题没有多大意义。
让我们看一下coefficient of determination的定义(即“R平方”):
R^2 = 1 - sum(e_i) / ((n - 1) * s^2)
其中sum(e_i) 是残差平方和,s^2 是样本方差。
添加越来越多的预测变量可能会降低残差平方和,但由于过度拟合,预测性能会很差。
所以这里的关键问题是:哪些特征(变量)对于具有强大预测性能的最佳模型很重要。
这个问题远远超出 SO(或任何其他论坛),我推荐一本(任何)关于统计建模的教科书。
【讨论】: