统计学第十二周:回归分析

一、 概念

回归分析主要解决的问题有:

(1)从一组样本数据出发,确定变量之间的数学关系式

(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的,那些事不显著的。

(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

  1. 一元线性回归

    1.1 相关关系

    ⚛️ 如果两个变量,一个增长另一个也随之增长,则成为正相关,反之为负相关。可以用散点图初步展示一下数据的相关关系。

    ????相关系数:correlation coefficient ,是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,
    ρ;γ 称为总体相关系数,记为\rho ;若是根据样本数据计算的,称为样本相关系数 ,记为 \gamma

    γ=nxyxynx2(x)2ny2(y)2 样本相关系数的计算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}

    按照上述公式计算的相关系数也称为线性相关系数 linear correlation coefficient ,或称为Pearson 相关系数(Pearson’s correlation coefficient)。

    ????相关系数r的取值范围为[-1,1],如果为正,表明两者间存在正线性相关关系,如果为负,则是负线性相关关系。若r=+1 ,表明完全正线性相关关系,如r=-1,表明x与y间为完全负线性相关关系。r=0时,表明两者不存在线性相关关系。r具有对称性。

    1.2 最小二乘法

    对于第i个x值,估计的回归方程可表示为:
    y^i=β^0+β^1xi \widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i
    利用德国科学家卡尔-高斯提出的最小化图中垂直方向的离差平方和来估计参数,根据这一方法确定模型参数的方法称为最小二乘法,也称为最小平方法。

统计学第十二周:回归分析
使Q=(yiy^i)2=yiβ^0β^1xi2, 根据最小二乘法,使Q=\sum(y_i-\widehat{y}_i)^2=\sum{(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)}^2 ,最小

Qβ0β0=β^0=2i=1n(yiβ^0β^1xi)=0 求偏导数,得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0

Qβ1β1=β^1=2i=1nxi(yiβ^0β^1xi)=0 \frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0

然后求解方程组,(截距通常没有物理意义)
x=xy^=y,线(x,y), 当x=\overline{x}时,\widehat{y}=\overline{y},即回归直线通过(\overline{x},\overline{y}),这是重要的特征。
1.3 拟合优度检测

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度 goodness of fit。直线的拟合优度,需要计算判定系数。

判定系数是对估计的回归方程拟合优度的度量。
SST=(yiy)2 总平方和:SST=\sum{(y_i-\overline{y})^2}

SST=(yiy)2=(yiyi)2+(y^iy)2 SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2}

SST=SSE+SSR,SSExy线ySSRXy SST=SSE+SSR,SSE为残差平方和或误差平方和(x对y线性影响之外的其他因素引起的y的变化),SSR为回归执行,即X变化引起的y的变化,称为回归平方和。

统计学第十二周:回归分析

判定系数coefficient of determination ,回归平方和占总平方和的比例称为判定系数
R2=SSRSST=(y^iy)2(yiy)2=1(yiy^i)2(yiy)2 判定系数R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}}
判定系数测度了回归直线对观测数据的拟合程度。范围[0,1],在一元线性回归中,相关系数r实际上是判定系数的平方根。判定系数为1,则拟合是完全的;当判定系数为0时,两者完全没有关系。相关系数与直线的斜率符号是一致的。

注:用r说明回归直线的拟合优度要慎重。

1.4 显著性实验
ργρ 一般情况下,总体相关系系数\rho是未知的,通常将样本相关系数\gamma作为\rho的近似估计值。
这样根据抽样,往往会具有波动性,考察样本相关系数的可靠性,就需要进行显著性检验。

???? r的抽样分布

统计学第十二周:回归分析
????r的显著性检验

对r抽样分布,如果假设服从正态检验,具有很大的风险,依据经验采用费希尔提出的T检验,该检验可以用于小样本,也可以用于大样本。

统计学第十二周:回归分析

回归分析的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。但是建立方程后,还需要通过检验来验证是否真的满足整体。

回归分析中的显著性检验主要包括两方面:一是线性关系的检验;二是回归系数的检验。

⚖️线性关系检验是检验自变量x和因变量y之间的线性关系是否显著。
F=SSR/1SSE/(n2)1n2F F=\frac{SSR/1}{SSE/(n-2)},服从分子自由度为1,分母自由度为n-2的F分布。
假设的步骤:
1H0:β1=0线 1:提出假设,H_0: \beta_1=0 两个变量之前线性关系不显著

2.F=SSR/1SSE/(N2)=MSRMSE 2.计算检验统计量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE}

3.FFαF>Fα,H0,线<线 3.做出决策。确定显著性水平,并根据分子自由度和分母自由度查找F分布表,找到响应的临界值F_\alpha。 若F>F_\alpha,则拒绝H_0,表明两个变量之间的线性关系是显著的;若<,不拒绝假设,则没有证据表明两个变量之间的线性关系。

⚖️回归系数的检验,是要检验自变量对因变量的影响是否显著。
1.H0:β1=0,H1:β10 1.假设检验H_0: \beta_1=0,H_1: \beta_1 \neq 0

2.t=β^1/sβ^1 2.计算检验统计量t = \widehat{\beta}_1/s_{\widehat{\beta}_1}

3.α,n2ttα/2 3. 做出决策。确定显著性水平\alpha,并根据自由度n-2查t分布表,找到相应的临界值t_{\alpha /2}。若||

t>tα/2H0,0αxy 若|t|>t_{\alpha/2}则拒绝H_0,则回归系数等于0的可能性小于\alpha,表明自变量x对因变量y的影响是显著的。

在一元线性回归中因为只有一个自变量,F检验和t检验是等价的,但在多元回归分析中,这两种的意义是不同。

1.5 回归预测

y=f(x)的关系,利用一系列x,y的值需求一个数学表达式,从而利用已知的X来预测y值的过程。当回归中只涉及一个自变量时,称为一元回归,若因变量y与自变量x之间为线性关系,则称为一元线性回归。
线y=β0+β1x+ϵ 一元线性回归模型: y=\beta_0+\beta_1x+\epsilon

ϵ,yx线(β0+β1x)xy线 \epsilon 为误差项,y是x的线性函数 (\beta_0+\beta_1x),反映了由于x的变化而引起的y的线性变化。

统计学第十二周:回归分析
[统计学第十二周:回归分析
ϵ0yE(Y)=β0+beta1x,yx线 根据回归模型中的假定,\epsilon的期望值等于0,因此y的期望值E(Y)=\beta_0+beta_1x,也就是说y的期望值是x的线性函数。
描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。

????估计的回归方程 estimated regression equation
y^=β^0+β^1x \widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x

1.6 残差分析

判定系数可以用于度量回归直线的拟合程度,相关系数也可以起到类似的作用。而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。

估计标准误差standard error of estimate就是度量各实际观测点在直线周围的散布状况的一个统计量,他是均方残差MSE的平方根,
Se=(yiy^i)2n2=SSEn2=MSE S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}

KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立,方法之一就是进行残差…

残差是因变量的观测值与根据估计的回归方程求出的预测值之差。e表示;也可以通过标准化残差。标准化残差是残差除以它的标准差之后得到的数值也称为pearson残差。

  1. 多元线性回归

    2.1 多重共线性
    KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲
    多元回归,参数的最小二乘估计,等参考一元线性回归计算方式。

    在回归模型中两个或两个以上的自变量彼此相关时,称为回归模型中存在多重共线性。

    检测多重共线性的一个方法是用对各相关系数进行显著性检验。如果一个或多个相关系数是显著的,就表明模型中所使用的自变量之间相关。

    2.2 变量选择与逐步回归

    选择自变量的原则是对统计量进行显著性检验,检验的依据是:将一个或一个以上的自变量引入回归模型中时,是否使残差平方和SSE显著减少。

    变量的选择方法主要有:向前选择forward selection 、向后剔除 backward elimination 、逐步回归stepwise regression 、最优子集等。

    逐步回归:融合向前选择和向后剔除的方法。:按照此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变量不会导致SSE显著减少,这个过程可以用F统计量来检验。

相关文章:

  • 2021-09-12
  • 2021-08-10
  • 2021-12-19
  • 2021-06-06
  • 2021-11-18
  • 2022-01-02
  • 2021-05-29
猜你喜欢
  • 2021-06-19
  • 2021-08-31
  • 2021-07-06
  • 2021-10-16
  • 2021-10-12
  • 2021-10-22
  • 2021-12-04
相关资源
相似解决方案