统计学第十二周：回归分析

一、概念

回归分析主要解决的问题有：

（1）从一组样本数据出发，确定变量之间的数学关系式

（2）对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的，那些事不显著的。

（3）利用所求的关系式，根据一个或几个变量的取值来估计或预测另一个特定变量的取值，并给出这种估计或预测的可靠程度。

一元线性回归

1.1 相关关系

⚛️ 如果两个变量，一个增长另一个也随之增长，则成为正相关，反之为负相关。可以用散点图初步展示一下数据的相关关系。

????相关系数：correlation coefficient ,是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的，
$称为总体相关系数，记为\rho ;若是根据样本数据计算的，称为样本相关系数，记为 \gamma$

$样本相关系数的计算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}$

按照上述公式计算的相关系数也称为线性相关系数 linear correlation coefficient ,或称为Pearson 相关系数（Pearson’s correlation coefficient）。

????相关系数r的取值范围为[-1,1],如果为正，表明两者间存在正线性相关关系，如果为负，则是负线性相关关系。若r=+1 ,表明完全正线性相关关系，如r=-1，表明x与y间为完全负线性相关关系。r=0时，表明两者不存在线性相关关系。r具有对称性。

1.2 最小二乘法

对于第i个x值，估计的回归方程可表示为：
$\widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i$
利用德国科学家卡尔-高斯提出的最小化图中垂直方向的离差平方和来估计参数，根据这一方法确定模型参数的方法称为最小二乘法，也称为最小平方法。

统计学第十二周：回归分析
$根据最小二乘法，使Q=\sum(y_i-\widehat{y}_i)^2=\sum{（y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i）}^2 ,最小$

$求偏导数，得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0$

$\frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0$

然后求解方程组，（截距通常没有物理意义）
$当x=\overline{x}时，\widehat{y}=\overline{y},即回归直线通过(\overline{x},\overline{y}),这是重要的特征。$
1.3 拟合优度检测

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度 goodness of fit。直线的拟合优度，需要计算判定系数。

判定系数是对估计的回归方程拟合优度的度量。
$总平方和：SST=\sum{(y_i-\overline{y})^2}$

$SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2}$

$SST=SSE+SSR,SSE为残差平方和或误差平方和（x对y线性影响之外的其他因素引起的y的变化），SSR为回归执行，即X变化引起的y的变化，称为回归平方和。$

统计学第十二周：回归分析

判定系数coefficient of determination ，回归平方和占总平方和的比例称为判定系数
$判定系数R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}}$
判定系数测度了回归直线对观测数据的拟合程度。范围[0,1],在一元线性回归中，相关系数r实际上是判定系数的平方根。判定系数为1，则拟合是完全的；当判定系数为0时，两者完全没有关系。相关系数与直线的斜率符号是一致的。

注：用r说明回归直线的拟合优度要慎重。

1.4 显著性实验
$一般情况下，总体相关系系数\rho是未知的，通常将样本相关系数\gamma作为\rho的近似估计值。$
这样根据抽样，往往会具有波动性，考察样本相关系数的可靠性，就需要进行显著性检验。

???? r的抽样分布

统计学第十二周：回归分析
????r的显著性检验

对r抽样分布，如果假设服从正态检验，具有很大的风险，依据经验采用费希尔提出的T检验，该检验可以用于小样本，也可以用于大样本。

统计学第十二周：回归分析

回归分析的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。但是建立方程后，还需要通过检验来验证是否真的满足整体。

回归分析中的显著性检验主要包括两方面：一是线性关系的检验；二是回归系数的检验。

⚖️线性关系检验是检验自变量x和因变量y之间的线性关系是否显著。
$F=\frac{SSR/1}{SSE/(n-2)}，服从分子自由度为1，分母自由度为n-2的F分布。$
假设的步骤：
$1：提出假设，H_0: \beta_1=0 两个变量之前线性关系不显著$

$2.计算检验统计量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE}$

$3.做出决策。确定显著性水平，并根据分子自由度和分母自由度查找F分布表，找到响应的临界值F_\alpha。若F>F_\alpha,则拒绝H_0,表明两个变量之间的线性关系是显著的；若<，不拒绝假设，则没有证据表明两个变量之间的线性关系。$

⚖️回归系数的检验，是要检验自变量对因变量的影响是否显著。
$1.假设检验H_0: \beta_1=0,H_1: \beta_1 \neq 0$

$2.计算检验统计量t = \widehat{\beta}_1/s_{\widehat{\beta}_1}$

$3. 做出决策。确定显著性水平\alpha,并根据自由度n-2查t分布表，找到相应的临界值t_{\alpha /2}。若||$

$若|t|>t_{\alpha/2}则拒绝H_0,则回归系数等于0的可能性小于\alpha，表明自变量x对因变量y的影响是显著的。$

在一元线性回归中因为只有一个自变量，F检验和t检验是等价的，但在多元回归分析中，这两种的意义是不同。

1.5 回归预测

y=f(x)的关系，利用一系列x,y的值需求一个数学表达式，从而利用已知的X来预测y值的过程。当回归中只涉及一个自变量时，称为一元回归，若因变量y与自变量x之间为线性关系，则称为一元线性回归。
$一元线性回归模型： y=\beta_0+\beta_1x+\epsilon$

$\epsilon 为误差项,y是x的线性函数 (\beta_0+\beta_1x)，反映了由于x的变化而引起的y的线性变化。$

统计学第十二周：回归分析
[
$根据回归模型中的假定，\epsilon的期望值等于0，因此y的期望值E(Y)=\beta_0+beta_1x,也就是说y的期望值是x的线性函数。$
描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。

????估计的回归方程 estimated regression equation
$\widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x$

1.6 残差分析

判定系数可以用于度量回归直线的拟合程度，相关系数也可以起到类似的作用。而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。

估计标准误差standard error of estimate就是度量各实际观测点在直线周围的散布状况的一个统计量，他是均方残差MSE的平方根，
$S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$

KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立，方法之一就是进行残差…

残差是因变量的观测值与根据估计的回归方程求出的预测值之差。e表示；也可以通过标准化残差。标准化残差是残差除以它的标准差之后得到的数值也称为pearson残差。

多元线性回归

2.1 多重共线性
KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲
多元回归，参数的最小二乘估计，等参考一元线性回归计算方式。

在回归模型中两个或两个以上的自变量彼此相关时，称为回归模型中存在多重共线性。

检测多重共线性的一个方法是用对各相关系数进行显著性检验。如果一个或多个相关系数是显著的，就表明模型中所使用的自变量之间相关。

2.2 变量选择与逐步回归

选择自变量的原则是对统计量进行显著性检验，检验的依据是：将一个或一个以上的自变量引入回归模型中时，是否使残差平方和SSE显著减少。

变量的选择方法主要有：向前选择forward selection 、向后剔除 backward elimination 、逐步回归stepwise regression 、最优子集等。

逐步回归：融合向前选择和向后剔除的方法。：按照此方法不停的增加变量并考虑剔除以前增加的变量的可能性，直至增加变量不会导致SSE显著减少，这个过程可以用F统计量来检验。