SPSS-线性回归
笔记总结。本文只有SPSS结果分析,推导等有空再搞
参考文献:
https://blog.csdn.net/qysh123/article/details/73801391
https://www.mediecogroup.com/method_article_detail/45/
https://www.mediecogroup.com/method_article_detail/51/
线性回归的假设前提
线性回归分析,需要先满足以下8项假设:
假设1:因变量是连续变量。
假设2:自变量不少于2个(连续变量或分类变量都可以,多重线性回才需要满足)。
假设3:各观测值之间相互独立,即残差之间不存在自相关。
假设4:因变量和自变量之间存在线性关系。
假设5:残差的方差齐。
假设6:不存在多重共线性。
假设7:没有显著异常值。
假设8:残差近似正态分布。
结果图表分析
下面简单解释一下这三张图中的结果:
表
R表示拟合优度(goodness of fit),它是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。
第二个指标R2(R Square)代表回归模型中自变量对因变量变异的解释程度,是分析回归结果的开始。例如,R2=0.489,提示自变量可以解释48.9%的因变量变异。但是,R2是会夸大自变量对因变量变异的解释程度,如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2也会增大。
R-square 和 Adjusted R-squared联系与区别
R-square(值范围0-1):描述的输入变量对输出变量的解释程度。在单变量线性回归中R-square 越大,说明拟合程度越好。
然而只要增加了更多的变量,无论增加的变量是否和输出变量存在关系,则R-squared 要么保持不变,要么增加。
所以, 需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加一个惩罚向。
调整的R平方,与R2不同的是,它剔除了自变量个数的影响,这使得adjusted R2永远小于R2,且adjusted R2的值不会由于自变量个数的增加而越来越接近1。adjusted R2也是影响程度的评价指标,比调整前R平方更准确一些,图中的最终调整R方为0.550,表示自变量一共可以解释因变量55%的变化(variance)。
综上结论:如果单变量线性回归,则使用 R-square评估,多变量,则使用adjusted R-square。
另外,由于使用的是StepWise Linear Regression (SWLR),分析——回归——线性——“方法”选择“逐步”,所以模型1、2、3的R方逐渐增大,标准误差逐渐减小。
(据网友的介绍:一般认为,拟合优度达到0.1为小效应(R方0.01),0.3为中等(R方0.09),0.5为大(R方0.25),这是针对自然科学的一般界限。其实个人感觉R方没有0.5都挺小)
第二个表Anova表示方差分析结果,主要看F和sig值两个,F值为方差分析的结果,是一个对整个回归方程的总体检验,指的是整个回归方程有没有使用价值(与随机瞎猜相比)。其F值对应的Sig值小于0.05就可以认为回归方程是有用的。
另外,从F值的角度来讲:F的值是回归方程的显著性检验,表示的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断。若F>Fa(k,n-k-1),则拒绝原假设,即认为列入模型的各个解释变量联合起来对被解释变量有显著影响,反之,则无显著影响。
这里简单对Fa(k,n-k-1)进行一下解释,k为自变量个数,n为样本容量,n-k-1为自由度。对于实验中的情况来讲,k=3,样本容量为146,所以查表的时候应该差Fa(3,142),一般数理统计课本中都有F分布表,a表示的显著性水平(一般取0.05),但我们手头不一定会有课本,就需要借助于excel来查F表,打开excel,在公式区输入:=FINV(0.05,3,142),在单元格中即出现2.668336761,表中的F值显著大于这个值,则认为各个解释变量对因变量有显著影响。
需要注意的是,方差分析是对多个自变量的总体检验,而不是单个自变量(单个自变量在系数表中,为单样本T检验),这就是第三个表回归系数表中的内容。
系数表格列出了自变量的显著性检验结果(使用单样本T检验),最后一列为T检验的sig,表中均小于0.05,说明自变量对因变量具有显著影响,B表示各个自变量在回归方程中的系数,负值表示IPGF这个自变量对因变量有显著的负向影响,但是由于每个自变量的量纲和取值范围不同,基于B并不能反映各个自变量对因变量影响程度的大小,这时候我们就要借助标准系数。目前表格中的“试用版”实际上是Beta的意思,此时数值越大表示对自变量的影响更大。
从这个分析过程来看,这个实验结果还挺理想的。
选择所述Durbin-Watson选项,SPSS输出Durbin-Watson检验的结果。Durbin-Watson检验常用来检测残差是否存在自相关。
一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。本研究Durbin-Watson检验值为2.257,说明观测值具有相互独立性,满足假设3。
但不得不说,Durbin-Watson检验不是万能的。它仅适用于对邻近观测值相关性的检验(1st-order autocorrelation)。举例来说,我们一般按照调查顺序录入数据,将第一位研究对象录入到第一行,再将第二位研究对象录入到第二行。在这种情况下,Durbin-Watson检验可以检测出第一位研究对象和第二位研究对象之间的相关性。但是如果我们乱序录入数据,将第一位研究对象和可能与他存在自相关的第二位研究对象离得很远,Durbin-Watson检验的结果就不准确了。因此,我们需要慎重对待Durbin-Watson检验的结果。
其实,观测值是否相互独立与研究设计有关。如果研究者确信观测值不会相互影响,我们甚至可以不进行Durbin-Watson检验,直接认定研究满足假设3。
标准化残差的直方图
从图中可以看出,标准化残差近似正态分布。但是由于横纵坐标比例的影响,柱状图的结果可能不准确,我们需要绘制P-P图进一步验证。
P-P图
P-P图各点分布离对角线越近,提示数据越接近于正态分布;如果各点刚好落在对角线上,那么数据就是正态分布。
简单线性回归仅要求回归残差接近于正态分布,因此根据上图,我们认为该数据满足假设:残差近似正态分布。
相较于直方图, P-P图可以更加明显、准确地判断数据的正态性。因此判断正态性时,需要谨慎对待直方图的结果,应结合P-P图全面分析。
撰写结论
eg:
采用简单线性回归模型分析久坐时间对胆固醇浓度的影响。通过绘制散点图,直观判断两者之间存在线性关系,并通过绘制标准化残差散点图和带正态曲线的直方图和P-P图,判断残差方差齐且近似正态分布。同时为了保证数据的代表性,我们剔除了一项异常值(胆固醇浓度为6.94mmol/L)。
回归方程为:胆固醇浓度= 3.64856+(0.00632×久坐时间)。久坐时间对胆固醇浓度的影响有统计学意义,F=161.926,P <0.001;久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。久坐时间每增加1分钟/天,胆固醇浓度增加0.00632 (95% CI:0.00533-0.00731)mmol/L。
001;久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。久坐时间每增加1分钟/天,胆固醇浓度增加0.00632 (95% CI:0.00533-0.00731)mmol/L。
此外,久坐时间为160分钟/天、170分钟/天和180分钟/天的胆固醇浓度预测值分别为4.660 (95% CI:4.517-4.802)mmol/L、4.723 (95% CI:4.589-4.857)mmol/L和4.786 (95% CI:4.661-4.91)mmol/L。"