目 录
7.1 单因素方差分析
数据分析 统计模型:方差分析模型、回归分析模型、主成分分析模型、聚类分析模型、因子分析模型
7.1.1 方差分析概念
- 在工农业生产和科学研究中,经常遇到这样的问题:影响产品产量、质量的因素很多,我们需要了解在这众多的因素中,哪些因素对影响产品产量、质量有显著影响。为此,要先做试验,然后对测试的结果进行分析。方差分析(Analysis of Variance,简称ANOVA)就是分析测试结果的一种方法。 主要是多组实验数据比较所采用的方法
- 方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。
例如,医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等都可以使用方差分析方法去解决。
7.1.2 单因素方差分析的数据结构
- 若指标观测值X只受一个因素A的影响,检验A在取不同的状态或水平时,对指标值X的影响称为单因素试验。
- 观测值X称为因变量(响应变量),是连续型的数值变量。
- 因素(Factor)A是影响因变量变化的客观条件。
设因素A有r个水平,每个水平下重复观测n次,则观测数据为如下形式
![]()
:第i行的平均值;
:整个实验数据的算数平均值
例7.1.1 三种治疗方案对降血糖的疗效比较
例7.1.1 某医生研究一种四类降糖新药的疗效,按完全随机设计方案治疗糖尿病患者,治疗一月后,记录下每名受试者血糖下降值,资料见下表,问三种治疗方案对降血糖的疗效是否相同?【No,第1组疗效显著高于另外两组!】
每一组,18名受试验者。3个剂量水平,每个剂量水平 重复观测 18次。比较均值!
7.1.3 单因素方差分析模型
- 方差分析是从总体上判断多组数据平均数(r≥3)之间的差异是否显著。
- 方差分析将全部数据看成是一个整体,分析构成变量的变异原因,进而计算不同变异来源的总体方差的估值。然后进行F检验,判断各样本的总体平均数是否有显著差异。若差异显著,再对平均数进行两两之间的比较。
i:代表水平;j:代表重复数
H0:原假设;各个水平下的均值相同
总偏差平方和:所有数据的偏差平方和
因子(组件)平方和:比较各个水平下,数据之间的差异。
误差(组内)平方和:各个组内的偏差平方和。
用“均方和”进行比较:消除自由度的影响。MSA、MSE进行比较:观察SA、SE哪个引起的误差偏大。
如果,因子平方和 所占的比例较大:各个因子之间的差异较大;
如果,误差平方和 所占的比例较大:数据之间的差异,主要由随机误差引起。
拒绝原假设(各个水平下的均值相等):各个水平下的均值 有显著差异;否则,各个水平下的均值 没有差异。
例7.1.1 方差分析表
7.2 双因素方差分析
7.2.1 问题引入
在实际应用中,指标值(因变量)往往受多个不同因素的影响。不仅这些因素会影响指标值,而且这些因素的不同水平交叉也会影响指标值。统计学中把多个因素不同水平交叉对指标值的影响称为交互作用。在多因素方差分析中,交互作用作为一个新因素来处理。 这里介绍两个因素的方差分析,亦称为双因素方差分析。
7.2.2 双因素方差分析的数据结构
- 假设在观测指标X的试验中,有两个变化因素A和B。因素A有r个水平,记作A1 ,A2 ,…,Ar;因素B有k个水平,记作B1 ,B2 ,…,Bk;则A 与B的不同水平组合
(i=1,2,…,r;j=1,2,…,k)共有rk个,每个 水平组合称为一个处理,每个处理作m次试验(亦可1次试验),得rkm个观测值
,双因素的有重复(无重复)观测数据表7.2.2。
交叉项:重复观测数
7.2.3 因素方差分析模型
1. 无交互作用的双因素方差分析模型
在双因素方差分析中,若不考虑两因素的交互作用效应,数据可采用无重复观测。
类似于 单因素方差分析
:第i行的算数平均;
:第j列的算数平均(因素B的第j个水平下 数据的算数平均);
:所有数据的算数平均(总算数平均值)。
![]()
:第i个水平下
在无交互作用下,分析因素A,B的不同水平对试验结果是否有显著影响,即为检验如下假设是否成立:
类似单因素方差分析数据的处理,在上述定义下,无交互作用双因素方差分析模型中的平方和分解如下。
在Matlab中进行双因素方差分析,采用命令
[p, table, stats] = anova2(x,reps)
reps:试验数据(每个交叉水平下)重复次数,缺省时为1。
2. 有交互作用的双因素方差分析模型
存在交互作用的情况下,双因素方差分析需要检验如下假设
重复观测、交互作用影响
7.3 一元线性回归分析
在应用问题研究当中,如果涉及到变量与变量之间的分析,可以借助回归分析来进行研究。
7.3.1 回归分析的概念
研究变量间的关系常有两种。
- 确定性关系(函数关系)
如圆面积与圆半径的关系;价格一定时,商品销售额与销售量的关系等。
- 相关关系
如父亲与子女身高的关系;收入水平与受教育程度间的关系等。
变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下 有一定的定量关系表达式。
相关关系的类型
不相关:无明显相关关系
回归分析(Regression Analysis)就是研究变量间的相关关系的统计方法,是英国生物学家兼统计学家高尔顿在研究父代与子代身高关系时得到的分析方法。
通过对客观事物中变量的大量观察或试验获得的数据,寻找隐藏在数据背后的相关关系,并给出它们的表达形式——回归函数的估计。
回归分析主要用于研究指标的估计和预测。
通过数据分析,得到 回归表达式(回归函数),对变量进行估计、预测。
设变量y与x(一维或多维)间有相关关系,称x为自变量(解释变量),y为因变量(被解释变量)。
若x为一般变量,在获得x取值后,设y 的取值为一随机变量,可表示为
y = f(x) + ε
上式称为一般回归模型,其中ε称为随机误差项,一般假设 ε~N(0,
)。正态分布
7.3.2 一元线性回归模型
![]()
:反映 x组数据与y组数据的线性相关程度。
一元线性回归分析内容
(1)回归参数
的估计
(2)回归模型的显著性检验
(3)回归参数的显著性检验
1.回归参数的估计
2.回归模型的显著性检验
在模型假定下,可以证明
对模型(7.3.2)的显著性提出假设
H0 : 回归方程不显著,H1 : 回归方程显著
如果回归方程显著,意味着SSE应该比较小,F值应该比较大,所以在显著水平α下,当
(1,n-2)时,拒绝原假设,认为回归方程显著。
3.回归参数的显著性检验
MATLAB进行回归分析的命令为regress,其调用方式为[b,bint,r,rint,stats] = regress(y, x),其输出结果为
- b :回归方程的系数
- bint:回归方程系数的95%置信区间
- r: 回归方程的残差
- rint:残差的95%置信区间
- stats: 可决系数
、模型检验F值、模型检验P值
7.3.3 一元线性回归分析应用
例7.3.1 为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下表。分析销售收入与广告费用之间的关系。
分析 由表(1)可得模型检验F值为116.3958,P值非常小,即模型是显著的;由表(2)可得模型的决定系数
= 0.866067,接近于1,说明模型拟合效果较好;由表(3)可得回归方程的系数
= 274.5502,
= 5.1308,且参数
检验的P值较小,显著非零,则回归方程为
根据得到的回归方程可进行因变量y的估计和预测。
7.4 多元线性回归分析
研究多个变量之间相关性的常用统计方法:多元线性回归分析。
7.4.1 多元线性回归模型
实际应用中影响因变量变化的因素往往有多个,例如产出受各种投入要素(资本、劳动力、技术等)的影响;销售额受价格和广告费投入等的影响。 研究 多个变量 影响 因变量的情况。
回归模型中自变量(解释变量)个数为两个及两个以上时,即为多元回归模型。
多元线性回归模型的一般形式为
(p=1:一元线性回归模型)
,
,...,
称为 偏回归系数
表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值。
多元线性回归分析内容
- 回归参数的估计
- 回归方程的拟合优度
- 显著性检验
- 共线性诊断
7.4.2 回归参数的估计
![]()
yi的值 由 自变量xi的线性回归值、随机误差
的值 所构成。
![]()
Y:因变量构成的列向量;
:回归参数向量;
:随机误差项构成的向量。
偏导数 = 0
7.4.3 回归方程的拟合优度
7.4.4 显著性检验
多元线性回归分析的显著性检验包括模型的显著性检验和各偏回归系数的显著性检验。
1.模型的显著性检验
2. 偏回归系数的显著性检验
关于模型的显著性检验 不拒绝 原假设 时,模型是不显著的,此时 不必做 偏回归系数的显著性检验。
7.4.5 共线性诊断
多元线性回归分析中,要求回归模型(7.4.1)中自变量之间线性无关。若有两个或两个以上的自变量彼此相关,称模型存在多重共线性。
多重共线性产生的问题
(1)可能会使回归的结果造成混乱,甚至会把分析引入歧途;
(2)可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反 。
检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
如果出现下列情况,暗示存在多重共线性。(存在多重共线性,需要对模型进行修正)
- 模型中各对自变量之间显著相关;
- 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著;
- 回归系数的正负号与预期的相反。
7.5 牙膏价格问题
7.5.1 问题描述
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销 售量与销售价格、广告投入等因素之间的关系,从而预测出在不同价格和广告费用下的销售量。表7.5.1是30个销售周期(4周为1销售周期)中收集到的资料。试根据这些数据建立一个数学模型,分析牙膏的销售量与其它因素的关系,为制定价格策略和广告投入提供决策依据。
7.5.2 问题分析
1.牙膏价格与销售量
由于牙膏是小件生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌中间的价格差异,而不是他们的 价格本身。因此在研究各个因素对销售量的影响时,用价格差代替公司销售价格更为合适。
通过分析其他厂家牙膏价格与本公司牙膏价格差对销售量的影响关系,建立价格差与销售量的相关模型。
2.广告费用与销售量
通过分析广告费用对销售量的影响关系,建立广告费用与销售 量的相关模型。
7.5.3 模型假设与符号
实际中,由于影响牙膏销售量的因素有很多,根据问题分析和相关数据,提出假设
(1)假设牙膏销售量主要受价格差和广告费用影响,即其它因素对销售量的影响归入随机误差。
(2)令 y~本公司牙膏销售量;
~其它厂家牙膏价格与本公司牙膏价格差;
~本公司广告费用。
、
对y的影响、建立模型。
7.5.4 模型建立与求解
1.牙膏价格差对销售量影响模型
正相关的线性关系
2.广告费用对销售量影响模型
勉强接受:线性关系
3.牙膏价格差与广告费用对销售量影响模型
由(7.5.1)和(7.5.2),将常数项合并,随机误差项合并,且不考虑牙膏价格差与广告费用对销售量的交叉影响。可得牙膏价格差与广告 费用对销售量影响模型
由数据进行回归分析,见表7.5.2
4.模型改进
由表7.5.3回归结果可得,修正可决系数为0.874,模型显著性检验的p值为0,模型是显著的。并且各回归参数均显著非0,说明模型 有效,得到牙膏价格差与广告费用对销售量影响模型为
7.5.5 结果分析
由模型(7.5.5)可知,提高本公司牙膏价格,将会减少本公司牙膏销售量,例如,广告费不变时,本公司牙膏价格比其它厂家平均价格 提高1元,估计销售量将会减少约1.468百万支。
另一方面,一定程度上,增加广告费用将会提高销售量,但过 度增加广告费用就会增加成本。
根据模型(7.5.5),只要给定了
,
,代入就可以对销售量进行估计和预测,还可以进行一定的置信度下的区间预测。如当
=0.2,
=6.5时,可以计算得到销售量的预测值约为8.379(百万支),其95%的预测区间为[7.874, 8.863]。
在公司管理中,这个预测上限可以用来作为公司的生产和库存数量;而这个预测下限可以用来较好地把握公司的现金流,因为到时至少有7.874百万支牙膏可以有把握的卖出去,可以回来相应的销售款。
若考虑牙膏价格差与广告费用两个因素间可能会有交互作用,可以将二者的乘积
来表示这个作用对销售量的影响,对原来的模型进行改进,
同理,可对模型7.5.6进行回归分析,研究模型的有效性和显著性(略)。
7.6 方差分析与回归分析的SPSS实现
数据统计分析:Matlab、R、SPSS
7.6.1 SPSS软件概述
1 SPSS版本与安装
SPSS的版本每年更新,当前最新为SPSS26.0,较新版本都有中文版,这里以2013年的SPSS22.0中文版为例介绍其安装及应用。
1 SPSS界面
SPSS的主要界面 有 数据编辑窗口 和 结果输出窗口 。