第九章 方差分析与回归分析本章研究的主要问题:
1,有关单因素和多因素非简单试验的统计分析方法多处理的正态总体参数估计和均值比较。
2,对输入变量与试验指标之间存在的统计因果关系和协同变异问题进行统计分析的方法 回归分析和相关分析。
涉及的理论模型:线性模型所用到主要方法:最小二乘法第一节 单因素试验的方差分析单因素随机试验:只考察一个因素 A,试验的水平有
a 个,A1,A2,…A a 。设 Ai的重复数(样本容量)
为 ri,i=1,2,…,a 。总试验次数为
。,有,特别,当 narrrrrnr a
a
i
i
21
1
前提假设:所有试验单元的试验条件一致(无系统误差)。
方差分析的作用:
1,通过对试验数据的统计分析,推断造成试验数据间的差异的原因是试验水平差异还是随机误差的影响。
术语:试验指标、因素、水平 教材 p270
2,推断哪些因素的影响是显著的。
3,分析出“最佳”的试验水平(固定模型);或估计总体变量的参数(随机模型)。
方差分析与假设检验的区别:
方差分析能同时检验多个总体的某个参数(如均值)是否相等,而假设检验每次只能检验两个总体的某个参数是否相等。
方差分析与回归分析的区别:
1,回归分析主要是为了得到自变量与因变量之间的定量关系 回归方程。回归系数显著性讨论的目的,
是把影响不显著的自变量从回归方程中剔除,以提高回归方程的稳健性,使预测更加精确可靠。
方差分析则是用于区分因素对试验指标影响的显著程度及影响大小,从而找出“最佳”的试验水平。
2,回归分析要求因素(输入)变量是定量的,而方差分析则不要求因素(输入)变量是定量的。
3,回归分析要求对所有试验水平都进行相应的试验,
而方差分析则只需有选择地对某些试验水平进行试验(如正交设计)。
第三节 一元线性回归相关关系:现象之间存在着数量上的依存关系,但这种关系间的数值是不确定的。
社会经济现象中相互影响或相互联系的关系一般可分为三类:函数关系、相关关系、不确定关系。
相关关系的分类:因果关系、平行关系平行关系:互为因果或由共同的外因所影响(协同变异)。
统计分析的任务:
1,对因果关系,建立回归方程,进行预测和控制。
2,对平行关系,估计相关系数,确定相关程度。
一、回归概念对因果关系,一般把条件因素 (可控制或可观察 )作为自变量 x(普通变量 ),将结果作为因变量 Y(随机变量 ) 。
对确定的 x,Y=Y(x)是随机变量,设其期望存在,
记?(x)=E(Y| x),称?(x) 为 Y(x) 对 x的回归函数,
简称回归。回归函数描述了 x与 Y(x) 的平均值的依存关系。( E(Y| x)表示对于固定的 x,Y(x)的数学期望。)
估计?(x),求 Y(x) 对 x的回归问题。
二、直线回归模型
y=?+?x
x1 x2
设 x与 Y(X)之间有因果关系,且直线相关设?(x)=E(Y| x) =?+?x,称其为总体回归方程,
称?为回归系数。
由于?,?是未知的,设想通过样本观察值得出?、
的估计值 a,b。于是
).()( xxYEbxay
|
称其为经验 回归方程或样本回归方程。
问题:如何估计 a,b的值?
三、参数估计设抽样得到一组样本观察值 (x1,y1),….,(xn,yn),
则 样本回归方程的值为
).,0(1
2
Nni
xybxay
ii
iiiii
~相互独立且,,,
,,
.)(),(m i n 2
11
2
n
i
ii
n
i
i yybaQQ?
根据最小二乘法的原理,选择 a,b使回归值与 观察值的误差平方和达到最小,即由 可得(教材 p299-300)
,0,0?
b
Q
a
Q
,,
其中,,,
n
i
ixx
n
i
iixy
n
i
iyy
xx
xy
xxSyyxxS
yySxbya
S
S
b
1
2
1
1
2
)( ))((
)(
四、残差分析
。,则设?
n
i
iiiii eQyye
1
2?
可以证明,(教材 p302-303)
的无偏估计量是这说明
,即
,,故~
2
2
2
2
2
2
2
)
2
(
2)()2(
n
Q
n
Q
E
n
Q
En
Q
五、参数的统计性质
.1)(
),0(
2
2
,,,,,~故
,~相互独立且
,由于
nixNy
N
xy
ii
ii
iii
由正态分布的性质和 a,b的表达式,可得
。,~,,~
。从而,,;,
))
1
(()(
)
1
()()(
/)()(
2
22
2
2
2
xxxx
xx
xx
S
x
n
Na
S
Nb
S
x
n
aDaE
SbDbE
a,b是?,?的最小方差线性无偏估计,一般称为最佳线性无偏估计,简记为 BLUE。
.,因 ii bxay
))
)(1
1((
))
)(1
((
2
2
2
2
xx
i
iii
xx
i
ii
S
xx
n
xNbxa
S
xx
n
xNy
,~
,,~可得为回归离差平方和,称 2
1
)( yyU
n
i
i
总离差平方和 Syy和剩余离差平方和 Q、回归离差平方和 U之间有如下关系,Syy=Q+U 。
可以证明,Syy的自由度 fT=n-1,Q的自由度
fe=n-2,U的自由度 fU=1。
从而,fT= fe+ fU,且有
.)2()(
)()1()(
2
2222
nQE
SUESnSE xxxxyy,,
结论,1,Q/(n-2)是?2的无偏估计;
2,设 H0,?=0,H1,0,若 H0成立,则直线回归不存在,若 H1成立,则存在直线回归。并且,当 H0成立,U与 Q相互独立,且
)2()1( 2222?nQU?
~,~
六、统计推断由关系式 Syy=Q+U 可见,U在 Syy中占的比重越大
(即 U/Q的值大 ),线性回归的效果越佳。而 H0的检验统计量
,,~ )21(
)2/(
nF
nQ
UF
故当 F>F?(1,n-2),拒绝 H0,即线性回归的效果显著。
由于 b=Sxy/Sxx,相关系数,
yy
xx
yyxx
xy
S
S
b
SS
S
r
,
,从而可得
yy
xx
xy
yy
xyyy
Sr
S
S
QSU
bSSQ
2
2
可以证明:
故 H0的检验统计量也可写成
。
)2/()1( 2
2
nr
rF
说明,1,通常的做法是先由获得的样本观察值,计算出相关系数 r,再检验假设 H0,当拒绝 H0后,才求回归方程。
2,也可对 H0进行 t-检验,其效果和 F-检验等价。
3,若拒绝 H0,则?的置信度为 1-?的置信区间为
。,)
)2(
)2((
)2( 2 xxxxb Sn
Q
ntb
Sn
Q
S
Sb为 b的样本标准差。(教材 P305)
系数 a的显著性检验:
).
2
)
1
()2((
1
)2(/
0
2
)
1
(
)
1
()()(
2
2
0
0
2
2
2
n
Q
S
x
n
nta
H
ntSat
H
n
Q
S
x
n
Sa
S
x
n
aDaE
xx
a
xx
a
xx
置信区间为的,则若拒绝
。~
成立,则检验统计量:若
,的样本标准差为
,,因对任何给定的 x0,理论回归直线?(x)=?+?x的点估计和 1-?置信区间分别为(教材 P306)
)
)(1
2
)2((
2
0
2
0
00
xx
S
xx
nn
Q
ntbxa
bxay
,
七、预测与控制由此,可根据不同的研究目的进行预测或控制。
直线回归的进一步分析:
非线性关系的拟线性回归:对一些常用的非线性关系,可通过变量代换将其变成线性关系用线性回归的方法得到线性回归方程,再用逆变换变成非线性回归方程。(具体内容见教材 p309-312.)
1,有关单因素和多因素非简单试验的统计分析方法多处理的正态总体参数估计和均值比较。
2,对输入变量与试验指标之间存在的统计因果关系和协同变异问题进行统计分析的方法 回归分析和相关分析。
涉及的理论模型:线性模型所用到主要方法:最小二乘法第一节 单因素试验的方差分析单因素随机试验:只考察一个因素 A,试验的水平有
a 个,A1,A2,…A a 。设 Ai的重复数(样本容量)
为 ri,i=1,2,…,a 。总试验次数为
。,有,特别,当 narrrrrnr a
a
i
i
21
1
前提假设:所有试验单元的试验条件一致(无系统误差)。
方差分析的作用:
1,通过对试验数据的统计分析,推断造成试验数据间的差异的原因是试验水平差异还是随机误差的影响。
术语:试验指标、因素、水平 教材 p270
2,推断哪些因素的影响是显著的。
3,分析出“最佳”的试验水平(固定模型);或估计总体变量的参数(随机模型)。
方差分析与假设检验的区别:
方差分析能同时检验多个总体的某个参数(如均值)是否相等,而假设检验每次只能检验两个总体的某个参数是否相等。
方差分析与回归分析的区别:
1,回归分析主要是为了得到自变量与因变量之间的定量关系 回归方程。回归系数显著性讨论的目的,
是把影响不显著的自变量从回归方程中剔除,以提高回归方程的稳健性,使预测更加精确可靠。
方差分析则是用于区分因素对试验指标影响的显著程度及影响大小,从而找出“最佳”的试验水平。
2,回归分析要求因素(输入)变量是定量的,而方差分析则不要求因素(输入)变量是定量的。
3,回归分析要求对所有试验水平都进行相应的试验,
而方差分析则只需有选择地对某些试验水平进行试验(如正交设计)。
第三节 一元线性回归相关关系:现象之间存在着数量上的依存关系,但这种关系间的数值是不确定的。
社会经济现象中相互影响或相互联系的关系一般可分为三类:函数关系、相关关系、不确定关系。
相关关系的分类:因果关系、平行关系平行关系:互为因果或由共同的外因所影响(协同变异)。
统计分析的任务:
1,对因果关系,建立回归方程,进行预测和控制。
2,对平行关系,估计相关系数,确定相关程度。
一、回归概念对因果关系,一般把条件因素 (可控制或可观察 )作为自变量 x(普通变量 ),将结果作为因变量 Y(随机变量 ) 。
对确定的 x,Y=Y(x)是随机变量,设其期望存在,
记?(x)=E(Y| x),称?(x) 为 Y(x) 对 x的回归函数,
简称回归。回归函数描述了 x与 Y(x) 的平均值的依存关系。( E(Y| x)表示对于固定的 x,Y(x)的数学期望。)
估计?(x),求 Y(x) 对 x的回归问题。
二、直线回归模型
y=?+?x
x1 x2
设 x与 Y(X)之间有因果关系,且直线相关设?(x)=E(Y| x) =?+?x,称其为总体回归方程,
称?为回归系数。
由于?,?是未知的,设想通过样本观察值得出?、
的估计值 a,b。于是
).()( xxYEbxay
|
称其为经验 回归方程或样本回归方程。
问题:如何估计 a,b的值?
三、参数估计设抽样得到一组样本观察值 (x1,y1),….,(xn,yn),
则 样本回归方程的值为
).,0(1
2
Nni
xybxay
ii
iiiii
~相互独立且,,,
,,
.)(),(m i n 2
11
2
n
i
ii
n
i
i yybaQQ?
根据最小二乘法的原理,选择 a,b使回归值与 观察值的误差平方和达到最小,即由 可得(教材 p299-300)
,0,0?
b
Q
a
Q
,,
其中,,,
n
i
ixx
n
i
iixy
n
i
iyy
xx
xy
xxSyyxxS
yySxbya
S
S
b
1
2
1
1
2
)( ))((
)(
四、残差分析
。,则设?
n
i
iiiii eQyye
1
2?
可以证明,(教材 p302-303)
的无偏估计量是这说明
,即
,,故~
2
2
2
2
2
2
2
)
2
(
2)()2(
n
Q
n
Q
E
n
Q
En
Q
五、参数的统计性质
.1)(
),0(
2
2
,,,,,~故
,~相互独立且
,由于
nixNy
N
xy
ii
ii
iii
由正态分布的性质和 a,b的表达式,可得
。,~,,~
。从而,,;,
))
1
(()(
)
1
()()(
/)()(
2
22
2
2
2
xxxx
xx
xx
S
x
n
Na
S
Nb
S
x
n
aDaE
SbDbE
a,b是?,?的最小方差线性无偏估计,一般称为最佳线性无偏估计,简记为 BLUE。
.,因 ii bxay
))
)(1
1((
))
)(1
((
2
2
2
2
xx
i
iii
xx
i
ii
S
xx
n
xNbxa
S
xx
n
xNy
,~
,,~可得为回归离差平方和,称 2
1
)( yyU
n
i
i
总离差平方和 Syy和剩余离差平方和 Q、回归离差平方和 U之间有如下关系,Syy=Q+U 。
可以证明,Syy的自由度 fT=n-1,Q的自由度
fe=n-2,U的自由度 fU=1。
从而,fT= fe+ fU,且有
.)2()(
)()1()(
2
2222
nQE
SUESnSE xxxxyy,,
结论,1,Q/(n-2)是?2的无偏估计;
2,设 H0,?=0,H1,0,若 H0成立,则直线回归不存在,若 H1成立,则存在直线回归。并且,当 H0成立,U与 Q相互独立,且
)2()1( 2222?nQU?
~,~
六、统计推断由关系式 Syy=Q+U 可见,U在 Syy中占的比重越大
(即 U/Q的值大 ),线性回归的效果越佳。而 H0的检验统计量
,,~ )21(
)2/(
nF
nQ
UF
故当 F>F?(1,n-2),拒绝 H0,即线性回归的效果显著。
由于 b=Sxy/Sxx,相关系数,
yy
xx
yyxx
xy
S
S
b
SS
S
r
,
,从而可得
yy
xx
xy
yy
xyyy
Sr
S
S
QSU
bSSQ
2
2
可以证明:
故 H0的检验统计量也可写成
。
)2/()1( 2
2
nr
rF
说明,1,通常的做法是先由获得的样本观察值,计算出相关系数 r,再检验假设 H0,当拒绝 H0后,才求回归方程。
2,也可对 H0进行 t-检验,其效果和 F-检验等价。
3,若拒绝 H0,则?的置信度为 1-?的置信区间为
。,)
)2(
)2((
)2( 2 xxxxb Sn
Q
ntb
Sn
Q
S
Sb为 b的样本标准差。(教材 P305)
系数 a的显著性检验:
).
2
)
1
()2((
1
)2(/
0
2
)
1
(
)
1
()()(
2
2
0
0
2
2
2
n
Q
S
x
n
nta
H
ntSat
H
n
Q
S
x
n
Sa
S
x
n
aDaE
xx
a
xx
a
xx
置信区间为的,则若拒绝
。~
成立,则检验统计量:若
,的样本标准差为
,,因对任何给定的 x0,理论回归直线?(x)=?+?x的点估计和 1-?置信区间分别为(教材 P306)
)
)(1
2
)2((
2
0
2
0
00
xx
S
xx
nn
Q
ntbxa
bxay
,
七、预测与控制由此,可根据不同的研究目的进行预测或控制。
直线回归的进一步分析:
非线性关系的拟线性回归:对一些常用的非线性关系,可通过变量代换将其变成线性关系用线性回归的方法得到线性回归方程,再用逆变换变成非线性回归方程。(具体内容见教材 p309-312.)