5- 1
第 5章 实用线性模型
5.2 方差分析
5.2.1 单因子方差分析在科学试验和生产实践中,影响一事物的因素往往是很多的。如产品质量是否受到配料、设备、人工等的差异的影响。要找出对产品质量有影响的因素,我们需要进行试验。方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。
在实验中我们称要考察的指标为试验指标。称影响指标的条件为因素。称因素所处的状态为水平。如果在一项试验中只有一个因素在改变称为单因子试验,如果多于一个因素在改变称为多因子试验。
5- 2
例 1.对某农作物采取五种不同的施肥方案进行收获量试验。每种方案作四块田,结果如下表。
试求不同施肥方案对农作物收获量有无显著性影。
88703566524
79815091453
70646996672
90716098671
种肥施丁种肥施丙种肥施乙种肥施甲化肥只施
5- 3
如下表:样本观测值的,得到假定各次试验都是独立次试验,共进行了次试验进行下在水平个水平有设因数
,),,1;,,1(
,),,1(
,,,
1
1
iik
I
i
ii
iI
nkIiy
nNIin
AAAIA



i
Innnik
I
I
I
yyyy
yyy
yyy
AAA

21
21
22212
12111
21
值测观水平正态分布。为相互独立的 ),0(,,1
,,,1,
,,1;,,1,
2?
NIi
nke
nkIiey
iik
iikiik


5- 4






I
i
ii
I
i
n
k
ik
n
k
ik
i
i
ji
I
yn
N
y
N
y
Iiy
n
y
H
H
i
i
11 1
1
1
210
11
,,1
1
,:
,:
在上表中计算:
至少存在一对要检验假设:
为应变量影响的差异归结对因子的不同水平对响

















I
i
n
k
iik
I
i
i
I
i
i
I
i
n
k
ik
I
i
n
k
ik
i
ii
yySSE
yNyyySSA
yNyyySST
1 1
2
1
22
1
2
1 1
22
1 1
2
:组内差平方和
:组间差平方和
:修正的总平方和为
5- 5
INI
S S TS S ES S A
F
INSSE
ISSA
M S S E
M S S A
F
INSSEM S S EISSAM S S A
NfINfIf
SSESSASST





,1
)(
)1(
)(.)1(
11

两种方法完全等价。时拒绝也就是尾概率,当的没有显著差异。对给定就接受异;否则水平下的均值有显著差响应变量在不同的因子这意味着时拒绝,当对给定的水平
.
,)(,.
.
0
,10
0,,,1
Hp
FFPpFH
HFF
INI
INI




1
)(
)1(1


NS S T
INS S EM S S EINS S E
p
M S S E
M S S A
IS S AM S S AIS S A
pF
和随机误差因子效应值均方自由度平方和方差来源单因子方差分析表
5- 6








5
1
4
1
2
4
1
2
5
1
2
4
1
2
4
1
5
1
4
1
4
1
5
1
4
1
4
1
1 0 6 0 9 32 6 9 8 52 1 7 9 81 2 0 8 63 1 4 5 71 3 7 6 7
4 1 5 7 2 31 0 6 9 2 98 6 4 3 64 5 7 9 61 2 3 2 0 15 3 3 6 1
85.70
20
1
75.815.735.5375.8775.57
4
1
1 4 1 73 2 72 9 42 1 43 5 12 3 1
88703566524
79815091453
70646996672
90716098671
j i
ij
i
ij
j i
ij
i
ij
j i
ij
i
ij
j i
ij
i
ij
YY
YY
YY
YY
种肥施丁种肥施丙种肥施乙种肥施甲化肥只施均不相等。、、、,543211543210,;, HH
5- 7
3.3 5 3 61 4 1 7
20
1
4 1 5 7 2 3
4
1
20
1
4
1
4
1
2
2
5
1
4
1
5
1
2
4
1
2
5
1


j i
ij
j i
ij
j
j
YYYYSSA

25.2 1 6 24 1 5 7 2 3
4
1
1 0 6 0 9 3
4
1
2
5
1
4
1
5
1
4
1
2
5
1
4
1
2


j i
ij
j i
ij
j i
ij
YYYYS S E
组内平方和差平方和再根据上表计算组间离
5- 8
.
81.4.1 3 3.6
15.1 4 4
05.8 8 4
0
01.0,15,4
HFF
FF
拒绝查表计算


方差分析表:
1955.5 6 9 8
15.1 4 41525.2 1 6 2
0 0 5.01 3 3.605.8 8 443.3 5 3 6
SST
SSE
SSA
pF
总和组内组间值比平均离差平方和自由度离差平方和收获量有显著影响。即采用不同施肥方案对
5- 9
5.2.2 双因子等重复试验的方差分析在双因素试验中,如果不仅考虑因素 及 各自对试验结果的影响,而且还要考虑因素 与 的交互作用
(记作,简记作 )对试验结果的影响,则应该对于因素 与 的各个水平的每一种配合分别进行 次重复试验,即共进行 次试验,
假定各次试验都是独立的,得到样本观测值如下表:
BA?
B
A
A
A
),,1;,,1(),( JjIiBA ji
B
B
),,1( Kky ijk
I
2?K IJKN?
5- 10
I J k
IJ
kI
I
kI
I
I
mk
J
kk
Jk
J
kk
J
x
x
x
x
x
x
A
x
x
x
x
x
x
A
x
x
x
x
x
x
A
BBB




1
2
21
1
11
2
12
22
2 2 1
21
2 1 1
2
1
11
12
1 2 1
11
1 1 1
1
21
B因素
A因素
5- 11
);,,1;,,1(),
,
),(
2
JjIiBA
IBA
BB
AA
NY
BABA
ji
ij
jj
ii
ijjiij
jiji


下的效应(
在水平配合的交互作用与叫做因素下的效应在水平叫做因素下的效应,在水平叫做因素其中

)下的总体,的配合(与设在水平

lmij
J
I
H
H
H







1103
2102
2101
:
:
:
:要检验的原假设分别是
5- 12






i j k
ijkij
i
ijj
j
iji
k
ijkij
y
I J K
yy
I
y
y
J
yy
K
y
1
,
1
1
,
1
计算:
















i j k
ijijk
i j
jiij
j
j
i
i
i j k
ijk
yyS S E
yyyyKS S A B
yyIKS S BB
yyJKS S AA
yyS S T
2
2
2
2
2
随机误差平方和:
交互效应平方和:
:因子主效应平方和
:因子主效应平方和
:修正的总平方和为
5- 13
SSES S A BSSBSSASST
SSE
S S A B
SSB
SSA
SST
fffff
KIJIJI J Kf
JIJIIJf
Jf
If
I J KNf
S S ES S A BS S BS S AS S T






自由度分解公式:





的自由度分别是:、、、、
)1(
)1)(1(1
1
1
11
)1(,)1)(1(
)1(,1
)1(,1
~,
)]1([
)1)(1(
~,
)]1([
)1(
~,
)]1([
)1(







KIJJIABAB
KIJJBB
KIJIAA
FF
KIJSSE
JIS S A B
M S S E
M S S A B
F
FF
KIJSSE
JSSB
M S S E
M S S B
F
FF
KIJSSE
ISSA
M S S E
M S S A
F
5- 14
.)(
,,
.)(
,,
.)(
,,
2)1(,)1)(1(
,)1(,)1)(1(
1)1(,1
,)1(,1
0)1(,1
,)1(,1
HFFPp
FF
HFFPp
FF
HFFPp
FF
ABKIJJIAB
KIJJIAB
BKIJJB
KIJJB
AKIJIA
KIJIA
时就拒绝假设或者当对指定的时就拒绝假设或者当对指定的时就拒绝假设或者当对指定的









1
)1(
)1(
)1)(1(
)1)(1(
1
1
1
1





I J KSST
KIJ
SSE
M S S EKIJSSE
p
M S S E
M S S A B
JI
S S A B
M S S A BJIS S A B
p
M S S E
M S S B
J
SSB
M S S BJSSBB
p
M S S E
M S S A
I
SSA
M S S AISSAA
pF
AB
B
A
和随机误差交互效应主效应主效应值均方自由度平方和方差来源
5- 15
例 2,为比较三种松树在不同的地区的生长情况有无差别,在每个地区对每种松树随机的选取五株,测量它们的胸径,得到如下的数据:
19221213
2223131914222212
1218252321151018
23292826
2618251920261925
2117241926302228
24271821
2019241616211326
1714172120251523
3
2
1
A
A
A
松树种类区地
1B 2B 3B 4Biy
jy
98 100 94
84 92
105
105
130
397
120
102
116
75
471
353
1221293 314 323 291
说明

红色数字为和
5- 16
4.1 0 6
60
1 2 2 1
)921 2 098(
5
1
65.49
60
1 2 2 1
)2 9 13 2 33 1 42 9 3(
15
1
6.3 5 5
60
1 2 2 1
)3 5 34 7 13 9 7(
20
1
65.1 3 9 3
543
1 2 2 1
)222126(
2
212
2
2222
2
222
2
222





S S AB
SSB
SSA
SST
5965.1393
38.18480.882
4588.097.073.1764.106
4478.09.055.16365.49
0003.068.98.17726.355
和随机误差交互效应主效应主效应值均方自由度平方和方差来源分析表松树数据的双因子方差
B
A
pF
5- 17

著。对树种胸径主效应不显即地区因子没有理由拒绝拒绝是一个很大的概率,考虑因子对
B
H
FPp
FB B
02
48,3 4 4 7 8.09.0
90.0


。的生长优于数种最小。说明树种的均值最大,的均值的均值,
比较响。要进一步考查,则即树种对胸径有显著影非常小,因此拒绝考虑因子对
32
65.1755.23,,
0 0 3.068.9
68.9
32321
0148,2
AAAAA
HFPp
FA
A


。,即交互效应也不显著也没有理由拒绝也是一个很大的概率,考虑因子交互对
03
48,6 4 5 8 8.097.0
97.0
H
FPp
FAB AB

5- 18
5.3 线性回归我们知道 现实生活中的许多现象之间存在着相互依赖、
相互制约的关系,一切事物都是相互联系着、发展变化着的。
变量间的关系一般可以分为两大类。
1、确定性关系,即我们所熟悉的 变量间的关系可以用函数关系来表达,如圆的半径 R与圆的面积 S之间就存在确定的函数关系。
2,非确定性关系,即变量之间虽有密切的关系,但这种关系无法用确定的函数关系表达,如人的年龄与血压之间有密切关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间这种非确定性关系,称为相关关系 。
即使是具有确定性关系的变量,由于测量误差的影响,
其表现形式也具有某种程度的不确定性 。
回归分析是分析变量间的不确定性关系的一种方法,
有时也称为相关分析。
5- 19
( 1)从一组数据出发,分析变量之间存在着什么关系,建立这些变量之间的关系式(回归方程)并对关系式的可信程度进行统计检验。
( 2)利用回归方程式,根据一个或几个变量的值预测或控制另一个变量的取值。
( 3)从影响某一变量的诸多变量中判断哪些变量对它的影响是显著的,哪些是不显著的从而建立起更实用的回归方程。
( 4)根据预测和控制提出要求,选择试验点对试验进行设计。
1.回归分析的内容:
5- 20
例 3,在硝酸纳( NaNO3)的溶解度试验中,测得在不同温度 x 下,溶解于 100份水中的 硝酸纳份数 y的数据如下表:
1.1256.1134.999.927.856.803.760.717.66
6851362921151040
i
i
y
x
)(C。
这里 为自变量,是随机变量,我们要求 对的回归。
x y
xy xy 10
以 温度 为横坐标,
硝酸纳份数 为纵坐标将这些观察值描在平面直角坐标系上,
称为散点图。根据散点图可以作出经验直线:
x
y
)(,ii yx
xy 10
5- 21
的回归直线方程。对称为也称为回归变量。自变量称为回归系数,、固定的未知参数为一元线性回归模型,记确定的模型为一般地,称由
xyxy
x
V a r
E
xy
xy
10
10
2
10
10
.,0








一元线性回归分析的主要任务是:
(1) 用试验值(样本值)对,和 作点估计;
(2) 对回归系数,作假设检验;
(3) 在 处对 作预测,对 作区间估计,
0?
0? 2?
0xx? yy
1?
1?
5- 22





n
i
ii
n
i
i
nii
ii
nn
xyQQ
DE
nixy
yxyxn
1
2
10
1
2
10
21
2
10
21
),(
.,,,,0
,.,,,2,1,
),(,,),(





设组独立观测值,有相互独立且
(1) 回归系数的最小二乘估计
3,模型参数估计
),(m i n)?,?(

10,10
1010
10



QQ?
,使得和的估计和最小二乘法就是选择
5- 23





n
i
i
n
i
ii
xx
yyxx
xx
yxxy
xy
1
2
1
1
221
10


,解得



n
i
ii
n
i
i
n
i
i
n
i
i yxnxyxnxynyxnx
11
22
11
1,1,1,1其中
)( 110 xxyxy(经验)回归方程为:
xy 8 7 0 6.05 0 7 8.67?:
8 7 0 6.05 0 7 8.67
1
10


回归方程为中出例根据上述公式,可计算

5- 24

称为剩余标准差。
独立。、分别与差)为剩余方差(残差的方称的无偏估计为方和为残差平方和或剩余平称记的无偏估计)(
e
e
e
ee
e
n
i
n
i
iiii
e
Q
n
Q
yyxy
QQ




2
1
)?(

)
,
(
2
10
2
2
22
1 1
2
2
10
10
2



5- 25
4.检验、预测与控制
(1) 回归方程的显著性检验
.0:;0,1110
10
进行检验归结为对假设的显著性检验,对回归方程




HH
xY
程也无意义。来描述,所得的回归方回归的关系不能用一元线性与否则回归不显著,
性回归方程有意义;存在线性关系所求的线与认为被拒绝,则回归显著,假设
xy
xy
H 0:
10

5- 26

.,)2,1(
)2,1(
)2/(
1
001
1
2
0
HHnFF
yyU
nF
nQ
U
FH
F
n
i
i
e
否则就接受,拒绝故
(回归平方和)其中
~成立时,当检验法)







n
i
i
n
i
ixx
e
xx
xnxxxL
HHntT
nt
L
TH
t
1
22
1
2
00
2
1
0
)(
.,)2(
)2(
)2
其中否则接受,拒绝故
~成立时,当检验法
5- 27
2,121
1
.;
)()(
))((
)3
1
1
001
1 1
22
1





nFn
r
HHrr
yyxx
yyxx
r
r
n
i
n
i
ii
n
i
ii
其中否则就接受时,拒绝当记检验法
回归的效果是显著的。
即认为线性所以拒绝
。在本题中若取
00 2 5.0,7
2
,2
1
2
1
58.563 6 4 6.2
58.56
050
Htt
xx
T
n
e
n
i
i


5- 28
(2)回归系数的置信区间




xxexxe
xx
e
xx
e
LntLnt
L
x
n
nt
L
x
n
nt
/?)2(?,/?)2(?
1
)2(?,
1
)2(?
1
2
1
1
2
1
1
2
2
1
0
2
2
1
0
10





和的置信区间分别为置信水平为和

)2(
,
)2(
1
2
2
2
2
1
2
n
Q
n
Q
ee


的置信区间为的置信水平为
5- 29
(3)预测与控制
1)预测




n
i
i
n
xx
xx
n
ty
y
yxyy
1
2
2
0
2
,2
0
0
001000
1
1?
~
1


的预测区间为的置信水平为的预测值,作为的回归值用

)8 3 6 0.91,7 0 9 6.86()5 6 3 2.22 7 8.89(
%9525
4 0 6 0
26
9
10
3 1 8 3.28 7 0 6.05 0 7 8.67
1
9 8 0 4.0?05.0
2
0



预测区间为的时,在的预测区间为的置信水平为可以在本题中若取
yx
x
x
y
e

5- 30
在实际问题中样本容量 常常很大,这时我们不但能得到较短的预测区间,还可以 简化式子
,得到近似的预测区间,
n




n
i
i
n
xx
xx
n
ty
1
2
2
0
2
,2
0
1
1?~
2~,?2~ 00 yy
3~,?3~ 00 yy
置信度为 99.7%的预测区间近似地为:
置信度为 99.%的预测区间近似地为:
特别,的0y,?~,?~ 2020 uyuy
在 很大时,上式中根式近似等于 1,n
22 )2( znt 用?
近似,于是 预测区间近似地为:)%1(1 00
5- 31
2)控制控制是预测的反问题,即要求观察值 在某区间内取值时,应控制 在什么范围。亦即要求以的置信 度求出相应的 使所队应的观察值 落在 内。
y
),( 21 yy x
,,21 xx
21 xxx y ),( 21 yy
)%`1(1 00
这里我们只讨论 很大时的情形。利用前面的式子n
2020?~,?~ uyuy
21022
21021
~
~




uxuyy
uxuyy

令的上下限。来作为控制解出 xx
.?2,?2
,
2122
21


yy
yy
即大于长度)(要实现控制必须使区间注意:
第 5章结束
5- 32
全课程结束再见