上一页 下一页湘潭大学数学与计算科学学院 1
§ 6.1 单因素方差分析
通常把生产实践与科学实验中的结果,如产品的性能,
产量等统称为 指标,影响指标的因素用,,,A B C L,表示。
因素在试验中所取的不同状态称为水平,因素 A 的不同水
平用 12,,AA L 表示。
在一项试验中,如果让一个因素的水平变化,其他因素
水平保持不变,这样的试验叫做 单因素试验 。处理单因
素试验的统计推断问题称为 单因素方差分析 或 一元方差
分析 。类似地可定义多因素方差分析。本节先介绍单因
素方差分析。
上一页 下一页湘潭大学数学与计算科学学院 2
例 6.1 有 5种油菜品种, 分别在 4块试验田上种植, 所得
亩产量如表 6.1所示 ( 单位,kg) 。
表 6.1
1 2 3 4
1
A
256 222 280 298
2
A
244 300 290 275
3
A
250 277 230 322
4
A
288 280 315 259
5
A
206 212 220 212




试问,不同油菜品种对平均亩平产影响是否显著。
上一页 下一页湘潭大学数学与计算科学学院 3
例 6.2 某种型号化油器的原喉管结构油耗较大, 为节约能源,
设想了两种改进方案以降低油耗指标 —— 比油耗 。 现对用各
种结构的喉管制造的化油器分别测得如表 6.2的数据 。
表 6.2 原始数据表
比 油 耗
1
A
:原结构 231.0 232.8 227.6 228.3 224.7 225.5 229,3 230.3
2
A
:改进方案Ⅰ 22.8 224.5 218.5 220.2
3
A
:改进方案Ⅱ 224.3 226.1 221.4 223.6

标 水

试问,喉管的结构对比油耗的影响是否显著。
上一页 下一页湘潭大学数学与计算科学学院 4
从例 1 和例 2 可以看出,在因素 A 的不同水平下,
试验数据之间存在有差异,即使在因素
A
的同一个水平
下,试验数据之间同样存在差异。 那么,试验数据之间
的差异到底是由于因素水平变化所引起的呢?还是由
于随机误差的干扰所引起的呢?如果是由于因素的水
平改变所引起的,那么因素取什么水平,对试验指标最
有利? 这就是方差分析要解决的问题。 下面给出这个问
题的数学模型及统计推断方法。
上一页 下一页湘潭大学数学与计算科学学院 5
一、数学模型
设在一项试验中,因素 A 有 r 个不同水平 12
,,,
r
A A AL
,在
水平 i
A
下的试验结果 i
X
服从正态分布
2
(,)( 1,2,,)
i
N i r?? ? L

且 1
,,
r
XX L
相互独立。 现在水平 i
A
下做了 i
n
次试验,获
得了
i
n
个试验结果
( 1,2,,)
i j i
X j n? L
,它可以看成是取自总

( 1,2,,)
i
X i r? L
的一个样本(见表 6.3 )。 由于 ij
X
服从正
态分布
2
(,)
i
N ??
,故 ij
X
与 i
?
的差可以看成一个随机误差
ij
?
,ij
?
服从正态分布
( 1,2,,,1,2,,)
i
i r j n?? LL
。于是单因素
方差分析的数学模型可以表示为
上一页 下一页湘潭大学数学与计算科学学院 6
2
,1,2,,,1,2,,
( 0,)
ij i ij
i
ij
X
i r j n
N
??
??
?? ??
???
??
LL
:, ( 6.1 )
其中诸 ij? 相互独立。我们的任务是检验上述同方差的
r 个正态总体的均值是否相等,即检验假设,
0 1 2 1 1 2
:,,,,
rr
HH? ? ? ? ? ?? ? ? ?LL
中至少有两个不相等。
上一页 下一页湘潭大学数学与计算科学学院 7
表 6.3
总 体 样 本 样本平均
1
X
11
X
12
X L
1
1 n
X
1X
2
X
21
X
22
X L
2
2 n
X
2X
M M M
M M
r
X
1r
X
2r
X
L rrn
X
rX

1
11
1
( ),
rr
i i i i
ii
n n n
n
? ? ? ? ?
??
? ? ? ???
表示因素 A 第 i 水
平效应 ( 1,2,)i ? L,则试验数据的数学模型可写为,
上一页 下一页湘潭大学数学与计算科学学院 8
,1,2,,,1,2,,ij i ij iX i r j n? ? ?? ? ? ? ?LL 。 ( 6.2 )
单因素方差分析问题即为检验假设
0 1 2 1
:0
r
HH? ? ?? ? ? ? ?L,
至少有一个 0 ( 1,2,,)i ir? ?? L 是否成立的问题。
上一页 下一页湘潭大学数学与计算科学学院 9
二、离差平方和分解与显著性检验
显然,检验假设 0H 可以用 t 检验法,只要检验任意一
个水平的效应 i? 等于 0,但这样要做 r 次检验,很繁
琐。为了简化步骤,可采用下面介绍的 离差平方和分
解的方法 。记
1
1
,1,2,,
i
n
i
ij
ji
X X i r
n
?
?? ? L
,( 6.3 )
11
1
i
nr
ij
ij
XX
n
??
? ??
,( 6.4 )
上一页 下一页湘潭大学数学与计算科学学院 10
其中
1
r
i
i
nn
?
? ?
,iX 是从第 i 个总体中抽得的样本均
值,称为组内平均,而 X 称为 总平均, n 是从 r 个
总体中抽得的样本的总容量。
由式( 6.3)和式( 6.4)可以推得
11
( ) ( ) 0
inr
iiij
ij
X X X X
??
? ? ???
由此得到,总离差平方和为
上一页 下一页湘潭大学数学与计算科学学院 11
22
1 1 1 1
( ) [ ( ) ( ) ]
ji nnrr
iiT i j i j
i j i j
Q X X X X X X
? ? ? ?
? ? ? ? ?? ? ? ?
22
1 1 1 1 1 1
( ) 2 ( ) ( ) ( )
i i in n nr r r
i i i ii j i j
i j i j i j
X X X X X X X X
? ? ? ? ? ?
? ? ? ? ? ? ?? ? ? ? ? ?
22
1 1 1
( ) ( )
inrr
iii j i
i j i
X X n X X
? ? ?
? ? ? ?? ? ?
令:
2
11
()
i
nr
i
E ij
ij
Q X X
??
????
,( 6.5 )
2
1
()
r
i
Ai
i
Q n X X
?
???
,( 6.6 )
上一页 下一页湘潭大学数学与计算科学学院 12
分别称 EQ 与 AQ 为组内离差平方和与组间离差平方和。 EQ
表示 ijX 与其组内平均 iX 的离差平方和,它反映了试验误
差引起的数据波动,而第二项 A
Q
是组内平均与总平均的
离差平方和,它在一定程度上反映了因素水平的改变引
起的数据 波动和试验误差引起的数据波动,从而得
T E AQ Q Q??, ( 6.7 )
上式称为 总离差平方和分解公式 。
下面通过比较 EQ 和 AQ 的大小来构造检验 0H 的统计量。
上一页 下一页湘潭大学数学与计算科学学院 13
令 1 1 1
11
,
iinn r
i ij ij
j i jnn
? ? ? ?
? ? ?
?? ? ? ?
,并将式( 6.2 )代入式( 6.5 )
和式( 6.6 )得
22
1 1 1
( ) ( )
inrr
iiA i i i j i i j
i i j
Qn ? ? ? ? ? ? ? ?
? ? ?
? ? ? ? ? ? ? ?? ? ?
22
11
( ) ( )
rr
iiA i i i i
ii
Q n n? ? ? ? ? ? ? ?
??
? ? ? ? ? ? ? ???
22
1 1 1
( ) 2 ( )
r r r
iii i i i i
i i i
n n n? ? ? ? ? ?
? ? ?
? ? ? ? ?? ? ?
由于
2
2(0,),0,,1,2,,,1,2,,i
ij iN N i r j nn
?? ? ? ?? ????
??
:, L L
上一页 下一页湘潭大学数学与计算科学学院 14
从而
2 2 2
1 1 1
( ) ( 1 ) ( )
inrr
iE i j i
i j i
E Q E n n r? ? ? ?
? ? ?
? ? ? ? ? ?? ? ?
22
1
( 1 )
r
A i i
i
E Q n r??
?
? ? ??
故有
2EQ
E
nr
?
??
???
???, ( 6.8 )
22
1
1
11
r
A
ii
i
Q
En
rr
??
?
??
????
????
?
。 ( 6.9 )
上一页 下一页湘潭大学数学与计算科学学院 15
当 0
H
成立时,即 12
0
r
? ? ?? ? ? ?L
时,
2
1
AE
QQ
EE
r n r
???
??

否则,
1
AE
QQ
EE
r n r
?
??
,从而当 0
H
不成立时,比值
/ ( 1 )
/ ( )
AA
EE
QQr
d ef F
Q n r Q
?
?
?
有偏大的趋势,所以
F
可作为检验 0H 的 统计量。
下面我们先求出在 0H 成立条件下,统计量 F 的概率分
布。当 0H 成立时,所以的 i? 都等于零,式( 6.2 )变成
ij ijX ????
上一页 下一页湘潭大学数学与计算科学学院 16
代入 TQ, EQ 和 AQ 的表达式,式( 6.7 )可写成
222
1 1 1 1 1
( ) ( ) ( )
iinnr r r
iiT i j i j i
i j i j i
Qn ? ? ? ? ? ?
? ? ? ? ?
??? ? ? ? ? ???? ? ? ? ?
又因
1 2
22
1 1 1 1
()
in nrr
i j i j
i j i j
n? ? ? ?
? ? ? ?
? ? ?? ? ? ?

22 2 2
1 1 1 1 1
( ) ( ) ( )
iinnr r r
iii j i j i
i j i j i
nn? ? ? ? ? ?
? ? ? ? ?
??? ? ? ? ???? ? ? ? ?
上一页 下一页湘潭大学数学与计算科学学院 17
上式两边同除以
2
?,左边
2
2
11
1
i
nr
ij
ij
?
?
??
??
是自由度为
n

2
?
的变量,右边三项分别为,
2
22
11
11
()
i
nr
i
E ij
ij
Q ??
??
??
?? ??
,

r
个约束条件
1
( ) 0 ( 1,2,,)
i
n
i
ij
j
ir??
?
? ? ?? L
,
所以二次型
2
1
E
Q
? 的秩为
nr ?;
上一页 下一页湘潭大学数学与计算科学学院 18
2
22
1
11
()
r
i
Ai
i
Qn ??
??
?
????
??
?
,
有一个约束条件
1
( ) 0
r
i
i
i
n ??
?
??
?
,
所以
2
A
Q
? 的秩为
1r ?;
2
2
1
() n ?
?
的自由度是 1,它们的自由度
之和为
( ) ( 1 ) 1n r r n? ? ? ? ?
,由定理 1.6 的充分条件知,
2
E
Q
?
服从自由度为
nr ?

2
?
分布,2
A
Q
?
服从自由度为
1r ?

2
?
分布,且
2
E
Q
? 与
2
A
Q
? 相互独立。
上一页 下一页湘潭大学数学与计算科学学院 19
由 F 分布的定义知,在 0H 成立的条件下,
2
2
/ ( 1 ) /( 1 )
/ ( 1 ) /( )
A A A
EE E
QQ r Q r
F
Q n Q n r Q
?
?
??
? ? ?
??
服从自由度为 ( 1,)r n r?? 的 F 分布。
给定显著性水平 ?,如何确定小概率事件呢?
由式( 6.8 )与式( 6.9 )可知当 0
H
成立时,
1
AE
QQ
EE
r n r
? ? ? ?
?
? ? ? ?
??? ? ? ? ;
当 0
H
不成立时,
1
AE
QQ
EE
r n r
? ? ? ?
?
? ? ? ?
??? ? ? ? 。
上一页 下一页湘潭大学数学与计算科学学院 20
因此,F的值有偏大的趋势。
于是可以从 F 分布数值表中查得 ( 1,1 )F r n? ?? 的值,使
? ?( 1,)P F F r n r? ?? ? ? ?
一次抽样后由样本值计算得 F 的数值,

( 1,)F F r n r
?
? ? ?
,
则拒绝假设 0H,即可认为在显著水平 ? 下,因素的不
同水平对试验结果有显著影响;
上一页 下一页湘潭大学数学与计算科学学院 21

( 1,)F F r n r
?
? ? ?,
则接受假设 0H,即可认为在显著性水平 ? 下,因素的不同水
平对试验结果无显著影响。 将以上分析列成方差分析表 6.4
表 6.4
方差来源 离差平方和 自由度 平均离差平方和 F 值 显著性
组 间
2
1
()
r
i
Ai
i
Q n X X
?
??? 1r ?
1
A
A
Q
Q
r
?
?
组 内
2
11
()
i
nr
i
E i j
ij
Q X X
??
????
nr ?
E
E
Q
Q
nr
?
?
总 和
2
11
()
i
nr
T i j
ij
Q X X
??
???? 1n ?
A
E
Q
F
Q
?
上一页 下一页湘潭大学数学与计算科学学院 22
需要指出,表 6,4 中的 TQ 在计算 F 时并没有用到,它
只用以核对 T A E
Q Q Q??
是否成立,起校核作用,其中
显著性一栏,当 0, 0 5? ? 时,若检验显著,打一个,*,
号,当
0, 0 1? ?
,若检验显著,打 2 个,* *,号,表
示因素
A
影响高度显著。
为方便起见,计算 F值时常常采用下面的公式:
2 2 2
1 1 1 1 1 1
11
( ),( ),
i i in n nr r r
ij ij ij
i j i j i ji
Q X P X R X
nn? ? ? ? ? ?
? ? ?? ? ? ? ? ?, ( 6,10 )
可以证明:
,,A E TQ Q P Q R Q Q R P? ? ? ? ? ?
上一页 下一页湘潭大学数学与计算科学学院 23
例 6.3 对上面例 4.2 中提供的试验数据,在显著性水
平 0,01? ? 条件下进行方差分析。判断喉管的结构对比
油耗的影响是否有显著差异?
解 将所有原始数据减去 2 20 后进行计算,见表 6,5 的
数据
'( 2 2 0 )
i j i jXX ?? 。
表 6.5 变换后的数据表
水平
'
ij
X
1
A
11.0 12.8 7.6 8.3 4.7 5.5 9.3 10.3
2
A
2.8 4.5 - 1.5 0.2
3
A
4.3 6.1 1.4 3.6
上一页 下一页湘潭大学数学与计算科学学院 24
本例中,
3
1 2 3
1
3,8,4,4,1 6i
i
r n n n n n
?
? ? ? ? ? ??
23
'
11
1 5 1 6, 4 3in
ij
ij
PXn
??
??? ??
??
??
??
23
'
11
1 6 7 2,0 7in
ij
iji
QXn
??
??? ??
??????
3
'2
11
7 5 7, 7 4i
n
ij
ij
RX
??
? ????
'' 1 5 5, 6 4,2 4 0, 9 8ATQ Q P Q R P? ? ? ?? ? ? ? ? ?
' 8 5, 3 4EQ R Q??? ? ?
上一页 下一页湘潭大学数学与计算科学学院 25
方差分析见表 6.6:
表 6.6 方差分析表
方差来源 离差平方和 自由度 均方离差 F 值 显著性
组 间 155.64 2 77.82 11.86 * *
组 内 85.34 13 6.56
总 和 240.98 15
对 0, 0 1? ?,查 F 分布表得 0,01 ( 2,13 ) 6,70F ?,由于
0,0 1
1 1, 8 6 6, 7 0 ( 2,1 3 )FF? ? ?,
故可认为不同的喉管结构的比油耗有显著差异,从 iX 的
大小可以知道,改进方案 1 的比油耗最小,采用这种结
构有可能节省油耗。
上一页 下一页湘潭大学数学与计算科学学院 26
三、参数估计
若用 2? ? ? ?,,,ii? ? ? ? 分别表示,,ii? ? ? 及 2?? 的估计,则有
2
?,1,2,,,
?,1,2,,,
,
? / ( ),
i
i
i
i
E E
X X i r
X i r
X
Q n r Q
?
?
?
?
? ? ? ?
?
???
?
??
?
? ? ??
L
L
( 6.11 )
可以证明上述估计都是无偏估计。
在单因素方差估计中,如果检验结果为 0H 不成立,有
时需要对 ik?? ? 作区间估计。
上一页 下一页湘潭大学数学与计算科学学院 27
为此可用 ikXX ? 作为 ik?? ? 的点估计。 由式( 6.2 )
()ik ikikXX ? ? ? ?? ? ? ? ? 。
由于 ikXX ? 服从正态分布
211
,
ik
ik
N
nn
? ? ?
?? ??
???? ??
????,

()
11
ik
ik
ik
XX
nn
??
?
? ? ?
?
服从标准正态公布
( 0,1 )N
,
上一页 下一页湘潭大学数学与计算科学学院 28
又考察随机变量
2
22
11
11
()
inr
ij iE
ij
Q ??
?? ??
?? ??
,
由 2? 变量的可加性,它服从自由度为 nr ? 的 2? 分布。
不难证明,ik?? ? 与 EQ 是相互独立的,又
2
E
EQ ??,所以
()
11
ik
ik
E
ik
XX
T
Q
nn
??? ? ?
?
??
???
??
服从自由度为 nr ? 的
t
分布。
上一页 下一页湘潭大学数学与计算科学学院 29
给定显著性水平 ?,查 t 分布表可得 /2 ()t n r? ?,使得
? ?/2 ( ) 1P T t n r? ?? ? ? ?,

/2
11()
i k E i k
ik
P X X t n r Q
nn?
??
? ???
? ? ? ? ? ?? ??
????
/2
11( ) 1
i k E
ik
X X t n r Q
nn?
?
??? ?
? ? ? ? ? ? ????
?? ??
故 ik?? ? 的置信概率为 1 ?? 的置信区间为
/2
11
()ik
E
ik
X X t n r Q
nn
?
?? ??
??? ? ? ???
???? 。 ( 6.12 )
上一页 下一页湘潭大学数学与计算科学学院 30
例 6.4 (续例 6.1 ) 对例 6,1 中的数据,试问,
( 1 )不同品种对亩产量有无显著影响;
( 2 )求 15?? ? 的置信度为 0.95 的置信区间。
解 ( 1 )令 ijX 表示第 i 个品种在第 j 块试验田的亩产量,
1 2 51,2,3,4,5,4,2 0i n n n n? ? ? ? ? ?L 。由公式( 6.10 )计算得
5 4 5 4
22
1 1 1 1
11 3 9 5 4 7 2,( ) 1 3 8 3 9 8 0, 5
4i j i ji j i jR x Q x? ? ? ?? ? ? ?? ? ? ?
254
2
11
1 ( 5 2 3 6 )( ) 1 3 7 0 7 8 4, 8
2 0 2 0ijijPx ??? ? ???
1 3 9 5 4 7 2 1 3 7 0 7 8 4, 8 2 4 6 8 7, 2TQ R P? ? ? ? ?
上一页 下一页湘潭大学数学与计算科学学院 31
1383980,5 1370784,8 13195,7AQ Q P? ? ? ? ?
2 4 6 8 7, 2 1 3 1 9 5, 7 1 1 4 9 1, 5ETAQ Q Q? ? ? ? ?
根据以上数据列方差分析表如下 ( 表 6.7) 。
表 6.7 方差分析表
方差来源 离差平方和 自由度 平均平方和 F 值 显著性
组 间 13195.7 4 3298.925 4.31 *
组 内 11491.5 15 766.1
总 和 24687.2 19
对于 0, 0 5? ?,查 F 表得 0,0 5 ( 4,1 5 ) 3,0 6F ?, 由于
0, 0 54, 3 1 3, 0 6 ( 4,1 5 )FF? ? ?,从而知因素 A 影响显著,即
不同品种对平均亩产量有显著影响。
上一页 下一页湘潭大学数学与计算科学学院 32
( 2)
1
1 ( 2 5 6 2 2 2 2 8 0 2 9 8 ) 2 6 4
4x ? ? ? ? ? ?
5
1 ( 2 0 6 2 1 2 2 2 0 2 1 2 ) 2 1 2,5
4x ? ? ? ? ? ?对
0, 0 5? ?, 2 0 5 1 5nr ? ? ? ?,查 t 分布表得 0, 0 2 5 ( 1 5 ) 2, 1 3 1 5t ?,
故由公式( 6,12 )得 15?? ? 的置信度为 0.95 的置信区间为
15 0.025
11( 1 5 )
44E
x x t Q
?? ??
? ? ??? ??
????
12 6 4 2 1 2,5 2,1 3 1 5 7 6 6,1
2
??? ? ? ? ?
??
??
? ?5 1, 5 2, 1 3 1 5 1 9, 6,5 1, 5 2, 1 3 1 5 1 9, 6 ( 9, 7,9 3, 3 )? ? ? ? ? ?