1
第三章 方差分析
2
案例 1 哪种促销方式效果最好?
某大型连锁超市为研究各种促销方式的效果,
选择小包装食品在其下属五个门店分别采用某种
促销方式各进行了 4个月的试验 。 试验前该类食
品在这五个门店的月销售额基本相同 。 试验结果
如下:
促销方式 月销售额 ( 万元 )
A
1
( 通常销售 ) 1 2, 5 1 5, 4 1 1, 8 1 3, 2
A
2
( 广告宣传 ) 1 3, 1 1 4, 7 1 2, 3 1 3, 6
A
3
( 有奖销售 ) 1 5, 6 1 6, 5 1 3, 4 1 3, 1
A
4
( 特价销售 ) 1 7, 9 1 9, 6 2 1, 8 2 0, 4
A
5
( 买一送一 ) 1 8, 2 1 7, 1 1 6, 5 1 6, 2
3
案例 2 如何确定最优生产工艺?
影响某化工厂化工产品得率的主要因素是反应温度和
使用的催化剂种类 。 为研究产品的最优生产工艺, 在其
他条件不变的情况下, 选择了四种温度和三种催化剂,
在不同温度和催化剂的组合下各做了一次试验, 测得结
果如下:
化工产品得率试验 (得率,%)
催化剂
温度
B
1
B
2
B
3
A
1
( 6 0
O
C) 6 6 7 3 7 0
A
2
( 7 0
O
C) 8 1 9 6 5 3
A
3
( 8 0
O
C) 9 7 7 9 6 6
A
4
( 9 0
O
C) 7 9 7 6 8 8
4
案例 2要研究的问题
1.温度是否对该产品的得率有显著影响?若确
有显著影响, 应将温度控制在什么范围内可使得
率最高?
2.催化剂是否对该产品的得率有显著影响?若
确有显著影响, 哪种催化剂的效果最好?
3.温度和催化剂的不同组合是否对产品得率
有显著影响?如确有显著影响,哪种温度和催
化剂的组合可使得率最高?
5
§ 3.1 方差分析概述
一, 方差分析的基本概念
试验中状态发生变化的因素用字母 A,B,C … 表示;称
因素在试验中所取的不同状态为 水平 。 因素 A的 a个水平
记为 A1,A2,A3,…,Aa;因素 B的 b个水平记为 B1,B2,…,Bb等 。
若试验中只有一个变动的因素, 就称为单因素试验;
若有两个变动的因素, 就称为双因素试验;若有两个以
上的变动因素, 则称为多因素试验 。
二、方差分析的基本假设
设因素 A在水平 Ai下的某项指标为总体 Xi,i=1,2,…,a,
则假定各 Xi服从相互独立的同方差正态分布,即
Xi ~ N(?i,?2 ),Xi相互独立
6
三, 方差分析的目的
方差分析的目的,就是要检验原假设
H0,?1 = ?2 = … = ?a
是否成立 。 若拒绝 H0,就说明因素 A对试验结
果有显著影响, 进一步还应确定使效果达到最佳
的水平;若不能拒绝 H0,则说明因素 A对该项指
标无显著影响, 试验结果中的差异主要是由其他
未加控制的因素和试验误差所引起的 。
虽然可以通过对各 ?i用两两 t检验法来检验各 ?i
间是否存在显著差异, 但 t检验无法检验多个因素
间的交互效应, 而这正是方差分析要解决的主要
问题 。
7
§ 3.2 单因素方差分析
一,单因素试验的数据模型
设水平 Ai下的 ni个试验结果为 xij ;
i=1,2,3…,a, j=1,2,3…,n i;它们是总体 Xi的一组
样本观察值,。则 xij 有如下数据模型:
xij= ?i+?ij,i=1,2,…,a ; j=1,2,…,n i (3.2-1)
?ij~ N(0,?2 ),且相互独立
其中,xij 是可以观察到的试验结果; ?ij是由各
种无法控制的因素引起的, 称为 不可观察 的随机
误差 或 试验误差 。
8
二, 需要引进的记号
称 ( N= ? ni ) 为一般平均,它是 a个不
同水平总体均值的加权平均;称
?i= ?i-?; i=1,2,…,a
为水平 Ai 的 效应,它反映了 Xi 的均值与一般平均的差
异,于是,(3.2-1)式可改写为
xij= ? + ?i+ ?ij
上式表明任一观察值由一般平均、水平的效应和试验
误差三部分组成。于是要检验的原假设也可改写为:
H0,?1= ?2=… =?a=0
??
i ii
μnN1μ
9
三,偏差平方和及其分解
1.总的偏差平方和
称 ; ( )
为 总的偏差平方和,它反映了数据 xij 间总的
波动量大小。
为便于对 ST 进行分解,记
? ? ??
i j
2
T )(S xx ij
? ??
i j ij
xx N1
??
j
ij
i
i xnx
1
10
2.平方和的分解
其中;
Se反映了各样本内的数据波动, 它主要是由随
机误差所引起的, 称为 误差平方 和 或 组内平方和 。
SA反映了各样本间数据的差异, 主要是由 A的
不同水平的效应间的差异所引起的, 称为因素 A
的平方和 或 组间平方和 。
Aei j i
22
T SS)()(S ??? ? ? ???? xxnxx iiiij
? ? ??
i j
2
e )(S iij xx
? ??
i
2
A )(S xxn ii
11
四,检验 Ho的统计量
可以证明,当 Ho为真时,统计量
~ F(a-1,N-a)
∴ 在给定显著性水平 ?下,若
F > F?(a-1,N-a)
就拒绝 Ho,说明各水平 Ai的效应间存在显著差
异, 或称因素 A的作用是显著的 。
由于 SA /(a-1)和 Se /(N-a) 分别是组间数据和组内数据
的样本方差, 故称这种基于检验样本方差比的方法为 方
差分析 。
)/(
)1/(
aNS
aSF
e
A
?
??
12
五,方差分析表
表 3.1 单因素方差分析表
若 F>F0.01(a-1,N-a),称因素 A的作用高度显著;
若 F0.01 (a-1,N-a)≥F> F0.05(a-1,N-a),称因素 A的作
用一般显著;
若 F≤F0.05(a-1,N-a),则认为因素 A的作用不显著 。
来源 平方和 自由度 均方和 F 比
A S
A
a - 1 S
A
/ ( a - 1 )
误差 S
e
N - a S
e
/ ( N - a )
总和 S
T
N - 1
)/(
)1/(
aNS
aS
e
A
?
?
13
六,进一步的分析
若因素 A的作用是显著的,接下来还需要确定:
1.因素 A的哪一水平效果最好?
这可以通过求出各 来确定 。 它是 ?i的最小
方差无偏估计 。
2.因素 A的各水平间是否都存在显著差异?
这可以通过对各 ?i进行两两 t检验来确定。
ix
14
案例 1 哪种促销方式效果最好?
某大型连锁超市为研究各种促销方式的效果,
选择小包装食品在其下属五个门店分别采用某种
促销方式各进行了 4个月的试验 。 试验前该类食
品在这五个门店的月销售额基本相同 。 试验结果
如下:
促销方式 月销售额 ( 万元 )
A
1
( 通常销售 ) 1 2, 5 1 5, 4 1 1, 8 1 3, 2
A
2
( 广告宣传 ) 1 3, 1 1 4, 7 1 2, 3 1 3, 6
A
3
( 有奖销售 ) 1 5, 6 1 6, 5 1 3, 4 1 3, 1
A
4
( 特价销售 ) 1 7, 9 1 9, 6 2 1, 8 2 0, 4
A
5
( 买一送一 ) 1 8, 2 1 7, 1 1 6, 5 1 6, 2
15
案例 1分析
用 Excel 或 SPSS 软件求解本案例,可得如下
方差分析表:
∵ F=16.58 > F0.01(4,15)=4.89
可知不同的促销方式对该商品销售额的影响是
高度显著的。
来源 平方和 自由度 均方和 F 比
A 1 2 7, 7 2 4 3 1, 9 3
误差 2 8, 8 9 15 1, 9 2 6
1 6, 5 8
总和 1 5 6, 6 1 19
16
进一步的分析
由 Excel或 SPSS软件的运行输出结果还可得:
=13.225; =13.425; =14.65
=19.925; =17.00
由 SPSS软件的运行输出结果还直接可得到对各 ?i的 t
检验结果如下:
?1 ?2 ?3 ?5
(通常销售 ) ?1
(广告宣传 ) ?2
(有奖销售 ) ?3
(买一送一 ) ?5 * * *
(特价销售 ) ?4 * * * *
1x 2x 3x
4x 5x
用 Excel也可得到
17
对各种促销方式的评价
由以上分析可知,“特价销售”的效果最好,
“买一送一”次之,“广告宣传”和“有奖销售”
的效果最差,与“通常销售”间无显著差异,即
无任何促销效果。
18
§ 3.3 双因素方差分析
当试验中同时有多个因素在变化时, 不仅要考
虑每个因素对试验指标的影响, 还要考虑各因素
不同水平间的相互搭配对试验指标的影响 。 由各
因素的不同水平组合所产生的影响, 称为因素间
的交互作用 。
19
一,不考虑交互作用的双因素方差分析
1.无交互作用时双因素试验的数据模型
设试验中有 A,B两个变动的因素, 因素 A取 a个水平,
因素 B取 b个水平;在 Ai和 Bj组合下各作一次试验, 试验
效果为总体 Xij(i=1,2,...,a; j=1,2,...,b),且相互独立 。 即
Xij~ N( ?ij,?2 ),Xij相互独立
同样,称 ?i为因素 A的水平 Ai的效应; βj为因素 B的水
平 Bj的效应。并设 xij 为 Xij的观察值,则 xij 有如下数据
模型:
xij = ?ij+?ij = ? + ?i +βj+ ?ij
?ij~ N(0,?2 ),且相互独立
其中 为一般平均。
? ?? ijμab1μ
20
2.要检验的假设
在无交互作用的双因素方差分析中,要
检验的假设有以下两个:
H01,?1 = ?2 =…= ?a = 0
H02,β1=β2=…=β b = 0
若拒绝 H01,说明因素 A的作用显著。
若拒绝 H02,说明因素 B的作用显著。
21
3.偏差平方和的分解
与单因素方差分析完全类似地,可以将总的偏
差平方和 ST作如下分解:
其中 Se仅反映了误差间的波动,称为 误差平方
和 ;
SA主要反映了因素 A各水平效应间的差异,称
为 因素 A的平方和 或 A的组间平方和 。
SB主要反映了因素 B各水平效应间的差异,称
为 因素 B的平方 和或 B的组间平方和 。
BAe
i j
ijT SSSxxS ???? ? ??
2)(
22
4.检验用的统计量
同样可以证明:当 H01为真时,统计量
~ F(a-1,(a-1)(b-1))
当 H02为真时,统计量
~ F(b-1,(a-1)(b-1))
∴ 当 FA>Fα(a-1,(a-1)(b-1)) 时,拒绝 H01
当 FB>Fα(b-1,(a-1)(b-1)) 时,拒绝 H02
)1)(1/(
)1/(
??
??
baS
aSF
e
A
A
)1)(1/(
)1/(
??
??
baS
bSF
e
B
B
23
5.方差分析表
表 3.2 无交互作用的双因素方差分析表
来源 平方和 自由度 均方和 F 比
A S
A
a - 1 S
A
/ ( a - 1 )
B S
B
b - 1 S
B
/ ( b - 1 )
误差 S
e
( a - 1 ) ( b - 1 ) S
e
/ ( a - 1 ) ( b - 1 )
总和 S
T
a b - 1
)1)(1/(
)1/(
??
?
baS
aS
e
A
)1)(1/(
)1/(
??
?
baS
bS
e
B
24
案例 2 如何确定最优生产工艺?
影响某化工厂化工产品得率的主要因素是反应温度和
使用的催化剂种类 。 为研究产品的最优生产工艺条件,
在其他条件不变的情况下, 选择了四种温度和三种催化
剂, 在不同温度和催化剂的组合下各做了一次试验, 测
得结果如下:
化工产品得率试验 (%)
催化剂
温度
B
1
B
2
B
3
A
1
( 6 0
O
C) 6 6 7 3 7 0
A
2
( 7 0
O
C) 8 1 9 6 5 3
A
3
( 8 0
O
C) 9 7 7 9 6 6
A
4
( 9 0
O
C) 7 9 7 6 8 8
25
案例 2分析
用 Excel 或 SPSS 软件求解本案例,可得如下
方差分析表:
∵ FA=0.42<F0.05(3,6)=4.76
FB=0.92<F0.05(2,6)=5.14
故温度和催化剂对该化工产品的得率都无显著
影响 !?
来源 平方和 自由度 均方和 F 比
A 2 5 0 3 8 3, 3 0, 4 2
B 3 6 0, 5 2 1 8 0, 3 0, 9 2
误差 1 1 7 9, 5 6 1 9 6, 6
总和 1 7 9 0 11
26
问题出在哪里?
以上结论既不符合实际情况, 也违背化学的基
本常识 。 由本案例所给的试验数据可以明显看出,
温度和催化剂不同搭配下的得率是存在显著差异
的 。 显然, 很可能是由于未考虑因素间的交互作
用, 才导致了错误的分析结果 。
催化剂
温度
B
1
B
2
B
3
A
1
( 6 0
O
C) 6 6 7 3 7 0
A
2
( 7 0
O
C) 8 1 9 6 5 3
A
3
( 8 0
O
C) 9 7 7 9 6 6
A
4
( 9 0
O
C) 7 9 7 6 8 8
27
二,考虑交互作用的双因素方差分析
1.考虑交互作用时双因素试验的数据模型
(1)交互效应 设试验中有两个因素在变化,
因素 A有 a个水平, 因素 B有 b个水平, 记 A,B间
的交互作用为 A× B,?,?i,?j的定义同前, 由
于存在交互作用, 因此 ?ij≠ ?+?i+?j。 称
(??)ij= ?ij- ?- ?i- ?j
为 Ai与 Bj的 交互效应, 它反映了两因素间不同
水平的组合对试验结果的影响 。 因此, 总体 Xij
的均值
?ij= ? + ?i + ?j + (??)ij
28
(2)要检验的假设
由于考虑了交互作用,因此要检验的原假设有
以下三个:
H01,?1=?2=...=?a =0
H02,?1=?2 =...=?b =0
H03,(??)ij=0;对一切 i,j
29
(3)数据模型
为检验交互作用,就需要在每一 AiBj水平组合
下进行重复试验,以下仅讨论在各种水平组合下
作等重复试验的情况。
记 xijk 为在 AiBj 组合下的第 k次试验的观察值,
则 xijk 有如下数据模型:
xijk = ?+?i+ ?j+(??)ij+?ijk
?ijk~ N(0,?2 ),且相互独立
i=1,2,…,a ; j=1,2,…,b ; k=1,2,…,n
30
2.偏差平方和的分解
完全类似地,可以将总的偏差平方和 ST 作如
下分解:
其中 Se 仅反映了误差间的波动,称为误差平方和;
SA× B 除反映误差外,还反映了交互效应间的差异,称
为 A× B间平方和
SA 主要反映了因素 A各水平效应间的差异,称为因素
A的平方和或 A的组间平方和。
SB 主要反映了因素 B各水平效应间的差异,称为因素 B
的平方和或 B的组间平方和。
BABAei j k i j kT SSSSxxS ????? ? ? ?? ?
2)(
31
3.检验用统计量及其分布
同样可以证明:
当 H01为真时,~ F(a-1,ab(n-1))
当 H02为真时,~ F(b-1,ab(n-1))
当 H03为真时,
~ F((a-1)(b-1),ab(n-1))
故 H01,H02,H03的拒绝域分别为:
FA>Fα(a-1,ab(n-1))
FB>Fα(b-1,ab(n-1))
FA× B>Fα((a-1)(b-1),ab(n-1))
)1(/
)1/(
?
??
nabS
aSF
e
A
A
)1(/
)1/(
?
??
nabS
bSF
e
B
B
)1(/
)1)(1/(
?
??? ?
? nabS
baSF
e
BA
BA
32
4.方差分析表
表 3.3 有交互作用的双因素方差分析表
来源 平方和 自由度 均方和 F 比
A S
A
a - 1 S
A
/ ( a - 1 )
B S
B
b - 1 S
B
/ ( b - 1 )
A × B S
A × B
( a - 1 ) ( b - 1 ) S
A × B
/ ( a - 1 ) ( b - 1 )
误差 S
e
a b ( n - 1 ) S
e
/ a b ( n - 1 )
总和 S
T
a b n - 1
)1(/
)1/(
?
?
nabS
aS
e
A
)1(/
)1/(
?
?
nabS
bS
e
B
)1(/
)1)(1/(
?
???
nabS
baS
e
BA
33
案例 2 如何确定最优生产工艺?
影响某化工厂化工产品得率的主要因素是反应温度和
使用的催化剂种类 。 为研究产品的最优生产工艺条件,
在其他条件不变的情况下, 选择了四种温度和三种催化
剂, 在不同温度和催化剂的组合下各做了两次试验, 测
得结果如下:
化工产品得率试验 (%)
催化剂
温度
B
1
B
2
B
3
A
1
(60
O
C) 6 6,5 8 7 3,6 8 7 0,6 5
A
2
(70
O
C) 8 1,7 9 9 6,9 7 5 3,5 5
A
3
(80
O
C) 9 7,9 5 7 9,6 9 6 6,5 6
A
4
(90
O
C) 7 9,7 1 7 6,5 6 8 8,8 2
34
重新求解案例 2
用 Excel 或 SPSS 求解本案例,可得如下结果:
方差分析表
来源 平方和 自由度 均方和 F 比
A 4 3 5, 5 3 1 4 5, 2 4, 2 1
B 6 1 1, 1 2 3 0 5, 5 8, 8 7
A × B 2 9 1 2, 9 6 4 8 5, 5 1 4, 0 9
误差 4 1 3, 5 12 3 4, 5
总和 4 3 7 3, 0 23
35
运行结果分析
∵ F0.01(3,12) = 5.95 > FA = 4.21 > F0.05(3,12) = 3.49
FB = 8.87 > F0.01(2,12) = 6.93
FA× B = 14.09 > F0.001(6,12) = 8.83
∴ 温度对得率有显著影响;催化剂对得率的影
响是高度显著的;温度与催化剂的交互作用对得
率的影响是极高度显著的 。 这说明各种催化剂都
有最佳的催化温度 。
由本案例可知,如果因素间存在显著的交互作
用而在方差分析时未加考虑,就会得出错误结论。
故对双因素和多因素方差分析,通常都应考虑交
互作用。
36
进一步的分析
由 Excel的运行输出结果还可得到各 如下表
所示:
可知 A3B1和 A2B2两种组合下的平均得率最高,
分别为 96% 和 96.5%。
B1 B2 B3
A1 62 70.5 67.5
A2 80 96,5 54
A3 96 74 61
A4 75 66 85
ijx