§ 7 方差分析
§ 7.1 单因素试验的方差分析本节要求掌握单因素实验的方差分析的基本方法和步骤。
在科学试验和生产实际中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、
机器设备及操作人员的水平等因素。每一因素的改变都有可能影响产品的数量和质量。有些因素影响较大,有些较小。为了使生产过程得以稳定,保证优质、高产,
就有必要找出对产品质量有显著影响的那些因素。为此,
我们需进行试验。方差分析就是根据实验的结果进行分析,鉴别各个有关因素对实验结果影响的有效方法。
(即 方差分析就是通过对试验数据进行分析,检验方差相同各正态总体的均值是否相等,以判断各因素对试验结果的影响是否显著 。 )
在试验中,我们将要考察的指标称为 试验指标 。影响试验指标的条件称为 因素 。因素可分为两类,一类是人们可以控制的(可控因素),另一类是人们不能控制的。例如,反应温度、原料剂量、溶液浓度等是可以控制的,而测量误差、
气象条件等一般是难以控制的。以下我们所说的因素都是可控因素。因素所处的状态,称为该因素的 水平 。如果在一项试验中只有一个因素在改变称为 单因素试验,如果多于一个因素在改变称为 多因素试验 。
§ 7.1.1 单因素试验方差分析的模型例 1 进行某化学合成反应时,为了解催化剂对收率是否有影响,分别用 5种不同的催化剂独立地在相同条件下进行试验,每种催化剂试验 4次,得收率如下表。试判断催化剂对收率是否有显著性影响?
催化剂 收率 平均收率
1(X1 ) 0.86 0.89 0.91 0.90 0.8900
2(X2 ) 0.80 0.83 0.88 0.84 0.8375
3(X3 ) 0.83 0.90 0.94 0.85 0.8800
4(X4 ) 0.76 0.81 0.84 0.82 0.8075
5(X5 ) 0.96 0.93 0.95 0.94 0.9450
解,此例中只有催化剂一个因素(可控因素),5种不同的催化剂可视为该因素的 5个非数量水平,所考察的试验指标是收率。
在同一催化剂下试验所得收率可视为一个总体,5种不同的催化剂对应于 5个总体。记为 X1,X2,X3,X4,X5 。又假定 Xi 间相互独立同方差且 Xi~N(μi,ζ2) (i=1,2,3,4,5) 。设第 i个总体的各次试验值为 Xij
( j=1,2,3,4),故 Xij~ N(μi,ζ2),即有 Xij -μi ~N( 0,ζ2 )。因此,Xij -
μi可看成随机误差。记 Xij -μi =εij,则 Xij可写成
Xij = μi +εij,
εij ~N( 0,ζ2 ),各 εij独立,
i =1,2,3,4,5; j=1,2,3,4。
这样我们的问题归结为检验假设
H0,μ1=μ2=μ3=μ4=μ5 ; H1,μ1,μ2,μ3,μ4,μ5 不全相等,
现将问题一般化。设因素 A有 r个水平 A1,A2,…,A r,在水平 Ai
(i=1,2,…,r) 下,进行 ni(i≥2) 次独立试验,得到如下表的结果。
单因素试验数据及其计算表
A Xij
A1(X1) X11 X12 … X 1,n1
A2(X2) X21 X22 … X 2,n2
┆ ┆ ┆ ┆
Ar(Xr) Xr1 Xr2 … X r,rn




iii n
j
ij
n
j
ij
i
i
n
j
ij xxnnx
1
2
2
11
1



111
1
2
2
11
1
1
1 n
j
ij
n
j
ij
n
j
ij xxnnx




222
1
2
2
12
2
1
1 n
j
ij
n
j
ij
n
j
ij xxnnx




rrr n
j
ij
n
j
ij
r
r
n
j
ij xxnnx
1
2
2
11
1
i

i j
ij
j
ij
i ii
i
i j
ij xxnnx
22)(1
我们假定:各个水平 Ai(i=1,2,…,r) 下的样本 Xi1,Xi2,…,X i,ni 来自具有相同方差 ζ2,均值分别为 μi(i=1,2,…,r) 的正态总体 N(μi,ζ2),μi与 ζ2
未知。且设不同水平 Ai下的样本之间相互独立。
由于 Xij ~ N(μi,ζ2),即有 Xij - μi ~N( 0,ζ2 )。因此,Xij - μi可看成随机误差。记 Xij -μi =εij,则 Xij可写成
Xij = μi +εij,
εij ~N( 0,ζ2 ),各 εij独立,( 1.1)
i =1,2,3,…,r; j=1,2,…,ni 。
其中 μi与 ζ2均为未知参数 。 (1.1)式称为单因素试验方差分析的数学模型。这是本节的研究对象。
方差分析的任务是对于模型( 1.1),一是检验 r个总体 N(μ1,ζ12),
N(μ2,ζ22),…,N(μ r,ζr2)的均值是否相等,即检验假设
H0,μ1=μ2=…=μ r ; H1,μ1,μ2,…,μ r不全相等。 (1.2)
二是作出未知参数 μ1,μ2,…,μ r,ζ2的估计。(二略)。
为了将问题 (1.2)写成便于讨论的形式,我们将 μ1,μ2,…,μ r的加权平均值记为 μ,即其中,μ 称为总平均。再引入
r
i
iinN
1
1
r
i
iinN
1
1
ri inN 1
δi=μi-μ,i=1,2,…,r,此时有 n1δ1+n2δ2+…+n rδr=0,δi表示水平 Ai下的总体平均值与总平均的差异,习惯上将 δi称为水平 Ai的效应 。
利用这些记号,模型( 1.1)可改写成
Xij=μ+δi+εij,
εij~N(0,ζ2),各 εij独立
i=1,2,…,r ; j=1,2,…,n i
而假设( 1.2)等价于假设这是因为当且仅当 μ1=μ2=…=μ r时,μi = μ,即 δi =0,
i=1,2,…,r 。
0
1

r
i
iin?
)1.1(?
)2.1(?
.,,,:;0:
211
210
不全为零r
r
H
H



§ 7.1.2 离差平方和的分解下面我们从平方和的分解着手,导出假设检验问题的检验统计量。
引入总的离差平方和其中是数据的总平均。 SST 能反应全部试验数据之间的差异,
因此 SST 又称为 总变差 。又记 Ai水平下的样本平均值为,即
)2.1(?



r
i
n
j
ijT
i
XXSS
1 1
2)(
riXnX
in
j
ij
i
i,,2,1
1
1



r
i
n
j
ij
i
XNX
1 1
1
iX
我们将 SST写成注意到上式第三项(即交叉项)
于是我们就将 SST分解成为 SST=SSE+SSA ( 1.3)

XXXXXX
XXXXXXSS
i
r
i
n
j
iij
r
i
n
j
i
r
i
n
j
r
i
n
j
iijiiijT
ii
i i








1 11 1
2
2
1 1 1 1
2
2

02
22
11
111 1






i
ii
n
j
iiij
r
i
i
n
j
iij
r
i
ii
r
i
n
j
iij
XnXXX
XXXXXXXX
其中
SSE的各项 表示在水平 Ai下,样本观察值与样本均值的差异,这是 由随机误差所引起的 。叫做 误差平方和 (或组内离差平方和)。
SSA的各项 表示 Ai水平下的样本均值与数据总平均的差异,这是 由水平 Ai的效应的差异以及随机误差引起的 。 SSA 叫做因素 A的 效应平方和 (或组间离差平方和)。 (1.3)式就是我们所需要的平方和分解式。

2
1 1



r
i
n
j
iijE
i
XXSS
2 iij XX

2
1
2
2
11 1
2
XNXn
XXnXXSS
r
i
ii
i
r
i
i
r
i
n
j
iA
i




2XXn ii
§ 7.1.3 SSE,SSA的统计特性为了引出检验问题 的检验统计量,我们依次来讨论 SSE,SSA的一些统计特性。先将 SSE写成
( 1.4)
注意到 是总体 N(μi,ζ2) 的样本方差的 ni -
1 倍,于是有因各 Xij 独立,故 (1.4)式中各平方和独立。由 分布的可加性知即 ( 1.5)
这里,。
)2.1(?
2
1
2
1
11
1

rn
j
rrj
n
j
jE XXXXSS?
2
1

in
j
iij XX
)1(~/ 2221 inj iij nXXi
2?


r
i
i
E nSS
1
2
2 )1(~ )(~ 2
2 rN
SS E
ri inN 1
下面讨论 SSA的统计特性。在 H0成立的条件下,所有 Xij
可视为来自同一正态总体 N(μ,ζ2),由抽样分布定理知
(1.6)
因 SST=SSE+SSA,所以由( 1.5),(1.6)及 分布的性质知
( 1.7)
§ 7.1.4 检验统计量及拒绝域由 F分布的定义可得检验统计量为
(1.8)
其中 MSE,MSA分别称为 组内均方 和 组间均方 。
)1(~ 22?NSS T
222
AET SSSSSS
2?
)1(~ 22?rSS A
),1(~)/( )1/( rNrFMSMSrNSS rSSF
E
A
E
A

可见,统计量 F正是因素 A所引起的均方与随机因素引起的均方之比,F值越大,A的影响越显著 。因此,可利用 F统计量,检验 H0,α1=α2=…=α r=0 。当给定 α 时,
根据附表可查得临界值为 Fα(r-1,N-r),其拒绝域为 F>
Fα(r-1,N-r),若统计量样本值落入拒绝域则否定 H0,即因素 A对试验有显著影响。否则不能认为因素 A对试验有显著影响。
上述统计分析过程可归纳为方差分析表方差分析表离差来源 离差平方和 自由度 均方 F值 临界值 显著性组间 SSA r-1
组内 SSE N-r
1 r
SSMS A
A
rN
SSMS E
E
E
AMSMSF? ),1( rNrF
§ 7.1.5 方差分析的计算与分析依照上面的原理,单因素方差分析需先计算 SSA和 SSE,
然后,按方差分析表,对 H0,α1=α2=…=α r=0进行检验。
因为
(1.9)
同样得,
(1.10)
可见,计算 SSA和 SSE只要根据方差分析计算表进行计算就十分简单。
2
1 1
2
11
2
2
11
2
1 1
2
1 1
1
2
11
2
1
2
111
1
2
1
2)(








r
i
n
j
ij
n
j
ij
r
i i
n
j
ij
r
i i
r
i
n
j
ij
i
i
r
i
n
j
ij
i
i
r
i
i
r
i
i
i
r
i
i
i
r
i
i
iA
iii
ii
x
N
x
n
xNx
n
xNx
n
nxx
n
n
xnxnxxnxxnSS
2
111 1
2 1




ii n
j
ij
r
i i
r
i
n
j
ijE xnxSS
续解例 1:
( 1) H0,μ1=μ2=μ3=μ4=μ5 ; H1,μ1,μ2,μ3,μ4,μ5 不全相等,
( 2)列出数据及计算表计算表催化剂 收率
1(X1 ) 0.86 0.89 0.91 0.90 3.56 4 3.1684 3.1698
2(X2 ) 0.80 0.83 0.88 0.84 3.35 4 2.8056 2.8089
3(X3 ) 0.83 0.90 0.94 0.85 3.52 4 3.0976 3.1050
4(X4 ) 0.76 0.81 0.84 0.82 3.23 4 2.6083 2.6117
5(X5 ) 0.96 0.93 0.95 0.94 3.78 4 3.5721 3.5726
17.44 20 15.252 15.2680
(3)根据计算表的最后一行的结果代入( 1.9)和 (1.10)式得?
0 1 6 0 5.0252.152 6 8 0.15
4
1
0 4 4 2 7.0
20
44.17
252.15
20
1
4
1
2
4
1
5
1
5
1
4
1
2
2
2
5
1
4
1
2
4
1
5
1







j
ij
ii j
ijE
i j
ij
j
ij
i
A
xxSS
xxSS
4 1 224 14 1 )(1 j ijj ijiij ij xxnnx
(4)列出方差分析表并下统计结论方差分析表离差来源 离差平方和 自由度 均方 F值 临界值 显著性组间 0.04427 4 0.01107
10.35 4.89 **
组内 0.01605 15 0.00107
给定 α=0.01,按 df1=r-1=4,df2=N-r=15,查附表得临界值
F0.01(4,15)=4.89 。因 F= 10.35 > F0.01(4,15)=4.89,所以拒绝 H0,即催化剂对收率有高度 (**)显著影响。
应该注意,方差分析模型中,要求各正态总体具有方差齐性,本例及后面的例题中的各正态总体具有方差齐性的结论,可用上章介绍的多个正态总体方差齐性的检验获得。2?
例 2 选取 4种不同品系的雌性小白鼠,静脉注射巴比妥钠 60mg/kg后,
观察它们的麻醉维持时间(分),结果见下表。试问这四种不同品系的雌性小白鼠麻醉维持时间是否有显著性差异?
麻醉维持时间(分)
A 19 26 26 23 21 30 23 27 195 8 4753.125 4841
B 36 33 29 28 40 26 192 6 6144 6286
C 26 18 23 15 28 110 5 2420 2538
D 19 15 26 30 34 14 16 19 173 8 3741.125 4131
670 27 17058.25 17796
解( 1)作假设 H0,μ1=μ2=μ3=μ4 ; H1,H0不成立
( 2)列方差分析计算表
( 3)根据计算表的最后一行的结果代入( 1.9)和 (1.10)式得
75.73725.1705817796
1
3241.432
11
2
1
4
1
4
1 1
2
2
4
1 1
2
1
4
1






ii
ii
n
j
ij
i ii
n
j
ijE
i
n
j
ij
n
j
ij
i i
A
x
n
xSS
x
N
x
n
SS


iii n
j
ij
n
j
ij
i
i
n
j
ij xxnnx
1
22
11
)(1
( 4)列出方差分析表并下统计结论方差分析表离差来源 离差平方和 自由度 均方 F值 临界值 显著性组间 432.3241 3 144.108
4.4927 3.03 *
组内 737.75 23 32.076
给定 α=0.05,按 df1=r-1=3,df2=N-r=23,查附表 8得临界值
F0.05(3,23)=3.03 。因 F= 10.35 > F0.05(3,23)=3.03,所以拒绝
H0,即认为这四种不同品系的雌性小白鼠麻醉维持时间有显著性差异。
例 3 灯泡厂用 4种不同材料制成灯丝,检验灯丝材料这一因素对灯泡寿命的影响。如果检验水平 α =0.05,并且灯泡寿命服从正态分布,
试根据下表试验记录,判断灯泡寿命是否因灯丝材料不同而有显著差异(假定不同材料的灯丝制成的灯泡寿命的方差相同)?
材料 灯泡寿命
A1 1600 1610 1650 1680 1700 1720 1800
A2 1580 1640 1640 1700 1750
A3 1460 1550 1600 1620 1640 1660 1740 1820
A4 1510 1520 1530 1570 1600 1680
解,( 1) 作假设 H0,μ1=μ2=μ3=μ4 ; H1,H0不成立
( 2)把表中每一个数据减去 1640,再除以 10(仍记为 xij ),列方差计算表材料 灯泡寿命
A1 -4 -3 1 4 6 8 16 28 7 112 398
A2 -6 0 0 6 11 11 5 24.2 193
A3 -18 -9 -4 -2 0 2 10 18 -3 8 1.125 853
A4 -13 -12 -11 -7 -4 4 -43 6 308.167 515
-7 26 445.492 1959


iii n
j
ij
n
j
ij
i
i
n
j
ij xxnnx
1
22
11
)(1
(3) 根据计算表的最后一行的结果代入( 1.9)和 (1.10)式得
(4)列出方差分析表并下统计结论方差分析表离差来源 离差平方和 自由度 均方 F值 临界值 显著性组间 443.607 3 147.869
2.15 3.05 *
组内 1513.508 22 68.7958
给定 α=0.05,按 df1=r-1=3,df2=N-r=22,查附表得临界值
F0.05(3,22)=3.05 。因 F= 10.35 > F0.05(3,22)=3.05,所以拒绝 H0,即认为灯泡的使用寿命不会因灯丝材料不同而有显著差异。
508.1513
1
607.443
11
2
1
4
1
4
1 1
2
2
4
1 1
2
1
4
1





ii
ii
n
j
ij
i ii
n
j
ijE
i
n
j
ij
n
j
ij
i i
A
x
n
xSS
x
N
x
n
SS
§ 7.1.6 两两间多重比较的检验方法一,T方法
1,t化极差的定义设随机变量 X1,X2,…,Xr相互独立,且都服从 N(0,1),记它们的极差为又设随机变量则称 为 t化极差,t化极差是随机变量。
附表 15给出其临界值。
jirji XXR,1m a x
)(~ 2 dfZ?
dfZ
Rq
/
}{ qqP
2,T方法:设有相互独立等方差的 r个正态总体,从每个总体中独立地随机抽取容量均为 n的样本,总数为 N=nr。则 t化极差为对于给定的检验水平 α,有拒绝域为而故只要,即可拒绝 H0
riN i,,2,1),( 2
rji
nMS
XX
q
E
ji
rji,,2,1,
/
m a x
,1




q
nMS
XX
P
E
ji
rji
/
m a x
,1
TnMSqXX Ejirji /m a x,1?
TXXPTXXP jirjilk,1m a x
nMSqTXX Eji /
3,T方法的步骤
(1)提出假设 不成立。
(2)对给定的检验水平 α 及因素的水平 r和 df=N-r,
从附表 15中查得,并计算 T值。
(3)比较样本均数差的绝对值 和 T的大小,若,则可认为 和 有显著差异;反之,则无显著差异。
例 4:对 5种催化剂收率的均数作两两间多重比较
010,),;,,2,1,(,HHjirjiH ji
q
lk xx
Txx lk k? l?
二,S方法
T方法只适用于各水平试验次数相同的情况,
当各水平下实验次数不相同时可用 S方法。
当,则可认为 和 有显著差异;反之,则无显著差异。
例 5:对四种不同品系的雌性小白鼠静脉注射巴比妥钠后麻醉维持时间的均数作两两间多重比较。
lklkEkl nnnnMSST /)(
Txx lk k? l?
§ 7.2 双因素方差分析一,无重复实验的方差分析且相互独立
SST=SSA+SSB+SSE
dfT=dfA+dfB+dfE
检验统计量
)]1)(1(),1[(~
)]1)(1(),1[(~


crcF
MS
MS
F
crrF
MS
MS
F
E
B
B
E
A
A
),,0(~ 2

N
X
ij
ijjiij
二、有重复试验的方差分析检验统计量
EBABAT SSSSSSSSSS
]),1)(1[(~
),1(~
),1(~
rcNrcF
MS
MS
F
rcNcF
MS
MS
F
rcNrF
MS
MS
F
E
BA
BA
E
B
B
E
A
A



§ 7.3 多因素正交试验设计与方差分析一、正交试验设计与正交表正交试验设计是利用“正交表”科学地安排多因素试验的一种方法。正交设计所安排的试验代表性极强,因而,不仅试验次数少,而且便于分析推断出最佳试验方案。
1、正交表的构造特点
L—正交表; n—行数(试验的次数);
r—列数; p—各因素的水平数。
( 1)均衡性:任一列中不同的数字出现的次数相同。
( 2)正交性:任何两列同一行的两个数字组成的所有可能数对,其出现的次数相同。
rn pL
2、正交试验设计的步骤
(1)明确试验目的,选定试验指标。
(2)挑选因素和水平。
(3)选用正交表,作表头设计。
A、根据因素水平的个数选择正交表,并使列数略多于因素的个数。
B、作表头设计。如果无交互作用各因素可以任意排在表头的列上;如果有交互作用,则要借助两列间交互作用表,确定因素的交互作用列。
C、一般至少要留一列作空白列。
(4)按正交表的安排方案进行试验,并记录试验结果。
二、正交试验结果的分析
1、直观分析法
(1)计算各因素水平的综合平均值及极差。
综合平均值 —反映因素水平的试验效果极差 —反映因素对指标影响的程度
(2)比较极差大小排定因素影响顺序:因素极差越大,说明因素水平改变对试验结果影响也越大。
(3)由综合平均值的大小选取各因素的最佳水平组合:综合平均值越大(小),水平越优,各因素最佳水平组合在一起就是最佳试验方案。
2、方差分析法基本思想:先将试验结果的总离差平方和分解为各个因素(包括交互作用)及误差的离差平方和,
然后求出各 F值,作 F检验。
(1)总离差平方和的分解
(2)计算各因素离差平方和
2水平( m—“1”出现的次数)

rT
n
i
i
n
i
iT
SSSSSSSS
y
n
yyySS



21
11
2 1
2
1
22 1

n
i
i
jj
j ynm
III
SS
3水平
(3)计算 F值,进行 F检验注意:
(4)选取最佳试验方案
2
1
222 1


n
i
i
jjj
j ynm
IIIIII
SS
EE
jj
dfSS
dfSS
F
/
/
1,1 pdfndf jT