6-1
第六章 方差分析
? 第一节 方差分析的基本问题
? 第二节 单因素方差分析
? 第三节 双因素方差分析
6-2
第一节 方差分析的基本问题
? 一、方差分析问题的提出
? 问题:消费者与供应厂商间经常出现纠纷。
纠纷发生后,消费者经常会向消费者协会投
诉。消协对以下几个行业分别抽取几家企业,
统计最近一年中投诉次数,以确定这几个行
业的服务质量是否有显著的差异。结果如下
表:
6-3
观测值 行业
零售业 旅游业 航空业 家电制造
业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
行业平均 49 48 35 59
总平均 47.9
6-4
? 二、概念:方差分析简称 ANOV( Analysis
of Variance),该统计分析方法能一次性地
检验多个总体均值是否存在显著差异。
? H0:
? H1,不全等。
12 r? ? ?? ? ?L
12,,,r? ? ?L
6-5
? (一)因素。因素又称因子,是在实验中或
在抽样时发生变化的, 量,,通常用 A,B、
C,… 表示。方差分析的目的就是分析因子对
实验或抽样的结果有无显著影响。如果在实
验中变化的因素只有一个,这时的方差分析
称为单因素方差分析;在实验中变化的因素
不只一个时,就称多因素方差分析。双因素
方差分析是多因素方差分析的最简单情形。
6-6
? (二)水平。因子在实验中的不同状态称作
水平。如果因子 A有 r个不同状态,就称它有 r
个水平,可用表示。我们都针对因素的不同
水平或水平的组合,进行实验或抽取样本,
以便了解因子的影响。
6-7
? (三)交互影响。当方差分析的影响因子不
唯一时,必要注意这些因子间的相互影响。
如果因子间存在相互影响,我们称之为, 交
互影响, ;如果因子间是相互独立的,则称
为无交互影响。交互影响有时也称为交互作
用,是对实验结果产生作用的一个新因素,
分析过程中,有必要将它的影响作用也单独
分离开来。
6-8
? 三、方差分析的原理
? (一)方差的分解。样本数据波动就有二个
来源:一个是随机波动,一个是因子影响。
样本数据的波动,可通过离差平方和来反映,
这个离差平方和可分解为组间方差与组内方
差两部分。组间方差反映出不同的因子对样
本波动的影响;组内方差则是不考虑组间方
差的纯随机影响。
6-9
? 离差平方和的分解是我们进入方差分析的
,切入点,,这种方差的构成形式为我们分
析现象变化提供了重要的信息。如果组间方
差明显高于组内方差,说明样本数据波动的
主要来源是组间方差,因子是引起波动的主
要原因,可以认为因子对实验的结果存在显
著的影响;反之,如果波动的主要部分来自
组内方差,则因子的影响就不明显,没有充
足理由认为因子对实验或抽样结果有显著作
用。
6-10
? (二)均方差与自由度
? 因素或因素间, 交互作用, 对观测结果的影
响是否显著,关键要看组间方差与组内方差
的比较结果。当然,产生方差的独立变量的
个数对方差大小也有影响,独立变量个数越
多,方差就有可能越大;独立变量个数越少,
方差就有可能越小。为了消除独立变量个数
对方差大小的影响,我们用方差除以独立变
量个数,得到, 均方差( Mean Square),,
作为不同来源方差比较的基础。引起方差的
独立变量的个数,称作, 自由度, 。
6-11
? 检验因子影响是否显著的统计量是一个 F统计
量:
? F统计量越大,越说明组间方差是主要方差来
源,因子影响越显著 ; F越小,越说明随机方
差是主要的方差来源,因子的影响越不显著。
组内均方差
组间均方差?F
6-12
第二节 单因素方差分析
? 一、单因素条件下离差平方和的分解
数据结构如下:
样本
因素
水平
1 2 ?? n 合计 均值
1A
11X
12X
??
nX 1
.1X
.1X
2A
21X
22X
??
nX 2
.2X
.2X
?
?
?
??
?
?
?
rA
1rX
2rX
??
rnX
.rX
.rX
合计
..X
X
6-13
? 总离差平方和 SST=SSE+SSA
? ? ?? 2)( XXSST ij
? ??? ? ?? 2.2,)()( XXnXXSSA ii
? ? ?? 2,)( iij XXSSE
6-14
? 二、因素作用显著性的检验
? 自由度的确定,SST是由于的波动引起的方差,但
是,这里所有的 nr个变量并不独立,它们满足一个
约束条件,真正独立的变量只有 nr-1个,自由度是
nr-1。 SSA是因子在不同水平上的均值变化而产生
的方差。但是,r个均值并不是独立的,它们满足一
个约束条件,因此也丢失一个自由度,它的自由度
是 r-1。 SSE是由所有的在各因素水平上的围绕均值
波动产生,它们满足的约束条件一共 r个,失去了 r
个自由度,所以 SSE的自由度是 nr-r。 SST,SSA和
SSE的自由度满足如下关系:
? nr-1=(r-1)+(nr-r)
6-15
? 检验统计量是,
),1(~ rnrrF
M S E
M S AF ???
1?? r
SSAM SA rnrSSEM S E ??
式中,
6-16
? F值越大,越说明总的方差波动中,组间方差
是主要部分,有利于拒绝原假设接受备选假
设;反之,F值越小,越说明随机方差是主要
的方差来源,有利于接受原假设,有充分证
据说明待检验的因素对总体波动有显著影响。
因此,检验的拒绝域安排在右侧。
6-17
?F
α
接受域 拒绝域
6-18
方差分析:单因素方差分析
SUMMARY
组 计数 求和 平均 方差
列 1 7 343 49 116.67
列 2 6 288 48 184.8
列 3 5 175 35 108.5
列 4 5 295 59 162.5
方差分析
差异源 SS df MS F P-value F crit
组间 1456.6 3 485.54 3.4066 0.0388 3.1274
组内 2708 19 142.53
总计 4164.6 22
投诉问题的解
6-19
第三节 双因素方差分析
? (一)无交互影响:
因素 B
1B
2B
??
nB
均值
1A
11X
12X
??
nX 1
.1X
2A
21X
22X
??
nX 2
.2X
?
?
?
??
?
?
因
素
A
rA
1rX
2rx
??
rnX
.rX
均值
1.X
2.X
??
nX,
X
6-20
? 数据的离差平方和分解形式为:
? SST=SSA+SSB+SSE
? ? ?? 2)( XXS S T ij
? ??? ? ?? 2.2,)()( XXnXXSSA ii
? ??? ? ?? 2.2 )()( XXrXXSSB jj
? ??? ?? 2.,)( XXXXS S E jiij
6-21
? SSA表示的是因素 A的组间方差总和,SSB是
因素 B的组间方差总和,都是各因素在不同水
平下各自均值差异引起的; SSE仍是组内方
差部分,由随机误差产生。各个方差的自由
度是,SST的自由度为 nr-1,SSA的自由度
为 r-1,SSB的自由度为 n-1,SSE的自由度
为 nr-r-n-1=( r-1) (n-1)。
6-22
? 各个方差对应的均方差是:
? 对因素 A而言:
? 对因素 B而言:
? 对随机误差项而言:
1?? r
SSAM SA
1?? n
SSBM S B
1???? nrnr
SSEM S E
6-23
? 我们得到检验因素 A与 B影响是否显著的统计
量分别是:
)]1)(1(,1[~ ???? nrrFM S EM S AF A
)]1)(1(,1[~ ???? nrnFM S EM S BF B
6-24
? (二)有交互影响
因素 B
1B
2B
??
nB
1A
m
X
X
X
11
112
111
?
m
X
X
X
12
122
121
?
??
nm
n
n
X
X
X
1
21
11
?
2A
m
X
X
X
21
212
211
?
m
X
X
X
22
222
221
?
??
nm
n
n
X
X
X
2
22
12
?
?
?
?
??
?
因
素
A
rA
mr
r
r
X
X
X
1
12
11
?
mr
r
r
X
X
X
2
22
21
?
??
r n m
rn
rn
X
X
X
?
2
1
6-25
? 离差平方和分解形式:
? SST=SSA+SSB+SSAB+SSE
??
?
m
l ijl
ij XmX
1
.
1 ? ??
? ?
n
j
m
l ijl
i XnmX
1 1
..
1
? ??
? ?
r
i
m
l ijl
j XrmX
1 1
..
1 ? ? ?? ij lXr n mX 1
6-26
? 上式中
? ? ? ?? 2)( XXS S T ijl
? ?? 2)( XXnmSSA i
? ?? 2.,)( XXrmSS B j
? ? ???? 2....,)( XXXXmSSA B jiij
? ? ??? 2,)( iji jl XXS S E
6-27
? 离差平方和 SST,SSA,SSB,SSAB和 SSE
的自由度分别是 rnm-1,r-1,n-1,(r-
1)(n-1)和 rn(m-1)。
6-28
? 相应的均方差是
1?? r
S S AM S A 1?? nSSBM S B
)1)(1( ??? nr
S S A BM S A B
)1( ?? mrn
S S EM S E
6-29
? 检验因素 A与 B影响是否显著的统计量分别是,
? 检验交互影响是否显著的统计量度是:
),1(~ rnr n mrFM S EM S AF A ???
),1(~ rnr n mnFM S EM S BF B ???
]),1)(1[(~ rnr n mnrFM S EM S A BF AB ????
第六章 方差分析
? 第一节 方差分析的基本问题
? 第二节 单因素方差分析
? 第三节 双因素方差分析
6-2
第一节 方差分析的基本问题
? 一、方差分析问题的提出
? 问题:消费者与供应厂商间经常出现纠纷。
纠纷发生后,消费者经常会向消费者协会投
诉。消协对以下几个行业分别抽取几家企业,
统计最近一年中投诉次数,以确定这几个行
业的服务质量是否有显著的差异。结果如下
表:
6-3
观测值 行业
零售业 旅游业 航空业 家电制造
业
1 57 68 31 44
2 66 39 49 51
3 49 29 21 65
4 40 45 34 77
5 34 56 40 58
6 53 51
7 44
行业平均 49 48 35 59
总平均 47.9
6-4
? 二、概念:方差分析简称 ANOV( Analysis
of Variance),该统计分析方法能一次性地
检验多个总体均值是否存在显著差异。
? H0:
? H1,不全等。
12 r? ? ?? ? ?L
12,,,r? ? ?L
6-5
? (一)因素。因素又称因子,是在实验中或
在抽样时发生变化的, 量,,通常用 A,B、
C,… 表示。方差分析的目的就是分析因子对
实验或抽样的结果有无显著影响。如果在实
验中变化的因素只有一个,这时的方差分析
称为单因素方差分析;在实验中变化的因素
不只一个时,就称多因素方差分析。双因素
方差分析是多因素方差分析的最简单情形。
6-6
? (二)水平。因子在实验中的不同状态称作
水平。如果因子 A有 r个不同状态,就称它有 r
个水平,可用表示。我们都针对因素的不同
水平或水平的组合,进行实验或抽取样本,
以便了解因子的影响。
6-7
? (三)交互影响。当方差分析的影响因子不
唯一时,必要注意这些因子间的相互影响。
如果因子间存在相互影响,我们称之为, 交
互影响, ;如果因子间是相互独立的,则称
为无交互影响。交互影响有时也称为交互作
用,是对实验结果产生作用的一个新因素,
分析过程中,有必要将它的影响作用也单独
分离开来。
6-8
? 三、方差分析的原理
? (一)方差的分解。样本数据波动就有二个
来源:一个是随机波动,一个是因子影响。
样本数据的波动,可通过离差平方和来反映,
这个离差平方和可分解为组间方差与组内方
差两部分。组间方差反映出不同的因子对样
本波动的影响;组内方差则是不考虑组间方
差的纯随机影响。
6-9
? 离差平方和的分解是我们进入方差分析的
,切入点,,这种方差的构成形式为我们分
析现象变化提供了重要的信息。如果组间方
差明显高于组内方差,说明样本数据波动的
主要来源是组间方差,因子是引起波动的主
要原因,可以认为因子对实验的结果存在显
著的影响;反之,如果波动的主要部分来自
组内方差,则因子的影响就不明显,没有充
足理由认为因子对实验或抽样结果有显著作
用。
6-10
? (二)均方差与自由度
? 因素或因素间, 交互作用, 对观测结果的影
响是否显著,关键要看组间方差与组内方差
的比较结果。当然,产生方差的独立变量的
个数对方差大小也有影响,独立变量个数越
多,方差就有可能越大;独立变量个数越少,
方差就有可能越小。为了消除独立变量个数
对方差大小的影响,我们用方差除以独立变
量个数,得到, 均方差( Mean Square),,
作为不同来源方差比较的基础。引起方差的
独立变量的个数,称作, 自由度, 。
6-11
? 检验因子影响是否显著的统计量是一个 F统计
量:
? F统计量越大,越说明组间方差是主要方差来
源,因子影响越显著 ; F越小,越说明随机方
差是主要的方差来源,因子的影响越不显著。
组内均方差
组间均方差?F
6-12
第二节 单因素方差分析
? 一、单因素条件下离差平方和的分解
数据结构如下:
样本
因素
水平
1 2 ?? n 合计 均值
1A
11X
12X
??
nX 1
.1X
.1X
2A
21X
22X
??
nX 2
.2X
.2X
?
?
?
??
?
?
?
rA
1rX
2rX
??
rnX
.rX
.rX
合计
..X
X
6-13
? 总离差平方和 SST=SSE+SSA
? ? ?? 2)( XXSST ij
? ??? ? ?? 2.2,)()( XXnXXSSA ii
? ? ?? 2,)( iij XXSSE
6-14
? 二、因素作用显著性的检验
? 自由度的确定,SST是由于的波动引起的方差,但
是,这里所有的 nr个变量并不独立,它们满足一个
约束条件,真正独立的变量只有 nr-1个,自由度是
nr-1。 SSA是因子在不同水平上的均值变化而产生
的方差。但是,r个均值并不是独立的,它们满足一
个约束条件,因此也丢失一个自由度,它的自由度
是 r-1。 SSE是由所有的在各因素水平上的围绕均值
波动产生,它们满足的约束条件一共 r个,失去了 r
个自由度,所以 SSE的自由度是 nr-r。 SST,SSA和
SSE的自由度满足如下关系:
? nr-1=(r-1)+(nr-r)
6-15
? 检验统计量是,
),1(~ rnrrF
M S E
M S AF ???
1?? r
SSAM SA rnrSSEM S E ??
式中,
6-16
? F值越大,越说明总的方差波动中,组间方差
是主要部分,有利于拒绝原假设接受备选假
设;反之,F值越小,越说明随机方差是主要
的方差来源,有利于接受原假设,有充分证
据说明待检验的因素对总体波动有显著影响。
因此,检验的拒绝域安排在右侧。
6-17
?F
α
接受域 拒绝域
6-18
方差分析:单因素方差分析
SUMMARY
组 计数 求和 平均 方差
列 1 7 343 49 116.67
列 2 6 288 48 184.8
列 3 5 175 35 108.5
列 4 5 295 59 162.5
方差分析
差异源 SS df MS F P-value F crit
组间 1456.6 3 485.54 3.4066 0.0388 3.1274
组内 2708 19 142.53
总计 4164.6 22
投诉问题的解
6-19
第三节 双因素方差分析
? (一)无交互影响:
因素 B
1B
2B
??
nB
均值
1A
11X
12X
??
nX 1
.1X
2A
21X
22X
??
nX 2
.2X
?
?
?
??
?
?
因
素
A
rA
1rX
2rx
??
rnX
.rX
均值
1.X
2.X
??
nX,
X
6-20
? 数据的离差平方和分解形式为:
? SST=SSA+SSB+SSE
? ? ?? 2)( XXS S T ij
? ??? ? ?? 2.2,)()( XXnXXSSA ii
? ??? ? ?? 2.2 )()( XXrXXSSB jj
? ??? ?? 2.,)( XXXXS S E jiij
6-21
? SSA表示的是因素 A的组间方差总和,SSB是
因素 B的组间方差总和,都是各因素在不同水
平下各自均值差异引起的; SSE仍是组内方
差部分,由随机误差产生。各个方差的自由
度是,SST的自由度为 nr-1,SSA的自由度
为 r-1,SSB的自由度为 n-1,SSE的自由度
为 nr-r-n-1=( r-1) (n-1)。
6-22
? 各个方差对应的均方差是:
? 对因素 A而言:
? 对因素 B而言:
? 对随机误差项而言:
1?? r
SSAM SA
1?? n
SSBM S B
1???? nrnr
SSEM S E
6-23
? 我们得到检验因素 A与 B影响是否显著的统计
量分别是:
)]1)(1(,1[~ ???? nrrFM S EM S AF A
)]1)(1(,1[~ ???? nrnFM S EM S BF B
6-24
? (二)有交互影响
因素 B
1B
2B
??
nB
1A
m
X
X
X
11
112
111
?
m
X
X
X
12
122
121
?
??
nm
n
n
X
X
X
1
21
11
?
2A
m
X
X
X
21
212
211
?
m
X
X
X
22
222
221
?
??
nm
n
n
X
X
X
2
22
12
?
?
?
?
??
?
因
素
A
rA
mr
r
r
X
X
X
1
12
11
?
mr
r
r
X
X
X
2
22
21
?
??
r n m
rn
rn
X
X
X
?
2
1
6-25
? 离差平方和分解形式:
? SST=SSA+SSB+SSAB+SSE
??
?
m
l ijl
ij XmX
1
.
1 ? ??
? ?
n
j
m
l ijl
i XnmX
1 1
..
1
? ??
? ?
r
i
m
l ijl
j XrmX
1 1
..
1 ? ? ?? ij lXr n mX 1
6-26
? 上式中
? ? ? ?? 2)( XXS S T ijl
? ?? 2)( XXnmSSA i
? ?? 2.,)( XXrmSS B j
? ? ???? 2....,)( XXXXmSSA B jiij
? ? ??? 2,)( iji jl XXS S E
6-27
? 离差平方和 SST,SSA,SSB,SSAB和 SSE
的自由度分别是 rnm-1,r-1,n-1,(r-
1)(n-1)和 rn(m-1)。
6-28
? 相应的均方差是
1?? r
S S AM S A 1?? nSSBM S B
)1)(1( ??? nr
S S A BM S A B
)1( ?? mrn
S S EM S E
6-29
? 检验因素 A与 B影响是否显著的统计量分别是,
? 检验交互影响是否显著的统计量度是:
),1(~ rnr n mrFM S EM S AF A ???
),1(~ rnr n mnFM S EM S BF B ???
]),1)(1[(~ rnr n mnrFM S EM S A BF AB ????