第四章
多个样本均数比较的方差分析
方差分析
Analysis of variance,
( ANOVA)
? 方差分析的用途:
? 用于实验研究中,比较某处理因素不同
水平样本均数间差别有无统计学意义,
从而说明处理因素是否有作用的方法。
? 根据实验设计的不同,有:
? 1.单因素的方差分析
? 2.多因素(两因素及以上)方差分析
第一节 方差分析的基本思想和应用条件
名词解释
? 处理因素和水平,
? 研究者对研究对象人为地施加某
种干预措施,称为 处理因素
( factor)或实验因素,处理因素
所处的状态称为 水平( level),因
素的水平可以为定性或计量的值。
? 处理因素的水平数 ≥2,即实验的组数。
例:三种抗凝剂测定红细胞沉
降率( %)的比较
? 标本 甲 乙 丙
? 1 17 10 11
? 2 16 11 9
? 3 16 12 8
? 4 15 12 9
? 16.0 11.3 9.3
iX
处理因素 =抗凝剂 水平数 =3(定性分类)
实验因素
? 单因素实验,指实验中的干预因素只有一
个,这个处理因素包括 g( g≥2)个水平,
分析不同水平的实验结果差别是否有统计
意义。
? 例:讲义 4-2 不同剂量的降血脂药物的疗效
? 多因素实验,指实验中的处理因素不只一
个,各因素的水平有 ≥2,分析某因素不同
水平的结果有无差别,分析因素对实验结
果有无交互作用。
例 4-2:表 4-3 研究一种降血脂新药的临
床疗效
? 研究对象:高血脂病人
? 处理因素:降血脂药
? 水平:服降血脂新药 2.4g组
? 4.8g组
? 7.2g组
? 安慰剂组
? 试验效应指标;低密度脂蛋白
两因素设计
? 例:研究蛋白含量因素( A),分为正常
( a1)、缺乏( a2),脂肪含量因素( B),
分为正常( b1)、缺乏( b2),对大鼠的营
养状况研究。 16只大鼠按完全随机化方法
分到以下 4组做试验。
? 4种处理组某营养指标结果
? a1b1 a1b2 a2b1 a2b2
? 15 18 20 25
? 21 23 28 37
? 25 28 19 35
? 32 35 26 40
?
一、方差分析的基本思想(单因素)
? 数据 变异的原因可用下列模型表示
)()()( iijiij xxxxxx ?????
种处理的作用第 i 实验误差
实验数据的总均数:x
ijx
例:三种解毒药物对大鼠血中胆碱
脂酶( u/ml)含量的比较
? 编号 甲 乙 丙
? 1 23 28 8
? 2 12 31 12
? 3 18 23 21
? 4 16 24 19
? 5 28 28 14
? 6 14 34 15
? 18.5 28.0 14.8
iX
43.20?X
ijx
ijx
值个组的第第
组,第
xjij
gi
?
?,.21
某次实验全部变量值变异的数
学模型表达
)()()( iijiij xxxxxx ????????
总变异 = 处理因素作用 +实验误差作用
(随机误差)
方差分析的基本思想(单因素)
将比较组所有数据的总变异分解:
变异 原 因 方差估计量
组间变异 不同水平作用 MS组间
+随机误差
组内变异 随机误差 MS误差
? (个体 +未知因素)

组间离均差平方和
?
?
?
g
i
ii xxn
1
2)(SS组间 =
组内离均差平方和
2
1 1
)( i
g
i
n
j
ij xx ?? ?
? ?
SS组内 =
总离均差平方和
? ?
? ?
?
g
i
n
j
ij
i
xx
1 1
2)(SS总 =
1.数据变异估计量,离均差平方和,SS
( 4.1)
( 4-2)
( 4-3)
( sum of square of deviation from mean, SS)
组间变异
组间离均差平方和
?
?
?
g
i
ii xxn
1
2)(
SS组间 =
( SS组间 )
反映各组均数之间的差别,SS组间 越大,表示各
处理水平反应可能不相同。
2
33
2
22
2
11 )()()(
),...2,1(,3
xxnxxnxxnss
gig
??????
??
组间
设:
组内变异
? 组内离均差平方和
2
1 1
)( i
g
i
n
j
ij xx ?? ?
? ?
SS组内 =
???
???
??????
?
321
1
2
33
1
2
22
1
2
11
)()()(
3
n
j
j
n
j
j
n
j
j
xxxxxxss
g
组内
设:
反映在组内数据的变异(随机误差)大小。
组间组间组间 ?/SSMS ?
组内组内组内 ?/SSMS ?
三者有:
=组数 -1=G-1
=总例数 -组数 =N-G
组内组间总 SSSSSS ??
2.变异估计量 — 均方( Mean square, MS)
组间?
组内?
方差分析 — 变异分解和意义
? 组间变异 — 组间均方( )
? 反映处理因素不同水平对各试验组的作用
? 组内变异 — 组内均方( )
? 作为实验的随机误差估计
组间组间组间 ?/SSMS ?
组间MS
组内MS
组内组内组内 ?/SSMS ?
)( 组内MS
? 理论上,如果处理因素(组间变异 =组
内变异)无作用,F =1或波动在 1左
右。 如果 F >>1,或 F>F?,P<?,说
明处理因素的不同水平对结果有作用。
组内
组间
MS
MS
F ?
统计检验:
假设,H0,?1= ?2= ?3=…,?G,
第二节、完全随机设计资料的方差分析
一、有两种类型资料可采用:
1,完全随机分组设计 的几组计量数据的比
较(实验数据)。
2.从互相独立不同总体中随机抽取的各样
本数据的比较(观察数据)。
上述资料都称为单因素随机分组样本均
数的比较
完全随机分组的实验设计
( completely random design)
? 甲处理( n1)
? 随机化分组
? N(试验对象) 乙处理 ( n2)
?
? 丙处理( n3)
?
全部研究对象完全不受任
何限制随机分配不同的处
理组,为完全随机分组
各组例数可等和不相等
(单因素)
随机化分组的方法
? 例讲义:将 120名试验对象分为 4组,采用完全随
机分组方法。
? 对象编号 1 2 3 4 5 6 7….,120
? 随机数 260 873 373 204 056 930 160 634
? 序号 24 106 39 15 3 114 13 75
? 处理
? 规定:序号 1~ 30 分到甲组 对照组
? 31~ 60 分到乙组 2.4g
? 61~ 90 分到丙组 4.8g
? 91~ 120 分到丁组 7.2g
表 4-3 某药物对低密度脂蛋白测定
结果( mmol/L)
? 对照组 2.4g组 4.8k 组 7.2g 组
? 3.53 2.42 2.86 0.89
? 4.59 3.36 2.28 1.06
? 4.34 2.66 2.34 2.39
?,
?,
?,
? n 30 30 30 30
? 3.43 2.72 2.70 1.97
? 102.91 81.46 80.94 58.99
? 367.85 233.00 225.54 132.13
?
2X?
X
X?
观察性研究数据
例:三组人血清唾液酸含量( mg/dl)
? 正常人 胃溃疡患者 胃癌患者
? 43.1 44.04 68.21
? 41.46 45.12 67.40
? 42.35 47.50 65.38
? 42.01 46.28 66.44
?
? 40.20 48.59 60.36
iX
41.75 45.96 62.35
二、数据结果的变异分解
? 完全随机分组设计数据
? 总变异分解为:
? 组间变异(不同处理 +误差)
? 组内变异(随机误差)总变异
表 4-3 某药物对低密度脂蛋白测定
结果( mmol/L)
? 对照组 2.4g组 4.8k 组 7.2g 组
? 3.53 2.42 2.86 0.89
? 4.59 3.36 2.28 1.06
? 4.34 2.66 2.34 2.39
?,
?,
?,
? n 30 30 30 30
? 3.43 2.72 2.70 1.97
? 102.91 81.46 80.94 58.99
? 367.85 233.00 225.54 132.13
?
2X?
X
X?
完全随机设计资料方差分析公式
? 变异来源 SS ν MS F值
?
?
?
?
cx
g
i
n
j
ij ?? ?
? ?1 1
2
C
n
x
g
i i
n
j
ij
??
?
?
?
1
1
2)(
组间总 SSSS ?
组间
组间
?
SS
组内
组内
?
SS
组内
组间
MS
MS
NXC /)( 2??
校正数 C:
表 4-4
N-1 总
组间 g-1
组内 N-g
2.组间离均差平方和
3.组内离均差平方和
1.总离均差平方和
SS估计量的计算方法和方差分析的步骤:
10.82120/3.32452.958 22 ?????? CXSS 总
16.32
30
99.5894.8046.8191.102
)(
2222
2
??
???
?
?
?
??
C
C
n
x
SS
i
组间
94.4916.321.82 ????? 组间总组内 SSSSSS
表 4-5 列方差分析表
? 变异来源 SS ν MS F P
? 治疗组间 32.16 3 10.72 24.93 < 0.01
? 组内 49.94 116 0.43
? 总 82.10 119
98.3
70.2
116,3,01.0
116,3,05.0
?
?
F
F
本例:
?用计算的 F与 界值(附表 3)做比较
2,1,???F
组间自由度?1?
组内(误差)自由度?2?
方差分析的统计检验
? 假设,H0,?1= ?2= ?3 = ?4
? H1,?i不等或不全等
? ?=0.05
? 本例
? P< 0.01
? 结论,在 ?=0.05水平,四组均数的差异有统
计意义( P< 0.01),认为处理因素是有作
用,即不同剂量药物对降低 低密度脂蛋白
有影响 。
)1 1 6,3(01.093.24 FF ??
第三节、随机区组设计资料的方差分析
? 一,随机区组设计
? ( randomized block design)
? 设计目的:
? 设计中将已知对结果有干扰的非处理
因素(如试验对象的变异,如体重、年
龄等)的作用加以控制,使得实验对象
的变异从误差中消去,缩小实验误差。
随机区组设计的方法
? 将某些因素(对实验结果有影响)相同
的实验对象组成区组( block),区组内
的对象数 =处理个数。然后在区组内对研
究对象进行随机化分组,接受不同的处
理。
? 特点,区组内的研究对象有较好的同质性。
? 该设计较适用于动物为实验对象的研究
例 4-3:研究三种药物对小鼠肉瘤的影响
? 处理因素:三种药物(甲、乙、丙)
? 实验对象及例数:染肉瘤小鼠共 15只
? 实验效应指标:肉瘤重量
? 控制因素:小鼠体重
? 实验设计:随机区组设计
? 方法,1.将体重相近的 3只小鼠为一个区组,
共 5个区组。
? 2.在区组内随机分配处理因素(见讲义)
三个处理组的随机区组设计方法
? 单位组 实验单位编号
? (区组 ) 1 2 3
? 1 丙 乙 甲
? 2 甲 丙 乙
? 3 丙 乙 甲
? 4 乙 丙 甲
? 5 乙 甲 丙
实验单位的随机化分组在区
组内进行,随机化方法同前。
三个处理组的随机区组设计方法
?,
? 单位组 实验单位编号
? (区组 ) 甲药 乙药 丙药
? 1 甲( 0.82)乙( 0.65)丙( 0.51)
? 2 甲( 0.73)乙( 0.54)丙( 0.23)
? 3 甲 乙 丙
? 4 甲 乙 丙
? 5 甲 乙 丙
注意:数据按区组记录和排列
不同药物作用后小白鼠肉瘤重量
? 区组 A药 B药 C药
1 0.82 0.65 0.51 1.98
2 0.73 0.54 0.23 1.50
3 0.43 0.34 0.28 1.05
4 0.41 0.21 0.31 0.93
5 0.68 0.43 0.24 1.35
3.07 2.17 1.57 6.81
2.02 1.058 0.545 3.6245
表 4-9
?
?
g
i
ijx
1
?
?
n
j
ijx
1
?
?
n
j
ijx
1
2
二、随机区组设计试验结果的
方差分析
? 数据总变异的分解
? 组间变异 (处理因素 +误差 )
? 区组间变异 (个体间变异 +误差)
? 误差变异(随机因素)
组内
变异
该设计的优点:比完全随机分组设计
更容易查出处理的差别 。
误差
组间
MS
MS
F ?1
误差
区组间
MS
MS
F ?2
53 28.015/81.662 45.3
2
1 1
2
???
?? ? ?
? ?
cxSS
g
i
n
j
ij总
0 9 1 7.315/81.6/)( 22 ????? NxC
随机区组设计资料方差分析计算和步骤
1.总离均差平方和
22 8 0.009 1 7.357.117.207.3
5
1
)(
222
1
1
2
?????
?? ?
?
?
?
)(
处理
C
n
x
SS
g
i i
n
j
ij
2.组间(处理)离均差平方和
4.误差离均差平方和
0 7 6 4.0???? 区组处理总误差 SSSSSSSS
3.区组间离均差平方和
2284.0
3
35.196.005.150.198.1
)(
32222
1
1
2
??
????
??? ?
?
?
?
C
C
g
x
SS
n
j
g
i
ij
区组
随机区组设计自由度的计算
? 变异来源 自由度 本例
? 总变异 N-1 14
? 处理间 处理数 -1 2
? ( g-1)
? 区组间 区组数 -1 4
? ( n-1)
? 误差 8
)1()1( ??? gn
表 4-10 方差分析表
? 变异来源 SS ν MS F P
? 处理间 0.5328 2 0.2280 11.88 <0.01
? 区组间 0.2284 4 0.0571 5.95 < 0.05
? 误差 0.0764 8 0.0096
? 总 0.5328 14
? 本例, H0,?1= ?2= ?3, H1,不等或不全等
? ?=0.05
? 结论,在 ?=0.05水平上,拒绝 H0,认为三种药物
作用后测定结果差异有统计意义 (P<0.01),处
理因素有作用。
表 4-10 方差分析表
? 变异来源 SS df MS F P
? 处理间 0.5328 2 0.2280 11.88 <0.01
? 区组间 0.2284 4 0.0571 5.95 < 0.05
? 误差 0.0764 8 0.0096
? 总 0.5328 14
? 区组 +误差 0.3084 12 0.0257 8.8716
?
? 由于控制区组因素(体重),将误差由 0.00257
减少到 0.0096,减少了 62%。提高了检验的效率。
小结
? 1.方差分析主要用于多组样本均数的比较,
根据设计的不同,变异分解的部分也不同。
? 2.当比较组 =2时,方差分析与 t 检验有如下
关系。
? 完全随机分组设计
? 两组间比较方差分析 F=成组 t检验的平方
? 即 F= t2
? 随机区组 设计
? 两组方差分析 =配对 t检验的平方
处理F
? 3.方差分析结果(处理)有统计学意
义时,即 F>, p< α,只说明各
总体均数不等或不全等。 如了解处
理的各水平间均数差别情况,应做均
数间的多重比较。见讲义第六节。
?F
第七节、多样本 方差齐性 检验
? 方差齐性的概念
? 理论上指多组计量指标的总体形状参
数相等,设三组数据的某指标比较:
? 即理论上 2
1
2
2
2
1 ??? ??
方差分析应用时的假定(讲义 53页)
? 方差分析:通过比较多个样本均数的(变异)差
别有无统计意义,从而说明处理有无作用。
? 方差分析应用的前提条件:
? 1.各比较组是相互独立随机样本,Xij服从正态分
布。
? 2,各比较组数据的总体方差相等,?12= ?22= ?32..,
?i2(方差齐性)。
? 统计上通过样本的方差齐性检验推论总体。
方差齐性检验方法
? 一,Bartlett法( 67页)
? 二,Levene法( 68页)
? H0,?12= ?22= ?32..,?i2,
? H1:不等或不全等
? 检验统计量:
? 公式( 4-19)和公式( 4-23)
? 当 p< α,认为各总体的方差不齐性。
? 当方差不齐时,如用 F检验,统计结果
可能不正确。
05.0??
555N =
V A R 0 0 0 0 2
3, 0 02, 0 01, 0 0
V
A
R
0
0
0
0
1
200
100
0
- 1 0 0
例 某指标三组数据的变异情况
? 例,某指标三组数据
? Descriptives
? N Mean Std,Deviation
?
? 1.00 5 30.0000 7.90569
? 2.00 5 35.4000 40.81421
? 3.00 5 80.0000 69.64194
?
? SAS软件计算结果
? Bartlett's Test for Homogeneity of x
Variance
? Source DF Chi-Square P
? a 2 10.9397 0.0042
? Test of Homogeneity of Variances
? Levene Statistic df1 df2 Sig.
? 6.901 2 12,010
ANOVA
? S S df MS F Sig.
? Between
? Groups 7530 2 3765 1.717,221
? Within
Group 26313 12 2192
? Total 33843 14
? 如不满足方差齐性假定,应改用秩和检
验做比较 。
? 注意:在实际应用中,完全随机分组设
计的多组数据的比较,一定要做方差齐
性检验。
? 作业,71页
? 计算分析题第 1题和第 3题。