第四章 方差分析第一节 方差分析的基本思想及其应用条件
1,方差分析的基本思想根据试验的设计类型,将全部观察值的总离均差平方和及其自由度分解为两个或多个部分,
每个部分的变异可由某个因素作用或几个因素的交互作用以及随机误差的作用加以解释。分析时分别求得各部分变异度指标 SS(离均差平方和),结合自由度计算 MS( 均方 ),最终求得 F 值。根据
F 值的大小和理论 F 值作比较,便可判断研究因素对试验结果有无影响。
组内差异(个体差异)
处理差异)组间差异(个体差异、
F
组内组内组间组间组内组间 ==
/
/
SS
SS
MS
MS
F
不同中药对小白鼠 E-玫瑰花结形成率(%)的影响对照组 党参组 黄芪组 淫羊藿组
14 21 24 35
10 24 20 27
12 18 22 33
16 17 18 29
13 22 17 31
14 19 21 40
12 18 18 35
10 23 22 30
13 20 19 28
9 18 23 36
123 200 204 324
10 10 10 10
12.3 20.0 20.4 32.4i
n
iX
iX?
iX
N
X
n
X
XXnSS
i
i
ii
22 )()(?
)(=组间

i
i
ii
n
X
XXXSS
2
22 )() (=
组内
N
X
XSSSSSS
2
2 )(
组内组间总 +=
i 表示处理组组别,
g 表示处理组组数,
j 表示处理组观察值序号,
n 表示处理组观察值例数。
g
i
n
j
ijXX
1 1
1 N总?
11 g组数组间?
组数组内 N?
自由度计算:
组内组间总
2,方差分析的 条件,
(1) 各样本为相互独立的随机样本;
(2) 各样本均来自正态总体;
(3) 各处理组总体方差相等。
3,方差分析的 应用,
(1) 单因素完全随机设计的多个或 2个样本均数比较;
(2) 回归方程的假设检验;
(3) 方差齐性检验;
(4) 双因素、多因素、多水平、有交互作用资料的分析。
第二节 完全随机化设计的方差分析一,完全随机化设计,
1.概念:本设计是单因素两水平或多水平的实验设计类型。它是将受试对象完全按随机原则分配到各处理组,试验结束后比较各组均数(或率)之间的差别有无统计学意义,推论处理因素的效应。
因素视为分组,水平即为组数。
2,随机化分组方法:
例 4- 1 某医生为例研究一种降血脂新药的临床疗效,按统一纳入标准选择 120名患者,随机化分组方法如下:
1.将患者编号,1~ 120;
2.抄录随机数,从随机数字表中任何一个开始,连续抄录;
3.将随机数从小到大编序号,遇相同者按先后顺序编序号;
4.规定序号 1~ 30号为甲组,31~ 60号为乙组,
61~ 90号为丙组,91~ 120号为丁组。
二、完全随机化设计资料的变异分解组内组间总 += SSSSSS
N
X
n
X
SS
i
i
22 )()(?

组间组间总组内 -= SSSSn
X
XSS
i
i
2
2 )(
N
X
XSS
2
2 )(=
总 C
N
X
2)(
三、分析步骤例 4- 2某医生为例研究一种降血脂新药的临床疗效,按统一纳入标准选择 120名患者,采用完全随机设计方法将患者分为 4组,进行双盲试验,6周后测得低密度脂蛋白作为试验结果,见表 4- 3,问 4个处理组的低密度脂蛋白含量总体均数有无差别?
1.建立假设,确定检验水准。
H0,μ1= μ2 = μ3 = μ4 ;
H1,各组总体均数不等或不全相等,α=0.05。
(多组比较无单、双侧之分。)
2,计算 F 值:
(1)列表计算基础数据:
、,,,,,,。
(2)计算离均差平方和( SS):
in X?
2X?
iX XN
iX?
2iX?
表 4-3 四个处理组低密度脂蛋白测量值( mmol/L)
安慰剂组 2.4g组 4.8g组 7.2g组
3.53 2.42 2.86 0.89
3.30 1.98 2.66 1.98
1.37 2.36 3.48 1.31
102.91 81.46 80.94 58.99 324.30
30 30 30 30 120
3.43 2.72 2.70 1.97 2.70
367.85 233.00 225.54 132.13 958.52
iX
..….…….
.
..….…….
.,.….……....….……..
in
X?
iX X
N
X2
iX?
2iX?
94.4916.321.82 =-组间总组内 SSSSSS
11911201 N总? 3141 组数组间?
1 1 641 2 0 组数组内 N?
(3)求自由度:
46.32
120
3.324
30
99.5894.8046.8191.102
)()(
22222
22


N
X
n
X
SS
i
i

组间
10.82
1 2 0
30.3 2 452.9 5 8)( 222
N
XXSS =

(4)求均方 MS:
(5)求 F值:
3,确定 P值,作出判断:
查 F 值表得,本例
24.93 >3.98,P< 0.01,按 α= 0.05水准拒绝 H0,接受 H1,
可以认为 4个处理组患者的低密度脂蛋白总体均数不等或不全相等。
72.103/16.32/ 组间组间组间?SSMS
43.01 1 6/94.49/ 组内组内组内?SSMS
93.2443.0/72.10/ 组内组间 MSMSF
98.3)1 0 0,3(,01.0?F
98.3)1 0 0,3(,01.0)1 1 6,3(,01.0 =FF?
表 4- 5 例 4- 2资料的方差分析表变异来源 自由度 SS MS F P
总变异 119 82.10
组间 3 32.16 10.72 24.93 <0.01
组内 116 49.94 0.43
第三节 随机区组设计资料的方差分析一、随机区组设计:
1.概念:本设计为双因素多水平的设计类型,它配对设计的扩大,异体配对设计的扩大是先将条件
( 非处理因素 ) 相近的多个对象配成区组 ( 配伍组 ),
然后再将各个区组的对象随机化地分到各处理组。
处理组区组
…… …… …… ……
……
……
……
……
模式:
同体配对设计的扩大是对同一观察对象分别接受多种处理后的结果进行比较,例如对同一对象的多个部位进行多种处理、同一对象的检测标本用多种方法检测等。
关于同一对象进行一种处理后的不同时间多次观察,
是一种比较特殊的同体配对设计扩大情况,可称为有重复测量设计,见第十二章,262页。
2.随机化分组方法:
例 4-3 如何按随机区组设计,分配 5个区组的
15只小白鼠接受甲、乙、丙三种抗癌药物?
1)将各方面条件相近的对象配成区组;
2)抄录随机数,从随机数字表中任何一个开始,连续抄录;
3)每个区组分别将对象随机地分配到各处理组中,
先根据随机数从小到大排序,然后规定序号为 1分在第一组,序号为 2分在第二组,依次类推。
表 4-6 15只小白鼠分 5个区组的分配结果区组号 1 2 3 4 5
小白鼠 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
随机数 68 35 26 00 99 53 93 61 28 52 70 05 48 34 56
序号 3 2 1 1 3 2 3 2 1 2 3 1 2 1 3
分配结果 丙 乙 甲 甲 丙 乙 丙 乙 甲 乙 丙 甲 乙 甲 丙二、随机区组设计资料的变异分解误差区组间处理组间总 ++= SSSSSSSS
区组间处理组间总误差 - SSSSSSSS
N
X
n
XSS
i
i
22 )()(?
=处理组间
N
XXSS 22 )(=

N
X
n
X
SS
j
j
22 )()(?
=区组间
i 表示处理组组别
j 表示区组组别二、随机区组设计资料的分析例 4-4 某研究者采用随机区组设计进行实验,
比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将
15只染有肉瘤小白鼠按体重大小配成 5个区组,每个区组内 3只小白鼠随机接受三种抗癌药物(具体分配方法见例 4-3),以肉瘤的重量为指标,试验结果见表 4-9。问三种不同的药物的抑瘤效果有无差别?
表 4- 9 三种不同药物作用后小白鼠肉瘤重量( g)
区组 A药 B药 C药
1 0.82 0.65 0.51 1.98
2 0.73 0.54 0.23 1.50
3 0.43 0.34 0.28 1.05
4 0.41 0.21 0.31 0.93
5 0.68 0.43 0.24 1.35
in
X?
iX X
N
X2
iX?
2iX?
3.07 2.17 1.57 6.81
5 5 5 15
0.641 0.434 0.314 0.454
2.0207 1.0587 0.5451 3.6245
jX?
1.建立假设,确定检验水准。
H0,μ1= μ2 = μ3 ;
H1,各组总体均数不等或不全相等,α=0.05。
(多组比较无单、双侧之分。)
2,计算 F 值:
(1)列表计算基础数据:
、,,,,,,,。
(2)计算离均差平方和( SS)和自由度 ( ):
in X? 2X?iX XNiX? 2
iX?
jX?
0 9 1 7.315/81.6 2C
,5328.00917.36245.3=总SS 14115总?
0 7 6 4.02 2 8 4.02 2 8 0.05 3 2 8.0 =--=
- 区组间处理组间总误差 SSSSSSSS
2280.00917.3
5
57.117.207.3
)(
222
2


C
n
X
SS
i
i

处理组间
2284.00917.3
3
53.193.005.150.198.1
)(
22222
2
=-
++++


区组间
C
n
X
SS
j
j
415区组?
213处理?
84214 -=-- 区组处理总误差
(3)计算均方( MS)和 F 值
1 1 4 0.02/2 2 8 0.0/ 处理处理处理?SSMS
0 5 7 1.04/2 2 8 4.0/ 区组区组区组?SSMS
88.11
0096.0
1140.0
误差处理处理 MS
MS
F
95.5
0 0 9 6.0
0 5 7 1.0
误差区组区组 MS
MS
F
0 0 9 6.08/0 7 6 4.0/ 误差误差误差?SSMS
3,确定 P值,作出统计推断:
查 F界值表,得,F0.01(2,8)= 8.65,F0.05(4,8)= 3.84
处理组间 F = 11.88 >8.65,P < 0.01,说明三种药物作用后小白鼠肉瘤重量的总体均数不等或不全相等;
区组间 F = 5.95 >3.84,P < 0.05,说明五个区组间小白鼠肉瘤重量的总体均数不等或不全相等。
第四节 拉丁方设计资料的方差分析
1.拉丁方设计含义与特点:
本设计是三因素多水平的设计类型,它是以拉丁字母排列而成的方阵进行实验。字母、纵行、
横行分别代表三个因素,
本设计具有随机区组设计的优点(均衡性好,
实验效率高,误差小,样本含量少) 。
本设计是在三因素的不同水平组合下进行实验
(部分搭配)。
本设计中行与列的字母没有重复,三因素的水平数相等。
本设计不能显示因素间的交互作用,故要求因素间无交互作用。
2,模式:
标准方 工作方
3,随机化方法:
利用随机数字将标准拉丁方的行或列进行随机调整:
将标准方中的 1,2行,3,5行,4,6行以及 1,2列、
5,6列,3,4列互换即成为工作方。
1 2 3 4 5 6
1 A B C D E F
2 B C D E F A
3 C D E F A B
4 D E F A B C
5 E F A B C D
6 F A B C D E
1 2 3 4 5 6
1 C B E D A F
2 B A D C F E
3 F E B A D C
4 A F C B E D
5 D C F E B A
6 E D A F C B
处理因素各水平的安排可采用简单随机化法进行。
A,B,C,D,E随机化安排处理因素;
行区组,随机化安排第二因素;
列区组,随机化安排第三因素。
4,拉丁方设计中的重复:
各因素的水平数即为重复数。
增加重复方法:⑴多个拉丁方结合;
⑵各因素水平的重复。
5.拉丁方设计资料的变异分解误差列区组间行区组间处理组间总 +++= SSSSSSSSSS
列区组间行区组间处理组间总误差 -- SSSSSSSSSS
C
n
XSS
k
k
2)(
=处理组间
CXSS 2=总
C
n
X
SS
j
j
2)(
=列区组间
C
n
XSS
i
i
2)(
=行区组间例 4- 5
某研究者为了比较甲,乙,丙,丁,戊,己六种药物给家兔注射后产生的皮肤疱疹大小( ),
采用拉丁方设计,选用 6只家兔并在每只家兔的 6
个不同部位进行注射。结果见表 4-11,试作方差分析。
试验结果见表 4- 11。
2mm
表 4-11 例 4-5的拉丁方设计与试验结果 (皮肤疱疹大小,)
注射部位编号(列区组)
1 2 3 4 5 6
1 C87 B85 E81 D75 A84 F66 468 78.0
2 B73 A81 D87 C85 F64 E79 469 78.0
3 F73 E73 B74 A78 D73 C77 448 74.0
4 A77 F68 C69 B74 E76 D73 437 72.8
5 D64 C64 F72 E76 B70 A81 427 71.2
6 E75 D77 A82 F61 C82 B61 428 73.0
2mm
家兔编号
(行区组)
列区组合计行区组合计药物合计
iC
kT
jR
jX
iX
kX
6.74?X
449 438 465 449 449 437
74.8 73.0 77.5 74.8 74.8 72.8
D E C A B F
449 483 464 483 427 404
74.8 80.5 77.3 80.5 71.2 67.3
6.分析步骤(略)
表 4-13 例 4-5资料的方差分析结果变异来源 自由度 SS MS F P
总变异 35 16686.30
药物间 5 657.336 131.467 3.74 <0.05
家兔间 5 251.663 50.333 1.43 >0.05
部位间 5 65.337 13.067 0.37 >0.05
误差 20 703.385 35.16
第五节 两阶段交叉设计资料的方差分析
1,含义与特点:
本设计采用同体配对和异体配对相结合,先将对象按异体配对,然后随机化分为甲,乙两组。
两组的处理按随机原则决定,一组先用 A法后用 B法处理,另一组则先用 B法后用 A法处理。
本设计为三因素设计,(处理、顺序、个体)
因此统计效率较高。其中处理方法和先后顺序为两水平,个体因素为多水平。本设计具有配对的优点,同时平衡了顺序的影响。
2.随机化方法:按配对随机的方法进行。
3.模式,甲组 ( 先甲后乙 ) ……
乙组 ( 先乙后甲 ) ……
4,注意,
(1)样本含量必须为偶数。
(2)被试因素无蓄积作用与交互效应。
(3)两种处理间有足够的间隙期。
(4)不宜用于具有自愈倾向或病程短的病症研究,
仅用于改善症状的研究。
5.两阶段交叉设计资料的变异分解误差受试者间阶段间处理间总 +++= SSSSSSSSSS
受试者间阶段间处理间总误差 -- SSSSSSSSSS
N
TTSS BA 2)( -=
处理间
CXSS 2=总
CBSS i
2
2
=受试者间
N
SSSS 221 )-(=
阶段间
6.分析方法:
例 4-6 表 4-13是 A,B两种闪烁液测定血浆中
3H-cGMP的交叉试验结果。第 I阶段 1,3,4,7、
9号用 A测定,2,5,6,8,10号用 B测定;第 II阶段 1,3,4,7,9号用 B测定,2,5,6,8,10号用 A测定。试对交叉试验结果进行方差分析。
表 4-13 两种闪烁液测定血浆中 3H-cGMP的交叉试验阶 段
Ⅰ Ⅱ
1 A(760) B(770) 1530
2 B(860) A(855) 1715
3 A(568) B(602) 1170
4 A(780) A(900) 1586
5 B(960) A(958) 1918
6 B(940) B(952) 1892
7 A(635) B(650) 1285
8 B(440) A(450) 780
9 A(528) B(530) 1058
10 B(800) A(803) 1603
阶段合计处理合计受试者 受试者合计
iB
7 2 7 11?S
)(1 4 6 4 1 X?
7 3 7 02?S
7 2 8 9?AT 7 3 5 2?BT
表 4-15 例 4-6资料的方差分析变异来源 自由度 SS MS F P
总变异 19 552194.95
A B处理间 1 198.45 198.45 4.02 >0.05
ⅠⅡ 阶段间 1 490.05 490.05 9.92 <0.05
受试者间 9 551111.45 61234.61 1240.07 <0.01
误差 8 395.00 49.38


第六节 多个样本均数间的多重比较多个样本均数间的多重比较为什么不能用 t 检验?
加大犯第一类错误的概率
26.0)05.01(1 6
1,最小显著差异法 t 检验- LSD-t 检验
)/1/1()( jiji nnMSXXt 误差
)/1/1()( jiji nnMSXXt 组内
nMSXXt ji /2)( 误差
随机区组设计资料:
随当两组例数相等时:
完全随机设计资料:
用于一对或几对在专业上有特殊意义的样本均数间的比较,用于重点控制第二类错误,
其公式为:
例 4-7 对例 4-2资料,问高血脂患者的降血脂新药 2.4g组,4.8g组,7.2g组与安慰剂组的低密度脂蛋白含量总体均数有无差别?
。05.0,:,,04.2104.20 gg HH
18.417.0 43.372.2 tL S D
。=,=
,,,
组内组内 11643.0
3043.372.2 04.204.2
MS
nnXX gg
17.030 43.02)(
21
XXS
按 α= 0.05水准拒绝 H0,接受 H1,有统计学意义,
可以认为 2.4剂量组的低密度脂蛋白总体均数低于安慰剂组。
同样,4.8g和 7.2g剂量组的低密度脂蛋白总体均数低于安慰剂组。
,0 0 1.0,39.318.4
,3 9 0.3100,2/001.0116,2/001.0


P
tt
二,Dunnett-t检验
)/1/1()( 00 nnMSXXtD u n n e t t ii 误差用于多个实验组分别与一个对照组比较例 4-8 对例 4-2资料,问高血脂患者的三个不同剂量降血脂新药组与安慰剂组的低密度脂蛋白含量总体均数是否有差别?
t 值计算和 LSD-t 检验结果相同,但应与 Dunnett-
t 界值进行比较,结论与上法相同。
三,SNK-q检验用于多个样本均数间的两两比较
)
11
(
2
)(
ji
ji
nn
MS
XXq 误差例 4-9 对例 4-4资料,问三种不同药物的抑瘤效果两两之间是否有差别?
分析过程见教材,结果见表 4-16。
表 4-16 例 4-4的多个均数两两比较的 q检验对比组次 a q P
(1) (2) (3) (4) (5) (6) (7)
1与 2 0.12 2 2.74 3.26 4.75 >0.05
1与 3 0.30 3 6.85 4.04 5.64 <0.01
2与 3 0.18 2 4.11 3.26 4.75 <0.05
ji XX? 01.0q05.0q
a 为比较的两个均数所包含的组数。
第七节 多个方差的齐性检验一,Bartlett 检验法公式如下:
式中 为合并方差 即 MS组内,为各样本方差,为各组例数,g为组数,ln为求自然对数。
2
cS
in
2
iS
)
)1(
1
1
1
(
)1(3
1
1
)/ln ()1(
22
2


ii
ici
nng
SSn
本法要求资料具有正态性
)1(3
1
1
)lnln)(1(
22
2

ng
g
SSgn
ic
当例数相等时:
例 4-10 对例 4-2资料,试分析各处理组的低密度脂蛋白值是否满足方差齐性?
,,242322210H
。=各总体方差不全相等 05.0,:1?H
301.5
0144.1
377.5
)130(43
14
1
)557.0ln247.0ln407.0ln511.0ln431.0ln4)(130(



)1(3
1
1
)lnln)(1(
22
2

ng
g
SSgn
ic
ν= g- 1= 4- 1= 3
,=,= 25.611.4 2 10.02 25.0
4.11<5.301<6.25,0.1<P<0.25。
按 α= 0.10不水准拒绝 H0,还不能认为 4组低密度脂蛋白值不满足方差齐性。
二,Levene检验法公式如下:




g
i
n
j
ij
g
i
ij
i
i
ZZg
ZZngN
F
1 1
2
1
2
)()1(
)()(
本法不要求资料具有正态性