Dr,宇传华 制作七年制医疗口腔,医学统计学,
第四章多组资料均数的比较
2009年 7月 28日第四军医大学卫生统计学教研室多组资料均数的比较第一节 方差分析的基本思想及应用条件第二节 完全随机设计资料的方差分析第三节 随机 单位 组设计资料的方差分析第四节 均数间的多重比较第五节 析因设计资料的方差分析第六节 Bartlett齐性检验第七节 Excel实现方差分析(实例演示)
2009年 7月 28日第四军医大学卫生统计学教研室将所研究的对象分为多个处理组,施加不同的干预,施加的干预称为 处理因素( factor),处理因素至少有两个 水平 (level)。 用这类资料的样本信息来推断各处理组间多个总体均数是否存在差别,常采用的统计分析方法为 方差分析
(analysis of variance,ANOVA)。
由英国统计学家 R.A.Fisher首创,为纪念
Fisher,以 F命名,故方差分析又称 F检验 ( F
test) 。
第一节 方差分析的基本思想及应用条件
2009年 7月 28日第四军医大学卫生统计学教研室表 4 - 1 168 h 后 处 死 不 同 时 期 切 痂 烫 伤 大 鼠 的 肝 脏 ATP 含 量 ( mg )
A 组 ( 对 照 ) B 组 ( 24 h ) C 组 ( 96 h ) 合 计
7,76 11.14 10.85
7,71 11.60 8.58
8,43 11.42 7.19
8,47 13.85 9.36
1 0.30 13.53 9.59
6,67 14.16 8.81
1 1.73 6.94 8.22
5,78 13.01 9.95
6,61 14.18 11.26
6,97 1 7.72 8.68
n
i
1 0 10 10 30 N
i
X 8,04 12.76 9.25 10,02 X
i
n
j
iji
XT
1
8 0.43 1 27.55 92.49 30 0.47
X
i
n
j
iji
XQ
1
2
67 6.32 1 696.9 6 8 68.93 32 42.21
2
X
i为组的编号,A,B,C
j为组内为个体编号,
1,2,?,10
2009年 7月 28日第四军医大学卫生统计学教研室
i为组的编号,1,2,3
j为组内为个体编号,
1,2,?,10
表 4 - 1 168h 后 处 死 不 同 时 期 切 痂 烫 伤 大 鼠 的 肝 脏 ATP 含 量 ( mg )
A 组 ( 对 照 ) B 组 ( 24 h ) C 组 ( 96 h ) 合 计
X
11
X
2 1
X
3 1
X
1 2
X
22
X
32
X
1 3
X
23
X
33
X
1 4
X
24
X
34
X
1 5
X
25
X
35
X
1 6
X
26
X
36
X
1 7
X
27
X
37
X
1 8
X
28
X
38
X
1 9
X
29
X
39
X
11 0
X
2 1 0
X
3 1 0
n
i
n
1
n
2
n
3
N = n
1
+ n
2
+ n
3
i
X
1
1
11
nXX
i
n
j
j?
2
1
22
nXX
i
n
j
j?
3
1
33
nXX
i
n
j
j?
NXX
k
i
n
j
ij
i


1 1
S
i
Q
1
- T
1
2
/ n
1
Q
2
- T
2
2
/ n
2
Q
3
- T
3
2
/ n
3
i
n
j
iji
XT
1
i
n
j
j
XT
1
11
i
n
j
j
XT
1
22
i
n
j
j
XT
1
33


k
i
n
j
ij
i
XX
1 1
i
n
j
iji
XQ
1
2
i
n
j
j
XQ
1
2
11
i
n
j
j
XQ
1
2
22
i
n
j
j
XQ
1
2
33


k
i
n
j
ij
i
XX
1 1
22
2009年 7月 28日第四军医大学卫生统计学教研室
1,总变异 ( Total variation):全部测量值 Xij
与总均数 间的差别
2,组间变异 ( between group variation ) 各组的均数 与总均数 间的差异
3,组内变异 ( within group variation )每组的
10个原始数据与该组均数 的差异试验数据有三个不同的变异
iX
X
XiX
下面先用 离均差平方和 (sum of squares of
deviations from mean,SS)表示变异的大小
2009年 7月 28日第四军医大学卫生统计学教研室
1,总变异

1;
)(
2
2
2
2
1 1
2
1 11 1
22







NNXC
CX
NXX
NXXXXSS
k
i
n
j
k
i
n
j
ij
k
i
n
j
ijij
i ii
=其中自由度总
SS总 反映了 所有测量值 之间总的变异程度,
SS总 =各测量值 Xij与总均数 差值的平方和 X
13075)02.1068.8()02.1071.7()02.1076.7( 222=总SS
2009年 7月 28日第四军医大学卫生统计学教研室
SS组间 反映了 各组均数间的变异程度组间变异=①随机误差
+② 处理因素效应
2,组间变异

1;
)(
2
2
2
1
2
1 1
2
1 1
2
12






kNXC
CnTNX
n
T
NX
n
X
XXnSS
ii
k
i i
i
k
i
k
i
k
i
n
j
ij
i
n
j
ij
ii
i
i
=其中组间组间
iX
mi mj
2.120)02.1025.9(10)02.1076.12(10)02.1004.8(10 222=组间SS
2009年 7月 28日第四军医大学卫生统计学教研室在同一处理组内,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异。 SS组内 仅仅反映了 随机误差 的影响。也称 SS误差
3,组内变异
kN
SnXXSS
k
i
n
j
k
i
iiiij
i


=组间组内
1 1 1
22 )1()(
mi
0.113)25.968.8()04.871.7()04.876.7( 222=组内SS
2009年 7月 28日第四军医大学卫生统计学教研室三种“变异”之间的关系组内组间总
SSSSSS +=
,
且 ν 总 = ν 组 间 + ν 组 内组 内 变 异 SS 组 内,随 机 误 差组 间 变 异 SS 组 间,处 理 因 素 + 随 机 误 差
2009年 7月 28日第四军医大学卫生统计学教研室
One-Factor ANOVA
Partitions of Total Variation
Variation Due to
Treatment SSB
Variation Due to Random
Sampling SSW
Total Variation SST
Commonly referred to as:
Sum of Squares Within,or
Sum of Squares Error,or
Within Groups Variation
Commonly referred to as:
Sum of Squares Among,or
Sum of Squares Between,or
Sum of Squares Model,or
Among Groups Variation
= +
2009年 7月 28日第四军医大学卫生统计学教研室均方 (mean square,MS)
变 异 程 度 除 与 离 均 差 平 方 和 的 大 小 有 关 外,
还 与 其 自 由 度 有 关,由 于 各 部 分 自 由 度 不 相 等,
因 此 各 部 分 离 均 差 平 方 和 不 能 直 接 比 较,须 将各 部 分 离 均 差 平 方 和 除 以 相 应 自 由 度,其 比 值称 为 均 方 差,简 称 均 方 ( m e a n s q u a r e,MS ) 。 组间 均 方 和 组 内 均 方 的 计 算 公 式 为,
SS
MS
组间组间组间
SS
MS
组内组内组内
2009年 7月 28日第四军医大学卫生统计学教研室均方 之比= F value
如 果 各 组 样 本 的 总 体 均 数 相 等 ( H
0

12
mm
k
m?
),
即 各 处 理 组 的 样 本 来 自 相 同 总 体,无 处 理 因 素 的 作 用,则 组间 变 异 同 组 内 变 异 一 样,只 反 映 随 机 误 差 作 用 的 大 小 。 组 间均 方 与 组 内 均 方 的 比 值 称 为 F 统 计 量
MS
F
MS
组间组内
1

组间

2

组内
F 值 接 近 于 l,就 没 有 理 由 拒 绝 H
0; 反 之,F 值 越 大,拒 绝
H
0
的 理 由 越 充 分 。 数 理 统 计 的 理 论 证 明,当 H
0
成 立 时,F
统 计 量 服 从 F 分 布 。
2009年 7月 28日第四军医大学卫生统计学教研室
F 分布
F分布概率密度函数:
2
21
21
1
2
2/
2
2/
1
21
21
1
21
)(
22
2
)(









F
F
Ff
式 中 )( 为 伽 玛 函 数 ;
21
MSMS组内均方=组间均方?F,
是 两 个 均 方 的 比 值 ;
1
,
2
分 别 为 F 值 的 分 子 与 分 母 的 自 由 度,
这 是 F 分 布 的 两 个 参 数,由 这 两 个 自 由 度 可 决 定 F 分 布 的 图形 形 状,因 此 F 分 布 可 用 ),(
21
F 表 示 。 以 F 为 横 轴,
)( Ff 为 纵 轴 可 绘 制 F 分 布 的 图 形 。
2009年 7月 28日第四军医大学卫生统计学教研室
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
0 1 2 3 4
F
f( F )
F 分布曲线
10,10 21
5,1 21
5,5 21
2009年 7月 28日第四军医大学卫生统计学教研室
F 界值表附表 4 F界值表(方差分析用,单侧界值)
上行,P=0.05 下行,P=0.01
分母自由度
υ 2
分子的自由度,υ 1
1 2 3 4 5 6
1 161 200 216 225 230 2344052 4999 5403 5625 5764 5859
2 18.51 19.00 19.16 19.25 19.30 19.3398.49 99.00 99.17 99.25 99.30 99.33
25 4.24 3.39 2.99 2.76 2.60 2.497.77 5.57 4.68 4.18 3.85 3.63
2009年 7月 28日第四军医大学卫生统计学教研室方差分析的基本思想首先将 总变异 分解为 组间变异 和 误差(组内)
变异,然后比较两者的均方,即计算 F值,若 F值大于某个临界值,表示处理组间的效应不同,若
F值接近甚至小于某个临界值,表示处理组间效应相同 (差异仅仅由随机原因所致 )。
对于不同设计的方差分析,其思想都一样,
即均将处理间平均变异与误差平均变异比较。不同之处在于 变异分解的项目 因设计不同而异。
2009年 7月 28日第四军医大学卫生统计学教研室方差分析的应用条件
各样本是相互独立的随机样本;
各样本来自正态总体;
各处理组总体方差相等,即方差齐性或齐同( homogeneity of variance)。
上述条件与两均数比较的 t检验的应用条件相同。
当组数为 2时,方差分析与两均数比较的 t检验是等价的,对同一资料,有
Ft?
2009年 7月 28日第四军医大学卫生统计学教研室第二节 完全随机设计的方差分析完全随机设计 (completely random design) 也叫 单因素方差分析 ( one- way ANOVA)。将受试对象 随机 地分配到各个处理组的设计。
随机分组方法,
1,编号,确定分组方案(如较少 10个随机数为 A,中间
10个数为 B,较大 10个随机数为 C)
2,产生随机数字(附表 15,或电脑),排序
3,按方案分组编 号 1 2 3 4 5 6 7 8 9 10 … 29 30
随机数 12.1 3.9 18.3 27.1 26.7 28.8 1.4 12.8 26.0 5.0 24.4 29.7 8.4
分组 B A C C C C A B C A C C A
2009年 7月 28日第四军医大学卫生统计学教研室二、方差分析的步骤
( 一 ) 建 立 假 设 并 确 定 检 验 水 准?
0
H,
321
mmm ( 不 同 时 期 切 痂 对 ATP 含 量 无 影 响 ) ;
1
H,
321
,,mmm 不 全 相 等 ( 不 同 时 期 切 痂 对 ATP 含 量 有 影 响 ) ;
05.0 。
( 二 ) 计 算 F 值
( 三 ) 查 F 值 表 ( 附 表 4 ),确 定 P 值,下 结 论
m1? m2? m3
H0,m1 = m2 = m3 =,.,= mk
m1? m2?m3
H1,not all the mi are equal
m1?m2?m3
2009年 7月 28日第四军医大学卫生统计学教研室
(二)计算 F值(方差分析表)
完 全 随 机 设 计 方 差 分 析 表变 异 来 源 SS? MS F
组 间 C
n
X
i
i
j
ij
-
)(
2


1?k 组间组间
SS
组内组间
MSMS
组 内 ( 误 差 )
组间总
SSSS - kN -
组内组内
SS
总 ∑ CX -
2
1-N
∑ NXC /)(=
2
2009年 7月 28日第四军医大学卫生统计学教研室计算 F值(方差分析表)
本 例 ( 表 4 - 1 ) C = 4074.3009
30
)47.300(
2
SS 总 = 8026.2324074.300921.3242,

= 3 0 – 1 = 29
SS 组 间 = 8314.1194074.3009
10
)49.92(
10
)55.127(
10
)43.80(
222
,?
组间
3 – 1 =2
SS 组 内 = SS 总 - SS 组 间? 9712.1128314.1198026.232,
组内
= 30 – 3= 27
代 入 方 差 分 析 表 中 并 求 出 相 应 的 MS 及 F 值,见 表 4 - 3 。
表 4 - 1 资 料 的 方 差 分 析 表变 异 来 源 SS DF MS F 值 P 值组 间 11 9.831 4 2 59,916 14,32 5,76348 E - 05
组 内 11 2.971 2 27 4,184
总 计 23 2.802 6 29
Excel 计 算 F 值 相 应 的 P 值 得 公 式,FDIST ( 14.32,2,27 )
2009年 7月 28日第四军医大学卫生统计学教研室
(三)下结论
P £? 5.76348E - 05 £? 0.00 006 °′
=0.05 3? £ü?÷
0H
£?
ó êü
1H
£? èa èù 3· μ? 2é ±e óD í3§ òa ò? £? 2o í? ê±?ù?D
e ′? ê? ·′ μ? ATP 1? à? óD ó°?1?£
èè?a μ à? 3· óD 2é ±e ( è? ±ù ·× D? à? ·D e? 3· μ?
ATP 1? à? ê? 2? óD 2é ±e ) £é?÷ DD?′ ·ù êù μ? à? à? ±è £ ì?
±á μùù?£
2009年 7月 28日第四军医大学卫生统计学教研室第三节 随机单位组设计的方差分析随机单位组设计 (randomized block design),
又称 随机区组设计,配伍组设计,也叫双因素方差分析( two--way ANOVA) 。是配对设计的扩展。
具体做法:将受试对象按性质(如性别、年龄、
病情等) ( 这些性质是非处理因素,可能影响试验结果 )相同或相近者组成 b个单位组(配伍组),每个单位组中有 k个受试对象,分别随机地分配到 k个处理组。
这样,各个处理组不仅 样本含量相同,生物学特点 也较均衡。 比完全随机设计更容易察觉处理间的差别 。
2009年 7月 28日第四军医大学卫生统计学教研室表 4-4 注射不同剂量雌激素后的大白鼠子宫重量 (g)
雌 激 素 剂 量 ( ug/1 00 g) 大 白 鼠种 类 ( 同 窝 ) 0,2 0.4 0.8
合 计 (?
k
i
ijj
XB
1
)
A 10 6 11 6 14 5 3 67
B 42 68 11 5 2 25
C 70 11 1 13 3 3 14
D 42 63 87 1 92
n
i
( b ) 4 4 4 12 ( N )
i
X 65,0 8 9.5 12 0.0 91.5 ( X )
b
j
iji
XT
1
2 60
358
48 0
1 098 (? X )
b
j
iji
XQ
1
2
19 664
34370
5950 8
11 3542 (?
2
X )
2009年 7月 28日第四军医大学卫生统计学教研室一、随机单位组设计随机分组方法( 每个单位组内随机 ):
1,将同种类同窝大白鼠为一个单位组,并编号;
2,给同窝中 3只大白鼠编号;规定随机数小者分到甲组,中等分到乙组,大者分到丙组;
3,给每个大白鼠一个随机数;
4,按规定分组表 4个单位组大白鼠按 随机单位组组设计 分组单位组号 1 2 3 4
小白鼠 1 2 3 4 5 6 7 8 9 10 11 12
随机数 68 35 26 00 99 53 93 61 28 52 70 05
序 号 3 2 1 1 3 2 3 2 1 2 3 1
分配结果 丙 乙 甲 甲 丙 乙 丙 乙 甲 乙 丙 甲
2009年 7月 28日第四军医大学卫生统计学教研室二、方差分析的步骤
m1? m2? m3
H0,m1 = m2 = m3 =,.,= mk
m1? m2?m3
H1,not all the mi are equal
m1?m2?m3
与完全随机设计的方差分析基本相同,主要区别在于,F值计算的方差分析表( ANOVA
table)不同。
变异来源从 组内变异 中分解出 单位组变异 与误差变异 。
2009年 7月 28日第四军医大学卫生统计学教研室
(二)计算 F值(方差分析表)
随 机 单 位 组 设 计 的 方 差 分 析 表变 异 来 源 SS? MS F
处 理 组 间
CX
b i
j
ij∑
2
1
1?k
处理处理
SS
误差处理
MSMS
单 位 组 间 CX
k j
i
ij


2
1
b - 1
单位单位
SS
误差单位
MSMS
误 差 单位处理总
SSSSSS
单位处理总

误差误差
SS
总 ∑ CX -
2
1-N
∑ NXC /)(=
2
2009年 7月 28日第四军医大学卫生统计学教研室计算 F值(方差分析表)
本 例 ( 表 4 - 4 ),C = 100467
12
)1098(
2
SS 总 = 13075100467113542
SS 处 理 = 6074100467
4
480358260
222


SS 单 位 = 67.6457100467
3
192314225367
2222


SS 误 差 = 33.54367.6457607413075
表 4 - 6 例 4 - 2 资 料 方 差 分 析 表变 异 来 源 SS DF MS F 值 P 值处 理 组 间单 位 组 间
6074.00
6457.67
2
3
3037.00
2152.56
33.54
23,77
0.000554
0.000992
误 差 543.33 6 90.55
总 计 13075.00 11
2009年 7月 28日第四军医大学卫生统计学教研室
(三)下结论
±ù P £? 0.0 0 055 4 £? °′
=0.0 1 3? £ü?÷
0H
£ó êü
1H
£?
èa èù ·? ′¤?×?à à? 3· μ? ′? °3 ê? 3ó× à? μ? 2é ±e óD í3§ òa
ò? £′ 3¢ é? 2o íà à? μ? ′¤?× ′? °3 ê? 3ó μ× à? óD ó°?1?£
′ ·ù êù μ? à? à? ±è £á òo?ù
oú μ¤?o 3· é ó? μ¤?o 3·?× à? 2? êμ?· ò× £? 2¢?ù?÷ DD
2? 2é 2 ê± μ¤?o 3· μ? ±? ò1 ′ó 3·?ù ±? ò1?D 2a 3′?£ ò? ′? £?
μ± μ¤?o 3· 2é ±e óD í3§ òa ò? ê± £a é óé óù é? à 2é £?
í? è oú é μ? ê· D§ áê ìμ ·? à£
2009年 7月 28日第四军医大学卫生统计学教研室
t检验与 F检验的关系当处理组数为 2时,对于相同的资料,如果同时采用 t检验与 F检验,则有:
随机单位组设计 ANOVA的 处理组 F值与 配对设计的 t值; 完全随机设计 ANOVA的 F值 与 两样本均数比较 的 t值间均有:
tF?
2009年 7月 28日第四军医大学卫生统计学教研室完全随机设计 ANOVA与随机单位组设计 ANOVA
随机单位组设计 ANOVA将完全随机设计
ANOVA的组内变异分解为单位组间变异与误差变异,即:
误差单位组内误差单位组内 =;= SSSSSS
2009年 7月 28日第四军医大学卫生统计学教研室不同设计应采用不同的 ANOVA方法
±í 4 - 6 àà 4 - 2 ×à àà àà àú àà àà ×é àè àà àà ·à àà ·à àà ±í
±? ò1?′?′ SS DF MS F?μ P?μ
′¥?o 3·
μ¤?o 3·
6 074,0 0
6 457,6 7
2
3
30 37.0 0
21 52.5 6
33,54
23,77
0,0005 5 4
0,0009 9 2
2é 5 43.3 3 6 9 0.55
3ü 1 3075,00 11
±í 4 - 6 àà 4 - 2 ×à àà àê àà àà àú àè àà àà ·à àà ·à àà ±í
±? ò1?′?′ SS DF MS F?μ P?μ
′¥?o 3·
3·?ù
6 074,0 0
70 01,00
2
9
30 37.0 0
77 7,8 9
3,90
0,0 6 015