方差分析 ANOVA
助教 李婕
2003年 11月 21日
已经学过的知识
? 一位研究者对长子与次子的心理特征感兴趣。他在一
年级大学生中随机抽取了 10个长子和 20个非长子对其
施测自尊量表。 10个长子在量表上的平均分是 X = 48,
SS=670。 20个非长子的平均分是 X = 41,SS=1010。
这些数据表明两组间是否有显著差异?用 α=,01 的显
著性水平作假设检验。
一个 新的 情境
? 一位研究者感兴趣影响儿童阅读能力的因素,研究者认
为儿童的年龄和每次阅读时间可能是重要的影响因素。
研究者设计了以下实验:选取三个年龄组的儿童, 3 岁,
8 岁,和 14 岁,将每个年龄组的儿童随机分配到三个阅
读条件, 组 1阅读时间为 5 分钟 ; 组 2为 15 分钟 ; 对于组
3为 30 分钟,两个星期之后测试了这些儿童的阅读能
力。
阅读时间
5 分钟
15 分钟
30 分钟
年龄
3 岁
8 岁
14 岁
3*3个共 9个单元
格,如何分析数
据?
分析
?t-检验和 z-检验不能用于多于 2 组的
数据, 处理这类数据需要用一种新的推
论统计程序, 方差分析 (ANOVA),(为什
么 )
这次课的内容
? 最基本的 ANOVA.集中讨论单因素,独立测
量的研究设计,
?1,ANOVA的简介
?2,ANOVA的逻辑
?3,ANOVA的符号,
?4,ANOVA的过程和例题
?5,事后检验
ANOVA简介( 1)
? 方差分析即 analysis of variance,简称
ANOVA。
? 功能:分析实验数据中不同来源的变异
对总变异的贡献大小,确定实验中的自
变量是否对因变量有重要影响。
方差的来源
什么造成样本的不同 (处理间变异 )
– 处理 /组效应 - 处理造成的差异
个体差异效应 - 个体差异变异
– 随机误差
? 每一个样本内部的变异 (处理内变异 )
– 个体差异效应
随机误差
ANOVA简介( 2)
? 在方差分析中,自变量称为因素,
– 包含一个自变量的研究称为单因素设计
( single-factor design),
– 具有多于一个自变量研究称为因素设计
( factorial design),
? 构成因素的个别处理条件称为因素的水平
ANOVA简介( 3)
? ANOVA能够处理数据的类型,
– 两个自变量 (称为因素 ),年龄和阅读时间,都是
组间 (独立样本 ) 变量,
– 包含组内 (重复测量 ) 因素的研究设计
– 同时包含组间和组内因素的混合设计 (e.g,假设上
例中我们用同一些儿童作纵向研究。年龄是组内变
量,阅读时间是组间变量 ),
? 上述研究称为因素设计,两个组间因素,每一
个因素有 3 个水平 (称为 3 X 3 组间设计 ),
ANOVA逻辑
? 与假设检验的逻辑是同样的,只是具体内容有
变化
? step 1,陈述 H0 (和 H1),确定标准, a =?
step 2,ANOVA 检验总是 单尾(不同之处)
? step 3,指出检验的 df (有两个 df)
step 4,查表找出临界 F统计量
? step 5,对于样本,计算 F统计量
step 6,比较 F统计量 和临界 F统计量
step 7,对于 H0 作出结论
单因素,独立测量研究设计的例子
? 检验三个不同的学习方法的效应。将学
生随机分配到 3个处理组
? 方法 A:让学生只读课本,不去上课,
? 方法 B:上课,记笔记,不读课本,
? 方法 C:不读课本,不去上课,只看别
人的笔记
单因素,独立测量研究设计的例子
? Step 1,陈述假设和设定标准 (选择 a)
? H0,m1 = m2 = m3
? H1,其中一个组与另一个(或更多)的组均值
不同。备择假设 可能的形式很多,
? m1不等于 m2 = m3
m1 = m3 不等于 m2
m1 = m2 不等于 m3
m1 不等于 m2 不等于 m3
? 因此,只需给出虚无假设就够了
单因素,独立测量研究设计的例子
? step 2,ANOVA 检验总是单尾, 因为不存在负的方差,
F分布表也只有单侧的 Alpha.( F分布图)
? step 3,找出检验的 df,注意要考虑几个 df
? step 4,从表找出临界 F统计量
? step 5:计算样本 的 F统计量观测值
? step 6:比较 F统计量的观测值与临界 F统计量 如果
F统计量的观测值 (Fobs) 在统计上显著地大于 1.0
则拒绝 H0
单因素,独立测量研究设计的例子
? F<或= 1,即 MS组间 / MSw组内 <1,说明数据的总
变异由分组不同造成的变异只占很小的部分,
大部分是由试验误差何个体差异所致,就是说
不同的实验处理之间变异不大,或者说试验处
理基本无效。
? F>1而且落入 F分布的临界区,说明实验数据的
变异由不同的实验处理所造成,即不同的试验
处理之间有差异。
ANOVA的专用符号
? K = 处理条件 (或组 )的数目
n = 每一个组的数目 (如果它们相等 )
ni = 第 i组的数目 (如果 它们不等 )
N = Sni = 总的样本容量
Ti = SXij
G = SXij =总的和
G-bar = G / N = 总的均值
SSi = 每一个组的和方 = S(Xij - i)2
研究方法
方法 A
只读课本
方法 B
只作笔记
方法 C
借别人笔记
0
4
1
1
3
2
3
6
2
1
3
0
0
4
0
T1 = 5
T2 = 20
T3 = 5
SS
1 = 6
SS2 = 6
SS3 = 4
n
1 = 5
n2 = 5
n3 = 5
?SX2=106
G=30=总的和
? N=15=总的样本容量
G-bar=30/15=2= 总的均值
K = 3 =处理条件 (或组 )
ANOVA的过程
? F比率 = 处理间方差 /处理内方差 ( 需要找出两个方差, )
? 最基本公式 s2 = SS/df,
? SS和 = SX2 - (G2/N)
? SS和 = 106 - (302/15) =106 - 60 = 46
? 需要将其分解为组间变异和组内变异,
? SS和 = SS组间 + SS组内
? 如何得到 SS组内? 将每一个组 SS相加
? SSwithin = SSS每一个 处理内部 = SSSi= 6 + 6 + 4 = 16
? 如何得到 SS组间?
? 快捷的方法是,
? SS和 - SS组内
注意
? 不推荐用这种方法,
? 因为,
? 无法检查计算错误
? 未涉及 SS组间 是如何组成,
直接计算 SS组间 的两个公式,
定义公式和计算公式
? 定义公式,SS
间 = S[ni( X-bar- G-bar)
2]
= 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2
= 5 + 20 + 5
= 30
? 计算公式,SS间 = S(T2/ni) - G2/N
= 52/5 + 202/5 + 52/5 - 302/15
= 5 + 80 + 5 - 60
= 30
? SS和 = SS组间 + SS组内 = 16 + 30 = 46
? s2 = SS/df,
df
? 共有两个 (或三个 ) 自由度,一个组间
方差 df,一个组内方差 df (以及一个总的
df),
?df和 = N - 1
?df组内 = = N - K
?df组间 = K - 1
?df和 = df组内 + df组间
df
? 在例子中,
?df组内 = 15 - 3 = 12
?df组间 = 3 - 1 = 2
?df和 = 15 - 1 = 14,= 12 + 2
均方:计算方差,
? 方差 = 均方 = MS = SS/df
?MS组间 = SS组间 /df组间
?--> 上例中 = 30/2 = 15
?MS组内 =误差的均方 = SS组内 /df组内
?--> 上例中 = 16/12 = 1.33
F比率
?F比率 = 处理间方差 /处理内方差
= MS组间 / MSw组间
? 上例中的 F比率是, 15/1.33 = 11.28
查 F表 确定 Fcrit 对假设作出结论
? df组间 = 分子的 df
df组内 = 分母的 df (误差 )
? --> 上例中, df组内 = 12; df组间 = 2
? 如果选择 a =,05,Fcrit = 3.88
如果选择 a =,01,Fcrit = 6.93
? F比率的观测值 11.28> Fcrit.,所以拒绝 H0 (m1 =
m2 = m3),
? 报告结果
? F(df组间,df组内 ) = Fobs,p <?
报告结果
? 单因素方差分析发现学习方法有显著的
效应,F(2,12) = 11.28,p < 0.01,
事后检验( Post hoc tests) 1
? ANOVA 的结果是检验 H0,m1 = m2 = m3,并未
提供哪个备择假设得到支持, 也就是说,只知
道一些组与其它组不同,但并知道差别在哪些
组之间,
? 所以从 ANOVA得到显著差异的结果 (拒绝 H0)后,
一定要做作事后检验,
? 事后检验 使我们能够比较各组,发现差异产
生在什么地方,
? 事后检验就是比较每一个处理组与另一个处理
组,一次比较两个, 这称为成对比较,
事后检验( Post hoc tests) 2
? 在上例中,可以比较 m1 与 m2,m1与 m3,以
及 m2与 m3,
? 这样的做法有没有问题?
? 每一个比较 都是一个单独的假设检验,每一
个都有犯 I类错误的风险, 所以,比较对数越多,
作结论的风险越大。即容易发现实际不存在的
差异。 这称为实验导致的( experimentwise)
alpha 水平 (或族系( familywise) 误差 )
事后检验( Post hoc tests) 3
? α EW = 1 - (1 - a)c c = 比较对数
– 对于上述例子,如果选择 a = 0.05 作 3
对比较
– α EW = 1 - (1 - a)c = 1 - (.95)3 = 1
-,857 =,143
?I类错误的机会增加到 14.7%而不再是 5%,
多数事后检验设计中都控制了实验导致
误差,
事后检验( Post hoc tests) 4
? 介绍两个事后检验, Tukey's HSD 检验
(honestly差异显著性 ) 检验和 Scheff
检验,
a) Tukey's HSD 检验
? 可以计算出单一的值确定处理均值间的
最小差异,考查此差异在统计上是否显
著,
? 此检验要求各组有相等的样本容量,
?HSD = q * sqrt( MS组内 /n)
?q 值 可以从表中查出 (附表 6),需要用
到 K和 df组内,以及 α EW
举例
? 在上例中 (用 α EW =,05),
? HSD = q * sqrt( MS组内 /n) =(3.77) sqrt( 1.33/5) =
(3.77)(.516) = 1.94
? 比较 1,H0,m1 = m2
? 2 -1 = 4.0 - 1.0 = 3.0
? HSD = 1.94 < 3.0,拒绝 H0
? 比较 2,H0,m1 = m3
? 3 -1 = 1.0 - 1.0 = 0.0
? HSD = 1.94 > 0.0,不能 拒绝 H0
? 比较 3,H0,m2 = m3
? 2 -3 = 4.0 - 1.0 = 3.0
? HSD = 1.94 < 3.0,拒绝 H0
? 所以 B 与 A 和 C不同,而 A 与 C 没有差异
b) Scheff?检验
? 用 F比率检验差异, 这是最保守的检验
(降低 I类错误的风险,但增加 II类错误
的风险 ),特别适用于 n 不等的情况
? 重新计算 MS组间,每次只检验一个比较,
注意,用整体的 df组间 和整体的 MS组内,
举例:比较 1
? H0,m1 = m2
? SS组间 == 52/5+202/5-252/10 = 22.5
? MS组间 = = 22.5/2 = 11.25
? MS组内 = = 16/12 = 1.33
? F比率 = MS间 /MS组内 = 11.25/1.33 = 8.46
? 查 F表, a =,05,Fcrit(2,12) = 3.88
? 8.46 > 3.88,拒绝 H0
举例:比较 2
? H0,m1 = m3
? SS组间 == 52/5+52/5-102/10= 0
? MS组间 =0/2 = 0
? MS组内 =16/12 = 1.33
? F比率 = MS间 /MS组内 = 0/1.33 = 0
? 查 F表, a =,05,Fcrit(2,12) = 3.88
? 0 < 3.88,不能拒绝 H0
举例:比较 3
? H0,m2 = m3
? SS组间 ==52/5+202/5-252/10 = 22.5
? MS组间 =22.5/2 = 11.25
? MS组内 =16/12 = 1.33
? F比率 = MS间 /MS组内 = 11.25/1.33 = 8.46
? 查 F表, a =,05,Fcrit(2,12) = 3.88
? 8.46 > 3.88,拒绝 H0
与 t-检验的关系
? 差异间独立样本 t-检验与两个水平的单因素
组间 ANOVA有何区别?
没有, F比率 = t2
? 差异间 t-检验和 ANOVA,t-检验是考察两个均
值间的差异 ANOVA 是考察方差, 如果只有两个
组,t 统计量的平方就是 F 统计量,
练习题
? 一位研究者研究三种键盘设计。记录了
三组被试的错误次数,
? 键盘 A,0 4 0 1 0
? 键盘 B,6 8 5 4 2
? 键盘 C,6 5 9 4 6
? 键盘类型对打字错误有无显著的影响?