方差分析：方差分析

分类：数学格式：ppt 日期：2005年07月27日

方差分析 ANOVA
助教李婕
2003年 11月 21日已经学过的知识
一位研究者对长子与次子的心理特征感兴趣。他在一年级大学生中随机抽取了 10个长子和 20个非长子对其施测自尊量表。 10个长子在量表上的平均分是 X = 48，
SS=670。 20个非长子的平均分是 X = 41,SS=1010。
这些数据表明两组间是否有显著差异？用 α=,01 的显著性水平作假设检验。
一个新的情境
一位研究者感兴趣影响儿童阅读能力的因素,研究者认为儿童的年龄和每次阅读时间可能是重要的影响因素。
研究者设计了以下实验：选取三个年龄组的儿童,3 岁,
8 岁,和 14 岁,将每个年龄组的儿童随机分配到三个阅读条件,组 1阅读时间为 5 分钟 ; 组 2为 15 分钟 ; 对于组
3为 30 分钟,两个星期之后测试了这些儿童的阅读能力。
阅读时间
5 分钟 15分钟 30分钟年龄 3 岁
8 岁
14岁
3*3个共 9个单元格，如何分析数据？
分析
t-检验和 z-检验不能用于多于 2 组的数据,处理这类数据需要用一种新的推论统计程序,方差分析 (ANOVA),(为什么 )
这次课的内容
最基本的 ANOVA.集中讨论单因素,独立测量的研究设计,
1,ANOVA的简介
2,ANOVA的逻辑
3,ANOVA的符号,
4,ANOVA的过程和例题
5,事后检验
ANOVA简介（ 1）
方差分析即 analysis of variance，简称
ANOVA。
功能：分析实验数据中不同来源的变异对总变异的贡献大小，确定实验中的自变量是否对因变量有重要影响。
方差的来源什么造成样本的不同 (处理间变异 )
– 处理 /组效应 - 处理造成的差异个体差异效应 - 个体差异变异
– 随机误差
每一个样本内部的变异 (处理内变异 )
– 个体差异效应随机误差
ANOVA简介（ 2）
在方差分析中,自变量称为因素,
– 包含一个自变量的研究称为单因素设计
（ single-factor design）,
– 具有多于一个自变量研究称为因素设计
（ factorial design）,
构成因素的个别处理条件称为因素的水平
ANOVA简介（ 3）
ANOVA能够处理数据的类型：
– 两个自变量 (称为因素 ),年龄和阅读时间，都是组间 (独立样本 ) 变量,
– 包含组内 (重复测量 ) 因素的研究设计
– 同时包含组间和组内因素的混合设计 (e.g,假设上例中我们用同一些儿童作纵向研究。年龄是组内变量,阅读时间是组间变量 ),
上述研究称为因素设计,两个组间因素,每一个因素有 3 个水平 (称为 3 X 3 组间设计 ).
ANOVA逻辑
与假设检验的逻辑是同样的,只是具体内容有变化
step 1,陈述 H0 (和 H1),确定标准,a =?
step 2,ANOVA 检验总是单尾（不同之处）
step 3,指出检验的 df (有两个 df)
step 4,查表找出临界 F统计量
step 5,对于样本，计算 F统计量
step 6,比较 F统计量和临界 F统计量
step 7,对于 H0 作出结论单因素,独立测量研究设计的例子
检验三个不同的学习方法的效应。将学生随机分配到 3个处理组
方法 A：让学生只读课本,不去上课,
方法 B：上课,记笔记，不读课本,
方法 C：不读课本，不去上课,只看别人的笔记单因素,独立测量研究设计的例子
Step 1,陈述假设和设定标准 (选择 a)
H0,m1 = m2 = m3
H1,其中一个组与另一个（或更多）的组均值不同。备择假设可能的形式很多：
m1不等于 m2 = m3
m1 = m3 不等于 m2
m1 = m2 不等于 m3
m1 不等于 m2 不等于 m3
因此，只需给出虚无假设就够了单因素,独立测量研究设计的例子
step 2,ANOVA 检验总是单尾,因为不存在负的方差,
F分布表也只有单侧的 Alpha.（ F分布图）
step 3,找出检验的 df,注意要考虑几个 df
step 4,从表找出临界 F统计量
step 5:计算样本的 F统计量观测值
step 6:比较 F统计量的观测值与临界 F统计量如果
F统计量的观测值 (Fobs) 在统计上显著地大于 1.0
则拒绝 H0
单因素,独立测量研究设计的例子
F<或＝ 1,即 MS组间 / MSw组内 <1，说明数据的总变异由分组不同造成的变异只占很小的部分，
大部分是由试验误差何个体差异所致，就是说不同的实验处理之间变异不大，或者说试验处理基本无效。
F>1而且落入 F分布的临界区，说明实验数据的变异由不同的实验处理所造成，即不同的试验处理之间有差异。
ANOVA的专用符号
K = 处理条件 (或组 )的数目
n = 每一个组的数目 (如果它们相等 )
ni = 第 i组的数目 (如果它们不等 )
N = Sni = 总的样本容量
Ti = SXij
G = SXij =总的和
G-bar = G / N = 总的均值
SSi = 每一个组的和方 = S(Xij - i)2
研究方法方法 A
只读课本方法 B
只作笔记方法 C
借别人笔记
0 4 1
1 3 2
3 6 2
1 3 0
0 4 0
T1 = 5 T2 = 20 T3 = 5
SS1 = 6 SS2 = 6 SS3 = 4
n1 = 5 n2 = 5 n3 = 5
SX2=106
G=30=总的和
N=15=总的样本容量
G-bar=30/15=2= 总的均值
K = 3 =处理条件 (或组 )
ANOVA的过程
F比率 = 处理间方差 /处理内方差 ( 需要找出两个方差,)
最基本公式 s2 = SS/df,
SS和 = SX2 - (G2/N)
SS和 = 106 - (302/15) =106 - 60 = 46
需要将其分解为组间变异和组内变异,
SS和 = SS组间 + SS组内
如何得到 SS组内? 将每一个组 SS相加
SSwithin = SSS每一个处理内部 = SSSi= 6 + 6 + 4 = 16
如何得到 SS组间?
快捷的方法是,
SS和 - SS组内注意
不推荐用这种方法,
因为,
无法检查计算错误
未涉及 SS组间是如何组成,
直接计算 SS组间的两个公式,
定义公式和计算公式
定义公式,SS间 = S[ni( X-bar- G-bar)2]
= 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2
= 5 + 20 + 5
= 30
计算公式,SS间 = S(T2/ni) - G2/N
= 52/5 + 202/5 + 52/5 - 302/15
= 5 + 80 + 5 - 60
= 30
SS和 = SS组间 + SS组内 = 16 + 30 = 46
s2 = SS/df,
df
共有两个 (或三个 ) 自由度,一个组间方差 df,一个组内方差 df (以及一个总的
df),
df和 = N - 1
df组内 = = N - K
df组间 = K - 1
df和 = df组内 + df组间
df
在例子中,
df组内 = 15 - 3 = 12
df组间 = 3 - 1 = 2
df和 = 15 - 1 = 14,= 12 + 2
均方：计算方差,
方差 = 均方 = MS = SS/df
MS组间 = SS组间 /df组间
--> 上例中 = 30/2 = 15
MS组内 =误差的均方 = SS组内 /df组内
--> 上例中 = 16/12 = 1.33
F比率
F比率 = 处理间方差 /处理内方差
= MS组间 / MSw组间
上例中的 F比率是,15/1.33 = 11.28
查 F表确定 Fcrit 对假设作出结论
df组间 = 分子的 df
df组内 = 分母的 df (误差 )
--> 上例中,df组内 = 12; df组间 = 2
如果选择 a =,05,Fcrit = 3.88
如果选择 a =,01,Fcrit = 6.93
F比率的观测值 11.28> Fcrit.,所以拒绝 H0 (m1 =
m2 = m3),
报告结果
F(df组间,df组内 ) = Fobs,p <?
报告结果
单因素方差分析发现学习方法有显著的效应,F(2,12) = 11.28,p < 0.01.
事后检验（ Post hoc tests） 1
ANOVA 的结果是检验 H0,m1 = m2 = m3,并未提供哪个备择假设得到支持,也就是说,只知道一些组与其它组不同,但并知道差别在哪些组之间,
所以从 ANOVA得到显著差异的结果 (拒绝 H0)后,
一定要做作事后检验,
事后检验使我们能够比较各组,发现差异产生在什么地方,
事后检验就是比较每一个处理组与另一个处理组,一次比较两个,这称为成对比较,
事后检验（ Post hoc tests） 2
在上例中,可以比较 m1 与 m2,m1与 m3,以及 m2与 m3,
这样的做法有没有问题？
每一个比较都是一个单独的假设检验,每一个都有犯 I类错误的风险,所以,比较对数越多,
作结论的风险越大。即容易发现实际不存在的差异。这称为实验导致的（ experimentwise）
alpha 水平 (或族系（ familywise）误差 )
事后检验（ Post hoc tests） 3
α EW = 1 - (1 - a)c c = 比较对数
– 对于上述例子,如果选择 a = 0.05 作 3
对比较
– α EW = 1 - (1 - a)c = 1 - (.95)3 = 1
-,857 =,143
I类错误的机会增加到 14.7%而不再是 5%，
多数事后检验设计中都控制了实验导致误差,
事后检验（ Post hoc tests） 4
介绍两个事后检验,Tukey's HSD 检验
(honestly差异显著性 ) 检验和 Scheff
检验,
a) Tukey's HSD 检验
可以计算出单一的值确定处理均值间的最小差异，考查此差异在统计上是否显著,
此检验要求各组有相等的样本容量,
HSD = q * sqrt（ MS组内 /n）
q 值可以从表中查出 (附表 6),需要用到 K和 df组内,以及 α EW
举例
在上例中 (用 α EW =,05),
HSD = q * sqrt（ MS组内 /n） =(3.77) sqrt（ 1.33/5） =
(3.77)(.516) = 1.94
比较 1,H0,m1 = m2
2 -1 = 4.0 - 1.0 = 3.0
HSD = 1.94 < 3.0，拒绝 H0
比较 2,H0,m1 = m3
3 -1 = 1.0 - 1.0 = 0.0
HSD = 1.94 > 0.0，不能拒绝 H0
比较 3,H0,m2 = m3
2 -3 = 4.0 - 1.0 = 3.0
HSD = 1.94 < 3.0,拒绝 H0
所以 B 与 A 和 C不同，而 A 与 C 没有差异
b) Scheff?检验
用 F比率检验差异,这是最保守的检验
(降低 I类错误的风险,但增加 II类错误的风险 ),特别适用于 n 不等的情况
重新计算 MS组间,每次只检验一个比较,
注意,用整体的 df组间和整体的 MS组内,
举例：比较 1
H0,m1 = m2
SS组间 == 52/5+202/5-252/10 = 22.5
MS组间 = = 22.5/2 = 11.25
MS组内 = = 16/12 = 1.33
F比率 = MS间 /MS组内 = 11.25/1.33 = 8.46
查 F表,a =,05,Fcrit(2,12) = 3.88
8.46 > 3.88,拒绝 H0
举例：比较 2
H0,m1 = m3
SS组间 == 52/5+52/5-102/10= 0
MS组间 =0/2 = 0
MS组内 =16/12 = 1.33
F比率 = MS间 /MS组内 = 0/1.33 = 0
查 F表,a =,05,Fcrit(2,12) = 3.88
0 < 3.88,不能拒绝 H0
举例：比较 3
H0,m2 = m3
SS组间 ==52/5+202/5-252/10 = 22.5
MS组间 =22.5/2 = 11.25
MS组内 =16/12 = 1.33
F比率 = MS间 /MS组内 = 11.25/1.33 = 8.46
查 F表,a =,05,Fcrit(2,12) = 3.88
8.46 > 3.88,拒绝 H0
与 t-检验的关系
差异间独立样本 t-检验与两个水平的单因素组间 ANOVA有何区别?
没有,F比率 = t2
差异间 t-检验和 ANOVA,t-检验是考察两个均值间的差异 ANOVA 是考察方差,如果只有两个组,t 统计量的平方就是 F 统计量,
练习题
一位研究者研究三种键盘设计。记录了三组被试的错误次数：
键盘 A,0 4 0 1 0
键盘 B,6 8 5 4 2
键盘 C,6 5 9 4 6
键盘类型对打字错误有无显著的影响？

课件简介

课件名称：	方差分析
课件分类：	数学
课件类型：	电子教案
文件大小：	43.52KB
下载次数：	6
评论次数：	1
用户评分：	7

1. 方差分析：方差分析

显示更多>>

用户列表

djvux7bfwn

崔峰

张五