zf
第二章 均值向量和协方差阵的检验
2011-10-16 2
cxt
假设检验的基本问题
? 1、假设检验的基本原理
小概率事件原理
? 小概率思想是指小概率事件( P<0.01或
P<0.05等)在一次试验中基本上不会发生。
反证法思想是先提出假设 (检验假设 H0),再
用适当的统计方法确定假设成立的可能性大
小,如可能性小,则认为假设不成立;反之,
则认为假设成立。
2011-10-16 3
cxt
? 2、假设检验的步骤
( 1)提出一个原假设和备择假设
? 例如:要对妇女的平均身高进行检验,可以
先假设妇女身高的均值等于 160 cm
( u=160cm )。 这种原假设也称为零假设
( null hypothesis ),记为 H 0 。
2011-10-16 4
cxt
? 与此同时必须提出对立假设,如妇女身高均
值不等于 160 cm 。 对立假设又称为备选假
设或备择假设( alternative hypothesis )
记为 H 1 。
? 形式上,上面的关于总体均值的 H 0 相对
于 H 1 的检验记为,
H0,u=160cm
H1,u不等于 160cm
?
2011-10-16 5
cxt
? H1,u不等于 160cm的假设称为双尾检验 ;
? 如果备选假设为 H1,
u大于 160cm 或 u小于 160cm
则称为单尾检验。
? 实际中选择何种备选假设,需根据检验的需要决定。
? 需要注意的是,计算机输出结果中的 p 值是双尾
检验的概率。
? 如果备选假设选择的是单尾检验,则要将计算机给
的 p 值除以 2,即取 p 值的一半。
2011-10-16 6
cxt
( 2)确定检验统计量
1 有了两个假设, 就要根据数据来对它们进行判断:
选择适当的统计量, 并在原假设 H0成立的条件下确
定该统计量的分布 。
( 3)确定显著性水平 α
? 根据样本所得的数据来拒绝零假设的概率应小于
0.05,当然也可能是 0.01, 0.005, 0.001
等等。
? 根据统计量的分布查表,确定对应于 α 的临界值,
2011-10-16 7
cxt
? 显著性水平就是小概率水平,但小概率并不
能说明不会发生,仅仅是发生的概率很小罢
了。拒绝正确零假设的错误常被称为 第一类
错误( type I error ) 。
? 有第一类错误,就有第二类错误:那是备选
假设正确时反而说零假设正确的错误,称为
第二类错误( type II error ) 。
2011-10-16 8
cxt
( 4)计算检验统计量的值并进行判断
? 根据样本观测值计算统计量的观测值,并与临
界值进行比较,从而在检验水平条件下对拒绝
或接受原假设 H0作出判断,
? 根据数据计算检验统计量的实现值( t 值或 F
值)和根据这个实现值计算 p值
? 如果 p - 值小于或等于 α, 就拒绝零假设,这
时犯错误的概率最多为 α ; 如果 p - 值大于 α,
就不拒绝零假设,因为证据不足。
2011-10-16 9
cxt
? 实际上,多数计算机软件仅仅给出 p - 值,而不
给出 α 。 这有很多方便之处。比如 α= 0.05,
而假定所得到的 p - 值等于 0.001 。这时如果采
用 p - 值作为新的显著性水平,即新的 α=
0.001 ; 于是就可以说,在显著性水平为 0.001
时,拒绝零假设。这样,拒绝零假设时犯错误的概
率实际只是千分之一而不是旧的 α 所表明的百分
之五。
? 在这个意义上,p - 值又称为观测的显著性水平
( observed significant level )。 在统计软件
输出 p - 值的位臵,有的用 ? p-value,, 有
的用 significant 的缩写 ? Sig”
2011-10-16 10
cxt
? 3, 关于 ? 临界值 ? 的问题,
? 过去的统计教科书中,使用临界值的概念进行假设
检验,不计算 p - 值。只比较统计量的取值和临界
值的大小。使用临界值而不是 p - 值来判断拒绝与
否是前计算机时代的产物。当时计算 p - 值不易,
只采用临界值的概念。
? 现在计算机软件一般都不给出 α 和临界值,但都给
出 p - 值和统计量的实现值,让用户自己决定显著
性水平是多少。
2011-10-16 11
cxt
2.1 均值向量的检验
? 1、正态总体均值检验的类型
? 根据样本对其总体均值大小进行检验( One-
Sample T Test )
如妇女身高的检验。
? 根据来自两个总体的独立样本对其总体均值的检验
( Indepent Two-Sample T Test )
如两个班平均成绩的检验。
? 配对样本的检验( Pair-Sample T Test )
如减肥效果的检验。
? 多个总体均值的检验
2011-10-16 12
cxt
? ( 1)根据样本对其总体均值大小进行检验
设取出一容量为 n的样本,得到均值 和标
准差 s,现要透过样本推断总体均值 是否
与某给定值(理论值或标准值) 有无差
别进行检验,记
称 H0为原假设, H1为备择假设, 两者择其一:
接受 H0; 拒绝 H0,即接受 H1
X
?
0?
00:H ??? 10:H ???
2011-10-16 13
cxt
? A,总体方差已知
用 u检验, 检验的拒绝域为

? B,总体方差未知
用样本方差 代替总体方差,这种检验
叫 t检验,
1 2{}W z u ???? 1122
{}W z u z u????? ? ? ?或
2s
2?
2011-10-16 14
cxt
总体方差
2
? 已知
统计量 z=
n
X
?
?
0
?
总体方差
2
? 未知
统计量 ?t
n
s
X
0
??
H 0 H 1
在显著水平
?
下拒绝 H 0,若
Ⅰ 0
?? ?
0
?? ?
2
1
?
?
? uz
)1(
2
1
??
?
ntt
?
Ⅱ 0
?? ?
0
?? ?
??
?
1
uz
)1(
1
??
?
ntt
?

0
?? ?
0
?? ?
??
??
1
uz
)1(
1
???
?
ntt
?
2011-10-16 15
cxt
? 如根据大量调查,已知健康成年男性的脉搏
均数为 72次 /分,某医生在一山区随即抽查
了 25名健康男性,求得其脉搏均数为 74.2次
/分,标准差为 6.0次 /分,问是否能据此认
为该山区成年男性的脉搏均数高于一般成年
男性。
? 上述两个均数不等既可能是抽样误差所致,也有可能真是环境差
异的影响,为此,可用 t检验进行判断,检验过程如下,
2011-10-16 16
cxt
? a,建立假设
H0,μ=μ0=72次 /分,H0,μ>μ0,检验水准为单侧 0.05。
? b,计算统计量
进行样本均数与总体均数比较的 t检验时 t值为样本均数与
总体均数差值的绝对值除以标准误的商,其中标准误为标
准差除以样本含量算术平方根的商
? 3,确定概率,作出判断
以自由度 v(样本含量 n减 1)查 t界值表,0.025<P<0.05,拒
绝 H0,接受 H1,可认为该山区成年男性的脉搏均数高于一
般成年男性。
2011-10-16 17
cxt
? 例 1:如果你买了一包标有 500g 重的一包
红糖,你觉得份量不足。于是你找到监督部
门;当然他们会觉得一包份量不够可能是随
机的。于是监督部门就去商店称了 50 包红
糖(数据在 sugar.sav ); 其中均值(平
均重量)是 498.35g ; 这的确比 500g 少,
但这是否能够说明厂家生产的这批红糖平均
起来不够份量呢?于是需要统计检验。
2011-10-16 18
cxt
? 首先,可以画出这些重量的直方图(图 1)
? 判断样本是否服从正态分布
2011-10-16 19
cxt
? 提出假设
? 由于厂家声称每袋 500g ( 标明重量),因
此零假设为总体均值等于 500g ( 被怀疑对
象总是放在零假设 );而且由于样本均值少
于 500g ( 这是怀疑的根据),把备选假设
定为总体均值少于 500g ( 这种备选假设为
单向不等式的检验为单尾检验,)。
? 即,H0,u=500
H1,u小于 500
2011-10-16 20
cxt
? 确定统计量
检验统计量就是作为对均值的标准化
见书:第 21页( 2.1)( 2.2)
? 用 SPSS 处理数据,
? 命令, Analyze— Compare mean— One
Sample T Test
2011-10-16 21
cxt
? Spss 输出结果,t=-2.696 ( 也称为 t
值),同时得到 p- 值为 0.005 (由于计
算机输出的为双尾检验的 p- 值,比单尾的
大一倍,应该 0.010除以 2 )
2011-10-16 22
cxt
? 在 0.5%的条件下,红糖标记重量为 500g
是不能接受的,实际上平均起来要少于
500g 。
2011-10-16 23
cxt
? 见图 2的 t分布图,在直观上看这也的确是个
小概率事件。
2011-10-16 24
cxt
? 例 2:某汽车厂商声称其发动机排放标准的
一个指标平均低于 20 个单位。在抽查了
10 台发动机之后,得到下面的排放数据,
17.0, 21.7, 17.9, 22.9, 20.7,
22.4, 17.3, 21.8, 24.2, 25.4 。
该样本均值为 21.13 。究竟能否由此认为
该指标均值超过 20?
? 假设检验问题就是,H0=20
H1大于 20
2011-10-16 25
cxt
? 用 SPSS 处理数据,
? Spss 选项,Analyze— Compare mean—
One-Sample T Test
? Spss 输出结果,
2011-10-16 26
cxt
? 输出结果中,p - 值为 0.1243 (计算机输
出的双尾检验的 p - 值除以 2 ),因此,
没有证据否定零假设。
? t分布图,
2011-10-16 27
cxt
? 从图 3( t分布图)可以看出,右边的尾概率
不能说是小概率。如果要是拒绝零假设的话,
犯错误的概率就多于 12 %( 0.1243 )了,
因此没有足够证据来拒绝零假设 。
2011-10-16 28
cxt
? ( 2)根据来自两个总体的独立样本对其总体均值的
检验
? 目的是 推断两个样本分别代表的总体均数是否相等。
其检验过程与上述两种 t检验也没有大的差别,只是
假设的表达和 t值的计算公式不同。
? 两样本均数比较的 t检验,其假设一般为,
H0,μ1=μ2,即两样本来自的总体均数相等,
H1,μ1>μ2或 μ1<μ2,即两样本来自的总体均数不相等,
检验水准为 0.05。
? 计算 t统计量时是用两样本均数差值的绝对值除以两
样本均数差值的标准误。
2011-10-16 29
cxt
? A,与 已知时
构造统计量
? B,与 未知但相等时
构造统计量
21? 22?
22
12
12
XYz
nn
??
??
?
21? 2
2?
1 2 1 2
22
121 1 2 2
( 2 )
( 1 ) ( 1 )
n n n nXYt
nnn s n s
????
?? ? ?
2011-10-16 30
cxt
方差
2
2
2
1
,?? 已知
统计量 z
方差
2
2
2
1
,?? 未知但相等
统计量 t
H
0
H
1
在显著水平
?
下拒绝 H
0
,若
Ⅰ 21
?? ?
21
?? ?
2
1
?
?
? uz )2(
21
2
1
???
?
nntt
?
Ⅱ 21
?? ?
21
?? ? ??? 1uz )2( 211 ??? ? nntt ?

21
?? ?
21
?? ? ???? 1uz )2( 211 ???? ? nntt ?
2011-10-16 31
cxt
? 例 3:为检测某种药物对攻击性情绪的影响,
对 100 名服药者和 150 名非服药者进行心
理测试,得到相应的某指标。
2011-10-16 32
cxt
? 相应的假设检验问题为,
H0,μ 1=μ 2
H1,μ 1大于 μ 2
? μ 1 为第一组的总体均值,而 μ 2 为第二组
的总体均值。
? 用 SPSS 处理数据,
Spss 选项, Analyze— Compare Means —
Independent-Samples T Test
2011-10-16 33
cxt
? SPSS 输出结果,
? 注意:这个输出的前面三列( Levene‘ s Test for Equality of
Variances ) 为检验这两个样本所代表的总体之方差是否相等(零假设
为相等)。
2011-10-16 34
cxt
? 如果显著,即在 Sig 列中的该 Levene 检
验 p- 值很小(这里是 0.008 ),说明两
总体的方差相等被拒绝。就应该看两总体方
差不等的结果,即最后一行的 t 检验输出
( p- 值= 0.347/2 );否则看上面一行
的结果。
? 之所以这样做,是 因为总体方差相同时使用
的检验统计量与方差不同时使用的不一样
2011-10-16 35
cxt
? 通过计算,t统计量等于 0.942,p值为
0.1735 (输出中的双尾检验 p值 0.347的一
半)。因此无法拒绝零假设,即不能得出第
一组的平均指标大于第二组的结论。
2011-10-16 36
cxt
? 3、配对样本的检验( paired samples )
(针对同样的样本)考察实验前后样本均值有无差异。
能够很好地控制非实验因素对结果的影响注意:实验前
后两个样本 两个样本并不独立
? 注意:同一样本实验前后 并不独立,但不同样本之间却
相互独立。
? 配对样本的检验实际上是用配对差值与总体均数 ? 0?
进行比较,即推断差数的总体均数是否为 ? 0? 。故 其
检验过程 与依据样本均数推断总体均数大小的 t检验类
似,即,
2011-10-16 37
cxt
? A,建立假设
H0,μd=0,即差值的总体均数为 ? 0?, H1,μd>0或
μd<0,即差值的总体均数不为 ? 0?,检验水平为 α 。
? B,计算统计量
进行配对设计 t检验时 t值为差值均数与 0之差的绝对
值除以差值标准误的商,其中差值标准误为差值标准
差除以样本含量算术平方根的商。
? C,确定概率,作出判断
以自由度 v(对子数减 1)查 t界值表,若 P<α, 则拒绝 H0,
接受 H1,若 P>=α, 则还不能拒绝 H0。
2011-10-16 38
cxt
? 例 4:要比较 50个人在减肥前和减肥后的重量。这
样就有了两个样本,每个都有 50个数目。
? 这里 不能 用前面的独立样本均值差的检验;这是因
为 两个样本并不独立 。
? 每一个人减肥后的重量都和自己减肥前的重量有关。
但不同人之间却是独立的。 令减肥前的重量均值为
μ 1, 而减肥后的均值为 μ 2 ; 这样所要进行的检
验为,
H0,μ 1= μ 2
H1,μ 1大于 μ 2
2011-10-16 39
cxt
? 也可以把两个样本中配对的观测值逐个相减,
形成一个由独立观测值组成的样本;然后用
单样本检验方法,看其均值是否为零。在相
减之后公式和单样本均值检验无异。
? 用 SPSS 处理数据,
Spss 选项,Analyze— Compare Means —
Paired-Samples T Test
2011-10-16 40
cxt
? SPSS输出结果,
2011-10-16 41
cxt
? Spss 输出结果得到双尾 p- 值为 0.002,
这里的单尾 p- 值于是为 0.001
? 因此减肥后和减肥前相比,平均重量显著要
轻。
2011-10-16 42
cxt
? ( 4)多元、多总体的均值检验??,
? 各总体均值是否相等?各个总体之间的差异表现在哪
儿?是由什么引起的?
? 能否继续采用前面的 3种类型所选用的 t检验?为什么?
不能,因为,
a,计算工作量大
变量或总体两两检验
b,估计的精确性和检验的灵敏度降低
? 如何解决?
2011-10-16 43
cxt
方差分析 ( analysis of variance, ANOVA )
? 一、方差分析的基本思想
1、定义
方差分析 又称变异数分析或 F检验,其 目的
是 推断两组或多组资料的总体均数是否相同,
检验两个或多个样本均数的差异是否有统计
学意义。
2011-10-16 44
cxt
? 2、了解 方差分析中 几个重要概念,
? ( 1)观测因素或称为观测变量
如:考察农作物产量的影响因素。农作物产量就是观测
变量。
? ( 2)控制因素或称控制变量
进行试验 (实验 )时,我们称可控制的试验条件为 因素
(Factor),因素变化的各个等级为 水平 (Level)。
影响农作物产量的因素,如品种、施肥量、土壤等。
2011-10-16 45
cxt
如果在试验中只有一个因素在变化,其他可控
制的条件不变,称它为 单因素试验 ;
若试验中变化的因素有两个或两个以上,则称
为 双因素或多因素试验 。
? 方差分析就是从观测变量的方差入手,研究诸
多控制变量(因素)中哪些变量是对观测变量
有显著影响的变量
2011-10-16 46
cxt
? 3,方差分析的基本原理
设有 r个总体,各总体分别服从
,假定各总体方差相等。现从
各总体随机抽取样本。透过各总体的样本数
据推断 r个总体的均值是否相等?
,至少有一组数据的平均值与其它
组的平均值有显著性差异。
21(,)N ?? 22(,)N ??
2(,)rN ??LL
0 1 2,rH ? ? ???LL
1H
2011-10-16 47
cxt
? 分析的思路:用离差平方和( SS) 描述所有
样本总的变异情况,将总变异分为两个来源,
( 1)组内变动( within groups),代表本
组内各样本与该组平均值的离散程度,即 水
平内部(组内)方差
( 2)组间变动( between groups),代表
各组平均值关于总平均值的离散程度。即 水
平之间(组间)方差
即,SS总 =SS组间 +SS组内
2011-10-16 48
cxt
? 消除各组样本数不同的影响 --离差平方和除以自由
度(即均方差)。从而构造统计量,
? 方差分析的 基本思想 就是 通过 组内 方差与组间方差的
比值 构造的 F统计量,将其与给定显著性水平、自由度
下的 F值相对比,判定各组均数间的差异有无统计学意
义。
? 零假设否定域,
( 1 )S S rF
SS
?? 组 间
组 内 (n-r)
1,()r n rFF ???f
2011-10-16 49
cxt
? 例 1:某公司计划购买一台计算机。为了选择优
良型号的计算机以减少日后的维修问题,他们对
6种型号的计算机作了初步调查,每种型号调查 4
台,结果列于表 1。这些结果表示每个型号的计
算机上个月维修的小时数。试问由此结果能否
判定由于计算机型号不同而造成它们在维修时
间方面有显著差异?
2011-10-16 50
cxt
表 1 对 6 种型号计算机维修时数的调 查结果统计表
台数
型号
1 2 3 4
A 型 9.5 8.8 11.4 7.8
B 型 4.3 7.8 3.2 6.5
C 型 6.5 8.3 8.6 8.2
D 型 6.1 7.3 4.2 4.1
E 型 10.0 4.8 5.4 9.6
F 型 9.3 8.7 7.2 10.1
2011-10-16 51
cxt
? 研究的指标(即观测变量)就是维修时间,记
作 Y;
? 控制因素是计算机的型号,分为 6个水平即
A,B,C,D,E,F,把每个水平所对应的指标看成
一个总体。
? 现在的试验就是进行调查,每种型号调查 4台,
相当于每个总体中抽取一个容量为 4的样本,
得到的数据记作 即为表 1数据。
( 1,2,6 )iYi ? LL
( 1,2,,6 ; 1,2,3,4 )ijy i j??L
2011-10-16 52
cxt
? 该例考察的问题是,不同型号的计算机的平均维修时间
是相同?
? 首先计算各样本平均数
? 若按两个总体平均值比较的检验法,把样本平均数两两
组成对,
A B C D E F
平均 9.4 5.5 7.9 5.4 7.5 8.8
2011-10-16 53
cxt
? 将这 15对平均数一一进行比较检验 —— 计算工作
量太大
? 即使每对都进行了比较,并且都以 0.95的臵信
度得出每对均值都相等的结论,但是 由此要得
出这 6个型号的维修时间的均值都相等这一结
论的臵信度仅是 —— 估计的精确性和
检验的灵敏度降低
? 其他方法??
15( 0,9 5 ) 0,4 6 3 2?
2011-10-16 54
cxt
? 按照统计假设检验的原理,在本例中原假设是:
不同型号的计算机的平均维修时间是相同的。
? 如果这个原假设为真,那么各型号的样本平均
数之间的变异程度就不可能太大。因此,我们
考虑应该使用方差或观测值的偏差平方和的概
念来进行检验。
0 1 2 6:H ? ? ???LL
2011-10-16 55
cxt
? 方差分析的基本原理就是按照上述统计思想进行的,
即,
? ( 1)将数据总的偏差平方和按照产生的原因分解
成由因素的水平不同引起的偏差平方和以及由试验
误差引起的偏差平方和两部分之和,
(总的偏差平方和 )=(由因素水平引起的偏差平方
和 )+(试验误差平方和 )
? ( 2)上式右边两个平方和的相对大小可以说明因
素的不同水平是否使得各平均值 (各型号的平均维
修时间 )产生显著性差异,为此进行适当的统计假设
检验。
2011-10-16 56
cxt
? 例 2 SIM手机高、中、低三种收入水平被调
查者的用户满意度是否有显著性差异
即:研究被调查者的收入水平是否会影响其
对 SIM手机的满意程度。
? SPSS处理,Analyze — Compare Mean —
One-Way ANOVA
? 结果如下,
2011-10-16 57
cxt
Sum of
Squares
df Mean Square F Sig,
Between
Groups
6.863 2 3.432 0.674 0.51
Within
Groups
1333.341 262 5.089
Total 1340.204 264
表中 S u m o f S q ua r e s 表示组内和组间的变动情况,df 代表自由度,M e a n S qu a r e
代表均方差,F 检验值 0, 6 7 4,显著性水平 0, 5 1 。一般情况下,显著性水平 0, 1
以下差异显著。对于 S I M 手机来说,不同收入水平方差分析 F 值显著性水平
0, 5 1,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有
显著性差异,即被调查者的收入水平并不影响其对 S I M 手机的满意程度。
2011-10-16 58
cxt
? 以上是一元方差分析统计量,多元方差分析统
计量?
? 书 27页
2011-10-16 59
cxt
?多元的均值向量检验??
? 例 5,调查某中学同年级 22名男女生,测量其身高
( cm),体重 (kg)和胸围 (cm),数据见表。试检验
该中学全体男女生的身体发育状况有无差别 。
2011-10-16 60
cxt
某中学 22名男, 女生身体测量资料
─────────────────────────────
男 生 女 生
──────── ───────────
编号 身高 体重 胸围 编号 身高 体重 胸围
─────────────────────────
1 171 58.5 81.0 1 152 44.8 74
2 175 65 87 2 153 46.5 80
3 159 38 71 3 158 48.5 73.5
4 155.3 45 74 4 150 50.5 87
5 152 35 63 5 144 36.3 68
6 158.3 44.5 75 6 160.5 54.7 86
7 154.8 44.5 74 7 158 49 84
8 164 51 72 8 154 50.8 76
9 165.2 55 79 9 153 40 70
10 164.5 46 71 10 159.6 52 76
11 159.1 48 72.5
12 164.2 46.5 73
2011-10-16 61
cxt
一元方差分析的结果
━━━━━━━━━━━━━━━━━━━━━━━━━
身高 体重 胸围
── ─────── ────── ──────
组别 平均值 标准差 平均值 标准差 平均值 标准差
─────────────────────────
男 161.9 6.8 48.1 8.3 74.4 5.9
女 154.2 5.0 47.3 5.6 77.4 6.6
─────────────────────────
F值 8.7** 0.1 1.3
** P<0.01
? 从表可以看出,该校男、女生的身高差异有显著性意义,而体重、
胸围差异无显著性意义。那么,该年级全体男女生的身体发育状
况有无差别,我们不能得到一个明确的结论。
2011-10-16 62
cxt
? 多元方差分析 (操作参见书例 2.1,第 36页),
? SPSS 选项,Analyze— General Linear
Model — Multivariate
可用男、女生的身高、体重、胸围组成的样本均数向量推论该年
级男、女生身体发育指标的总体均数向量 μ1 和 μ2 相等与否,得
到,
F=8.8622,P=0.0008。 拒绝该年级男女生身体发育指标的总
体均数向量相等的假设,从而可认为该校男女生身体发育状况不
同。
2011-10-16 63
cxt
? 4,方差分析的应用条件
( 1) 可比性,若资料中各组均数本身不具可比性
则不适用方差分析。
( 2) 正态性, 各组的观察数据,是从服从正态分
布的总体中随机抽取的样本。 即偏态分布资料不适
用方差分析。对偏态分布的资料应考虑用对数变换、
平方根变换、倒数变换、平方根反正弦变换等变量
变换方法变为正态或接近正态后再进行方差分析。
? ( 3) 方差齐性, 各组的观察数据,是从具有相同
方差的相互独立的总体中抽取得到的。 即若组间方
差不齐则不适用方差分析。
2011-10-16 64
cxt
? 二,方差分析的内容
? 1、类型,
依据涉及的分析 变量多少 分为:一元方差分析、多
元方差分析
依据对分析变量的 影响因素 的数量分为:单因素方
差分析、多因素方差分析
? 2、分析步骤,
2011-10-16 65
cxt
( 1)建立检验假设;
H0,多个样本总体均数相等。
H1,多个样本总体均数不相等或不全等。
( 2)确定检验统计量;
( 3)给定显著水平;
( 3)计算统计量、确定 P值并作出推断结果。
2011-10-16 66
cxt
单因素方差分析
? 一、单因素方差分析概念,
分析某一个因素 A的不同水平是否对观测变
量 Y产生了显著影响。
例:某饮料生产企业研制出一种新型饮料, 饮料
的颜色共有四种, 橘黄色、粉色、绿色和无色
透明。这四种饮料的营养含量、味道、价格、
包装等可能影响销售量的因素全部相同。现从
地理位臵相似、经营规模相仿的五家超市上收
集了该种饮料的销售情况。
2011-10-16 67
cxt
? 问题:饮料的颜色是否对销售量产生影响?
超市 无色 粉色 橘黄色 绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
均值
27.32
29.56
26.44
31.46
2011-10-16 68
cxt
? 其中:饮料的颜色即是影响因素(控制因素、
变量)
销售量是观测变量。
? 在其他条件相同的情况下,上述问题就归结
为一个检验问题,即,
2011-10-16 69
cxt
? 差异的产生来自两个方面,
一方面 是由不同颜色的差异造成的,既不同的饮料
颜色对销售量产生了影响。用‘ 组间方差 ’表示
另一方面 是由于抽选样本的随机性而产生的差异,
即各颜色内的随机误差,如相同颜色的饮料在不同
的商场销售量也不同。用‘ 组内方差 ’表示。
? Spss 选项,Analyze — Compare Mean — One-
Way ANOVA ( 一元单因素方差分析)
2011-10-16 70
cxt
? SPSS 输出结果,
? 可看出 F值为 10.486,P值是 0.000。推断零
假设不成立。表明颜色不同饮料的销量也不
同。
?
2011-10-16 71
cxt
? 如何用 SPSS对方差分析的‘方差相等 ’ 要求进行
判定?(因正态分布的要求不是很严格,分析忽
略)
? Spss 选项:在 One-Way ANOVA 中选择 Option,
选定 Homogeneity-of –variance
2011-10-16 72
cxt
? 进一步考察,
究竟是哪一个水平对观察变量产生了显著影响,
即那种颜色的饮料对销售量有显著影响?
? 运用单因素方差分析的多重比较检验 SPSS窗口
中 Post Hoc选项进行选择。
?
2011-10-16 73
cxt
2011-10-16 74
cxt
? 例,考察汉族、藏族、蒙古族三个民族的 人
均收入水平 INC,15岁及以上人口上学或毕
业比例 EDU是否有差异。(多元单因素分析
问题)
? 需考察的影响因素为:民族
? 观测变量为,INC和 EDU
? SPSS处理, Analyze— General Linear
Model — Multivariate
2011-10-16 75
cxt
? 人均收入、教育比例 → Dependent Variables
? 民族 → Fixed Factors
? 结果,
2011-10-16 76
cxt
? 结果分析:三个民族的人均收入、受教育比
例有显著差异。
2011-10-16 77
cxt
双因素、多因素方差分析
? 一、基本思想
研究两个或两个以上因素(控制变量)是否对观测
变量产生显著性影响。
? 如,饮料销售,除了关心饮料颜色之外,还想了解
销售地区、销售策略是否影响销售量?
? 若把饮料的颜色看作影响销售量的因素 A,饮料的销
售地区看作影响因素 B,销售策略看作影响因素 C。
对因素 A和因素 B同时进行分析,就属于双因素方差
分析。对因素 A,B以及 C ( 或更多因素)同时进行
分析,就属多因素方差分析。
2011-10-16 78
cxt
? 双(多)因素方差分析是对影响因素进行检
验,究竟是一个因素在起作用,还是两个
(多个)因素都起作用,或是两个(多个)
因素的影响都不显著。
2011-10-16 79
cxt
? 二、分类,
双(多)因素方差分析有两种类型,
1、无交互作用的双(多)因素方差分析,它假定因素 A和
因素 B的效应是相互独立的,不存在相互关系;
2、有交互作用的双(多)因素方差分析,它假定因素 A和
因素 B的结合会产生出一种新的效应(相互影响)。
? 例如,若假定不同地区的消费者对某种颜色有与其他
地区消费者不同的特殊偏爱,这就是两个因素结合后
产生的新效应,属于有交互作用的背景;否则,就是
无交互作用的背景。
2011-10-16 80
cxt
? 三、以双因素为例,
2011-10-16 81
cxt
每一个观察值 X
ij
看作由 A 因素的 r 个水平和 B 因素的 k 个
水平所组合成的 r × k 个总体中抽取样本容量为 1 的独立随机
样本。 这 r × k 个总体的每一个总体均 服从正态分布,且有相
同的方差。 这是进行双因素方差分析的假定条件。
2011-10-16 82
cxt
表 3 双因素方差分析表
误差来

离差平方和 自由度 均方差 F 值
A 因素 SSA r - 1 M S A = S S A / ( r - 1 ) F
A
= M S A / M S E
B 因素 SSB k - 1 M S B = S S B / ( k - 1 ) F
B=
M S B / M S E
误差 SSE ( r - 1 )( k - 1 ) M S E = S S E / ( r - 1 )( k - 1 ) —
合计 SST n - 1 — —
2011-10-16 83
cxt
? FA=MSA/MSE FB=MSB/MSE
2011-10-16 84
cxt
? 例 4 某商品有五种不同的包装方式(因素 A),在五个
不同地区销售(因素 B),现从每个地区随机抽取一个
规模相同的超级市场,得到该商品不同包装的销售资料
如下表。
? 表 4 某种商品不同地区不同包装的销售资料
? 检验包装方式和销售地区对该商品销售是否有显著性影响?
( α=0.05 )
包装方式( A )
A1 A2 A3 A4 A5
B1 20 12 20 10 14
B2 22 10 20 12 6
不同
地区
( B )
B3 24 14 18 18 10
2011-10-16 85
cxt
? ( 1)建立假设
? 对因素 A,
? 对因素 B,
1 1 2 3 4 5:,,,,H ? ? ? ? ? 不 全 相 等 包 装 方 式 之 间 有 差 别
0 1 2 3 4 5:H ? ? ? ? ?? ? ? = 包 装 方 式 之 间 无 差 别
0 1 2 3:H ? ? ??? 地 区 之 间 无 差 别
1 1 2 3:,,H ? ? ? 不 全 相 等 地 区 之 间 有 差 别
2011-10-16 86
cxt
? ( 2)计算统计量
因素 A的列均值分别为,
因素 B的行均值分别为,
总均值 =15.04
SST=( 20-15.04) 2 +… +(10-15.04)2=880.96
SSA=5(21.6-15.04)2 +… +5(11.6-15.04)2=335.36
SSB=3(15.2-15.04)2 +… +3(16.8-15.04)2=199.36
SSE=880.96-335.36-199.36=346.24
1 2 31 5, 2,1 4,1 6, 8x x x? ? ?? ? ?? ? ?
2011-10-16 87
cxt
? (3)统计决策
? 对于因素 A,因为 FA=1.903<F-crit=3.006917; 故接受
H0, 说明不同的包装方式 在该商品的销售上没有显著
的差异。
? 对于因素 B,因为 FB=2.303>F-crit; 故拒绝 H0,接受 H1,
说明不同的地区对该商品的销售产生不同的影响。
3 3 5,3 6
8 3,8 4
51
1 9 9,3 6
9 9,6 8
31
3 4 6,2 4
4 3,2 8
( 5 1 ) ( 3 1 )
MSA
MSB
MSE
??
?
??
?
??
??
83,84 1.9 03
43,28
99,68 2.3 03
43,28
A
B
M SAF
M SE
M SBF
M SE
? ? ?
? ? ?
2011-10-16 88
cxt
? SPSS处理 (一元多因素方差分析),
Analyze— General Linear Model —
Univariate
? (1)无交互效应
? (2)有交互效应
2011-10-16 89
cxt
? 例 5 职业、年龄是否是居民储蓄(存取款额、
收入水平)的影响因素
? SPSS处理 (多元多因素方差分析),
Analyze— General Linear Model —
Multivariate
? ( 1)有交互作用
? ( 2)无交互作用
2011-10-16 90
cxt
2.2 协方差阵的检验
? ( 1)检验
? (2)检验
? SPSS处理:参见均值检验
0? ? ?
12 r? ? ? ? ? ?LL
2011-10-16 91
cxt
2.3 形象分析( Profile analysis)
? 一、问题提出
设从总体, 中各自独立地抽
取样本 和, 。 他
们的均值向量差为,
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
11 21
12 22
2
12pp
??
??
??
???
??
?
????
??
??
?
??
1
μ μ
M
2011-10-16 92
cxt
例 在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样
本进行了问卷调查,请他们回答以下几个问题,
(1)你对伴侣的爱情的 ? 热度 ? 感觉如何?
(2)伴侣对你的爱情的 ? 热度 ? 感觉如何?
(3)你对伴侣的爱情的 ? 可结伴 ? 水平感觉如何?
(4)伴侣对你的爱情的 ? 可结伴 ? 水平感觉如何?
回答采用没有、很小、有些、很大和非常大 5个等级,得到结
果如表。
2011-10-16 93
cxt
丈夫对妻子 妻子对丈夫
X1 X2 X3 X4 X1 X2 X3 X4
2 3 5 5 4 4 5 5
5 5 4 4 4 5 5 5
4 5 5 5 4 4 5 5
4 3 4 4 4 5 5 5
3 3 5 5 4 4 5 5
3 3 4 5 3 3 4 4
3 4 4 4 4 3 5 4
4 4 5 5 3 4 5 5
4 5 5 5 4 4 5 4
4 4 3 3 3 4 4 4
4 4 5 5 4 5 5 5
5 5 4 4 5 5 5 5
2011-10-16 94
cxt
现在我们关心均值分量间的差异是否满足某种结构关
系。比如每个指标均值间的差异是否相等。
1、丈夫对妻子以及妻子对丈夫的回答在 α =
0.05显著水平上没有差异。
2、在四个指标上他们是否会有相同的分数。
即检验四个分数的平均值是否相等。
2011-10-16 95
cxt
? 二、统计量与检验
? 假设检验
0 1 2,( )H ??C μ μ φ1 1 2,( )H ??C μ μ φ
在原假设为真的条件下,检验的统计量为,
? ? ? ?12 12
12
(( pnnT nn ?? ???? ? ? ? ???? C x y ) φ C S C C x y ) φ
212
12
12
( 1 ) ~ (,1 )
( 2 )
n n kF T F k n n k
k n n
? ? ?? ? ? ?
??
2011-10-16 96
cxt
2 2 5,4 4 1 2 5 4T ?
212
12
57
25,4 4 8,19 29 46
( 1 ) 3 59
n n k
FT
k n n
??
? ? ? ?
? ? ?
2011-10-16 97
cxt
? 书 31-36页
? 一、形象分析的思路
? 二、基本理论
? 1、总体形象平行
? 2,总体形象重合
? 3、总体形象水平
? 三、例 2.2
2011-10-16 98
cxt
? 上机,
? 1,某工厂实行早、中、晚三班工作制。工厂
管理部门想了解不同班次工人劳动效率是否存
在明显的差异。每个班次随机抽出了 7个工人,
得工人的劳动效率(件 /班)资料如表。分析不
同班次工人的劳动效率是否有显著性差异。
a=0.05,0.01。
2011-10-16 99
cxt
早班
中班
晚班
34
49
39
37
47
40
35
51
42
33
48
39
33
50
41
35
51
42
36
51
40
2011-10-16 100
cxt
? 2,50家上市公司,按行业计算其 1999年底
的资产负债情况,各 总体之间资产负债率是否
存在差异。 如下,
2011-10-16 101
cxt
序号 制造业 商业 运输业 公用事业 房地产业
1 65 90 50 25 70
2 55 95 65 30 75
3 50 90 58 45 60
4 45 93 63 50 80
5 40 92 64 40 65
6 58 90 60 25 70
7 60 85 58 30 72
8 75 88 56 30 76
9 80 90 60 35 68
10 60 92 55 25 66
平均 58.8 90.5 58.9 33.5 70.2