蚌埠医学院：多元统计分析：均值、方差检验3，张凤.PPT

分类：统计格式：ppt 日期：2007年03月28日

zf
第二章均值向量和协方差阵的检验
2011-10-16 2
cxt
假设检验的基本问题
? 1、假设检验的基本原理
小概率事件原理
? 小概率思想是指小概率事件（ P<0.01或
P<0.05等）在一次试验中基本上不会发生。
反证法思想是先提出假设 (检验假设 H0),再
用适当的统计方法确定假设成立的可能性大
小，如可能性小,则认为假设不成立；反之，
则认为假设成立。
2011-10-16 3
cxt
? 2、假设检验的步骤
（ 1）提出一个原假设和备择假设
? 例如：要对妇女的平均身高进行检验，可以
先假设妇女身高的均值等于 160 cm
（ u=160cm ）。这种原假设也称为零假设
（ null hypothesis ）,记为 H 0 。
2011-10-16 4
cxt
? 与此同时必须提出对立假设，如妇女身高均
值不等于 160 cm 。对立假设又称为备选假
设或备择假设（ alternative hypothesis ）
记为 H 1 。
? 形式上，上面的关于总体均值的 H 0 相对
于 H 1 的检验记为,
H0,u=160cm
H1,u不等于 160cm
?
2011-10-16 5
cxt
? H1,u不等于 160cm的假设称为双尾检验；
? 如果备选假设为 H1,
u大于 160cm 或 u小于 160cm
则称为单尾检验。
? 实际中选择何种备选假设，需根据检验的需要决定。
? 需要注意的是,计算机输出结果中的 p 值是双尾
检验的概率。
? 如果备选假设选择的是单尾检验，则要将计算机给
的 p 值除以 2,即取 p 值的一半。
2011-10-16 6
cxt
（ 2）确定检验统计量
1 有了两个假设, 就要根据数据来对它们进行判断：
选择适当的统计量, 并在原假设 H0成立的条件下确
定该统计量的分布。
（ 3）确定显著性水平 α
? 根据样本所得的数据来拒绝零假设的概率应小于
0.05,当然也可能是 0.01, 0.005, 0.001
等等。
? 根据统计量的分布查表，确定对应于 α 的临界值,
2011-10-16 7
cxt
? 显著性水平就是小概率水平，但小概率并不
能说明不会发生，仅仅是发生的概率很小罢
了。拒绝正确零假设的错误常被称为第一类
错误（ type I error ）。
? 有第一类错误，就有第二类错误：那是备选
假设正确时反而说零假设正确的错误，称为
第二类错误（ type II error ）。
2011-10-16 8
cxt
（ 4）计算检验统计量的值并进行判断
? 根据样本观测值计算统计量的观测值，并与临
界值进行比较，从而在检验水平条件下对拒绝
或接受原假设 H0作出判断,
? 根据数据计算检验统计量的实现值（ t 值或 F
值）和根据这个实现值计算 p值
? 如果 p - 值小于或等于 α, 就拒绝零假设，这
时犯错误的概率最多为 α ；如果 p - 值大于 α,
就不拒绝零假设，因为证据不足。
2011-10-16 9
cxt
? 实际上，多数计算机软件仅仅给出 p - 值，而不
给出 α 。这有很多方便之处。比如 α= 0.05,
而假定所得到的 p - 值等于 0.001 。这时如果采
用 p - 值作为新的显著性水平，即新的 α=
0.001 ；于是就可以说，在显著性水平为 0.001
时，拒绝零假设。这样，拒绝零假设时犯错误的概
率实际只是千分之一而不是旧的 α 所表明的百分
之五。
? 在这个意义上,p - 值又称为观测的显著性水平
（ observed significant level ）。在统计软件
输出 p - 值的位臵，有的用 ? p-value,, 有
的用 significant 的缩写 ? Sig”
2011-10-16 10
cxt
? 3, 关于 ? 临界值 ? 的问题,
? 过去的统计教科书中，使用临界值的概念进行假设
检验，不计算 p - 值。只比较统计量的取值和临界
值的大小。使用临界值而不是 p - 值来判断拒绝与
否是前计算机时代的产物。当时计算 p - 值不易，
只采用临界值的概念。
? 现在计算机软件一般都不给出 α 和临界值，但都给
出 p - 值和统计量的实现值，让用户自己决定显著
性水平是多少。
2011-10-16 11
cxt
2.1 均值向量的检验
? 1、正态总体均值检验的类型
? 根据样本对其总体均值大小进行检验（ One-
Sample T Test ）
如妇女身高的检验。
? 根据来自两个总体的独立样本对其总体均值的检验
（ Indepent Two-Sample T Test ）
如两个班平均成绩的检验。
? 配对样本的检验（ Pair-Sample T Test ）
如减肥效果的检验。
? 多个总体均值的检验
2011-10-16 12
cxt
? （ 1）根据样本对其总体均值大小进行检验
设取出一容量为 n的样本，得到均值和标
准差 s,现要透过样本推断总体均值是否
与某给定值（理论值或标准值）有无差
别进行检验,记
称 H0为原假设, H1为备择假设, 两者择其一：
接受 H0；拒绝 H0,即接受 H1
X
?
0?
00:H ??? 10:H ???
2011-10-16 13
cxt
? A,总体方差已知
用 u检验, 检验的拒绝域为
即
? B,总体方差未知
用样本方差代替总体方差,这种检验
叫 t检验,
1 2{}W z u ???? 1122
{}W z u z u????? ? ? ?或
2s
2?
2011-10-16 14
cxt
总体方差
2
? 已知
统计量 z=
n
X
?
?
0
?
总体方差
2
? 未知
统计量 ?t
n
s
X
0
??
H 0 H 1
在显著水平
?
下拒绝 H 0,若
Ⅰ 0
?? ?
0
?? ?
2
1
?
?
? uz
)1(
2
1
??
?
ntt
?
Ⅱ 0
?? ?
0
?? ?
??
?
1
uz
)1(
1
??
?
ntt
?
Ⅲ
0
?? ?
0
?? ?
??
??
1
uz
)1(
1
???
?
ntt
?
2011-10-16 15
cxt
? 如根据大量调查，已知健康成年男性的脉搏
均数为 72次 /分，某医生在一山区随即抽查
了 25名健康男性，求得其脉搏均数为 74.2次
/分，标准差为 6.0次 /分，问是否能据此认
为该山区成年男性的脉搏均数高于一般成年
男性。
? 上述两个均数不等既可能是抽样误差所致，也有可能真是环境差
异的影响，为此，可用 t检验进行判断，检验过程如下,
2011-10-16 16
cxt
? a,建立假设
H0,μ=μ0=72次 /分,H0,μ>μ0,检验水准为单侧 0.05。
? b,计算统计量
进行样本均数与总体均数比较的 t检验时 t值为样本均数与
总体均数差值的绝对值除以标准误的商，其中标准误为标
准差除以样本含量算术平方根的商
? 3,确定概率，作出判断
以自由度 v(样本含量 n减 1)查 t界值表,0.025<P<0.05,拒
绝 H0,接受 H1,可认为该山区成年男性的脉搏均数高于一
般成年男性。
2011-10-16 17
cxt
? 例 1：如果你买了一包标有 500g 重的一包
红糖，你觉得份量不足。于是你找到监督部
门；当然他们会觉得一包份量不够可能是随
机的。于是监督部门就去商店称了 50 包红
糖（数据在 sugar.sav ）；其中均值（平
均重量）是 498.35g ；这的确比 500g 少，
但这是否能够说明厂家生产的这批红糖平均
起来不够份量呢？于是需要统计检验。
2011-10-16 18
cxt
? 首先，可以画出这些重量的直方图（图 1）
? 判断样本是否服从正态分布
2011-10-16 19
cxt
? 提出假设
? 由于厂家声称每袋 500g （标明重量），因
此零假设为总体均值等于 500g （被怀疑对
象总是放在零假设）；而且由于样本均值少
于 500g （这是怀疑的根据），把备选假设
定为总体均值少于 500g （这种备选假设为
单向不等式的检验为单尾检验，）。
? 即,H0,u=500
H1,u小于 500
2011-10-16 20
cxt
? 确定统计量
检验统计量就是作为对均值的标准化
见书：第 21页（ 2.1）（ 2.2）
? 用 SPSS 处理数据,
? 命令, Analyze— Compare mean— One
Sample T Test
2011-10-16 21
cxt
? Spss 输出结果,t=-2.696 （也称为 t
值）,同时得到 p- 值为 0.005 （由于计
算机输出的为双尾检验的 p- 值，比单尾的
大一倍，应该 0.010除以 2 ）
2011-10-16 22
cxt
? 在 0.5％的条件下，红糖标记重量为 500g
是不能接受的，实际上平均起来要少于
500g 。
2011-10-16 23
cxt
? 见图 2的 t分布图，在直观上看这也的确是个
小概率事件。
2011-10-16 24
cxt
? 例 2：某汽车厂商声称其发动机排放标准的
一个指标平均低于 20 个单位。在抽查了
10 台发动机之后，得到下面的排放数据,
17.0, 21.7, 17.9, 22.9, 20.7,
22.4, 17.3, 21.8, 24.2, 25.4 。
该样本均值为 21.13 。究竟能否由此认为
该指标均值超过 20？
? 假设检验问题就是,H0=20
H1大于 20
2011-10-16 25
cxt
? 用 SPSS 处理数据,
? Spss 选项,Analyze— Compare mean—
One-Sample T Test
? Spss 输出结果,
2011-10-16 26
cxt
? 输出结果中,p - 值为 0.1243 （计算机输
出的双尾检验的 p - 值除以 2 ），因此，
没有证据否定零假设。
? t分布图,
2011-10-16 27
cxt
? 从图 3（ t分布图）可以看出，右边的尾概率
不能说是小概率。如果要是拒绝零假设的话，
犯错误的概率就多于 12 ％（ 0.1243 ）了，
因此没有足够证据来拒绝零假设。
2011-10-16 28
cxt
? （ 2）根据来自两个总体的独立样本对其总体均值的
检验
? 目的是推断两个样本分别代表的总体均数是否相等。
其检验过程与上述两种 t检验也没有大的差别，只是
假设的表达和 t值的计算公式不同。
? 两样本均数比较的 t检验,其假设一般为,
H0,μ1=μ2,即两样本来自的总体均数相等,
H1,μ1>μ2或 μ1<μ2，即两样本来自的总体均数不相等，
检验水准为 0.05。
? 计算 t统计量时是用两样本均数差值的绝对值除以两
样本均数差值的标准误。
2011-10-16 29
cxt
? A,与已知时
构造统计量
? B,与未知但相等时
构造统计量
21? 22?
22
12
12
XYz
nn
??
??
?
21? 2
2?
1 2 1 2
22
121 1 2 2
( 2 )
( 1 ) ( 1 )
n n n nXYt
nnn s n s
????
?? ? ?
2011-10-16 30
cxt
方差
2
2
2
1
,?? 已知
统计量 z
方差
2
2
2
1
,?? 未知但相等
统计量 t
H
0
H
1
在显著水平
?
下拒绝 H
0
，若
Ⅰ 21
?? ?
21
?? ?
2
1
?
?
? uz )2(
21
2
1
???
?
nntt
?
Ⅱ 21
?? ?
21
?? ? ??? 1uz )2( 211 ??? ? nntt ?
Ⅲ
21
?? ?
21
?? ? ???? 1uz )2( 211 ???? ? nntt ?
2011-10-16 31
cxt
? 例 3：为检测某种药物对攻击性情绪的影响，
对 100 名服药者和 150 名非服药者进行心
理测试，得到相应的某指标。
2011-10-16 32
cxt
? 相应的假设检验问题为,
H0,μ 1=μ 2
H1,μ 1大于 μ 2
? μ 1 为第一组的总体均值，而 μ 2 为第二组
的总体均值。
? 用 SPSS 处理数据,
Spss 选项, Analyze— Compare Means —
Independent-Samples T Test
2011-10-16 33
cxt
? SPSS 输出结果,
? 注意：这个输出的前面三列（ Levene‘ s Test for Equality of
Variances ）为检验这两个样本所代表的总体之方差是否相等（零假设
为相等）。
2011-10-16 34
cxt
? 如果显著，即在 Sig 列中的该 Levene 检
验 p- 值很小（这里是 0.008 ），说明两
总体的方差相等被拒绝。就应该看两总体方
差不等的结果，即最后一行的 t 检验输出
（ p- 值＝ 0.347/2 ）；否则看上面一行
的结果。
? 之所以这样做，是因为总体方差相同时使用
的检验统计量与方差不同时使用的不一样
2011-10-16 35
cxt
? 通过计算,t统计量等于 0.942,p值为
0.1735 （输出中的双尾检验 p值 0.347的一
半）。因此无法拒绝零假设，即不能得出第
一组的平均指标大于第二组的结论。
2011-10-16 36
cxt
? 3、配对样本的检验（ paired samples ）
（针对同样的样本）考察实验前后样本均值有无差异。
能够很好地控制非实验因素对结果的影响注意：实验前
后两个样本两个样本并不独立
? 注意：同一样本实验前后并不独立，但不同样本之间却
相互独立。
? 配对样本的检验实际上是用配对差值与总体均数 ? 0?
进行比较，即推断差数的总体均数是否为 ? 0? 。故其
检验过程与依据样本均数推断总体均数大小的 t检验类
似，即,
2011-10-16 37
cxt
? A,建立假设
H0,μd=0,即差值的总体均数为 ? 0?, H1,μd>0或
μd<0,即差值的总体均数不为 ? 0?,检验水平为 α 。
? B,计算统计量
进行配对设计 t检验时 t值为差值均数与 0之差的绝对
值除以差值标准误的商，其中差值标准误为差值标准
差除以样本含量算术平方根的商。
? C,确定概率，作出判断
以自由度 v(对子数减 1)查 t界值表，若 P<α, 则拒绝 H0，
接受 H1,若 P>=α, 则还不能拒绝 H0。
2011-10-16 38
cxt
? 例 4：要比较 50个人在减肥前和减肥后的重量。这
样就有了两个样本，每个都有 50个数目。
? 这里不能用前面的独立样本均值差的检验；这是因
为两个样本并不独立。
? 每一个人减肥后的重量都和自己减肥前的重量有关。
但不同人之间却是独立的。令减肥前的重量均值为
μ 1, 而减肥后的均值为 μ 2 ；这样所要进行的检
验为,
H0,μ 1＝ μ 2
H1,μ 1大于 μ 2
2011-10-16 39
cxt
? 也可以把两个样本中配对的观测值逐个相减，
形成一个由独立观测值组成的样本；然后用
单样本检验方法，看其均值是否为零。在相
减之后公式和单样本均值检验无异。
? 用 SPSS 处理数据,
Spss 选项,Analyze— Compare Means —
Paired-Samples T Test
2011-10-16 40
cxt
? SPSS输出结果,
2011-10-16 41
cxt
? Spss 输出结果得到双尾 p- 值为 0.002,
这里的单尾 p- 值于是为 0.001
? 因此减肥后和减肥前相比，平均重量显著要
轻。
2011-10-16 42
cxt
? （ 4）多元、多总体的均值检验？？,
? 各总体均值是否相等？各个总体之间的差异表现在哪
儿？是由什么引起的？
? 能否继续采用前面的 3种类型所选用的 t检验？为什么？
不能,因为,
a,计算工作量大
变量或总体两两检验
b,估计的精确性和检验的灵敏度降低
? 如何解决？
2011-10-16 43
cxt
方差分析（ analysis of variance, ANOVA ）
? 一、方差分析的基本思想
1、定义
方差分析又称变异数分析或 F检验，其目的
是推断两组或多组资料的总体均数是否相同，
检验两个或多个样本均数的差异是否有统计
学意义。
2011-10-16 44
cxt
? 2、了解方差分析中几个重要概念,
? （ 1）观测因素或称为观测变量
如：考察农作物产量的影响因素。农作物产量就是观测
变量。
? （ 2）控制因素或称控制变量
进行试验 (实验 )时,我们称可控制的试验条件为因素
(Factor),因素变化的各个等级为水平 (Level)。
影响农作物产量的因素，如品种、施肥量、土壤等。
2011-10-16 45
cxt
如果在试验中只有一个因素在变化,其他可控
制的条件不变,称它为单因素试验 ;
若试验中变化的因素有两个或两个以上,则称
为双因素或多因素试验。
? 方差分析就是从观测变量的方差入手，研究诸
多控制变量（因素）中哪些变量是对观测变量
有显著影响的变量
2011-10-16 46
cxt
? 3,方差分析的基本原理
设有 r个总体，各总体分别服从
,假定各总体方差相等。现从
各总体随机抽取样本。透过各总体的样本数
据推断 r个总体的均值是否相等？
,至少有一组数据的平均值与其它
组的平均值有显著性差异。
21(,)N ?? 22(,)N ??
2(,)rN ??LL
0 1 2,rH ? ? ???LL
1H
2011-10-16 47
cxt
? 分析的思路：用离差平方和（ SS）描述所有
样本总的变异情况，将总变异分为两个来源,
（ 1）组内变动（ within groups）,代表本
组内各样本与该组平均值的离散程度，即水
平内部（组内）方差
（ 2）组间变动（ between groups）,代表
各组平均值关于总平均值的离散程度。即水
平之间（组间）方差
即,SS总 =SS组间 +SS组内
2011-10-16 48
cxt
? 消除各组样本数不同的影响 --离差平方和除以自由
度（即均方差）。从而构造统计量,
? 方差分析的基本思想就是通过组内方差与组间方差的
比值构造的 F统计量，将其与给定显著性水平、自由度
下的 F值相对比，判定各组均数间的差异有无统计学意
义。
? 零假设否定域,
( 1 )S S rF
SS
?? 组间
组内 (n-r)
1,()r n rFF ???f
2011-10-16 49
cxt
? 例 1：某公司计划购买一台计算机。为了选择优
良型号的计算机以减少日后的维修问题,他们对
6种型号的计算机作了初步调查,每种型号调查 4
台,结果列于表 1。这些结果表示每个型号的计
算机上个月维修的小时数。试问由此结果能否
判定由于计算机型号不同而造成它们在维修时
间方面有显著差异?
2011-10-16 50
cxt
表 1 对 6 种型号计算机维修时数的调查结果统计表
台数
型号
1 2 3 4
A 型 9.5 8.8 11.4 7.8
B 型 4.3 7.8 3.2 6.5
C 型 6.5 8.3 8.6 8.2
D 型 6.1 7.3 4.2 4.1
E 型 10.0 4.8 5.4 9.6
F 型 9.3 8.7 7.2 10.1
2011-10-16 51
cxt
? 研究的指标（即观测变量）就是维修时间,记
作 Y；
? 控制因素是计算机的型号,分为 6个水平即
A,B,C,D,E,F,把每个水平所对应的指标看成
一个总体。
? 现在的试验就是进行调查,每种型号调查 4台,
相当于每个总体中抽取一个容量为 4的样本,
得到的数据记作即为表 1数据。
( 1,2,6 )iYi ? LL
( 1,2,,6 ; 1,2,3,4 )ijy i j??L
2011-10-16 52
cxt
? 该例考察的问题是,不同型号的计算机的平均维修时间
是相同？
? 首先计算各样本平均数
? 若按两个总体平均值比较的检验法,把样本平均数两两
组成对,
A B C D E F
平均 9.4 5.5 7.9 5.4 7.5 8.8
2011-10-16 53
cxt
? 将这 15对平均数一一进行比较检验 —— 计算工作
量太大
? 即使每对都进行了比较,并且都以 0.95的臵信
度得出每对均值都相等的结论,但是由此要得
出这 6个型号的维修时间的均值都相等这一结
论的臵信度仅是 —— 估计的精确性和
检验的灵敏度降低
? 其他方法？？
15( 0,9 5 ) 0,4 6 3 2?
2011-10-16 54
cxt
? 按照统计假设检验的原理,在本例中原假设是：
不同型号的计算机的平均维修时间是相同的。
? 如果这个原假设为真,那么各型号的样本平均
数之间的变异程度就不可能太大。因此，我们
考虑应该使用方差或观测值的偏差平方和的概
念来进行检验。
0 1 2 6:H ? ? ???LL
2011-10-16 55
cxt
? 方差分析的基本原理就是按照上述统计思想进行的,
即,
? （ 1）将数据总的偏差平方和按照产生的原因分解
成由因素的水平不同引起的偏差平方和以及由试验
误差引起的偏差平方和两部分之和,
(总的偏差平方和 )=(由因素水平引起的偏差平方
和 )+(试验误差平方和 )
? （ 2）上式右边两个平方和的相对大小可以说明因
素的不同水平是否使得各平均值 (各型号的平均维
修时间 )产生显著性差异,为此进行适当的统计假设
检验。
2011-10-16 56
cxt
? 例 2 SIM手机高、中、低三种收入水平被调
查者的用户满意度是否有显著性差异
即：研究被调查者的收入水平是否会影响其
对 SIM手机的满意程度。
? SPSS处理,Analyze — Compare Mean —
One-Way ANOVA
? 结果如下,
2011-10-16 57
cxt
Sum of
Squares
df Mean Square F Sig,
Between
Groups
6.863 2 3.432 0.674 0.51
Within
Groups
1333.341 262 5.089
Total 1340.204 264
表中 S u m o f S q ua r e s 表示组内和组间的变动情况,df 代表自由度,M e a n S qu a r e
代表均方差,F 检验值 0, 6 7 4,显著性水平 0, 5 1 。一般情况下，显著性水平 0, 1
以下差异显著。对于 S I M 手机来说，不同收入水平方差分析 F 值显著性水平
0, 5 1,没有通过显著性水平检验，说明三种收入的被调查者的用户满意度没有
显著性差异，即被调查者的收入水平并不影响其对 S I M 手机的满意程度。
2011-10-16 58
cxt
? 以上是一元方差分析统计量，多元方差分析统
计量？
? 书 27页
2011-10-16 59
cxt
?多元的均值向量检验？？
? 例 5,调查某中学同年级 22名男女生,测量其身高
（ cm）,体重 (kg)和胸围 (cm),数据见表。试检验
该中学全体男女生的身体发育状况有无差别。
2011-10-16 60
cxt
某中学 22名男, 女生身体测量资料
─────────────────────────────
男生女生
──────── ───────────
编号身高体重胸围编号身高体重胸围
─────────────────────────
1 171 58.5 81.0 1 152 44.8 74
2 175 65 87 2 153 46.5 80
3 159 38 71 3 158 48.5 73.5
4 155.3 45 74 4 150 50.5 87
5 152 35 63 5 144 36.3 68
6 158.3 44.5 75 6 160.5 54.7 86
7 154.8 44.5 74 7 158 49 84
8 164 51 72 8 154 50.8 76
9 165.2 55 79 9 153 40 70
10 164.5 46 71 10 159.6 52 76
11 159.1 48 72.5
12 164.2 46.5 73
2011-10-16 61
cxt
一元方差分析的结果
━━━━━━━━━━━━━━━━━━━━━━━━━
身高体重胸围
── ─────── ────── ──────
组别平均值标准差平均值标准差平均值标准差
─────────────────────────
男 161.9 6.8 48.1 8.3 74.4 5.9
女 154.2 5.0 47.3 5.6 77.4 6.6
─────────────────────────
F值 8.7** 0.1 1.3
** P<0.01
? 从表可以看出，该校男、女生的身高差异有显著性意义，而体重、
胸围差异无显著性意义。那么,该年级全体男女生的身体发育状
况有无差别,我们不能得到一个明确的结论。
2011-10-16 62
cxt
? 多元方差分析（操作参见书例 2.1，第 36页）,
? SPSS 选项,Analyze— General Linear
Model — Multivariate
可用男、女生的身高、体重、胸围组成的样本均数向量推论该年
级男、女生身体发育指标的总体均数向量 μ1 和 μ2 相等与否,得
到,
F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总
体均数向量相等的假设，从而可认为该校男女生身体发育状况不
同。
2011-10-16 63
cxt
? 4,方差分析的应用条件
（ 1）可比性,若资料中各组均数本身不具可比性
则不适用方差分析。
（ 2）正态性, 各组的观察数据，是从服从正态分
布的总体中随机抽取的样本。即偏态分布资料不适
用方差分析。对偏态分布的资料应考虑用对数变换、
平方根变换、倒数变换、平方根反正弦变换等变量
变换方法变为正态或接近正态后再进行方差分析。
? （ 3）方差齐性, 各组的观察数据，是从具有相同
方差的相互独立的总体中抽取得到的。即若组间方
差不齐则不适用方差分析。
2011-10-16 64
cxt
? 二,方差分析的内容
? 1、类型,
依据涉及的分析变量多少分为：一元方差分析、多
元方差分析
依据对分析变量的影响因素的数量分为：单因素方
差分析、多因素方差分析
? 2、分析步骤,
2011-10-16 65
cxt
（ 1）建立检验假设；
H0,多个样本总体均数相等。
H1,多个样本总体均数不相等或不全等。
（ 2）确定检验统计量；
（ 3）给定显著水平；
（ 3）计算统计量、确定 P值并作出推断结果。
2011-10-16 66
cxt
单因素方差分析
? 一、单因素方差分析概念,
分析某一个因素 A的不同水平是否对观测变
量 Y产生了显著影响。
例：某饮料生产企业研制出一种新型饮料, 饮料
的颜色共有四种, 橘黄色、粉色、绿色和无色
透明。这四种饮料的营养含量、味道、价格、
包装等可能影响销售量的因素全部相同。现从
地理位臵相似、经营规模相仿的五家超市上收
集了该种饮料的销售情况。
2011-10-16 67
cxt
? 问题：饮料的颜色是否对销售量产生影响？
超市无色粉色橘黄色绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
均值
27.32
29.56
26.44
31.46
2011-10-16 68
cxt
? 其中：饮料的颜色即是影响因素（控制因素、
变量）
销售量是观测变量。
? 在其他条件相同的情况下，上述问题就归结
为一个检验问题，即,
2011-10-16 69
cxt
? 差异的产生来自两个方面,
一方面是由不同颜色的差异造成的，既不同的饮料
颜色对销售量产生了影响。用‘ 组间方差 ’表示
另一方面是由于抽选样本的随机性而产生的差异，
即各颜色内的随机误差，如相同颜色的饮料在不同
的商场销售量也不同。用‘ 组内方差 ’表示。
? Spss 选项,Analyze — Compare Mean — One-
Way ANOVA （一元单因素方差分析）
2011-10-16 70
cxt
? SPSS 输出结果,
? 可看出 F值为 10.486,P值是 0.000。推断零
假设不成立。表明颜色不同饮料的销量也不
同。
?
2011-10-16 71
cxt
? 如何用 SPSS对方差分析的‘方差相等 ’ 要求进行
判定？（因正态分布的要求不是很严格,分析忽
略）
? Spss 选项：在 One-Way ANOVA 中选择 Option,
选定 Homogeneity-of –variance
2011-10-16 72
cxt
? 进一步考察,
究竟是哪一个水平对观察变量产生了显著影响，
即那种颜色的饮料对销售量有显著影响？
? 运用单因素方差分析的多重比较检验 SPSS窗口
中 Post Hoc选项进行选择。
?
2011-10-16 73
cxt
2011-10-16 74
cxt
? 例,考察汉族、藏族、蒙古族三个民族的人
均收入水平 INC,15岁及以上人口上学或毕
业比例 EDU是否有差异。（多元单因素分析
问题）
? 需考察的影响因素为：民族
? 观测变量为,INC和 EDU
? SPSS处理, Analyze— General Linear
Model — Multivariate
2011-10-16 75
cxt
? 人均收入、教育比例 → Dependent Variables
? 民族 → Fixed Factors
? 结果,
2011-10-16 76
cxt
? 结果分析：三个民族的人均收入、受教育比
例有显著差异。
2011-10-16 77
cxt
双因素、多因素方差分析
? 一、基本思想
研究两个或两个以上因素（控制变量）是否对观测
变量产生显著性影响。
? 如,饮料销售，除了关心饮料颜色之外，还想了解
销售地区、销售策略是否影响销售量？
? 若把饮料的颜色看作影响销售量的因素 A,饮料的销
售地区看作影响因素 B,销售策略看作影响因素 C。
对因素 A和因素 B同时进行分析，就属于双因素方差
分析。对因素 A,B以及 C （或更多因素）同时进行
分析，就属多因素方差分析。
2011-10-16 78
cxt
? 双（多）因素方差分析是对影响因素进行检
验，究竟是一个因素在起作用，还是两个
（多个）因素都起作用，或是两个（多个）
因素的影响都不显著。
2011-10-16 79
cxt
? 二、分类,
双（多）因素方差分析有两种类型,
1、无交互作用的双（多）因素方差分析，它假定因素 A和
因素 B的效应是相互独立的，不存在相互关系；
2、有交互作用的双（多）因素方差分析，它假定因素 A和
因素 B的结合会产生出一种新的效应（相互影响）。
? 例如，若假定不同地区的消费者对某种颜色有与其他
地区消费者不同的特殊偏爱，这就是两个因素结合后
产生的新效应，属于有交互作用的背景；否则，就是
无交互作用的背景。
2011-10-16 80
cxt
? 三、以双因素为例,
2011-10-16 81
cxt
每一个观察值 X
ij
看作由 A 因素的 r 个水平和 B 因素的 k 个
水平所组合成的 r × k 个总体中抽取样本容量为 1 的独立随机
样本。这 r × k 个总体的每一个总体均服从正态分布，且有相
同的方差。这是进行双因素方差分析的假定条件。
2011-10-16 82
cxt
表 3 双因素方差分析表
误差来
源
离差平方和自由度均方差 F 值
A 因素 SSA r - 1 M S A = S S A / （ r - 1 ） F
A
= M S A / M S E
B 因素 SSB k - 1 M S B = S S B / （ k - 1 ） F
B=
M S B / M S E
误差 SSE （ r - 1 ）（ k - 1 ） M S E = S S E / （ r - 1 ）（ k - 1 ） —
合计 SST n - 1 — —
2011-10-16 83
cxt
? FA=MSA/MSE FB=MSB/MSE
2011-10-16 84
cxt
? 例 4 某商品有五种不同的包装方式（因素 A）,在五个
不同地区销售（因素 B）,现从每个地区随机抽取一个
规模相同的超级市场，得到该商品不同包装的销售资料
如下表。
? 表 4 某种商品不同地区不同包装的销售资料
? 检验包装方式和销售地区对该商品销售是否有显著性影响？
（ α=0.05 ）
包装方式（ A ）
A1 A2 A3 A4 A5
B1 20 12 20 10 14
B2 22 10 20 12 6
不同
地区
（ B ）
B3 24 14 18 18 10
2011-10-16 85
cxt
? （ 1）建立假设
? 对因素 A,
? 对因素 B,
1 1 2 3 4 5:,,,,H ? ? ? ? ? 不全相等包装方式之间有差别
0 1 2 3 4 5:H ? ? ? ? ?? ? ? ＝包装方式之间无差别
0 1 2 3:H ? ? ??? 地区之间无差别
1 1 2 3:,,H ? ? ? 不全相等地区之间有差别
2011-10-16 86
cxt
? （ 2）计算统计量
因素 A的列均值分别为,
因素 B的行均值分别为,
总均值 =15.04
SST=（ 20-15.04） 2 +… +(10-15.04)2=880.96
SSA=5(21.6-15.04)2 +… +5(11.6-15.04)2=335.36
SSB=3(15.2-15.04)2 +… +3(16.8-15.04)2=199.36
SSE=880.96-335.36-199.36=346.24
1 2 31 5, 2,1 4,1 6, 8x x x? ? ?? ? ?? ? ?
2011-10-16 87
cxt
? (3)统计决策
? 对于因素 A,因为 FA=1.903<F-crit=3.006917；故接受
H0, 说明不同的包装方式在该商品的销售上没有显著
的差异。
? 对于因素 B,因为 FB=2.303>F-crit；故拒绝 H0,接受 H1，
说明不同的地区对该商品的销售产生不同的影响。
3 3 5,3 6
8 3,8 4
51
1 9 9,3 6
9 9,6 8
31
3 4 6,2 4
4 3,2 8
( 5 1 ) ( 3 1 )
MSA
MSB
MSE
??
?
??
?
??
??
83,84 1.9 03
43,28
99,68 2.3 03
43,28
A
B
M SAF
M SE
M SBF
M SE
? ? ?
? ? ?
2011-10-16 88
cxt
? SPSS处理 (一元多因素方差分析）,
Analyze— General Linear Model —
Univariate
? (1)无交互效应
? (2)有交互效应
2011-10-16 89
cxt
? 例 5 职业、年龄是否是居民储蓄（存取款额、
收入水平）的影响因素
? SPSS处理 (多元多因素方差分析）,
Analyze— General Linear Model —
Multivariate
? （ 1）有交互作用
? （ 2）无交互作用
2011-10-16 90
cxt
2.2 协方差阵的检验
? （ 1）检验
? (2)检验
? SPSS处理：参见均值检验
0? ? ?
12 r? ? ? ? ? ?LL
2011-10-16 91
cxt
2.3 形象分析（ Profile analysis)
? 一、问题提出
设从总体, 中各自独立地抽
取样本和, 。他
们的均值向量差为,
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
11 21
12 22
2
12pp
??
??
??
???
??
?
????
??
??
?
??
1
μ μ
M
2011-10-16 92
cxt
例在爱情和婚姻的调查中，对一个由若干名丈夫和妻子组成的样
本进行了问卷调查，请他们回答以下几个问题,
(1)你对伴侣的爱情的 ? 热度 ? 感觉如何？
(2)伴侣对你的爱情的 ? 热度 ? 感觉如何？
(3)你对伴侣的爱情的 ? 可结伴 ? 水平感觉如何？
(4)伴侣对你的爱情的 ? 可结伴 ? 水平感觉如何？
回答采用没有、很小、有些、很大和非常大 5个等级，得到结
果如表。
2011-10-16 93
cxt
丈夫对妻子妻子对丈夫
X1 X2 X3 X4 X1 X2 X3 X4
2 3 5 5 4 4 5 5
5 5 4 4 4 5 5 5
4 5 5 5 4 4 5 5
4 3 4 4 4 5 5 5
3 3 5 5 4 4 5 5
3 3 4 5 3 3 4 4
3 4 4 4 4 3 5 4
4 4 5 5 3 4 5 5
4 5 5 5 4 4 5 4
4 4 3 3 3 4 4 4
4 4 5 5 4 5 5 5
5 5 4 4 5 5 5 5
2011-10-16 94
cxt
现在我们关心均值分量间的差异是否满足某种结构关
系。比如每个指标均值间的差异是否相等。
1、丈夫对妻子以及妻子对丈夫的回答在 α ＝
0.05显著水平上没有差异。
2、在四个指标上他们是否会有相同的分数。
即检验四个分数的平均值是否相等。
2011-10-16 95
cxt
? 二、统计量与检验
? 假设检验
0 1 2,( )H ??C μ μ φ1 1 2,( )H ??C μ μ φ
在原假设为真的条件下，检验的统计量为,
? ? ? ?12 12
12
(( pnnT nn ?? ???? ? ? ? ???? C x y ) φ C S C C x y ) φ
212
12
12
( 1 ) ~ (,1 )
( 2 )
n n kF T F k n n k
k n n
? ? ?? ? ? ?
??
2011-10-16 96
cxt
2 2 5,4 4 1 2 5 4T ?
212
12
57
25,4 4 8,19 29 46
( 1 ) 3 59
n n k
FT
k n n
??
? ? ? ?
? ? ?
2011-10-16 97
cxt
? 书 31-36页
? 一、形象分析的思路
? 二、基本理论
? 1、总体形象平行
? 2,总体形象重合
? 3、总体形象水平
? 三、例 2.2
2011-10-16 98
cxt
? 上机,
? 1,某工厂实行早、中、晚三班工作制。工厂
管理部门想了解不同班次工人劳动效率是否存
在明显的差异。每个班次随机抽出了 7个工人，
得工人的劳动效率（件 /班）资料如表。分析不
同班次工人的劳动效率是否有显著性差异。
a=0.05,0.01。
2011-10-16 99
cxt
早班
中班
晚班
34
49
39
37
47
40
35
51
42
33
48
39
33
50
41
35
51
42
36
51
40
2011-10-16 100
cxt
? 2,50家上市公司，按行业计算其 1999年底
的资产负债情况，各总体之间资产负债率是否
存在差异。如下,
2011-10-16 101
cxt
序号制造业商业运输业公用事业房地产业
1 65 90 50 25 70
2 55 95 65 30 75
3 50 90 58 45 60
4 45 93 63 50 80
5 40 92 64 40 65
6 58 90 60 25 70
7 60 85 58 30 72
8 75 88 56 30 76
9 80 90 60 35 68
10 60 92 55 25 66
平均 58.8 90.5 58.9 33.5 70.2

课件简介

课件名称：	蚌埠医学院：多元统计分析
课件分类：	统计
课件类型：	电子教案
文件大小：	11.12MB
下载次数：	11
评论次数：	9
用户评分：	8.3

用户列表