§ 3 单个总体均值分量间结构关系的检验
是取自该总体的样本。检验,
~ (,)pN ? ?x 1,2(,,)p? ? ? ? ?? L,,,1 2 nx x xL
01,pH ????L
1, ijH ???至 少 有 一 对
一、问题引入
例 设
与上面的假设等价的是,寻找常数矩阵
1 1 0 0
1 0 1 0
1 0 0 1
???
??
?
?
??
???
C
L
L
M M M M
L
0,H ? ?C01,H ? ?C0
注:矩阵 C不是唯一的,
1 1 0 0
0 1 1 0
0 0 0 1
???
??
?
?
??
???
C
L
L
M M M M
L
在例 4.2.1中,假定人类的体形有这样一个
一般规律的身高、胸围和上臂围平均尺寸比例
为 6:4:1。检验比例是否符合这一规律。 检验,
0 1 2 3
11:
64H ? ? ???
1 1 2 3
11:,,
64H ? ? ? 至 少 有 两 个 不 等
2 3 0
1 0 6
????
?? ???C求
则上面的假设可以表达为
0,H ? ?C0 1,H ? ?C0
二、统计量及方法
其中 C 为 一 已 知 的 k× p 阶 矩 阵, k<p,
rank(C)=K,φ为已知的 K维向量 。 根据多元正
态分布的性质可知,
0,H ???C 1,H ???C
~ (,)knN ? ??C x C C C
( 1 ) ~ ( 1,)kn C W n????C S C Σ C
检验,
? ?2 ( 1 ) ( ( 1 ) )T n n n n???? ? ? ? ?1Cx φ ) C S C ( C x φ
? ?( ) ~ (,1 )n T k n???? ? ? ?1Cx φ ) C S C ( C x φ
当 为真时,0,H ???C
2 ~ (,)
( 1 )
nkF T F k n k
kn
???
?
故可以将霍特林分布的统计量换算成 F统计量。
对给定的显著性水平 α,检验的规则
2 (,),
( 1 )
nk T F k n k
kn ?
? ??
? 拒 绝 原 假 设
2 (,),
( 1 )
nk T F k n k
kn ?
? ??
? 接 受 原 假 设 。
某地区农村男婴的体格测量数据如下
编号
身高( cm)
胸围( cm)
上半臂长( cm)
1
78
60.6
16.5
2
76
58.1
12.5
3
92
63.2
14.5
4
81
59.0
14.0
5
81
60.8
15.5
6
84
59.5
14.0
检验三个指标的均值是否有关系
1 2 3
11
64? ? ???
0 1 2 3
11:
64H ? ? ???
1 1 2 3
11:,,
64H ? ? ? 至 少 有 两 个 不 相 等
2 62 4 7, 1 4 3 = 1 8, 8 5 7 2
( 1 ) 2 (6 1 )
nkFT
kn
??? ? ?
??
? ?2 ( ) ~ (,1 )T n T k n????? 1C x ) C S C ( C x
proc iml;
s={ 31.600 8.040 0.500,
8.040 3.172 1.310,
0.500 1.310 1.900};
mu={82.00 60.20 14.50};
c={2 -3 0,
1 0 -6};
a=c*t(mu);
d=c*S*t(c);
g=inv(d);
T=6#(t(a)*g*a);
print;
T= 47.143
§ 4 两个总体均值的检验
一、两个独立样本的情形
与一元随机变量的情形相同,常常我们需要检验两个
总体的均值是否相等。
设从总体, 中各自独立地抽取样
本 和, 。
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
考虑假设 0 1 2:H ???
1 1 2:H ???
根据两个样本可得 μ1和 μ2的无偏估计量为
1
11
1 n
in ?
? ? ixx
2
12
1 n
in ?
? ? iyy
22
11~,( )
pN nn
??? ? ? ?
????X Y 0
? ?1 2 1 1 2 2 1 22 ( 1 ) ( 1 ) ~ ( 2,)pn n n n W n n? ? ? ? ? ? ? ? ?pS S S又
? ? ? ?12
12
~,pnn Nnn? ? ?? X Y 0
其中
1
1
1
( 1 ) ( ) ( )
n
i
i
n
?
?? ? ? ??1iS x x x x
2
22
1
( 1 ) ( ) ( )
n
i
i
n
?
?? ? ? ?? iS y y y y
2 12
12
( ) ( )nnT nn ?? ? ?? 1px y S x y统 计 量
当原假设为真的条件下,
212
12
12
1 ~ (,1 )
( 2 )
n n pF T F p n n p
p n n
? ? ?? ? ? ?
??
检验的规则为,
212
12
12
1 (,1 ),
( 2 )
n n p T F p n n p
p n n ?
? ? ? ? ? ? ?
?? 拒 绝 原 假 设 ;
212
12
12
1 (,1 ),
( 2 )
n n p T F p n n p
p n n ?
? ? ? ? ? ? ?
?? 接 受 原 假 设 ;
例:中小企业的破产模型
为了研究中小企业的破产模型,首先选定
了 X1总负债率(现金收益 /总负债),X2收益
性指标(纯收入 /总财产),X3短期支付能力
(流动资产 /流动负债)和 X4生产效率性指标
(流动资产 /纯销售额) 4个经济指标,对 17个
破产企业为( 1)和 21正常运行企业( 2)进
行了调查,得资料,检验所选择的指标在不同
类型企业之间是否有显著的差异。
多元假设检验
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.54561620 6.87 4 33 0.0004
Pillai's Trace 0.45438380 6.87 4 33 0.0004
Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004
Roy's Greatest Root 0.83279015 6.87 4 33 0.0004
思考:拒绝原假设是否说明两个总体的所有的变量之间
都是不相等的
Dependent Variable,x1
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.87466791 0.87466791 16.90 0.0002
Error 36 1.86300840 0.05175023
Corrected Total 37 2.73767632
两类企业间有显著性差异。
Dependent Variable,x2
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.08312077 0.08312077 1.95 0.1710
Error 36 1.53370028 0.04260279
Corrected Total 37 1.61682105
两类企业间有无显著性差异。
Dependent Variable,x3
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 16.46958443 16.46958443 21.45 <.0001
Error 36 27.64080504 0.76780014
Corrected Total 37 44.11038947
Dependent Variable,x4
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.00112694 0.00112694 0.03 0.8643
Error 36 1.36978095 0.03804947
Corrected Total 37 1.37090789
二、成对试验的 T2统计量
? 前面我们讨论的是两个独立样本的检验问
题,但是不少的实际问题中,两个样本的数据
是成对出现的。例如当讨论男女职工的工资收
入是否存在差异;一种新药的疗效等。
思考,两独立样本和成对样本的观测值有何不同。
设 (xi,yi),i=1,2,3,?,n, 时成对的试验数据,
由于总体 X和 Y均服从 p维正态分布,且协方差
相等。
12,~ (,),i i i p dN ?? ? ? ? ?id x y d δ μ μ令 则 。
假设检验 0 1 2 1 1 2:,:HH? ? ? ???
01,0,,0HH????
检验的统计量为 2 dTn ??? 1d S d
其中 ??d x y
1
1 ( ) ( )
1
n
ii
in ?
?? ? ?? ?dS d d d d
当原假设为真时
2 ~ (,)
( 1 )
npF T F p n p
pn
???
?
2 (,),
( 1 )
np T F p n p
pn ?
? ??
? 拒 绝 原 假 设
2 (,),
( 1 )
np T F p n p
pn ?
? ??
? 接 受 原 假 设
例 1 一组学生共 5人, 采用两种不同的方式进行教学,
然后对 5个学生进行测验, 得如下得分数,
学生序号
教学方式
A
B
数学
物理
数学
物理
1
89
90
82
85
2
98
88
80
83
3
75
69
61
70
4
76
70
67
66
5
90
76
63
65
分析不同的教学方式是否有差异 。
data a;
input x1 x2 y1 y2@@;
cards;
89 90 82 85 98 88 80 83 75 69 61 70 76 70 67
66 90 76 63 65;
data d;
set a;
x12=x1-y1;
y12=x2-y2;
proc corr cov;
var x12 y12;
run;
proc iml;
s={ 63.50 21.000,21.00 18.200};
mu={ 15.00,4.800};
g=inv(s);
r=t(mu)*g*mu;
print r;
run;
§ 5 两个总体均值分量间结构关系的检验
一、问题提出
设从总体, 中各自独立地抽
取样本 和, 。 他
们的均值向量差为,
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
11 21
12 22
2
12pp
??
??
??
???
??
?
????
??
??
?
??
1
μ μ
M
例 在爱情和婚姻的调查中,对一个由若干名
丈夫和妻子组成的样本进行了问卷调查,请他们
回答以下几个问题,
(1)你对伴侣的爱情的, 热度, 感觉如何?
(2)伴侣对你的爱情的, 热度, 感觉如何?
(3)你对伴侣的爱情的, 可结伴, 水平感觉如何?
(4)伴侣对你的爱情的, 可结伴, 水平感觉如何?
回答采用没有、很小、有些、很大和非常大 5个
等级,得到结果如表。
丈夫对妻子 妻子对丈夫
X1 X2 X3 X4 X1 X2 X3 X4
2 3 5 5 4 4 5 5
5 5 4 4 4 5 5 5
4 5 5 5 4 4 5 5
4 3 4 4 4 5 5 5
3 3 5 5 4 4 5 5
3 3 4 5 3 3 4 4
3 4 4 4 4 3 5 4
4 4 5 5 3 4 5 5
4 5 5 5 4 4 5 4
4 4 3 3 3 4 4 4
4 4 5 5 4 5 5 5
5 5 4 4 5 5 5 5
现在我们关心均值分量间的差异是否满足某种结
构关系。比如每个指标均值间的差异是否相等。
1、丈夫对妻子以及妻子对丈夫的回答在 α= 0.05
显著水平上没有差异。
2、在四个指标上他们是否会有相同的分数。即
检验四个分数的平均值是否相等。
二、统计量与检验
检验
0 1 2,( )H ??C μ μ φ
1 1 2,( )H ??C μ μ φ
在原假设为真的条件下,检验的统计量为,
? ? ? ?12 12
12
(( pnnT nn ?? ???? ? ? ? ???? C x y ) φ C S C C x y ) φ
212
12
12
( 1 ) ~ (,1 )
( 2 )
n n kF T F k n n k
k n n
? ? ?? ? ? ?
??
data a;
input x1 x2 x3 x4 class;
cards;
数据行省略;
run;
proc anova;
class class;
model x1-x4=class;
manova h=class m=(1 -1 0 0,
1 0 -1 0,
1 0 0 -1);
run;
H = Anova SSCP Matrix for class
E = Error SSCP Matrix
S=1 M=0.5 N=27
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.87857261 2.58 3 56 0.0626
Pillai's Trace 0.12142739 2.58 3 56 0.0626
Hotelling-Lawley Trace 0.13820985 2.58 3 56 0.0626
Roy's Greatest Root 0.13820985 2.58 3 56 0.0626
proc iml;
sigma1={0.5758620690 0.3758620690 -.1034482759 -.1655172414,
0.3758620690 0.5850574713 -.0919540230 -.1586206897,
-.1034482759 -.0919540230 0.4367816092 0.4137931034,
-.1655172414 -.1586206897 0.4137931034 0.4551724138};
mu1={ 3.90000,3.96667,4.33333,4.40000};
sigma2={ 0.4885057471 -.0172413793 0.0402298851 0.0229885057,
-.0172413793 0.4379310345 0.0724137931 0.1172413793,
0.0402298851 0.0724137931 0.2402298851 0.2022988506,
0.0229885057 0.1172413793 0.2022988506 0.2574712644};
mu2={ 3.83333,4.10000,4.63333,4.53333};
c={1 -1 0 0,1 0 -1 0,1 0 0 -1};
mu=(mu1+mu2)/2;
a=c*mu;
sigma=29#(sigma1+sigma2)/58;
t2=60#t(a)*inv(c*sigma*t(c))*a;
print t2;
2 2 5,4 4 1 2 5 4T ?
212
12
57
25,4 4 8,19 29 46
( 1 ) 3 59
n n k
FT
k n n
??
? ? ? ?
? ? ?
第一节 单因素方差分析
问题的提出
统计的模型及检验方法
多重比较检验
问题的提出
某工厂实行早、中、晚三班工作制。工厂管理部门
想了解不同班次工人劳动效率是否存在明显的差异。每个
班次随机抽出了 7个工人,得工人的劳动效率(件 /班)资
料如表。分析不同班次工人的劳动效率是否有显著性差异。
a=0.05,0.01。
早班
中班
晚班
34
49
39
37
47
40
35
51
42
33
48
39
33
50
41
35
51
42
36
51
40
为什么各值 会有差异? 可能的原因有两个 。
一是, 各个班次工人的劳动效率可能有差异,
从而导致了不同水平下的观察值之间差异, 即存
在条件误差 。
二是, 随机误差的存在 。
如何衡量两种原因所引起的观察值的差异?
总平均劳动效率为,
? ?? ??
k
i
n
ij ij
nyy i
1
/)( 5 7 1.4121 40423734 ?????? ?
三个班次工人的平均劳动效率分别为,
714.341 ?y 571.492 ?y 429.403 ?y
总离差平方和 ss
? ?
? ?
?k
i
n
j ij
i yy
1 1
2)(
222 )571.4140()571.4137)571.4134( ??????? ?
1429.835? 201211 ????n自由度:
组间离差平方和 (条件误差 )ssA
?? ?ki ii yyn1 2)(
22 )571.41571.49(7)571.41714.34(7 ?????
2)571.41429.40(7 ??? 286.786?
组内离差平方和 ( 随机误差 ) sse
? ?
? ?
?k
i
n
j iij
i yy
1 1
2)(
22 )714.3436()714.3434( ????? ?
22 )571.4151()571.4149( ????? ?
857.38)429.4040()429.4039( 22 ?????? ?
18321 ????? kn自由度
统计量 F kn
SS
k
SS eA
??? 1
11 8.18 218 85 7.382 28 6.78 6 ??
把计算的 F值与临界值比较,
当 F ? F?时, 拒绝原假设, 不同水平下的效应有
显著性差异;当 F <F ?时, 接受原假设 。
?? ?ki ii yyn1 2)( 1k 1?k
SSA
kn
SS
k
SS eA
?? 1
? ?? ? ?ki nj iiji yy1 1 2)( kn? kn
SSe
?
? ?? ? ?ki nj iji yy1 1 2)( 1?n
方 差
来 源
离差平方和
自由度
方差
F值
组间 A
组内 E
—
总和
—
—
NEXT
查 F分布表得临界值
因为 故应拒绝原
假设, 即不同班次工人的劳动效率有显著的差异 。
554.3)18,2(05.0 ?F 01 3.6)18,2(01.0 ?F
01 3.6)18,2(11 8.18 2 01.0 ??? FF
方差分析,比较 3个或 3个以上的总体均值是
否有显著性差异。用组间的方差与组内方差相比
,据以判别误差主要源于组间的方差(不同组工
人的产量,条件误差),还是源于组内方差(随
机误差)。
NEXT
50家上市公司,按行业计算其 1999年底的资产负
债情况,如下,
序号 制造业 商业 运输业 公用事业 房地产业
1 65 90 50 25 70
2 55 95 65 30 75
3 50 90 58 45 60
4 45 93 63 50 80
5 40 92 64 40 65
6 58 90 60 25 70
7 60 85 58 30 72
8 75 88 56 30 76
9 80 90 60 35 68
10 60 92 55 25 66
平均 58.8 90.5 58.9 33.5 70.2
A N O V A
X1
1 7 1 0 8, 6 8 4 4 2 7 7,1 7 0 7 2,4 3 7,0 0 0
2 6 5 7,1 0 0 45 5 9,0 4 7
1 9 7 6 5, 7 8 49
B e t w e e n G r o u p s
W i t h in G r o u p s
T o t a l
S u m o f
S q u a r e s df M e a n S q u a r e F S ig,
多重比较检验
1、多重比较检验
前面的 F检验只能说明在单一因素的影响下,
不同水平是否存在显著性的差异,但不能断言哪些
总体之间存在差异,在方差分析中否定了原假设,
并不意味着接受了假设,
),,2,1,,( kjijiji ???? ??
因而还应该进一步讨论到底是哪些总体之间存在差异。
Scheffe检验
),,2,1,,(:
0 kjijiH ji ???? ??
)某些 jiH ji ?? (:1 ??
),1()1)(11(
21
knkFknnkn SS eij ?????? ?定义:
jiij xxD ??定义:
检验的结论,
。个水平间有显著性差异水平与第即第,则拒绝 jiHSD ijij,0?
M u l t i p l e C om p a r i s on s
D e p e n d e n t V a r ia b le, X 1
S c h e f f e
- 3 1, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 2, 7 3 6 9 - 2 0, 6 6 3 1
-, 1 0 0 0 3, 4 3 6 4 7 1, 0 0 0 - 1 1, 1 3 6 9 1 0, 9 3 6 9
2 5, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 1 4, 2 6 3 1 3 6, 3 3 6 9
- 1 1, 4 0 0 0 * 3, 4 3 6 4 7, 0 3 9 - 2 2, 4 3 6 9 -, 3 6 3 1
3 1, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 0, 6 6 3 1 4 2, 7 3 6 9
3 1, 6 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 0, 5 6 3 1 4 2, 6 3 6 9
5 7, 0 0 0 0 * 3, 4 3 6 4 7, 0 0 0 4 5, 9 6 3 1 6 8, 0 3 6 9
2 0, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 9, 2 6 3 1 3 1, 3 3 6 9
,1 0 0 0 3, 4 3 6 4 7 1, 0 0 0 - 1 0, 9 3 6 9 1 1, 1 3 6 9
- 3 1, 6 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 2, 6 3 6 9 - 2 0, 5 6 3 1
2 5, 4 0 0 0 * 3, 4 3 6 4 7, 0 0 0 1 4, 3 6 3 1 3 6, 4 3 6 9
- 1 1, 3 0 0 0 * 3, 4 3 6 4 7, 0 4 2 - 2 2, 3 3 6 9 -, 2 6 3 1
- 2 5, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 6, 3 3 6 9 - 1 4, 2 6 3 1
- 5 7, 0 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 6 8, 0 3 6 9 - 4 5, 9 6 3 1
- 2 5, 4 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 6, 4 3 6 9 - 1 4, 3 6 3 1
- 3 6, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 7, 7 3 6 9 - 2 5, 6 6 3 1
1 1, 4 0 0 0 * 3, 4 3 6 4 7, 0 3 9, 3 6 3 1 2 2, 4 3 6 9
- 2 0, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 1, 3 3 6 9 - 9, 2 6 3 1
1 1, 3 0 0 0 * 3, 4 3 6 4 7, 0 4 2, 2 6 3 1 2 2, 3 3 6 9
3 6, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 5, 6 6 3 1 4 7, 7 3 6 9
(J ), 1, 制造业,,2, 商业
,,3, 运输业,,4, 公用
事业,,5, 房地产业
2
3
4
5
1
3
4
5
1
2
4
5
1
2
3
5
1
2
3
4
(I ), 1, 制造业,,2, 商业
,,3, 运输业,,4, 公用
事业,,5, 房地产业
1
2
3
4
5
Me a n
D if f e r e n ce
(I - J ) S t d, E r r o r S ig, L o w e r B o u n d U p p e r B o u n d
9 5 % C o n f id e n c e I n t e r v a l
T h e m e a n d if f e r e n c e is s ig n if ica n t a t t h e, 0 5 le v e l.*,
第二节 多元方差分析
一、假设
0 1 2,kH ? ? ?μ μ μL
? ?1, 1,2,,iH a k?μ L 不 完 全 相 同
二、多元方差分析的离差平方和的分解
总离差平方和
( ) ( )
11
( ) ( )
ank aa
ii
ai
SST x x x x
??
?? ? ???
( ) ( ) ( ) ( ) ( ) ( )
11
( ) ( )
ank a a a a a a
ii
ai
x x x x x x x x
??
?? ? ? ? ? ? ???
( ) ( ) ( ) ( ) ( ) ( )
1 1 1
( ) ( ) ( ) ( )
ankk a a a a a a
i i a
a i a
x x x x n x x x x
? ? ?
??? ? ? ? ? ?? ? ?
( ) ( ) ( ) ( ) ( )
1 1 1 1
( ) ( ) ( ) ( )
aanna a a a a
i i i
a i a i
x x x x x x x x
? ? ? ?
??? ? ? ? ?? ? ? ?+
由于交叉乘积项为零,故
组间叉积矩阵+组内叉积矩阵=总叉积矩阵
( ) ( ) ( ) ( )
11
( ) ( )
ank a a a a
ii
ai
SSE x x x x
??
?? ? ???
组内叉积矩阵:主要由随机因素构成
( ) ( )
1
( ) ( ) ( )
k
aa
a
a
S S TR n x x x x
?
?? ? ??
组间叉积矩阵:主要由系统因素构成
SSE和 SS(TR)之和等于总离差平方和 SST。
当 SSE在 SST中占有较大的份额时,可以认为
随机因素影响过大,反之 SSE所占份额小,SS
( RT)所占份额就大,不同试验间的观测值
会有显著性差异。
,1,~ (,,1 )p k n k
SSE p n k k
S S E S S T R??? ? ? ? ? ??
三、统计量
对给定的显著性水平 ?,检验规则为,
,1,,1,,p k n k p k n k ?? ? ? ?? ? ?
,1,,1,,p k n k p k n k ?? ? ? ?? ? ?
拒绝原假设;
接受原假设;
注:关于 ?统计量与 F统计量的换算,参看附录。
例 4.6.1
? 有四种不同的商品 x1,x2,x3和 x4,按三种
不同的方式销售,有数据如程序数据行,检
验三种消费方式是否有显著性差异。
proc iml;
csscp={49290.8500 8992.2500 -36444.0000 28906.8000,
8992.2500 9666.5833 -4658.3333 4859.0000,
36444.0000 -4658.3333 429509.3333 -58114.0000,
28906.8000 4859.0000 -58114.0000 175644.4000};
mu1={90.80000 58.65000 404.50000 230.65000};
mu2={ 72.90000 51.45000 417.75000 253.15000};
mu3={ 94.15000 55.15000 403.75000 292.00000};
mu={ 85.95000 55.08333 408.66667 258.60000};
bcsscp=20#(t(mu1-mu)*(mu1-mu)+t(mu2-mu)*(mu2-mu)+t(mu3-
mu)*(mu3-mu));
icsscp=csscp-bcsscp;
ht=det(csscp);
hi=det(icsscp);
lamda=hi/ht;
print lamda;
2 0.6652142T ?
( 5 7 4 1 ) ( 1 0, 6 6 5 ) 3, 0 4
4 0, 6 6 5F
? ? ???
?
是取自该总体的样本。检验,
~ (,)pN ? ?x 1,2(,,)p? ? ? ? ?? L,,,1 2 nx x xL
01,pH ????L
1, ijH ???至 少 有 一 对
一、问题引入
例 设
与上面的假设等价的是,寻找常数矩阵
1 1 0 0
1 0 1 0
1 0 0 1
???
??
?
?
??
???
C
L
L
M M M M
L
0,H ? ?C01,H ? ?C0
注:矩阵 C不是唯一的,
1 1 0 0
0 1 1 0
0 0 0 1
???
??
?
?
??
???
C
L
L
M M M M
L
在例 4.2.1中,假定人类的体形有这样一个
一般规律的身高、胸围和上臂围平均尺寸比例
为 6:4:1。检验比例是否符合这一规律。 检验,
0 1 2 3
11:
64H ? ? ???
1 1 2 3
11:,,
64H ? ? ? 至 少 有 两 个 不 等
2 3 0
1 0 6
????
?? ???C求
则上面的假设可以表达为
0,H ? ?C0 1,H ? ?C0
二、统计量及方法
其中 C 为 一 已 知 的 k× p 阶 矩 阵, k<p,
rank(C)=K,φ为已知的 K维向量 。 根据多元正
态分布的性质可知,
0,H ???C 1,H ???C
~ (,)knN ? ??C x C C C
( 1 ) ~ ( 1,)kn C W n????C S C Σ C
检验,
? ?2 ( 1 ) ( ( 1 ) )T n n n n???? ? ? ? ?1Cx φ ) C S C ( C x φ
? ?( ) ~ (,1 )n T k n???? ? ? ?1Cx φ ) C S C ( C x φ
当 为真时,0,H ???C
2 ~ (,)
( 1 )
nkF T F k n k
kn
???
?
故可以将霍特林分布的统计量换算成 F统计量。
对给定的显著性水平 α,检验的规则
2 (,),
( 1 )
nk T F k n k
kn ?
? ??
? 拒 绝 原 假 设
2 (,),
( 1 )
nk T F k n k
kn ?
? ??
? 接 受 原 假 设 。
某地区农村男婴的体格测量数据如下
编号
身高( cm)
胸围( cm)
上半臂长( cm)
1
78
60.6
16.5
2
76
58.1
12.5
3
92
63.2
14.5
4
81
59.0
14.0
5
81
60.8
15.5
6
84
59.5
14.0
检验三个指标的均值是否有关系
1 2 3
11
64? ? ???
0 1 2 3
11:
64H ? ? ???
1 1 2 3
11:,,
64H ? ? ? 至 少 有 两 个 不 相 等
2 62 4 7, 1 4 3 = 1 8, 8 5 7 2
( 1 ) 2 (6 1 )
nkFT
kn
??? ? ?
??
? ?2 ( ) ~ (,1 )T n T k n????? 1C x ) C S C ( C x
proc iml;
s={ 31.600 8.040 0.500,
8.040 3.172 1.310,
0.500 1.310 1.900};
mu={82.00 60.20 14.50};
c={2 -3 0,
1 0 -6};
a=c*t(mu);
d=c*S*t(c);
g=inv(d);
T=6#(t(a)*g*a);
print;
T= 47.143
§ 4 两个总体均值的检验
一、两个独立样本的情形
与一元随机变量的情形相同,常常我们需要检验两个
总体的均值是否相等。
设从总体, 中各自独立地抽取样
本 和, 。
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
考虑假设 0 1 2:H ???
1 1 2:H ???
根据两个样本可得 μ1和 μ2的无偏估计量为
1
11
1 n
in ?
? ? ixx
2
12
1 n
in ?
? ? iyy
22
11~,( )
pN nn
??? ? ? ?
????X Y 0
? ?1 2 1 1 2 2 1 22 ( 1 ) ( 1 ) ~ ( 2,)pn n n n W n n? ? ? ? ? ? ? ? ?pS S S又
? ? ? ?12
12
~,pnn Nnn? ? ?? X Y 0
其中
1
1
1
( 1 ) ( ) ( )
n
i
i
n
?
?? ? ? ??1iS x x x x
2
22
1
( 1 ) ( ) ( )
n
i
i
n
?
?? ? ? ?? iS y y y y
2 12
12
( ) ( )nnT nn ?? ? ?? 1px y S x y统 计 量
当原假设为真的条件下,
212
12
12
1 ~ (,1 )
( 2 )
n n pF T F p n n p
p n n
? ? ?? ? ? ?
??
检验的规则为,
212
12
12
1 (,1 ),
( 2 )
n n p T F p n n p
p n n ?
? ? ? ? ? ? ?
?? 拒 绝 原 假 设 ;
212
12
12
1 (,1 ),
( 2 )
n n p T F p n n p
p n n ?
? ? ? ? ? ? ?
?? 接 受 原 假 设 ;
例:中小企业的破产模型
为了研究中小企业的破产模型,首先选定
了 X1总负债率(现金收益 /总负债),X2收益
性指标(纯收入 /总财产),X3短期支付能力
(流动资产 /流动负债)和 X4生产效率性指标
(流动资产 /纯销售额) 4个经济指标,对 17个
破产企业为( 1)和 21正常运行企业( 2)进
行了调查,得资料,检验所选择的指标在不同
类型企业之间是否有显著的差异。
多元假设检验
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.54561620 6.87 4 33 0.0004
Pillai's Trace 0.45438380 6.87 4 33 0.0004
Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004
Roy's Greatest Root 0.83279015 6.87 4 33 0.0004
思考:拒绝原假设是否说明两个总体的所有的变量之间
都是不相等的
Dependent Variable,x1
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.87466791 0.87466791 16.90 0.0002
Error 36 1.86300840 0.05175023
Corrected Total 37 2.73767632
两类企业间有显著性差异。
Dependent Variable,x2
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.08312077 0.08312077 1.95 0.1710
Error 36 1.53370028 0.04260279
Corrected Total 37 1.61682105
两类企业间有无显著性差异。
Dependent Variable,x3
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 16.46958443 16.46958443 21.45 <.0001
Error 36 27.64080504 0.76780014
Corrected Total 37 44.11038947
Dependent Variable,x4
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 0.00112694 0.00112694 0.03 0.8643
Error 36 1.36978095 0.03804947
Corrected Total 37 1.37090789
二、成对试验的 T2统计量
? 前面我们讨论的是两个独立样本的检验问
题,但是不少的实际问题中,两个样本的数据
是成对出现的。例如当讨论男女职工的工资收
入是否存在差异;一种新药的疗效等。
思考,两独立样本和成对样本的观测值有何不同。
设 (xi,yi),i=1,2,3,?,n, 时成对的试验数据,
由于总体 X和 Y均服从 p维正态分布,且协方差
相等。
12,~ (,),i i i p dN ?? ? ? ? ?id x y d δ μ μ令 则 。
假设检验 0 1 2 1 1 2:,:HH? ? ? ???
01,0,,0HH????
检验的统计量为 2 dTn ??? 1d S d
其中 ??d x y
1
1 ( ) ( )
1
n
ii
in ?
?? ? ?? ?dS d d d d
当原假设为真时
2 ~ (,)
( 1 )
npF T F p n p
pn
???
?
2 (,),
( 1 )
np T F p n p
pn ?
? ??
? 拒 绝 原 假 设
2 (,),
( 1 )
np T F p n p
pn ?
? ??
? 接 受 原 假 设
例 1 一组学生共 5人, 采用两种不同的方式进行教学,
然后对 5个学生进行测验, 得如下得分数,
学生序号
教学方式
A
B
数学
物理
数学
物理
1
89
90
82
85
2
98
88
80
83
3
75
69
61
70
4
76
70
67
66
5
90
76
63
65
分析不同的教学方式是否有差异 。
data a;
input x1 x2 y1 y2@@;
cards;
89 90 82 85 98 88 80 83 75 69 61 70 76 70 67
66 90 76 63 65;
data d;
set a;
x12=x1-y1;
y12=x2-y2;
proc corr cov;
var x12 y12;
run;
proc iml;
s={ 63.50 21.000,21.00 18.200};
mu={ 15.00,4.800};
g=inv(s);
r=t(mu)*g*mu;
print r;
run;
§ 5 两个总体均值分量间结构关系的检验
一、问题提出
设从总体, 中各自独立地抽
取样本 和, 。 他
们的均值向量差为,
1(,)pN ? ? 和 2(,)pN ? ?
112(,,,)nx x x ??x L 212(,,,)ny y y ??y L??0
11 21
12 22
2
12pp
??
??
??
???
??
?
????
??
??
?
??
1
μ μ
M
例 在爱情和婚姻的调查中,对一个由若干名
丈夫和妻子组成的样本进行了问卷调查,请他们
回答以下几个问题,
(1)你对伴侣的爱情的, 热度, 感觉如何?
(2)伴侣对你的爱情的, 热度, 感觉如何?
(3)你对伴侣的爱情的, 可结伴, 水平感觉如何?
(4)伴侣对你的爱情的, 可结伴, 水平感觉如何?
回答采用没有、很小、有些、很大和非常大 5个
等级,得到结果如表。
丈夫对妻子 妻子对丈夫
X1 X2 X3 X4 X1 X2 X3 X4
2 3 5 5 4 4 5 5
5 5 4 4 4 5 5 5
4 5 5 5 4 4 5 5
4 3 4 4 4 5 5 5
3 3 5 5 4 4 5 5
3 3 4 5 3 3 4 4
3 4 4 4 4 3 5 4
4 4 5 5 3 4 5 5
4 5 5 5 4 4 5 4
4 4 3 3 3 4 4 4
4 4 5 5 4 5 5 5
5 5 4 4 5 5 5 5
现在我们关心均值分量间的差异是否满足某种结
构关系。比如每个指标均值间的差异是否相等。
1、丈夫对妻子以及妻子对丈夫的回答在 α= 0.05
显著水平上没有差异。
2、在四个指标上他们是否会有相同的分数。即
检验四个分数的平均值是否相等。
二、统计量与检验
检验
0 1 2,( )H ??C μ μ φ
1 1 2,( )H ??C μ μ φ
在原假设为真的条件下,检验的统计量为,
? ? ? ?12 12
12
(( pnnT nn ?? ???? ? ? ? ???? C x y ) φ C S C C x y ) φ
212
12
12
( 1 ) ~ (,1 )
( 2 )
n n kF T F k n n k
k n n
? ? ?? ? ? ?
??
data a;
input x1 x2 x3 x4 class;
cards;
数据行省略;
run;
proc anova;
class class;
model x1-x4=class;
manova h=class m=(1 -1 0 0,
1 0 -1 0,
1 0 0 -1);
run;
H = Anova SSCP Matrix for class
E = Error SSCP Matrix
S=1 M=0.5 N=27
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.87857261 2.58 3 56 0.0626
Pillai's Trace 0.12142739 2.58 3 56 0.0626
Hotelling-Lawley Trace 0.13820985 2.58 3 56 0.0626
Roy's Greatest Root 0.13820985 2.58 3 56 0.0626
proc iml;
sigma1={0.5758620690 0.3758620690 -.1034482759 -.1655172414,
0.3758620690 0.5850574713 -.0919540230 -.1586206897,
-.1034482759 -.0919540230 0.4367816092 0.4137931034,
-.1655172414 -.1586206897 0.4137931034 0.4551724138};
mu1={ 3.90000,3.96667,4.33333,4.40000};
sigma2={ 0.4885057471 -.0172413793 0.0402298851 0.0229885057,
-.0172413793 0.4379310345 0.0724137931 0.1172413793,
0.0402298851 0.0724137931 0.2402298851 0.2022988506,
0.0229885057 0.1172413793 0.2022988506 0.2574712644};
mu2={ 3.83333,4.10000,4.63333,4.53333};
c={1 -1 0 0,1 0 -1 0,1 0 0 -1};
mu=(mu1+mu2)/2;
a=c*mu;
sigma=29#(sigma1+sigma2)/58;
t2=60#t(a)*inv(c*sigma*t(c))*a;
print t2;
2 2 5,4 4 1 2 5 4T ?
212
12
57
25,4 4 8,19 29 46
( 1 ) 3 59
n n k
FT
k n n
??
? ? ? ?
? ? ?
第一节 单因素方差分析
问题的提出
统计的模型及检验方法
多重比较检验
问题的提出
某工厂实行早、中、晚三班工作制。工厂管理部门
想了解不同班次工人劳动效率是否存在明显的差异。每个
班次随机抽出了 7个工人,得工人的劳动效率(件 /班)资
料如表。分析不同班次工人的劳动效率是否有显著性差异。
a=0.05,0.01。
早班
中班
晚班
34
49
39
37
47
40
35
51
42
33
48
39
33
50
41
35
51
42
36
51
40
为什么各值 会有差异? 可能的原因有两个 。
一是, 各个班次工人的劳动效率可能有差异,
从而导致了不同水平下的观察值之间差异, 即存
在条件误差 。
二是, 随机误差的存在 。
如何衡量两种原因所引起的观察值的差异?
总平均劳动效率为,
? ?? ??
k
i
n
ij ij
nyy i
1
/)( 5 7 1.4121 40423734 ?????? ?
三个班次工人的平均劳动效率分别为,
714.341 ?y 571.492 ?y 429.403 ?y
总离差平方和 ss
? ?
? ?
?k
i
n
j ij
i yy
1 1
2)(
222 )571.4140()571.4137)571.4134( ??????? ?
1429.835? 201211 ????n自由度:
组间离差平方和 (条件误差 )ssA
?? ?ki ii yyn1 2)(
22 )571.41571.49(7)571.41714.34(7 ?????
2)571.41429.40(7 ??? 286.786?
组内离差平方和 ( 随机误差 ) sse
? ?
? ?
?k
i
n
j iij
i yy
1 1
2)(
22 )714.3436()714.3434( ????? ?
22 )571.4151()571.4149( ????? ?
857.38)429.4040()429.4039( 22 ?????? ?
18321 ????? kn自由度
统计量 F kn
SS
k
SS eA
??? 1
11 8.18 218 85 7.382 28 6.78 6 ??
把计算的 F值与临界值比较,
当 F ? F?时, 拒绝原假设, 不同水平下的效应有
显著性差异;当 F <F ?时, 接受原假设 。
?? ?ki ii yyn1 2)( 1k 1?k
SSA
kn
SS
k
SS eA
?? 1
? ?? ? ?ki nj iiji yy1 1 2)( kn? kn
SSe
?
? ?? ? ?ki nj iji yy1 1 2)( 1?n
方 差
来 源
离差平方和
自由度
方差
F值
组间 A
组内 E
—
总和
—
—
NEXT
查 F分布表得临界值
因为 故应拒绝原
假设, 即不同班次工人的劳动效率有显著的差异 。
554.3)18,2(05.0 ?F 01 3.6)18,2(01.0 ?F
01 3.6)18,2(11 8.18 2 01.0 ??? FF
方差分析,比较 3个或 3个以上的总体均值是
否有显著性差异。用组间的方差与组内方差相比
,据以判别误差主要源于组间的方差(不同组工
人的产量,条件误差),还是源于组内方差(随
机误差)。
NEXT
50家上市公司,按行业计算其 1999年底的资产负
债情况,如下,
序号 制造业 商业 运输业 公用事业 房地产业
1 65 90 50 25 70
2 55 95 65 30 75
3 50 90 58 45 60
4 45 93 63 50 80
5 40 92 64 40 65
6 58 90 60 25 70
7 60 85 58 30 72
8 75 88 56 30 76
9 80 90 60 35 68
10 60 92 55 25 66
平均 58.8 90.5 58.9 33.5 70.2
A N O V A
X1
1 7 1 0 8, 6 8 4 4 2 7 7,1 7 0 7 2,4 3 7,0 0 0
2 6 5 7,1 0 0 45 5 9,0 4 7
1 9 7 6 5, 7 8 49
B e t w e e n G r o u p s
W i t h in G r o u p s
T o t a l
S u m o f
S q u a r e s df M e a n S q u a r e F S ig,
多重比较检验
1、多重比较检验
前面的 F检验只能说明在单一因素的影响下,
不同水平是否存在显著性的差异,但不能断言哪些
总体之间存在差异,在方差分析中否定了原假设,
并不意味着接受了假设,
),,2,1,,( kjijiji ???? ??
因而还应该进一步讨论到底是哪些总体之间存在差异。
Scheffe检验
),,2,1,,(:
0 kjijiH ji ???? ??
)某些 jiH ji ?? (:1 ??
),1()1)(11(
21
knkFknnkn SS eij ?????? ?定义:
jiij xxD ??定义:
检验的结论,
。个水平间有显著性差异水平与第即第,则拒绝 jiHSD ijij,0?
M u l t i p l e C om p a r i s on s
D e p e n d e n t V a r ia b le, X 1
S c h e f f e
- 3 1, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 2, 7 3 6 9 - 2 0, 6 6 3 1
-, 1 0 0 0 3, 4 3 6 4 7 1, 0 0 0 - 1 1, 1 3 6 9 1 0, 9 3 6 9
2 5, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 1 4, 2 6 3 1 3 6, 3 3 6 9
- 1 1, 4 0 0 0 * 3, 4 3 6 4 7, 0 3 9 - 2 2, 4 3 6 9 -, 3 6 3 1
3 1, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 0, 6 6 3 1 4 2, 7 3 6 9
3 1, 6 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 0, 5 6 3 1 4 2, 6 3 6 9
5 7, 0 0 0 0 * 3, 4 3 6 4 7, 0 0 0 4 5, 9 6 3 1 6 8, 0 3 6 9
2 0, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 9, 2 6 3 1 3 1, 3 3 6 9
,1 0 0 0 3, 4 3 6 4 7 1, 0 0 0 - 1 0, 9 3 6 9 1 1, 1 3 6 9
- 3 1, 6 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 2, 6 3 6 9 - 2 0, 5 6 3 1
2 5, 4 0 0 0 * 3, 4 3 6 4 7, 0 0 0 1 4, 3 6 3 1 3 6, 4 3 6 9
- 1 1, 3 0 0 0 * 3, 4 3 6 4 7, 0 4 2 - 2 2, 3 3 6 9 -, 2 6 3 1
- 2 5, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 6, 3 3 6 9 - 1 4, 2 6 3 1
- 5 7, 0 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 6 8, 0 3 6 9 - 4 5, 9 6 3 1
- 2 5, 4 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 6, 4 3 6 9 - 1 4, 3 6 3 1
- 3 6, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 4 7, 7 3 6 9 - 2 5, 6 6 3 1
1 1, 4 0 0 0 * 3, 4 3 6 4 7, 0 3 9, 3 6 3 1 2 2, 4 3 6 9
- 2 0, 3 0 0 0 * 3, 4 3 6 4 7, 0 0 0 - 3 1, 3 3 6 9 - 9, 2 6 3 1
1 1, 3 0 0 0 * 3, 4 3 6 4 7, 0 4 2, 2 6 3 1 2 2, 3 3 6 9
3 6, 7 0 0 0 * 3, 4 3 6 4 7, 0 0 0 2 5, 6 6 3 1 4 7, 7 3 6 9
(J ), 1, 制造业,,2, 商业
,,3, 运输业,,4, 公用
事业,,5, 房地产业
2
3
4
5
1
3
4
5
1
2
4
5
1
2
3
5
1
2
3
4
(I ), 1, 制造业,,2, 商业
,,3, 运输业,,4, 公用
事业,,5, 房地产业
1
2
3
4
5
Me a n
D if f e r e n ce
(I - J ) S t d, E r r o r S ig, L o w e r B o u n d U p p e r B o u n d
9 5 % C o n f id e n c e I n t e r v a l
T h e m e a n d if f e r e n c e is s ig n if ica n t a t t h e, 0 5 le v e l.*,
第二节 多元方差分析
一、假设
0 1 2,kH ? ? ?μ μ μL
? ?1, 1,2,,iH a k?μ L 不 完 全 相 同
二、多元方差分析的离差平方和的分解
总离差平方和
( ) ( )
11
( ) ( )
ank aa
ii
ai
SST x x x x
??
?? ? ???
( ) ( ) ( ) ( ) ( ) ( )
11
( ) ( )
ank a a a a a a
ii
ai
x x x x x x x x
??
?? ? ? ? ? ? ???
( ) ( ) ( ) ( ) ( ) ( )
1 1 1
( ) ( ) ( ) ( )
ankk a a a a a a
i i a
a i a
x x x x n x x x x
? ? ?
??? ? ? ? ? ?? ? ?
( ) ( ) ( ) ( ) ( )
1 1 1 1
( ) ( ) ( ) ( )
aanna a a a a
i i i
a i a i
x x x x x x x x
? ? ? ?
??? ? ? ? ?? ? ? ?+
由于交叉乘积项为零,故
组间叉积矩阵+组内叉积矩阵=总叉积矩阵
( ) ( ) ( ) ( )
11
( ) ( )
ank a a a a
ii
ai
SSE x x x x
??
?? ? ???
组内叉积矩阵:主要由随机因素构成
( ) ( )
1
( ) ( ) ( )
k
aa
a
a
S S TR n x x x x
?
?? ? ??
组间叉积矩阵:主要由系统因素构成
SSE和 SS(TR)之和等于总离差平方和 SST。
当 SSE在 SST中占有较大的份额时,可以认为
随机因素影响过大,反之 SSE所占份额小,SS
( RT)所占份额就大,不同试验间的观测值
会有显著性差异。
,1,~ (,,1 )p k n k
SSE p n k k
S S E S S T R??? ? ? ? ? ??
三、统计量
对给定的显著性水平 ?,检验规则为,
,1,,1,,p k n k p k n k ?? ? ? ?? ? ?
,1,,1,,p k n k p k n k ?? ? ? ?? ? ?
拒绝原假设;
接受原假设;
注:关于 ?统计量与 F统计量的换算,参看附录。
例 4.6.1
? 有四种不同的商品 x1,x2,x3和 x4,按三种
不同的方式销售,有数据如程序数据行,检
验三种消费方式是否有显著性差异。
proc iml;
csscp={49290.8500 8992.2500 -36444.0000 28906.8000,
8992.2500 9666.5833 -4658.3333 4859.0000,
36444.0000 -4658.3333 429509.3333 -58114.0000,
28906.8000 4859.0000 -58114.0000 175644.4000};
mu1={90.80000 58.65000 404.50000 230.65000};
mu2={ 72.90000 51.45000 417.75000 253.15000};
mu3={ 94.15000 55.15000 403.75000 292.00000};
mu={ 85.95000 55.08333 408.66667 258.60000};
bcsscp=20#(t(mu1-mu)*(mu1-mu)+t(mu2-mu)*(mu2-mu)+t(mu3-
mu)*(mu3-mu));
icsscp=csscp-bcsscp;
ht=det(csscp);
hi=det(icsscp);
lamda=hi/ht;
print lamda;
2 0.6652142T ?
( 5 7 4 1 ) ( 1 0, 6 6 5 ) 3, 0 4
4 0, 6 6 5F
? ? ???
?