§7.3 分布的假设检验
前面讨论的总体分布中知参数的估计和检验都是假定总体分布类型已知,比如为正态总体的前提下进行的,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断,
如何对总体的分布进行推断呢,不难想象,我们可以由样本作经验分布函数的提示,对总体分布类型作假设,然后再对所提的假设进行检验。 由于所用的方法不依赖于总体分布的具体数学形式。在数理统计中,就把这种不依赖于分布的统计方法称为 非参数统计 法 。
非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类——
分布函数 的 拟合检验 。 关于分布的假设检验常见方法有四种,概率图纸法,-似合优度检验法,柯尔莫哥洛夫—斯米尔诺夫检验法及秩和检验法,本节仅介绍其中的一种 —— 检验法。
2
χ
2
χ
2
χ -拟合检验法,
下面我们介绍皮尔逊提出的 -拟合检验法,它像各种显著性检验一样,能控制犯第一类错误的概率。
2
χ
1,设总体 X ~ F(x),但 F(x)未知,
从 X抽取子样 (X
1
,……,X
n
)的观测值为 (x
1
,……,x
n
).据此检验,
1° H
0
,F(x)=F
0
(x) (其中 F
0
(x)为某个已知的分布,不含未知参数 ),我们将 X的可能取值范围 R分成 k个互不相交的区间,
[ ) [ ) [ )
kkk
aaAaaAaaA,,,,,,
1212101?
===""
(这些区间不一定长度相等。且 a
0
可为 -∞,a
k
可为 +∞) 。
以 n
i
表示样本观测值 (x
1
,x
2
,……,x
n
)中落入 A
i
的频数 n
i
,称之为观测频数,
显然有,而事件 { }在 n 次观测中发生的频率为nn
k
i
i
=

=1
i
AX ∈
n
n
i

我们知道,当 H
0
为真时,P( )=F
i
AX ∈
0
(a
i
)?F
0
(a
i-1
) kiP
i
,,2,1,"==
于是得到在 H
0
为真时,容量为 n的子样 落入区间 A
i
的理论频数为,且有
i
np
npnnp
k
i
i
k
i
i
==
∑∑
== 11
由大数定律知,当 H
0
为真时,
i
p
i
p
n
n
→? (n→∞ )
1
即当 n充 分大时,与 的差异 不应 太大。 根据 这个思 想,皮尔逊 (k.Pearson)构造 出
H
i
n
i
np
0
的检验统计量为,

=
=
k
i i
ii
np
npn
1
2
2
)(
χ (7.1)
并证明了如下的结论
定理 7.1(皮 尔逊定 理) 当 H
0
为 真时,(7.1)所示的 统计 量的 渐近分 布是 自由度 为 k-1
的 -分布,即
2
χ
2
χ
)1(
)(
2
1
2
2
→?
=

=
k
np
npn
L
k
i i
ii
χχ (当 时 ) ( 7.2) ∞→n
对于给定的水平 α,P{ }查 (k-1)分布表,确定出临界值,从而得 H
2
1
2
α
χχ

2
χ
0
的拒绝域 C=[,∞ ],将 子样观 察值 代入 (7.12)所示 的 -统计量 算出其 观测 值,视 其是 否落入
C而作出拒绝或接受 H
2
1 α
χ
2
χ
2
χ
0
的判断。
上面的检验法称为皮尔逊 拟合检验法。
2
χ
2,总体 X~ F(x),其中 F(x)未知,需检验,
H
0
,F(x) = F
0
(x
i; θ
1

2
,……,θ
m
),其中 F
0
为已 知类型的分 布,但含有 m个未知参数 θ
1
,
θ
2
,……,θ
m
,
在这种情况,我们首先用 θ
1

2
,……,θ
m
的极大似然估计 代替 F
m
θθ
,
1
"
0
的 θ
1

2
,……,θ
m

再按情况 1 的办法进行检验,但这时 (7.1)所示的 -统计量的渐近分布将是 (k-m-1),即有,
2
χ
2
χ
定理 7.2 (Fisher定理 ) H
0
为真时,用 θ
1
,……,θ
m
的极大似然估计 代
m
θθ
,
1
"
F(x
i; θ
1
,……,θ
m
)中的未 知参数 θ
1
,……,θ
m
,并用
)
,;()
,;(?
11010 mimii
aFaFp θθθθ""
=
代替 (7.1)式中 的 p
i
所得的统计量

=
=
k
i
i
ii
pn
pnn
1
2
2
)?(
χ
2
当 n→∞ 时,有 (k-m-1)分布 。
2
χ
例 7.12 对 200 个电池做寿 命试验,(t
i-1
,t
i
)表示以小 时计的时间区间 (i=1,2,…,6),在 a=0.05
下,试检验电池寿命 X 服从指数分布。
组序 ( t
i-1
,t
i
) n
i
1 ( 0,5) 133
2 ( 5,10) 45
3 ( 10,15) 15
4 ( 15,20) 4
5 ( 20,25) 2
6 ( 25,30) 1
∑ 200
解 首先,用样本观察值对未知参数 λ作最大似然估计。 以 x
i
表示区间 (t
i-1
,t
i
)的中点 ( 也 称为组中值),则
()515.2725.2245.17155.12455.71335.2
200
1
200
1
6
1
=×+×+×+×+×+×==

=i
ii
xnx
2.01
== xλ
故提出假设 H
0
,X 服从 λ=0.2 的指数 分布,当 H
0
为真时,有
{}( ) ( ) ( )
{}()() 2325.0510105
6321.0150550
21
2
1
1
=?=?=≤<=
=?==?=≤<=

eeFFXPp
eFFFXPp
类似地算出,p
3
=0.0855,p
4
=0.03147,p
5
=0.0016,p
6
=0.0043,
各 v
i
=np
i
分别为,126.42,46.52,17.10,6.30,2.32,0.84,
由于 v
5
和 v
6
都小 于 5,且合并后 仍小于 5,故 与 v
4
合并,
组序 ni vi=npi ni-npi (n
i
-np
i
)
2
/np
i
1 133 126.42 6.58 0.3425
2 45 46.52 -1.52 0.0497
3 15 17.10 -2.10 0.2579
4 7 9.46 -2.46 0.6397
∑ 200 200 1.29
29.1
)(
4
1
2
2
=
=

=i
i
ii
np
npn
χ,由 a=0.05 得
2
χ (k-m-1)= ( ) 991.52
2
025.0

由于 χ
2
﹤ χ
a
2
(k-m-1),故 接受 H
0
,即认为 X 服从 参数 λ= 0.2 的指数分布。
3
例 7.13 从同 类产品中,任取 n = 200 批,质检结果如下表,其中 x
i
表示各批产 品中次品数,
n
i
表示有 x
i
件次品的批数,试在 显著性水平 a=0.05 下,检验 次品件数 X 服从泊松分布。
序号 1 2 3 4 5
x
i
0 1 2 3 4 ∑
n
i
116 56 22 4 2 200
解 先用最 大似然估计法求 λ估计值。
6.0
5
1
5
1
===

=i
ii
nxxλ
检验假设为 H
0
,X 服从 λ=0.6 的泊松 分布。当 H
0
成立时,算 得
32928698.0
!1
6.0
,5488.0
!0
6.0
6.0
1
2
6.0
0
1
====

epep
类似地算出
p
3
=0.098761,p
4
=0.0197572,p
5
=0.00296,
再算出理论频数 np
i
分别 为
109.7623,65.8574,19.7572,3.9514,0.5927,
χ
2
=2.5509243,而 χ
a
2
(k-m-1)= ( ) 210.9114
2
01

由于 χ
2
< χ
a
2
(k― m― 1),所以接受 H
0
,即认为 X 服从 λ=0.6 的 泊松分布。
4