第五节 分布拟合检验
本章前四节所介绍的各种检验法,是在总体分布类型已知的情况下,对其中的未知参数进行检验,这类统计检验法统称为参数检验,在实际问题中,有时我们并不能确切预知总体服从何种分布,这时就需要根据来自总体的样本对总体的分布进行推断,以判断总体服从何种分布,这类统计检验称为非参数检验,解决这类问题的工具之一是英国统计学家K,皮尔逊在1900年发表的一篇文章中引进的——检验法,不少人把此项工作视为近代统计学的开端。
分布图示
★ 引言 ★ 引例
★ 检验法的基本思想
★ 检验法的基本原理和步骤
★ 检验法-总体含未知参数的情形
★ 例1 ★ 例2 ★ 例3
★ 例4 ★ 例5
★ 内容小结 ★ 课堂练习
★ 习题7-5
★ 返回
内容要点
一、引例例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随即变量,据统计,这432年间共爆发了299次战争,具体数据如下:
战争次数X
发生X次战争的年数
0
223
1
142
2
48
3
15
4
4
根据所学知识和经验,每年爆发战争的次数X,可以用一个泊松随机变量来近似描述,即可以假设每年爆发战争次数分布X近似泊松分布,于是问题归结为:如何利用上述数据检验X服从泊松分布的假设.
二、检验法的基本思想
检验法是在总体X的分布未知时,根据来自总体的样本,检验总体分布的假设的一种检验方法,具体进行检验时,先提出原假设:
,总体X的分布函数为
然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设,
这种检验通常称作拟合优度检验,它是一种非参数检验,一般地,我们总是根据样本观察值用直方图和经验分布函数,推断出总体可能服从的分布,然后作检验.
三、检验法的基本原理和步骤
1) 提出原假设:
:总体X的分布函数为
如果总体分布为离散型,则假设具体为
:总体X的分布律为
如果总体分布为连续型,则假设具体为
:总体X的概率密度函数
2) 将总体X的取值范围分成k个互不相交的小区间,记为,如可取为
其中可取,可取;区间的划分视具体情况而定,使每个小区间所含样本值个数不小于5,而区间个数不要太大也不要太小;
3) 把落入第个小区间的样本值的个数记作,称为组频数,所有组频数之和等于样本容量;
4) 当为真时,根据所假设的总体理论分布,可算出总体X的值落入第个小区间的概率,于是就是落入第个小区间的样本值的理论频数.
5) 当为真时,次试验中样本值落入第个小区间的频率与概率应很接近,当不真时,则与相差较大,基于这种思想,皮尔逊引进如下检验统计量 并证明了下列结论.
定理1 当n充分大时,则统计量近似服从分布.
根据该定理,对给定的显著性水平,确定值,使
,
查分布表得, 所以拒绝域为
若由所给的样本值算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.
四、总体含未知参数的情形在对总体分布的假设检验中,有时只知道总体X的分布函数的形式,但其中还含有未知参数,即分布函数为
其中为未知参数,设是取自总体X的样本,现要用此样本来检验假设:
:总体X的分布函数为
此类情况可按如下步骤进行检验:
1) 利用样本,求出的最大似然估计,
2) 在中用代替则就变成完全已知的分布函数
3) 计算时,利用 计算的估计值
4) 计算要检验的统计量
,
当n充分大时,统计量近似服从分布;
5) 对给定的显著性水平,得拒绝域
注,在使用皮尔逊检验法时,要求,以及每个理论频数,否则应适当地合并相邻的小区间,使满足要求.
例题选讲
例1(E01) 将一颗骰子掷120次,所得数据见下表
问这颗骰子是否均匀、对称 (取)?
解 若这颗骰子是均匀的、对称的,则1~6点中每点出现的可能性相同,都为1/6,如果用表示第点出现 则待检假设
在成立的条件下,理论概率 由得频率
计算结果如下表.
1
23
1/6
20
9/20
2
26
1/6
20
36/20
3
21
1/6
20
1/20
4
20
1/6
20
0
5
15
1/6
20
25/20
6
15
1/6
20
25/20
合计
120
4.8
因此分布不含未知参数,又 查表得
由上表,知 故接受 认为这颗骰子是均匀对称的.
例2 (E02) 检验引例中对战争次数提出的假设,X服从参数为的泊松分布.
根据观察结果,得参数的最大似然估计为 按参数为0.69的泊松分布,计算事件的概率的估计是
根据引例所给数表,将有关计算结果列表如下:
战争次数
0
1
2
3
4
实测频数
223
142
48
15
4
0.58
0.31
0.18
0.01
0.02
216.7
149.5
51.6
12.0
2.16
14.16
0.183
0.376
0.251
1.623
将的组予以合并,即将以生3次及4次战争的组归并为一组.因所假设的理论分布中有一个未知参数,故自由度为
按 自由度为2 查分布表得
因统计量的观察值 未落入拒绝域,故认为每年发生战争的次数服从参数为0.69的泊松分布.
例3 一农场10年前在一鱼塘里按比例20:15:40:25投放了四种鱼,鲑鱼,鲈鱼,竹夹鱼,和鲇鱼的鱼苗,现在在鱼塘里获得一样本如下:
序号
1
2
3
4
种类
鲑鱼
鲈鱼
竹夹鱼
鲇鱼
数量(条)
132
100
200
168
试取检验各类鱼数量的比例较10年前是否有显著改变.
解 以记鱼种类的序号,按题意需检验假设:
1
2
3
4
0.20
0.15
0.40
0.25
的分布律为
所需计算列在下表中,现在
但
故拒绝认为各鱼类数量之比较10年前有显著改变.
例4 在一次实验中,每隔一定时间时观察一次由某种铀所放射的到达计数器上的粒子数,共观察了100次,得结果如下表所示
铀放射的到达计数器上的粒子数的实验记录
解 因在中参数未具体给出,所以先估计
由最大似然估计法得在假设下,即在服从泊松分布的假设下,所有可能取的值为 将其分成如表所示的两两不相交的子集将其分成如表所示的两两不相交的子集 则有估计
计算结果如表所示,其中有些的组予以适当合并,使得每组均有 如表中第四列花括号所示,此处,并组后但因在计算概率时,估计了一个参数 故 的自由度为 查表得
现在 故在水平0.05下接受 即认为样本来自泊松布总体.
例5(E03) 为检验棉纱的拉力强度(单位,公斤)X服从正态分布,从一批棉纱中随机抽取300条进行拉力试验,结果列在下表中,我们的问题是检验假设
.
表7-5-5 棉纱拉力数据
解 可按以下四步来检验:
(1) 将观测值分成13组,
但是这样分组后,前两组和最后两组的比较小,故把它们合并成为一个组(见分组数据表)
(2) 计算每个区间上的理论频数,这里就是正态分布的分布函数,含有两个未知数和 分别用它们的最大似然估计和来代替,关于的计算作如下说明,因拉力数据表中的每个区间都很狭窄,我们可认为每个区间内都取这个区间的中点,然后将每个区间的中点值乘以该区间的样本数,将这些值相加再除以总样本数就得具体样本均值 计算得到,
对于服从的随机变量,计算它在上面第个区间上的概率
(3) 计算中落在每个区间的实际频数 如分组表中所列.
(4) 计算统计量值, 因为 故的自由度为 查表得 故拒绝原假设,即认为棉纱拉力强度不服从正态分布.
棉纱拉力数据的分组表
课堂练习
1,自1965年1月1日至1971年2月9日共2231天中,全世界记录到里氏震级4级和4级以上地震计162次,统计如下:
相继两次地震记录表
试检验相继两次地震间隔的天数服从指数分布(0.05).
本章前四节所介绍的各种检验法,是在总体分布类型已知的情况下,对其中的未知参数进行检验,这类统计检验法统称为参数检验,在实际问题中,有时我们并不能确切预知总体服从何种分布,这时就需要根据来自总体的样本对总体的分布进行推断,以判断总体服从何种分布,这类统计检验称为非参数检验,解决这类问题的工具之一是英国统计学家K,皮尔逊在1900年发表的一篇文章中引进的——检验法,不少人把此项工作视为近代统计学的开端。
分布图示
★ 引言 ★ 引例
★ 检验法的基本思想
★ 检验法的基本原理和步骤
★ 检验法-总体含未知参数的情形
★ 例1 ★ 例2 ★ 例3
★ 例4 ★ 例5
★ 内容小结 ★ 课堂练习
★ 习题7-5
★ 返回
内容要点
一、引例例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随即变量,据统计,这432年间共爆发了299次战争,具体数据如下:
战争次数X
发生X次战争的年数
0
223
1
142
2
48
3
15
4
4
根据所学知识和经验,每年爆发战争的次数X,可以用一个泊松随机变量来近似描述,即可以假设每年爆发战争次数分布X近似泊松分布,于是问题归结为:如何利用上述数据检验X服从泊松分布的假设.
二、检验法的基本思想
检验法是在总体X的分布未知时,根据来自总体的样本,检验总体分布的假设的一种检验方法,具体进行检验时,先提出原假设:
,总体X的分布函数为
然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设,
这种检验通常称作拟合优度检验,它是一种非参数检验,一般地,我们总是根据样本观察值用直方图和经验分布函数,推断出总体可能服从的分布,然后作检验.
三、检验法的基本原理和步骤
1) 提出原假设:
:总体X的分布函数为
如果总体分布为离散型,则假设具体为
:总体X的分布律为
如果总体分布为连续型,则假设具体为
:总体X的概率密度函数
2) 将总体X的取值范围分成k个互不相交的小区间,记为,如可取为
其中可取,可取;区间的划分视具体情况而定,使每个小区间所含样本值个数不小于5,而区间个数不要太大也不要太小;
3) 把落入第个小区间的样本值的个数记作,称为组频数,所有组频数之和等于样本容量;
4) 当为真时,根据所假设的总体理论分布,可算出总体X的值落入第个小区间的概率,于是就是落入第个小区间的样本值的理论频数.
5) 当为真时,次试验中样本值落入第个小区间的频率与概率应很接近,当不真时,则与相差较大,基于这种思想,皮尔逊引进如下检验统计量 并证明了下列结论.
定理1 当n充分大时,则统计量近似服从分布.
根据该定理,对给定的显著性水平,确定值,使
,
查分布表得, 所以拒绝域为
若由所给的样本值算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.
四、总体含未知参数的情形在对总体分布的假设检验中,有时只知道总体X的分布函数的形式,但其中还含有未知参数,即分布函数为
其中为未知参数,设是取自总体X的样本,现要用此样本来检验假设:
:总体X的分布函数为
此类情况可按如下步骤进行检验:
1) 利用样本,求出的最大似然估计,
2) 在中用代替则就变成完全已知的分布函数
3) 计算时,利用 计算的估计值
4) 计算要检验的统计量
,
当n充分大时,统计量近似服从分布;
5) 对给定的显著性水平,得拒绝域
注,在使用皮尔逊检验法时,要求,以及每个理论频数,否则应适当地合并相邻的小区间,使满足要求.
例题选讲
例1(E01) 将一颗骰子掷120次,所得数据见下表
问这颗骰子是否均匀、对称 (取)?
解 若这颗骰子是均匀的、对称的,则1~6点中每点出现的可能性相同,都为1/6,如果用表示第点出现 则待检假设
在成立的条件下,理论概率 由得频率
计算结果如下表.
1
23
1/6
20
9/20
2
26
1/6
20
36/20
3
21
1/6
20
1/20
4
20
1/6
20
0
5
15
1/6
20
25/20
6
15
1/6
20
25/20
合计
120
4.8
因此分布不含未知参数,又 查表得
由上表,知 故接受 认为这颗骰子是均匀对称的.
例2 (E02) 检验引例中对战争次数提出的假设,X服从参数为的泊松分布.
根据观察结果,得参数的最大似然估计为 按参数为0.69的泊松分布,计算事件的概率的估计是
根据引例所给数表,将有关计算结果列表如下:
战争次数
0
1
2
3
4
实测频数
223
142
48
15
4
0.58
0.31
0.18
0.01
0.02
216.7
149.5
51.6
12.0
2.16
14.16
0.183
0.376
0.251
1.623
将的组予以合并,即将以生3次及4次战争的组归并为一组.因所假设的理论分布中有一个未知参数,故自由度为
按 自由度为2 查分布表得
因统计量的观察值 未落入拒绝域,故认为每年发生战争的次数服从参数为0.69的泊松分布.
例3 一农场10年前在一鱼塘里按比例20:15:40:25投放了四种鱼,鲑鱼,鲈鱼,竹夹鱼,和鲇鱼的鱼苗,现在在鱼塘里获得一样本如下:
序号
1
2
3
4
种类
鲑鱼
鲈鱼
竹夹鱼
鲇鱼
数量(条)
132
100
200
168
试取检验各类鱼数量的比例较10年前是否有显著改变.
解 以记鱼种类的序号,按题意需检验假设:
1
2
3
4
0.20
0.15
0.40
0.25
的分布律为
所需计算列在下表中,现在
但
故拒绝认为各鱼类数量之比较10年前有显著改变.
例4 在一次实验中,每隔一定时间时观察一次由某种铀所放射的到达计数器上的粒子数,共观察了100次,得结果如下表所示
铀放射的到达计数器上的粒子数的实验记录
解 因在中参数未具体给出,所以先估计
由最大似然估计法得在假设下,即在服从泊松分布的假设下,所有可能取的值为 将其分成如表所示的两两不相交的子集将其分成如表所示的两两不相交的子集 则有估计
计算结果如表所示,其中有些的组予以适当合并,使得每组均有 如表中第四列花括号所示,此处,并组后但因在计算概率时,估计了一个参数 故 的自由度为 查表得
现在 故在水平0.05下接受 即认为样本来自泊松布总体.
例5(E03) 为检验棉纱的拉力强度(单位,公斤)X服从正态分布,从一批棉纱中随机抽取300条进行拉力试验,结果列在下表中,我们的问题是检验假设
.
表7-5-5 棉纱拉力数据
解 可按以下四步来检验:
(1) 将观测值分成13组,
但是这样分组后,前两组和最后两组的比较小,故把它们合并成为一个组(见分组数据表)
(2) 计算每个区间上的理论频数,这里就是正态分布的分布函数,含有两个未知数和 分别用它们的最大似然估计和来代替,关于的计算作如下说明,因拉力数据表中的每个区间都很狭窄,我们可认为每个区间内都取这个区间的中点,然后将每个区间的中点值乘以该区间的样本数,将这些值相加再除以总样本数就得具体样本均值 计算得到,
对于服从的随机变量,计算它在上面第个区间上的概率
(3) 计算中落在每个区间的实际频数 如分组表中所列.
(4) 计算统计量值, 因为 故的自由度为 查表得 故拒绝原假设,即认为棉纱拉力强度不服从正态分布.
棉纱拉力数据的分组表
课堂练习
1,自1965年1月1日至1971年2月9日共2231天中,全世界记录到里氏震级4级和4级以上地震计162次,统计如下:
相继两次地震记录表
试检验相继两次地震间隔的天数服从指数分布(0.05).