§ 8.1 假设检验的基本概念若对参数有所了解但有怀疑猜测需要证实之时用假设检验的方法来处理若对参数一无所知用参数估计的方法处理假设检验是指施加于一个或多个总体的概率分布或参数的假设,所作假设可以是正确的,也可以是错误的,
为判断所作的假设是否正确,从总体中抽取样本,根据样本的取值,按一定原则进行检验,然后作出接受或拒绝所作假设的决定,
何为 假设检验?
假设检验所以可行,其理论背景为实际推断原理,即,小概率原理,
假设检验的内容参数检验非参数检验总体均值,均值差的检验总体方差,方差比的检验分布拟合检验符号检验秩和检验假设检验的理论依据引例 1 某产品出厂检验规定,次品率 p不超过 4%才能出厂,现从一万件产品中任意抽查 12件发现 3件次品,问该批产品能否出厂?若抽查结果发现 1件次品,问能否出厂?
01.00 0 9 7.0)1()3( 9331212 ppCP
代入04.0?p解 假设
0,0 4,p?
04.0?p
这是 小概率事件,一般在一次试验中是不会发生的,现一次试验竟然发生,故认为原假设不成立,即该批产品次品率,
则该批产品不能出厂,
这不是 小概率事件,没理由拒绝原假设,
从而接受原假设,即该批产品可以出厂,
3.0306.0)1()1( 11111212 ppCP
若不用假设检验,按理不能出厂,
注 1 04.00 8 3.012/1直接算注 2 本检验方法是 概率意义下的反证法,
故拒绝原假设是有说服力的,而接受原假设是没有说服力的,因此应把希望否定的假设作为原假设,
对总体 提出假设 1~ ( ; ) ( 1 ),0,1xxX f x p p p x
04.0:;04.0,10 pHpH
要求利用样本观察值
)13(
12
1
orx
i
i
对提供的信息作出接受 (可出厂 ),还是接受 (不准出厂 ) 的判断,
0H
1H
),,,( 1221 xxx?
出厂检验问题的数学模型某厂生产的螺钉,按标准强度为
68/mm2,而实际生产的强度 X 服 N(?,3.62 ),
若 E(X)=?=68,则认为这批螺钉符合要求,否则认为不符合要求,为此提出如下假设,
H0,? = 68 称为 原假设 或 零假设原假设的对立面,
H1, 68 称为 备择假设引例 2
假设检验的 任务必须在原假设与 备择假设之间作一选择若原假设正确,则 )36/6.3,68(~ 2NX
因而 68)(?XE,即 X 偏离 不应该太远,
故 取较大值是小概率事件,
6/6.3
68?X
可以确定一个常数 c 使得
c
X
P
6/6.3
68
因此,
取,则05.0
现从整批螺钉中取容量为 36的样本,
其均值为,问原假设是否正确?5.68?x
96.10 2 5.0
2
zzc
68
1,9 6
3,6 / 6
X?
由为检验的 接受域 (实际上没理由拒绝 ),
现 5.68?x 落入接受域,则接受原假设
8 2 4.66
18.69
X
X 或即区间 (,66.824 ) 与 ( 69.18,+? )
为检验的 拒绝域称 的取值区间X ( 66.824,69.18 )
H0:? = 68
由引例 2可见,在给定?的前提下,
接受还是拒绝原假设完全取决于样本值,因此所作检验可能导致以下两类错误的产生:
第一类错误 弃真错误第二类错误 取伪错误正确正确假设检验的两类错误犯第一类错误的概率通常记为?
犯第二类错误的概率通常记为?
H0 为真
H0 为假真实情况所作判断 接受 H
0 拒绝 H0
第一类错误 (弃真 )
第二类错误 (取伪 )
任何检验方法都不能完全排除犯错假设检验的指导思想是控制犯第一类误的可能性,理想的检验方法应使犯两类错误的概率都很小,但在样本容量给定的情形下,不可能使两者都很小,降低一个,
往往使另一个增大,
错误的概率不超过?,然后,若有必要,通过增大样本容量的方法来减少?,
思考题
假设检验名词解释假设检验的基本思想是什么?
01 H 1 0 0 H 1 0 0以,=,,说 明一般,作假设检验时,先控制犯第一类错误的概率?,在此基础上使? 尽量地小,要降低? 一般要增大样本容量,
当 H0不真时,参数值越接近真值,? 越大,
备择假设可以是单侧,也可以双侧,
注 1o
注 2o
引例 2中的备择假设是双侧的,若根据以往生产情况,?0=68.现采用了新工艺,关心的是新工艺能否提高螺钉强度,?越大越好,此时可作如下的右边假设检验,
H0,? 68; H1,? > 68?
关于原假设与备择假设的选取
H0与 H1地位应平等,但在控制犯第一类错误的概率? 的原则下,使得采取拒绝 H0 的决策变得较慎重,即 H0 得到特别的保护,
因而,通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误,
注 3o
假设检验步骤 (三部曲 )
其中
)( VVP
根据实际问题所关心的内容,建立 H0与 H1
在 H0为真时,选择合适的统计量 V,由 H1确给定显著性水平?,其对应的拒绝域
)()( 221 VVVV双侧检验
)( 1 VV左边检验定拒绝域形式
根据样本值计算,并作出相应的判断,
右边检验 )(?VV?
P(拒绝 H0|H0为真 )
若 H0为真,则 2~ ( 6 8,3,6 / 3 6 )XN
所以,拒绝 H0 的概率为?,?又称为 显著性水平,? 越大,犯第一类错误的概率越大,即越显著,
引例 2中,犯第一类错误的概率
05.0
)18.698 2 4.66( XXP
H0不真,即 68,?可能小于 68,也可能大 于
68,? 的大小取决于? 的真值的大小,
0 8 5 3.09 1 4 7.01)37.1()3.5(
下面计算犯第二类错误的概率?
设
=P(接受 H0|H0不真 )
6.0
6682.66
6.0
6618.69
)6618.6982.66(66 XP
26 6,3 6,~ ( 6 6,3,6 / 3 6 )n X N
若
6177.00002.06179.0
)63.3()3.0(
6.0
6982.66
6.0
6918.69
)6918.6982.66(
69
XP
取伪的概率较大,
26 9,3 6,~ ( 6 9,3,6 / 3 6 )n X N
60 6 2,5 65 6 7,5 70 7 2,5 75
0,0 2
0,0 4
0,0 6
0,0 8
0,1
0,1 2
6 7,5 70 7 2,5 75 7 7,5 80 8 2,5
0,0 2
0,0 4
0,0 6
0,0 8
0,1
0,1 2
/2?/2
H0 真
H0 不真仍取?=0.05,则
96.1025.0
2
zzc?
68
1,9 6
3,6 / 8
X?
由 可以确定拒绝域为
(,67.118 ) 与 ( 68.882,+? )
因此,接受域为 (67.118,68.882)
现增大样本容量,取 n = 64,? = 66,则
2~ ( 6 6,3,6 / 6 4 )XN
0 8 5 3.00 0 6 4.09 9 3 6.01
)49.2()4.6(
6177.03936.0
)6988.6812.67(69
XP
)1,( 0
45.0
6612.67
45.0
6688.68
)66882.68118.67(
66
XP
当样本容量确定后,犯两类错误的命题概率不可能同时减少,
01100,;, HH
此时犯 第二类错误的概率为
)( 00 伪接受 HHP )( 10 kXP
)( 01 kXP H ))(( 0111 kXP H
)
)(
(
001
011
nn
H
kX
P
))((
0
01
n
k
证 设 在水平 给定下,检验假设),(~ 20NX?
注
)()()( 11 zzzXP
)(1)1(1 1 zXP
从而当 时
1 )/,(~ 201 nNX
)1,0(~
/0
1 NX
n
X?
zk
n
0?
)(
0
01
n
z
)(
2
1
2
2
zdxe x
z
又
)( 01
0
01
0
n
zzzz
n
即由此可见,当 n 固定时
1) 若
zz
2) 若
zz
(见注 )
证毕,
ch8-26
§ 8。 2 正态总体均值的假设检验设总体 ),(~ 2NX nXXX,,,21? 为 X的样本。
我们对 μ,σ 2作显著性检验
1、单个正态总体均值的假设检验
ch8-27
提出原假设和备择假设第一步:
已知 ),,(~ 2NX 2? 已知,
第二步,取统计量,在 H0成立下求出它的分布
0 ~ ( 0,1 )XZN
n
第三步:
查表确定临界值,使?
}|{| 2ZZP
对给定的显著性水平检验假设的过程分为五个步骤:
得 H0否定域
2
Zk?
第四步,将样本值 代入算出统计量 nxxx,,,21?
ch8-28
选择假设 H1 表示 Z可能大于 μ 0,也可能小于 μ 0。
n
xZ
0
0
由于取用的统计量服从 Z(U)分布,
第五步:判断
20 ||?ZZ?
则否定 H0,接受 H120 ||?ZZ?
则 H0相容,接受 H0
故称其为
Z(U) 检验法。
0 x
)(x?
2
2
z
2
z?
如图,拒绝域是是区域 之外的两侧,
此检验称为双侧检验。
ch8-292、未知 σ 2,检验
00,H 01,H
未知 σ 2,可用样本方差 2
1
2 )(
1
1?
n
k
k XXnS 代替 σ
2
检验步骤提出原假设和备择假设第一步:
第二步,取一检验统计量,在 H0成立下求出它的分布
0 ~ ( 1 )XT t n
Sn
第三步:
查表确定临界值 )1(
2?nt?
,
使对给定的显著性水平确定 H0的否定域。
ch8-30
即,”是一个小概率事件,
或由于取用的统计量服从 t分布,
第四步:
得 H0否定域将样本值 代入算出统计量第五步:判断则否定 H0,接受 H1
则 H0相容,接受 H0
故称其为 t 检验法。
ch8-31
抽取 6件,得尺寸数据如下,
),,(~ 2NX 2?
32.56,29.66,31.64,30.00,31.87,31.03
问这批产品是否合格?
某工厂生产的一种螺钉,标准要求长度是 32.5
毫米,实际生产的产品其长度 X 假定服从正态分布,
未知,现从该厂生产的一批产品中例 3
(?=0.01)
ch8-32
提出原假设和备择假设第一步:
解 已知 未知,
第二步,取一检验统计量,在 H0 成立下求出它的分布第三步:
临界值,使得否定域对给定的显著性水平 查表确定
ch8-33
故不能拒绝 H0,
第四步,将样本值代入算出统计量 T0的实测值,
没有落入拒绝域这并不意味着 H0一定对,只是差异还不够显著,
0 3 2 2.49 9 7.20T
不足以否定 H0,
ch8-34
显著差别?爆破压力 X服从正态分布?=0.05
解,提出假设 H0,?=549; H1,549
)1(~0 nt
nS
XT?
对一批新的某种液体存储罐进行耐裂试验,
重复测量 5次,测得爆破压力数据为(单位斤 /寸 2),
545 545 530 550 545
过去该种液体存储罐的平均爆破压力为 549斤寸 (可看作真值 ),
因为未知方差 σ 2,故采用 t检验法。
取统计量例 5
7 7 6.2)4()1( 025.02 tnt?查表试问这批新罐的平均爆破压力与过去有无
ch8-35由样本算得这里 77.1|
5
58.7
549543|||
0T
H0相容,接受 H0。
7 7 6.2)4(0 2 5.0?t
即这批新罐的平均爆破压力与过去无显著差别。
ch8-36
0100,, HH
双边备择假设双边假设检验
0 0 0 1 0::HH( = )
0 0 0 1 0::HH( = )
右边检验左边检验单边检验
ch8-37
xZ
n
0{ } { }P Z Z P Z Z于 是
)o否 定 域 分 析,( 即 的 条 件
0 0 0 1 0::HH( = )
0
0
xZ
n
~ 0 1/XZNn (,)
0~1
/N n
(,)
0 z否 定 域 为 z
ch8-38
x另 外
0
/
XZ
n
应 该 比 较 小关于单边假设检验否定域的另一种理解否定域在左边,
0 zz
0 0 1 0,,HH假 设 =
10:H如 要 接 受形式为 Z<?
ch8-39
对于
ch8-40
织物比过去的织物强力是否有提高?
2.1
),,(~ 2NX
01.0
解,提出假设,01,2 1,2 1HH
取统计量
21
n
XZ
否定域为 W,33.2
01.0 zZ
例 4 某织物强力指标 X的均值 公斤,改进工艺后生产一批织物,今从中取 30件,测得公斤,假设强力指标服从正态分布 且已知公斤,问在显著性水平 下,新生产并由样本值计算得 统计量302.1 n?
Z 的实测值 故拒绝原假设 H0,
代入认为织物强力有所提高
ch8-41·左边检验问题 方差未知
H0,0 ; H1,? <?0,
0,XT
Sn
统 计 量由得水平为?的拒绝域为
{ ( 1 ) } P T t n
( 1 ) T t n
ch8-42·右边检验问题 方差未知
H0,? ≤?0 ; H1,? >?0
0,XT
Sn
统计量由得水平为?的拒绝域为
{ ( 1 ) }P T t n
( 1 )T t n
ch8-43
解,H0,?≤ 10620; H1,?>10620
0
0,
XHT
Sn
真 时拒绝域为 T?t0.05(9)=1.8331
这里 8331.145.0
10
81
106204.10631
0
T 接受 H0
例 2
4.1 0 6 3 1?X
某厂生产镍合金线,其抗拉强度 X的均值为
10620 (kg/mm2)今改进工艺后生产一批镍合金线,抽取 10根,测得抗拉强度 (kg/mm2)为,10512,10623,
10668,10554,10776,10707,10557,10581,
10666,10670,认为,取?=0.05,问新生产的镍合金线的抗拉强度是否比过去生产的合金线抗拉强度要高?
),(~ 2NX
ch8-44
如假设,H0, 10620; H1,?<10620 结论如何?
0
0,
XHT
Sn
真 时拒绝域为 T? - t0.05(9)=-1.8331
这里 0 1 0 6 3 1,4 1 0 6 2 0 0,4 5 1,8 3 3 181
10
T > -接受 H0
例 2(续)
4.1 0 6 3 1?X
某厂生产镍合金线,其抗拉强度 X的均值为
10620 (kg/mm2)今改进工艺后生产一批镍合金线,抽取 10根,测得抗拉强度 (kg/mm2)为,10512,10623,
10668,10554,10776,10707,10557,10581,
10666,10670,认为,取?=0.05,问新生产的镍合金线的抗拉强度是否比过去生产的合金线抗拉强度要高?
),(~ 2NX
ch8-45
同一个问题,因为不同的假设结论完全相反,怎么解释?
这涉及到如何进行原假设的设计问题原假设的设立带有一定的倾向性,可从下列问题来体会超市对于供应商的商品进行检验,检验员是假定这批次商品有 一 生 产 厂 家 向 超 市 供 货,质 量 指 标 服 从 正 态 分 布
2(,),N 0越大质量越好,而 为合格界限
00还是 呢
( 1 )tn00 x-对于原假设,否定域为T= s/ n
( 1 )tn0 s即x n
ch8-46
从以上的分析也可看出:否定原假设通常比较困难通常所说,假设检验具有保护原假设的特点确定原假设时要 体现倾向性,通常假定保持原来的状况不变
( 1 )tn00 x-对于原假设,否定域为T= s/ n
请大家分析一下商场和生产厂家希望哪个原假设
( 1 )tn0 s即x
n
或者采用保守的观点
ch8-47
4.28,4.40,4.42,4.35,4.37,如果标准差不变,
解,01,4,5 5 4,5 5,4,5 5HH()
4,5 5
0,1 1 5
X Z统 计 量
6 4 5.1zZ水平为?的拒绝域为这里 6 4 5.178.3
511.0
55.43 6 4.4
0
Z 拒绝 H0
例 1 已知某炼铁厂的铁水含碳量 X 在正常情况下
)11.0,55.4(~ 2NX 某日测得 5炉铁水含碳量如下,
该日铁水的平均含碳量是否显著偏低=0.05
ch8-48
设 X ~ N (μ1,σ12) Y ~ N (μ2,σ2 2) 它们相互独立则两个正态总体有关的几个统计量
),(~
2
2
2
1
2
1
21 nnNYX
)1,0(~
)()(
2
2
2
1
2
1
21 N
nn
YX
),(~
1
2
1
1 nNX
),(~
2
2
2
2 nNY
ch8-49
12
12
12
( ) ( )
~ ( 2 )
11
w
XY
t n n
S
nn
,
2
)1()1(
21
2
22
2
112
nn
SnSn
S w
( 2)
( 4)
)1,1(~
212
2
2
2
2
1
2
1 nnF
s
s
)1(~
)1(
,)1(~
)1(
2
2
2
2
2
22
1
2
2
1
2
11 nsnnsn?
ch8-50三,两个正态总体均值差的假设检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),
又设两总体相互独立,
假设
( Ⅰ )双侧检验 H0:μ 1=μ 2,H1,μ 1≠ μ 2
( Ⅱ )右边单侧检验 H0:μ 1≤ μ 2,H1,μ 1> μ 2
( Ⅲ )左边单侧检验 H0:μ 1≥ μ 2,H1,μ 1< μ 2
ch8-51三,两个正态总体均值差的假设检验
/ 2 / 2 ( -,- ),(,)zz 否定域
( Ⅰ )双侧检验 H0:μ1=μ2,H1,μ1≠μ2
ch8-52三,两个正态总体均值差的假设检验
(,)z否定域
( Ⅱ )右边单侧检验 H0:μ1≤μ2,H1,μ1> μ2
ch8-53三,两个正态总体均值差的假设检验
( -,- )z否 定 域
( Ⅲ )左边单侧检验 H0:μ1≥μ2,H1,μ1< μ2
ch8-54
0 1 2 1 1 2 0 1 2,H,t ( 2 ) 否 定 域H t n n
0 1 2 1 1 2 0 1 2,H,t ( 2 ) 否 定 域 -H t n n
0 1 2 1 1 2 / 2 1 2,H,( + 2 )H t n n0 否定域 t
2 2 2 2 2
1 1 1 1,,= =未知 但
ch8-55例 5 为比较两种农药残留时间的长短,现分别取 12和
10块地解 H0,μ1=μ2 H1:μ1≠μ2
由题设 n1=12,n2=10,,则由于 |t| <,所以接受 H0,
分别施甲、乙两种农药,经一段时间后,分别测得结果为:
假设两药的残留时间均服从正态分布且方差相等,试问两种农药的残留时间有无显著差异?( α=0.05)
查表得即认为两种农药的残留时间无显著差异
ch8-56关于 σ 2假设检验在显著性水平?条件下检验假设其中 σ 0是已知常数,
ch8-57提出假设大家知道 E( S2 )= σ 2 于是 S2 ≈ σ 2
若 2 /S?20 过大或过于接近 0,则说明 σ 2 偏离 σ 02较大。
因此有理由否定 H0。
取 )]1([ 2
21
2
n
)]1([ 2
2
2 n
或做小概率事件。
ch8-58
因此,在样本值 下计算若 或 则否定 H0。
若 则 H0相容。
ch8-59
(?=0.05)
解,提出假设某次统考后随机抽查 26份试卷,测得平均成绩,
试分析该次考试成绩标准差是否为已知该次考试成绩取统计量例 1
查表根据样本值算得
2
0 2
2 5 1 6 2 2 8,1 2 5
12?
则 H0相容,故接受 H0 。显然表明考试成绩标准差与 12无显著差异。
ch8-60
2 2 2 20 0 1 0HH对 于 单 边 问 题,;,,
22 1 ( 1 )n可 解 得 拒 绝 域,;
2 2 2 20 0 1 0HH而 对 单 边 问 题,;,,
22 ( 1 )n可 解 得 拒 绝 域,。
2?关 于 有 关 的 假 设 检 验 统 计 量
2
2
0
1)2 ns?
(=
ch8-61
80?(?=0.05),熔化时间
8080 2120,;,HH
2
2 9
80
S取 统 计 量
22{ ( 9 ) }p χ由得水平为?=0.05 的拒绝域为这里
2
0
2
2 9
σ
S
7.1380 8.1219
接受 H0
2 2 20,0 5( 9 ) ( 9 ) 1 9,0 2 3χχ
例 2 电工器材厂生产一批保险丝,取 10根测得其熔化时间( min)为
42,65,75,78,59,57,68,54,55,71.
问是否可以认为整批保险丝的熔化时间的方差大于
),(~ 2NX
解
ch8-62四,两个正态总体方差齐性的 F 检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),又设两总体相互独立,
假设 ( Ⅰ )双侧检验
( Ⅱ )右单侧检验
( Ⅲ )左单侧检验统计量
ch8-63四,两个正态总体方差齐性的 F 检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),又设两总体相互独立,
统计量
>220 1 2 1 2H,σ σ 拒绝域 F F ( n - 1,n - 1 ),
ch8-64
例 6 从甲乙两种氮肥中,各取若干样品测试其含氮量:甲,n1=18,
若两种氮肥的含氮量都服从正态分布,问两种氮肥的含氮量是否相同?( α=0.05)
解 此题是两正态总体方差未知,亦不知是否齐性的情况下对两总体均值差的检验。须先作方差齐性检验,再用 t 检验 。
乙,n2=14,
ch8-65
( 1)假设由样本值得查 F分布表得由于所以接受 H0即认为方差是齐性的。
ch8-66( 2)假设 H
0,μ1=μ2,H1:μ1≠μ2
所以接受 H0,即认为两种氮肥的含氮量相同(无显著差异)。
又由题设条件得
α=0.05,则由于
ch8-67单边检验否定域记忆规律
<
原假设 备选假设 否定域方向
>
ch8-68
1,据往年统计,某杏园中株产杏服从 N( 54,0.752),
93年整枝施肥后,收获时任取 10 株单收,算得平均株产量为 56.22。如果方差不变,问 93年株产量是否有显著提高?
( α=0.05)
1,H0,μ≤μ0( =54),H1,μ> 54,
u检验
ch8-69
2.某种内服药有使病人血压增高的副作用,已知血压的增高服从均值 μ0=22的正态分布,现研究出一种新药品,
测试了 10名服用新药病人的血压,算得其平均值为 17.9,
问能否得出副作用小的结论?
2,H0,μ≥μ0( =22),H1,μ < 22,
t检验
ch8-70
3.杜鹃总是把蛋生在别的鸟巢中,现有从两种鸟巢中得到的蛋共 24 只,测量其长度。试鉴别杜鹃蛋的长度与它们被发现的鸟巢不同是否有关?(设两个样本来自同方差的正态总体)
3,H0,μ1=μ2,H1,μ1≠μ2,
t检验
ch8-71练习
1 2 10
1
X (,1 ),,X
0.0 5
,0,,0
( 1 ) C
( 2) 1,= 0
( 3) 1.1 5,0,
0
0
N x x x
H H R = | x |> c
x
R = | x | H
设 总 体 ~ 是 的 一 组 样 本 观 察 值,
要 在 = 的 水 平 下 检 验 假 设拒 绝 域 为求 的 值若 已 知 是 否 可 以 据 此 推 断若 以 作 为 检 验 的 拒 绝 域求 试 验 的 显 著 性 水 平
ch8-72
非正态总体大样本的参数估计
ch8-73
从 总 体 中 抽 取 一 个 样 本,由 中 心 极 限定 理 知 道
12X,
()
( 0,1 )
/
n
P
X X X
X E X
uN
n
当 假 设 成 立,而 足 够 大 时,近 似 把看 成 服 从 正 态 分 布问 题 就 转 化 为 以 前 所 讲 过 的 检 验 问 题 了
0
H
()
/
()
n
X E X
u N ( 0,1 )
n
uz
ch8-74
() ( 0,1 )
/
PX E XuN
Sn
ch8-75
在上一讲中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题,
然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设,
§ 8.6 分布假设检验
ch8-76例如,从 1500到 1931年的 432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这 432年间共爆发了 299次战争,具体数据如下,
战争次数 X
0
1
2
3
4
223
142
48
15
4
发生 X次战争的年数
ch8-77
在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述,也就是说,我们可以假设每年爆发战争次数分布 X近似泊松分布,
上面的数据能否证实 X具有泊松分布的假设是正确的?
现在的问题是:
ch8-78又如,某钟表厂对生产的钟进行精确性检查,抽取 100个钟作试验,拨准后隔 24小时以后进行检查,将每个钟的误差(快或慢)
按秒记录下来,
问该厂生产的钟的误差是否服从正态分布?
ch8-79
再如,某工厂制造一批骰子,
声称它是均匀的,
为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与 1/6的差距,
也就是说,在投掷中,出现 1点,2点,…,6点的概率都应是 1/6.
得到的数据能否说明“骰子均匀”
的假设是可信的?
问题是:
ch8-80
K.皮尔逊这是一项很重要的工作,不少人把它视为近代统计学的开端,
解决这类问题的工具是英国统计学家
K.皮尔逊在 1900年发表的一篇文章中引进的所谓 检验法,2?
ch8-81
检验法 是在总体 X 的分布未知时,
根据来自总体的样本,检验关于总体分布的假设的一种检验方法,
2?
ch8-82在用 检验假设 H
0时,若在 H0下分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验,
2? 检验法分布拟合的 的基本原理和步骤如下,
2? 检验法
ch8-83
H0:总体 X的分布函数为 F(x)
然后根据样本的 经验分布 和 所假设的理论分布 之间的吻合程度来决定是否接受原假设,
使用 对总体分布进行检验时,
我们先提出原假设,
2? 检验法这种检验通常称作 拟合优度检验,它是一种非参数检验,
ch8-84
3.根据所假设的理论分布,可以算出总体 X的值落入每个 Ai的概率 pi,于是 npi就是落入 Ai的样本值的 理论频数,
1,将总体 X的取值范围分成 k个互不重迭的小区间,记作 A1,A2,…,Ak,
2.把落入第 i个小区间 Ai的样本值的个数记作 fi,称为 实测频数,所有实测频数之和
f1+ f2+ …+ fk等于样本容量 n.
ch8-85
k
i i
ii
np
npf
1
2
2 )(?
ii npf?
标志着经验分布与理论分布之间的差异的大小,
皮尔逊引进如下统计量表示经验分布与理论分布之间的差异,
统计量 的分布是什么?2?
在理论分布已知的条件下,
npi是常量实测频数 理论频数
ch8-86皮尔逊证明了如下定理,
k
i i
ii
np
npf
1
2
2 )(?
若原假设中的理论分布 F(x)已经完全给定,那么当 时,统计量n
的分布渐近 (k-1)个自由度的 分布,2?
2?
如果理论分布 F(x)中有 r个未知参数需用相应的估计量来代替,那么当 时,统计量 的分布渐近 (k-r-1)个自由度的 分布,
n
2?
ch8-87
为了便于理解,我们对定理作一点直观的说明,
ch8-88
是 k个近似 正态 的变量的平方和,
k
i i
ii
np
npf
1
2
2 )(?
这些变量之间存在着一个制约关系:
1
() 0k ii
i i
f n p
np?
故统计量 渐近 (k-1)个自由度的 分布,2? 2?
在理论分布 F(x)完全给定的情况下,每个 pi
都是确定的常数,由 中心极限定理,当 n充分大时,实测频数 fi 渐近正态,
因此
ch8-89
在 F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个,
若 有 r个未知参数需用相应的估计量来代替,自由度就减少 r个,
此时统计量 渐近 (k-r-1)个 自由度的 分布,2? 2?
ch8-90
如果根据所给的样本值 X1,X2,…,Xn算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设,
2?
得拒绝域,)1(22 k
)1(22 rk
(不需估计参数 )
(估计 r 个参数 )
)( 22P
查 分布表可得临界值2? 2,使得根据这个定理,对给定的显著性水平,?
ch8-91
皮尔逊定理是在 n无限 增大时推导出来的,因而在使用时要注意 n要足够大,以及
npi不太小 这两个条件,
根据计算实践,要求 n不小于 50,以及
npi都 不小于 5,否则应适当合并区间,使
npi满 足这个要求,
ch8-92让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布,
提出假设 H0,X服从参数为 的泊松分布?
按参数 为 0.69的泊松分布,计算事件 X=i 的概率 pi,
69.0 X?
将有关计算结果列表如下,
pi的估计是
i=0,1,2,3,4!69.0? 69.0 iep i
i
根据观察结果,得参数 的极大似然估计为?
ch8-93
因 H0所假设的理论分布中有一个未知参数,故自由度为 4-1-1=2.
x 0 1 2 3 4
fi 223 142 48 15 4
0.58 0.31 0.18 0.01 0.02
n 216.7 149.5 51.6 12.0 2.16
i
ii
np
npf 2)(? 0.183 0.376 0.251 1.623
战争次数实测频数
ip?
ip?
14.16
2.43
将 n <5的组予以合并,即将发生 3次及 4次战争的组归并为一组,
ip?
ch8-94
故认为每年发生战争的次数 X服从参数为 0.69的泊松分布,
按 =0.05,自由度为 4-1-1=2查 分布表得2
=5.991)2(2
05.0?
2? =2.43<5.991,
由于统计量 2? 的实测值未落入否定域,
ch8-95
奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律,
在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用,
孟德尔
ch8-96
子二代子一代
…
黄色纯系
…
绿色纯系他的一组观察结果为:
黄 70,绿 27
近似为 2.59:1,与理论值相近,
根据他的理论,子二代中,黄、绿之比近似为 3:1,
ch8-97由于随机性,观察结果与 3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定 3:1理论的充分根据,这就是如下的检验问题,
这里,n=70+27=97,k=2,
检验孟德尔的 3:1理论,
提出假设 H0,p1=3/4,p2=1/4
理论频数为,np1=72.75,np2=24.25
实测频数为 70,27.
ch8-98
2?由于统计量 的实测值
2
1
2
2 )(
i i
ii
np
npf?统计量 )1(
2?~
自由度为
k-1=1
2? =0.4158<3.841,
按 =0.05,自由度为 1,查 分布表得2
=3.841)1(2
05.0?
未落入否定域,
故认为试验结果符合 孟德尔的 3:1理论,
ch8-99这些试验及其它一些试验,都显示孟德尔的 3,1理论与实际是符合的,
这本身就是 统计方法在科学中的一项重要应用,
用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证,
ch8-100
第八章 假设检验
1、单个正态总体的期望、方差的检验(单边、双边)
2、两总体期望值差、方差比的假设检验
( 1)解题过程要点:
( 2)检验统计量
ch8-101例 5 为比较两种农药残留时间的长短,现分别取 12和 10块地
22121 2,3 5 3,5 2 ; 1 0,7 5 2,8 8x S y S乙甲分别施甲、乙两种农药,经一段时间后,分别测得结果为:
假设两药的残留时间均服从正态分布且方差相等,试问两种农药的残留时间有无显著差异?( α=0.05)
ch8-102
解 H0,μ1=μ2 H1:μ1≠μ2
由题设 n1=12,n2=10,,则 22
121 2,3 5,1 0,7 5,3,5 2,2,8 8x y S S
12
12
12
( ) ( )
~ ( 2 )
11
1 2,3 5 1 0,7 5
2.0786
1 1 3,5 2 9 2,8 8 1 1
()
1 2 1 0 2 1 2 1 0
w
XY
t t n n
S
nn
=
1 2 0,0 5
22
( 2 ) ( 2 0 ) 2,0 8 6 0t n n t
由于 |t| <,所以接受 H0,
12
2
( 2 )t n n
查表得即认为两种农药的残留时间无显著差异
ch8-103
例 6 从甲乙两种氮肥中,各取若干样品测试其含氮量等数据分别为:
甲,n1=18,
0,2 3 0x? 21 0,1 3 3 7S?
0.1736y? 2
2 0,1 7 3 6S?
若两种氮肥的含氮量都服从正态分布,问两种氮肥的含氮量是否相同?( α=0.05)
解 此题是两正态总体方差未知,亦不知是否相等的情况下对两总体均值差的检验。须先作方差是否相等检验,再用 t 检验 。
乙,n2=14,
ch8-104
220 1 2:H 221 1 2:H
2
2
2
1
0,1 7 3 6 1,2 9 3 4
0,1 3 3 7
SF
S
1 2 0,0 522( 1,1 ) ( 1 7,1 3 ) 2,3 8,F n n F
121
212
2
11( 1,1 ) 0,4
( 1,1 ) 2,5 0F n n F n n
1 2 1 21 22( 1,1 ) ( 1,1 ),F n n F F n n
( 1)假设由样本值得查 F分布表得由于所以接受 H0即认为方差是相等的。
ch8-105( 2)假设 H
0,μ1=μ2,H1:μ1≠μ2
所以接受 H0,即认为两种氮肥的含氮量相同(无显著差异)。
22
1 1 2 2
1 2 1 2
( 1 ) ( 1 ) 11()
2
xyt
n S n S
n n n n
0.23 0 0.17 36 0.4073
17 0.13 37 13 0.17 36 1 1()
18 14 2 18 14
12
22
( 2 ) ( 3 0 ) 2,0 4 2 3t n n t
12
2
| | ( 2 )t t n n
又由题设条件得
α=0.05,则由于
ch8-106
1,据往年统计,某杏园中株产杏服从 N( 54,0.752),93
年整枝施肥后,收获时任取 10 株单收,算得平均株产量为
56.22。如果方差不变,问 93年株产量是否有显著提高?
( α=0.05)
1,H0,μ≤μ0( =54),H1,μ> 54,u检验
ch8-107
2.某种内服药有使病人血压增高的副作用,已知血压的增高服从均值 μ0=22的正态分布,现研究出一种新药品,测试了
10名服用新药病人的血压,算得其平均值为 17.9,问能否得出副作用小的结论?
2,H0,μ≥μ0( =22),H1,μ < 22,t检验
ch8-108
3.杜鹃总是把蛋生在别的鸟巢中,现有从两种鸟巢中得到的蛋共 24 只,测量其长度。试鉴别杜鹃蛋的长度与它们被发现的鸟巢不同是否有关?(设两个样本来自同方差的正态总体)
21 9,2 2,2,0,4 2 2 5Xn X s若
22 1 5,2 1,1 2,0,5 6 8 9Yn Y S
3,H0,μ1=μ2,H1,μ1≠μ2,t检验
ch8-109
重点章节第一章 p15~27
第二章 p47,48,53~ 60
第三章 p72~77 p82~ 86 p90~91
第四章 p107~111 p119~121
第五章 p 142~145
ch8-110
第六章 p 151~152 p158~161
第七章 p159~180 p 183~191
第八章 p205~220
为判断所作的假设是否正确,从总体中抽取样本,根据样本的取值,按一定原则进行检验,然后作出接受或拒绝所作假设的决定,
何为 假设检验?
假设检验所以可行,其理论背景为实际推断原理,即,小概率原理,
假设检验的内容参数检验非参数检验总体均值,均值差的检验总体方差,方差比的检验分布拟合检验符号检验秩和检验假设检验的理论依据引例 1 某产品出厂检验规定,次品率 p不超过 4%才能出厂,现从一万件产品中任意抽查 12件发现 3件次品,问该批产品能否出厂?若抽查结果发现 1件次品,问能否出厂?
01.00 0 9 7.0)1()3( 9331212 ppCP
代入04.0?p解 假设
0,0 4,p?
04.0?p
这是 小概率事件,一般在一次试验中是不会发生的,现一次试验竟然发生,故认为原假设不成立,即该批产品次品率,
则该批产品不能出厂,
这不是 小概率事件,没理由拒绝原假设,
从而接受原假设,即该批产品可以出厂,
3.0306.0)1()1( 11111212 ppCP
若不用假设检验,按理不能出厂,
注 1 04.00 8 3.012/1直接算注 2 本检验方法是 概率意义下的反证法,
故拒绝原假设是有说服力的,而接受原假设是没有说服力的,因此应把希望否定的假设作为原假设,
对总体 提出假设 1~ ( ; ) ( 1 ),0,1xxX f x p p p x
04.0:;04.0,10 pHpH
要求利用样本观察值
)13(
12
1
orx
i
i
对提供的信息作出接受 (可出厂 ),还是接受 (不准出厂 ) 的判断,
0H
1H
),,,( 1221 xxx?
出厂检验问题的数学模型某厂生产的螺钉,按标准强度为
68/mm2,而实际生产的强度 X 服 N(?,3.62 ),
若 E(X)=?=68,则认为这批螺钉符合要求,否则认为不符合要求,为此提出如下假设,
H0,? = 68 称为 原假设 或 零假设原假设的对立面,
H1, 68 称为 备择假设引例 2
假设检验的 任务必须在原假设与 备择假设之间作一选择若原假设正确,则 )36/6.3,68(~ 2NX
因而 68)(?XE,即 X 偏离 不应该太远,
故 取较大值是小概率事件,
6/6.3
68?X
可以确定一个常数 c 使得
c
X
P
6/6.3
68
因此,
取,则05.0
现从整批螺钉中取容量为 36的样本,
其均值为,问原假设是否正确?5.68?x
96.10 2 5.0
2
zzc
68
1,9 6
3,6 / 6
X?
由为检验的 接受域 (实际上没理由拒绝 ),
现 5.68?x 落入接受域,则接受原假设
8 2 4.66
18.69
X
X 或即区间 (,66.824 ) 与 ( 69.18,+? )
为检验的 拒绝域称 的取值区间X ( 66.824,69.18 )
H0:? = 68
由引例 2可见,在给定?的前提下,
接受还是拒绝原假设完全取决于样本值,因此所作检验可能导致以下两类错误的产生:
第一类错误 弃真错误第二类错误 取伪错误正确正确假设检验的两类错误犯第一类错误的概率通常记为?
犯第二类错误的概率通常记为?
H0 为真
H0 为假真实情况所作判断 接受 H
0 拒绝 H0
第一类错误 (弃真 )
第二类错误 (取伪 )
任何检验方法都不能完全排除犯错假设检验的指导思想是控制犯第一类误的可能性,理想的检验方法应使犯两类错误的概率都很小,但在样本容量给定的情形下,不可能使两者都很小,降低一个,
往往使另一个增大,
错误的概率不超过?,然后,若有必要,通过增大样本容量的方法来减少?,
思考题
假设检验名词解释假设检验的基本思想是什么?
01 H 1 0 0 H 1 0 0以,=,,说 明一般,作假设检验时,先控制犯第一类错误的概率?,在此基础上使? 尽量地小,要降低? 一般要增大样本容量,
当 H0不真时,参数值越接近真值,? 越大,
备择假设可以是单侧,也可以双侧,
注 1o
注 2o
引例 2中的备择假设是双侧的,若根据以往生产情况,?0=68.现采用了新工艺,关心的是新工艺能否提高螺钉强度,?越大越好,此时可作如下的右边假设检验,
H0,? 68; H1,? > 68?
关于原假设与备择假设的选取
H0与 H1地位应平等,但在控制犯第一类错误的概率? 的原则下,使得采取拒绝 H0 的决策变得较慎重,即 H0 得到特别的保护,
因而,通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误,
注 3o
假设检验步骤 (三部曲 )
其中
)( VVP
根据实际问题所关心的内容,建立 H0与 H1
在 H0为真时,选择合适的统计量 V,由 H1确给定显著性水平?,其对应的拒绝域
)()( 221 VVVV双侧检验
)( 1 VV左边检验定拒绝域形式
根据样本值计算,并作出相应的判断,
右边检验 )(?VV?
P(拒绝 H0|H0为真 )
若 H0为真,则 2~ ( 6 8,3,6 / 3 6 )XN
所以,拒绝 H0 的概率为?,?又称为 显著性水平,? 越大,犯第一类错误的概率越大,即越显著,
引例 2中,犯第一类错误的概率
05.0
)18.698 2 4.66( XXP
H0不真,即 68,?可能小于 68,也可能大 于
68,? 的大小取决于? 的真值的大小,
0 8 5 3.09 1 4 7.01)37.1()3.5(
下面计算犯第二类错误的概率?
设
=P(接受 H0|H0不真 )
6.0
6682.66
6.0
6618.69
)6618.6982.66(66 XP
26 6,3 6,~ ( 6 6,3,6 / 3 6 )n X N
若
6177.00002.06179.0
)63.3()3.0(
6.0
6982.66
6.0
6918.69
)6918.6982.66(
69
XP
取伪的概率较大,
26 9,3 6,~ ( 6 9,3,6 / 3 6 )n X N
60 6 2,5 65 6 7,5 70 7 2,5 75
0,0 2
0,0 4
0,0 6
0,0 8
0,1
0,1 2
6 7,5 70 7 2,5 75 7 7,5 80 8 2,5
0,0 2
0,0 4
0,0 6
0,0 8
0,1
0,1 2
/2?/2
H0 真
H0 不真仍取?=0.05,则
96.1025.0
2
zzc?
68
1,9 6
3,6 / 8
X?
由 可以确定拒绝域为
(,67.118 ) 与 ( 68.882,+? )
因此,接受域为 (67.118,68.882)
现增大样本容量,取 n = 64,? = 66,则
2~ ( 6 6,3,6 / 6 4 )XN
0 8 5 3.00 0 6 4.09 9 3 6.01
)49.2()4.6(
6177.03936.0
)6988.6812.67(69
XP
)1,( 0
45.0
6612.67
45.0
6688.68
)66882.68118.67(
66
XP
当样本容量确定后,犯两类错误的命题概率不可能同时减少,
01100,;, HH
此时犯 第二类错误的概率为
)( 00 伪接受 HHP )( 10 kXP
)( 01 kXP H ))(( 0111 kXP H
)
)(
(
001
011
nn
H
kX
P
))((
0
01
n
k
证 设 在水平 给定下,检验假设),(~ 20NX?
注
)()()( 11 zzzXP
)(1)1(1 1 zXP
从而当 时
1 )/,(~ 201 nNX
)1,0(~
/0
1 NX
n
X?
zk
n
0?
)(
0
01
n
z
)(
2
1
2
2
zdxe x
z
又
)( 01
0
01
0
n
zzzz
n
即由此可见,当 n 固定时
1) 若
zz
2) 若
zz
(见注 )
证毕,
ch8-26
§ 8。 2 正态总体均值的假设检验设总体 ),(~ 2NX nXXX,,,21? 为 X的样本。
我们对 μ,σ 2作显著性检验
1、单个正态总体均值的假设检验
ch8-27
提出原假设和备择假设第一步:
已知 ),,(~ 2NX 2? 已知,
第二步,取统计量,在 H0成立下求出它的分布
0 ~ ( 0,1 )XZN
n
第三步:
查表确定临界值,使?
}|{| 2ZZP
对给定的显著性水平检验假设的过程分为五个步骤:
得 H0否定域
2
Zk?
第四步,将样本值 代入算出统计量 nxxx,,,21?
ch8-28
选择假设 H1 表示 Z可能大于 μ 0,也可能小于 μ 0。
n
xZ
0
0
由于取用的统计量服从 Z(U)分布,
第五步:判断
20 ||?ZZ?
则否定 H0,接受 H120 ||?ZZ?
则 H0相容,接受 H0
故称其为
Z(U) 检验法。
0 x
)(x?
2
2
z
2
z?
如图,拒绝域是是区域 之外的两侧,
此检验称为双侧检验。
ch8-292、未知 σ 2,检验
00,H 01,H
未知 σ 2,可用样本方差 2
1
2 )(
1
1?
n
k
k XXnS 代替 σ
2
检验步骤提出原假设和备择假设第一步:
第二步,取一检验统计量,在 H0成立下求出它的分布
0 ~ ( 1 )XT t n
Sn
第三步:
查表确定临界值 )1(
2?nt?
,
使对给定的显著性水平确定 H0的否定域。
ch8-30
即,”是一个小概率事件,
或由于取用的统计量服从 t分布,
第四步:
得 H0否定域将样本值 代入算出统计量第五步:判断则否定 H0,接受 H1
则 H0相容,接受 H0
故称其为 t 检验法。
ch8-31
抽取 6件,得尺寸数据如下,
),,(~ 2NX 2?
32.56,29.66,31.64,30.00,31.87,31.03
问这批产品是否合格?
某工厂生产的一种螺钉,标准要求长度是 32.5
毫米,实际生产的产品其长度 X 假定服从正态分布,
未知,现从该厂生产的一批产品中例 3
(?=0.01)
ch8-32
提出原假设和备择假设第一步:
解 已知 未知,
第二步,取一检验统计量,在 H0 成立下求出它的分布第三步:
临界值,使得否定域对给定的显著性水平 查表确定
ch8-33
故不能拒绝 H0,
第四步,将样本值代入算出统计量 T0的实测值,
没有落入拒绝域这并不意味着 H0一定对,只是差异还不够显著,
0 3 2 2.49 9 7.20T
不足以否定 H0,
ch8-34
显著差别?爆破压力 X服从正态分布?=0.05
解,提出假设 H0,?=549; H1,549
)1(~0 nt
nS
XT?
对一批新的某种液体存储罐进行耐裂试验,
重复测量 5次,测得爆破压力数据为(单位斤 /寸 2),
545 545 530 550 545
过去该种液体存储罐的平均爆破压力为 549斤寸 (可看作真值 ),
因为未知方差 σ 2,故采用 t检验法。
取统计量例 5
7 7 6.2)4()1( 025.02 tnt?查表试问这批新罐的平均爆破压力与过去有无
ch8-35由样本算得这里 77.1|
5
58.7
549543|||
0T
H0相容,接受 H0。
7 7 6.2)4(0 2 5.0?t
即这批新罐的平均爆破压力与过去无显著差别。
ch8-36
0100,, HH
双边备择假设双边假设检验
0 0 0 1 0::HH( = )
0 0 0 1 0::HH( = )
右边检验左边检验单边检验
ch8-37
xZ
n
0{ } { }P Z Z P Z Z于 是
)o否 定 域 分 析,( 即 的 条 件
0 0 0 1 0::HH( = )
0
0
xZ
n
~ 0 1/XZNn (,)
0~1
/N n
(,)
0 z否 定 域 为 z
ch8-38
x另 外
0
/
XZ
n
应 该 比 较 小关于单边假设检验否定域的另一种理解否定域在左边,
0 zz
0 0 1 0,,HH假 设 =
10:H如 要 接 受形式为 Z<?
ch8-39
对于
ch8-40
织物比过去的织物强力是否有提高?
2.1
),,(~ 2NX
01.0
解,提出假设,01,2 1,2 1HH
取统计量
21
n
XZ
否定域为 W,33.2
01.0 zZ
例 4 某织物强力指标 X的均值 公斤,改进工艺后生产一批织物,今从中取 30件,测得公斤,假设强力指标服从正态分布 且已知公斤,问在显著性水平 下,新生产并由样本值计算得 统计量302.1 n?
Z 的实测值 故拒绝原假设 H0,
代入认为织物强力有所提高
ch8-41·左边检验问题 方差未知
H0,0 ; H1,? <?0,
0,XT
Sn
统 计 量由得水平为?的拒绝域为
{ ( 1 ) } P T t n
( 1 ) T t n
ch8-42·右边检验问题 方差未知
H0,? ≤?0 ; H1,? >?0
0,XT
Sn
统计量由得水平为?的拒绝域为
{ ( 1 ) }P T t n
( 1 )T t n
ch8-43
解,H0,?≤ 10620; H1,?>10620
0
0,
XHT
Sn
真 时拒绝域为 T?t0.05(9)=1.8331
这里 8331.145.0
10
81
106204.10631
0
T 接受 H0
例 2
4.1 0 6 3 1?X
某厂生产镍合金线,其抗拉强度 X的均值为
10620 (kg/mm2)今改进工艺后生产一批镍合金线,抽取 10根,测得抗拉强度 (kg/mm2)为,10512,10623,
10668,10554,10776,10707,10557,10581,
10666,10670,认为,取?=0.05,问新生产的镍合金线的抗拉强度是否比过去生产的合金线抗拉强度要高?
),(~ 2NX
ch8-44
如假设,H0, 10620; H1,?<10620 结论如何?
0
0,
XHT
Sn
真 时拒绝域为 T? - t0.05(9)=-1.8331
这里 0 1 0 6 3 1,4 1 0 6 2 0 0,4 5 1,8 3 3 181
10
T > -接受 H0
例 2(续)
4.1 0 6 3 1?X
某厂生产镍合金线,其抗拉强度 X的均值为
10620 (kg/mm2)今改进工艺后生产一批镍合金线,抽取 10根,测得抗拉强度 (kg/mm2)为,10512,10623,
10668,10554,10776,10707,10557,10581,
10666,10670,认为,取?=0.05,问新生产的镍合金线的抗拉强度是否比过去生产的合金线抗拉强度要高?
),(~ 2NX
ch8-45
同一个问题,因为不同的假设结论完全相反,怎么解释?
这涉及到如何进行原假设的设计问题原假设的设立带有一定的倾向性,可从下列问题来体会超市对于供应商的商品进行检验,检验员是假定这批次商品有 一 生 产 厂 家 向 超 市 供 货,质 量 指 标 服 从 正 态 分 布
2(,),N 0越大质量越好,而 为合格界限
00还是 呢
( 1 )tn00 x-对于原假设,否定域为T= s/ n
( 1 )tn0 s即x n
ch8-46
从以上的分析也可看出:否定原假设通常比较困难通常所说,假设检验具有保护原假设的特点确定原假设时要 体现倾向性,通常假定保持原来的状况不变
( 1 )tn00 x-对于原假设,否定域为T= s/ n
请大家分析一下商场和生产厂家希望哪个原假设
( 1 )tn0 s即x
n
或者采用保守的观点
ch8-47
4.28,4.40,4.42,4.35,4.37,如果标准差不变,
解,01,4,5 5 4,5 5,4,5 5HH()
4,5 5
0,1 1 5
X Z统 计 量
6 4 5.1zZ水平为?的拒绝域为这里 6 4 5.178.3
511.0
55.43 6 4.4
0
Z 拒绝 H0
例 1 已知某炼铁厂的铁水含碳量 X 在正常情况下
)11.0,55.4(~ 2NX 某日测得 5炉铁水含碳量如下,
该日铁水的平均含碳量是否显著偏低=0.05
ch8-48
设 X ~ N (μ1,σ12) Y ~ N (μ2,σ2 2) 它们相互独立则两个正态总体有关的几个统计量
),(~
2
2
2
1
2
1
21 nnNYX
)1,0(~
)()(
2
2
2
1
2
1
21 N
nn
YX
),(~
1
2
1
1 nNX
),(~
2
2
2
2 nNY
ch8-49
12
12
12
( ) ( )
~ ( 2 )
11
w
XY
t n n
S
nn
,
2
)1()1(
21
2
22
2
112
nn
SnSn
S w
( 2)
( 4)
)1,1(~
212
2
2
2
2
1
2
1 nnF
s
s
)1(~
)1(
,)1(~
)1(
2
2
2
2
2
22
1
2
2
1
2
11 nsnnsn?
ch8-50三,两个正态总体均值差的假设检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),
又设两总体相互独立,
假设
( Ⅰ )双侧检验 H0:μ 1=μ 2,H1,μ 1≠ μ 2
( Ⅱ )右边单侧检验 H0:μ 1≤ μ 2,H1,μ 1> μ 2
( Ⅲ )左边单侧检验 H0:μ 1≥ μ 2,H1,μ 1< μ 2
ch8-51三,两个正态总体均值差的假设检验
/ 2 / 2 ( -,- ),(,)zz 否定域
( Ⅰ )双侧检验 H0:μ1=μ2,H1,μ1≠μ2
ch8-52三,两个正态总体均值差的假设检验
(,)z否定域
( Ⅱ )右边单侧检验 H0:μ1≤μ2,H1,μ1> μ2
ch8-53三,两个正态总体均值差的假设检验
( -,- )z否 定 域
( Ⅲ )左边单侧检验 H0:μ1≥μ2,H1,μ1< μ2
ch8-54
0 1 2 1 1 2 0 1 2,H,t ( 2 ) 否 定 域H t n n
0 1 2 1 1 2 0 1 2,H,t ( 2 ) 否 定 域 -H t n n
0 1 2 1 1 2 / 2 1 2,H,( + 2 )H t n n0 否定域 t
2 2 2 2 2
1 1 1 1,,= =未知 但
ch8-55例 5 为比较两种农药残留时间的长短,现分别取 12和
10块地解 H0,μ1=μ2 H1:μ1≠μ2
由题设 n1=12,n2=10,,则由于 |t| <,所以接受 H0,
分别施甲、乙两种农药,经一段时间后,分别测得结果为:
假设两药的残留时间均服从正态分布且方差相等,试问两种农药的残留时间有无显著差异?( α=0.05)
查表得即认为两种农药的残留时间无显著差异
ch8-56关于 σ 2假设检验在显著性水平?条件下检验假设其中 σ 0是已知常数,
ch8-57提出假设大家知道 E( S2 )= σ 2 于是 S2 ≈ σ 2
若 2 /S?20 过大或过于接近 0,则说明 σ 2 偏离 σ 02较大。
因此有理由否定 H0。
取 )]1([ 2
21
2
n
)]1([ 2
2
2 n
或做小概率事件。
ch8-58
因此,在样本值 下计算若 或 则否定 H0。
若 则 H0相容。
ch8-59
(?=0.05)
解,提出假设某次统考后随机抽查 26份试卷,测得平均成绩,
试分析该次考试成绩标准差是否为已知该次考试成绩取统计量例 1
查表根据样本值算得
2
0 2
2 5 1 6 2 2 8,1 2 5
12?
则 H0相容,故接受 H0 。显然表明考试成绩标准差与 12无显著差异。
ch8-60
2 2 2 20 0 1 0HH对 于 单 边 问 题,;,,
22 1 ( 1 )n可 解 得 拒 绝 域,;
2 2 2 20 0 1 0HH而 对 单 边 问 题,;,,
22 ( 1 )n可 解 得 拒 绝 域,。
2?关 于 有 关 的 假 设 检 验 统 计 量
2
2
0
1)2 ns?
(=
ch8-61
80?(?=0.05),熔化时间
8080 2120,;,HH
2
2 9
80
S取 统 计 量
22{ ( 9 ) }p χ由得水平为?=0.05 的拒绝域为这里
2
0
2
2 9
σ
S
7.1380 8.1219
接受 H0
2 2 20,0 5( 9 ) ( 9 ) 1 9,0 2 3χχ
例 2 电工器材厂生产一批保险丝,取 10根测得其熔化时间( min)为
42,65,75,78,59,57,68,54,55,71.
问是否可以认为整批保险丝的熔化时间的方差大于
),(~ 2NX
解
ch8-62四,两个正态总体方差齐性的 F 检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),又设两总体相互独立,
假设 ( Ⅰ )双侧检验
( Ⅱ )右单侧检验
( Ⅲ )左单侧检验统计量
ch8-63四,两个正态总体方差齐性的 F 检验设总体 X~N (μ1,σ12),Y~N (μ2,σ22),又设两总体相互独立,
统计量
>220 1 2 1 2H,σ σ 拒绝域 F F ( n - 1,n - 1 ),
ch8-64
例 6 从甲乙两种氮肥中,各取若干样品测试其含氮量:甲,n1=18,
若两种氮肥的含氮量都服从正态分布,问两种氮肥的含氮量是否相同?( α=0.05)
解 此题是两正态总体方差未知,亦不知是否齐性的情况下对两总体均值差的检验。须先作方差齐性检验,再用 t 检验 。
乙,n2=14,
ch8-65
( 1)假设由样本值得查 F分布表得由于所以接受 H0即认为方差是齐性的。
ch8-66( 2)假设 H
0,μ1=μ2,H1:μ1≠μ2
所以接受 H0,即认为两种氮肥的含氮量相同(无显著差异)。
又由题设条件得
α=0.05,则由于
ch8-67单边检验否定域记忆规律
<
原假设 备选假设 否定域方向
>
ch8-68
1,据往年统计,某杏园中株产杏服从 N( 54,0.752),
93年整枝施肥后,收获时任取 10 株单收,算得平均株产量为 56.22。如果方差不变,问 93年株产量是否有显著提高?
( α=0.05)
1,H0,μ≤μ0( =54),H1,μ> 54,
u检验
ch8-69
2.某种内服药有使病人血压增高的副作用,已知血压的增高服从均值 μ0=22的正态分布,现研究出一种新药品,
测试了 10名服用新药病人的血压,算得其平均值为 17.9,
问能否得出副作用小的结论?
2,H0,μ≥μ0( =22),H1,μ < 22,
t检验
ch8-70
3.杜鹃总是把蛋生在别的鸟巢中,现有从两种鸟巢中得到的蛋共 24 只,测量其长度。试鉴别杜鹃蛋的长度与它们被发现的鸟巢不同是否有关?(设两个样本来自同方差的正态总体)
3,H0,μ1=μ2,H1,μ1≠μ2,
t检验
ch8-71练习
1 2 10
1
X (,1 ),,X
0.0 5
,0,,0
( 1 ) C
( 2) 1,= 0
( 3) 1.1 5,0,
0
0
N x x x
H H R = | x |> c
x
R = | x | H
设 总 体 ~ 是 的 一 组 样 本 观 察 值,
要 在 = 的 水 平 下 检 验 假 设拒 绝 域 为求 的 值若 已 知 是 否 可 以 据 此 推 断若 以 作 为 检 验 的 拒 绝 域求 试 验 的 显 著 性 水 平
ch8-72
非正态总体大样本的参数估计
ch8-73
从 总 体 中 抽 取 一 个 样 本,由 中 心 极 限定 理 知 道
12X,
()
( 0,1 )
/
n
P
X X X
X E X
uN
n
当 假 设 成 立,而 足 够 大 时,近 似 把看 成 服 从 正 态 分 布问 题 就 转 化 为 以 前 所 讲 过 的 检 验 问 题 了
0
H
()
/
()
n
X E X
u N ( 0,1 )
n
uz
ch8-74
() ( 0,1 )
/
PX E XuN
Sn
ch8-75
在上一讲中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题,
然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设,
§ 8.6 分布假设检验
ch8-76例如,从 1500到 1931年的 432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这 432年间共爆发了 299次战争,具体数据如下,
战争次数 X
0
1
2
3
4
223
142
48
15
4
发生 X次战争的年数
ch8-77
在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述,也就是说,我们可以假设每年爆发战争次数分布 X近似泊松分布,
上面的数据能否证实 X具有泊松分布的假设是正确的?
现在的问题是:
ch8-78又如,某钟表厂对生产的钟进行精确性检查,抽取 100个钟作试验,拨准后隔 24小时以后进行检查,将每个钟的误差(快或慢)
按秒记录下来,
问该厂生产的钟的误差是否服从正态分布?
ch8-79
再如,某工厂制造一批骰子,
声称它是均匀的,
为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与 1/6的差距,
也就是说,在投掷中,出现 1点,2点,…,6点的概率都应是 1/6.
得到的数据能否说明“骰子均匀”
的假设是可信的?
问题是:
ch8-80
K.皮尔逊这是一项很重要的工作,不少人把它视为近代统计学的开端,
解决这类问题的工具是英国统计学家
K.皮尔逊在 1900年发表的一篇文章中引进的所谓 检验法,2?
ch8-81
检验法 是在总体 X 的分布未知时,
根据来自总体的样本,检验关于总体分布的假设的一种检验方法,
2?
ch8-82在用 检验假设 H
0时,若在 H0下分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验,
2? 检验法分布拟合的 的基本原理和步骤如下,
2? 检验法
ch8-83
H0:总体 X的分布函数为 F(x)
然后根据样本的 经验分布 和 所假设的理论分布 之间的吻合程度来决定是否接受原假设,
使用 对总体分布进行检验时,
我们先提出原假设,
2? 检验法这种检验通常称作 拟合优度检验,它是一种非参数检验,
ch8-84
3.根据所假设的理论分布,可以算出总体 X的值落入每个 Ai的概率 pi,于是 npi就是落入 Ai的样本值的 理论频数,
1,将总体 X的取值范围分成 k个互不重迭的小区间,记作 A1,A2,…,Ak,
2.把落入第 i个小区间 Ai的样本值的个数记作 fi,称为 实测频数,所有实测频数之和
f1+ f2+ …+ fk等于样本容量 n.
ch8-85
k
i i
ii
np
npf
1
2
2 )(?
ii npf?
标志着经验分布与理论分布之间的差异的大小,
皮尔逊引进如下统计量表示经验分布与理论分布之间的差异,
统计量 的分布是什么?2?
在理论分布已知的条件下,
npi是常量实测频数 理论频数
ch8-86皮尔逊证明了如下定理,
k
i i
ii
np
npf
1
2
2 )(?
若原假设中的理论分布 F(x)已经完全给定,那么当 时,统计量n
的分布渐近 (k-1)个自由度的 分布,2?
2?
如果理论分布 F(x)中有 r个未知参数需用相应的估计量来代替,那么当 时,统计量 的分布渐近 (k-r-1)个自由度的 分布,
n
2?
ch8-87
为了便于理解,我们对定理作一点直观的说明,
ch8-88
是 k个近似 正态 的变量的平方和,
k
i i
ii
np
npf
1
2
2 )(?
这些变量之间存在着一个制约关系:
1
() 0k ii
i i
f n p
np?
故统计量 渐近 (k-1)个自由度的 分布,2? 2?
在理论分布 F(x)完全给定的情况下,每个 pi
都是确定的常数,由 中心极限定理,当 n充分大时,实测频数 fi 渐近正态,
因此
ch8-89
在 F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个,
若 有 r个未知参数需用相应的估计量来代替,自由度就减少 r个,
此时统计量 渐近 (k-r-1)个 自由度的 分布,2? 2?
ch8-90
如果根据所给的样本值 X1,X2,…,Xn算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设,
2?
得拒绝域,)1(22 k
)1(22 rk
(不需估计参数 )
(估计 r 个参数 )
)( 22P
查 分布表可得临界值2? 2,使得根据这个定理,对给定的显著性水平,?
ch8-91
皮尔逊定理是在 n无限 增大时推导出来的,因而在使用时要注意 n要足够大,以及
npi不太小 这两个条件,
根据计算实践,要求 n不小于 50,以及
npi都 不小于 5,否则应适当合并区间,使
npi满 足这个要求,
ch8-92让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布,
提出假设 H0,X服从参数为 的泊松分布?
按参数 为 0.69的泊松分布,计算事件 X=i 的概率 pi,
69.0 X?
将有关计算结果列表如下,
pi的估计是
i=0,1,2,3,4!69.0? 69.0 iep i
i
根据观察结果,得参数 的极大似然估计为?
ch8-93
因 H0所假设的理论分布中有一个未知参数,故自由度为 4-1-1=2.
x 0 1 2 3 4
fi 223 142 48 15 4
0.58 0.31 0.18 0.01 0.02
n 216.7 149.5 51.6 12.0 2.16
i
ii
np
npf 2)(? 0.183 0.376 0.251 1.623
战争次数实测频数
ip?
ip?
14.16
2.43
将 n <5的组予以合并,即将发生 3次及 4次战争的组归并为一组,
ip?
ch8-94
故认为每年发生战争的次数 X服从参数为 0.69的泊松分布,
按 =0.05,自由度为 4-1-1=2查 分布表得2
=5.991)2(2
05.0?
2? =2.43<5.991,
由于统计量 2? 的实测值未落入否定域,
ch8-95
奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律,
在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用,
孟德尔
ch8-96
子二代子一代
…
黄色纯系
…
绿色纯系他的一组观察结果为:
黄 70,绿 27
近似为 2.59:1,与理论值相近,
根据他的理论,子二代中,黄、绿之比近似为 3:1,
ch8-97由于随机性,观察结果与 3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定 3:1理论的充分根据,这就是如下的检验问题,
这里,n=70+27=97,k=2,
检验孟德尔的 3:1理论,
提出假设 H0,p1=3/4,p2=1/4
理论频数为,np1=72.75,np2=24.25
实测频数为 70,27.
ch8-98
2?由于统计量 的实测值
2
1
2
2 )(
i i
ii
np
npf?统计量 )1(
2?~
自由度为
k-1=1
2? =0.4158<3.841,
按 =0.05,自由度为 1,查 分布表得2
=3.841)1(2
05.0?
未落入否定域,
故认为试验结果符合 孟德尔的 3:1理论,
ch8-99这些试验及其它一些试验,都显示孟德尔的 3,1理论与实际是符合的,
这本身就是 统计方法在科学中的一项重要应用,
用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证,
ch8-100
第八章 假设检验
1、单个正态总体的期望、方差的检验(单边、双边)
2、两总体期望值差、方差比的假设检验
( 1)解题过程要点:
( 2)检验统计量
ch8-101例 5 为比较两种农药残留时间的长短,现分别取 12和 10块地
22121 2,3 5 3,5 2 ; 1 0,7 5 2,8 8x S y S乙甲分别施甲、乙两种农药,经一段时间后,分别测得结果为:
假设两药的残留时间均服从正态分布且方差相等,试问两种农药的残留时间有无显著差异?( α=0.05)
ch8-102
解 H0,μ1=μ2 H1:μ1≠μ2
由题设 n1=12,n2=10,,则 22
121 2,3 5,1 0,7 5,3,5 2,2,8 8x y S S
12
12
12
( ) ( )
~ ( 2 )
11
1 2,3 5 1 0,7 5
2.0786
1 1 3,5 2 9 2,8 8 1 1
()
1 2 1 0 2 1 2 1 0
w
XY
t t n n
S
nn
=
1 2 0,0 5
22
( 2 ) ( 2 0 ) 2,0 8 6 0t n n t
由于 |t| <,所以接受 H0,
12
2
( 2 )t n n
查表得即认为两种农药的残留时间无显著差异
ch8-103
例 6 从甲乙两种氮肥中,各取若干样品测试其含氮量等数据分别为:
甲,n1=18,
0,2 3 0x? 21 0,1 3 3 7S?
0.1736y? 2
2 0,1 7 3 6S?
若两种氮肥的含氮量都服从正态分布,问两种氮肥的含氮量是否相同?( α=0.05)
解 此题是两正态总体方差未知,亦不知是否相等的情况下对两总体均值差的检验。须先作方差是否相等检验,再用 t 检验 。
乙,n2=14,
ch8-104
220 1 2:H 221 1 2:H
2
2
2
1
0,1 7 3 6 1,2 9 3 4
0,1 3 3 7
SF
S
1 2 0,0 522( 1,1 ) ( 1 7,1 3 ) 2,3 8,F n n F
121
212
2
11( 1,1 ) 0,4
( 1,1 ) 2,5 0F n n F n n
1 2 1 21 22( 1,1 ) ( 1,1 ),F n n F F n n
( 1)假设由样本值得查 F分布表得由于所以接受 H0即认为方差是相等的。
ch8-105( 2)假设 H
0,μ1=μ2,H1:μ1≠μ2
所以接受 H0,即认为两种氮肥的含氮量相同(无显著差异)。
22
1 1 2 2
1 2 1 2
( 1 ) ( 1 ) 11()
2
xyt
n S n S
n n n n
0.23 0 0.17 36 0.4073
17 0.13 37 13 0.17 36 1 1()
18 14 2 18 14
12
22
( 2 ) ( 3 0 ) 2,0 4 2 3t n n t
12
2
| | ( 2 )t t n n
又由题设条件得
α=0.05,则由于
ch8-106
1,据往年统计,某杏园中株产杏服从 N( 54,0.752),93
年整枝施肥后,收获时任取 10 株单收,算得平均株产量为
56.22。如果方差不变,问 93年株产量是否有显著提高?
( α=0.05)
1,H0,μ≤μ0( =54),H1,μ> 54,u检验
ch8-107
2.某种内服药有使病人血压增高的副作用,已知血压的增高服从均值 μ0=22的正态分布,现研究出一种新药品,测试了
10名服用新药病人的血压,算得其平均值为 17.9,问能否得出副作用小的结论?
2,H0,μ≥μ0( =22),H1,μ < 22,t检验
ch8-108
3.杜鹃总是把蛋生在别的鸟巢中,现有从两种鸟巢中得到的蛋共 24 只,测量其长度。试鉴别杜鹃蛋的长度与它们被发现的鸟巢不同是否有关?(设两个样本来自同方差的正态总体)
21 9,2 2,2,0,4 2 2 5Xn X s若
22 1 5,2 1,1 2,0,5 6 8 9Yn Y S
3,H0,μ1=μ2,H1,μ1≠μ2,t检验
ch8-109
重点章节第一章 p15~27
第二章 p47,48,53~ 60
第三章 p72~77 p82~ 86 p90~91
第四章 p107~111 p119~121
第五章 p 142~145
ch8-110
第六章 p 151~152 p158~161
第七章 p159~180 p 183~191
第八章 p205~220