1
概率论与数理统计第 23讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '概率论 '子目录 )
2
假设检验
3
假设检验的概念任何一个有关随机变量未知分布的假设称为统计假设或简称假设,一个仅牵涉到随机变量分布中几个未知参数的假设称为参数假设,这里所说的 "假设 "只是一个设想,至于它是否成立,在建立假设时并不知道,还需进行考察,
对一个样本进行考察,从而决定它能否合理地被认为与假设相符,这一过程叫做假设检验,
判别参数假设的检验称为参数检验,检验是一种决定规则,通过一定的程序作出是与否的判断,
4
例 1
抛掷一枚硬币 100次,"正面 "出现了 40次,问这枚硬币是否匀称?
若用 x描述抛掷一枚硬币的试验,"x=1"及
"x=0"分别表示 "出现正面 "和 "出现反面 ",上述问题就是要检验 x是否服从 p=1/2的 0-1分布?
5
例 2
从 1975年的新生儿 (女 )中随机地抽取 20个,测得其平均体重为 3160克,样本标准差为 300克,
而根据过去统计资料,新生儿 (女 )平均体重为
3140克,问现在与过去的新生儿 (女 )体重有无显著差异 (假设新生儿体重服从正态分布 )?
若把所有 1975年新生儿 (女 )体重体现为一个总体 x,问题就是判断 Ex=3140是否成立?
6
例 3
在 10个相同的地块上对甲,乙两种玉米进行对比试验,得如下资料 (单位,公斤 )
甲 951 966 1008 1082 983
乙 730 864 742 774 990
从直观上看,二者差异显著,但是一方面由于抽样的随机性,我们不能以个别值进行比较就得出结论 ; 另一方面直观的标准可能因人而异,因此这实际上需要比较两个正态总体的期望值是否相等,
7
这种作为检验对象的假设称为待检假设,通常用 H0表示,
例如,例 1的假设是
H0,x~B(1,0.5)
例 2的假设是
H0,Ex=3140
例 3的假设是
H0,EX=EY (X与 Y是两种玉米的产量期望值 )
如何根据样本的信息来判断关于总体分布的某个设想是否成立,也就是检验假设 H0成立与否的方法,
8
置信区间方法用置信区间的方法进行检验,基本思想是这样的,首先设想 H0是真的成立 ; 然后考虑在 H0条件下,已经观测到的样本信息出现的概率,如果这个概率很小,这就表明一个概率很小的事件在一次试验中发生了,而小概率原理认为,
概率很小的事件在一次试验中是几乎不可能发生的,也就是说导出了一个违背小概率原理的不合理的现象,这表明事先的设想 H0是不正确的,因此拒绝原假设 H0,否则,不能拒绝 H0.
9
至于什么算是 "概率很小 ",
在检验之前都事先指定,比如概率为 5%,1%等,一般记作 a.
a是一个事先指定的小的正数,称为 显著性水平 或 检验水平,
10
两类错误由于人们作出判断的依据是样本,也就是由部分来推断整体,因而假设检验不可能绝对准确,
它也可能犯错误,其可能性的大小,也是以统计规律性为依据的,所可能犯的错误有两类,
第一类错误是,原假设 H0符合实际情况,而检验结果把它否定了,这称为弃真错误,
第二类错误是,原假设 H0不符合实际情况,而检验结果把它肯定下来了,这称为取伪错误,
11
一个正态总体的假设检验设总体为 x~N(m,s2),关于总体参数 m,s2的假设检验问题,本节介绍下列四种,
(1) 已知方差 s2,检验假设 H0:m=m0;
(2) 未知方差 s2,检验假设 H0:m=m0;
(3) 未知期望 m,检验假设 H0:s2=s02;
(4) 未知期望 m,检验假设 H0:s2?s02;
其中 H0中的 s02,m0都是已知数,
12
例 1 根据长期经验和资料的分析,某砖瓦厂生产砖的 "抗断强度 "x服从正态分布,方差
s2=1.21,从该厂产品中随机抽取 6块,测得抗断强度如下 (单位,kg/cm2):
32.56,29.66,31.64,30.00,31.87,31.03
检验这批砖的平均抗断强度为 32.50kg/cm2是否成立 (a=0.05)?
13
解 设 H0:m=32.50,如果 H0正确,则样本 (X1,...,
X6)来自正态总体 N(32.50,1.12),令
96.105.3
6/1.1
50.3213.31
||
2
1)(,)|(|
96.1,05.0
)1,0(~
6/1.1
50.32
0



u
U
uuUP
u
N
X
U
的样本值为计算求出即使查表得对给定的
a
a
a
aa
a
14
最后可以下结论否定 H0,即不能认为这批产品的平均抗断强度是 32.50kg/cm2.
15
方差已知对期望值 m的检验步骤,
(1) 提出待检假设 H0:m=m0(m0已知 );
(2) 选取样本 (X1,...,Xn)的统计量,如 H0成立,则
)()1,0(~
/ 00
0 为已知s
s
m
N
n
X
U
(3) 根据检验水平 a,查表确定临界值 ua,使
P(|U|>ua)=a,即?0(ua)=1?a/2.
(4) 根据样本观察值计算统计量 U的值 u并与临界值 ua比较
(5) 若 |u|>ua则否定 H0,否则接收 H0.
16
例 2 假定某厂生产一种钢索,它的断裂强度
x(kg/m2)服从正态分布 N(m,402),从中选取一个容量为 9的样本,得 =780kg/m2,能否据此样本认为这批钢索的断裂强度为 800kg/cm2
(a=0.05)
可以接受 H0,认为断裂强度为 800kg/cm2
x
96.15.1
3/40
8 007 80
||
96.105.0
),1,0(~40/9)8 00(
.8 00:
00



u
u
NXU
HH
a
a
m
则因成立则如首先建立解
17
例 3
从 1975年的新生儿 (女 )中随机地抽取 20个,测得其平均体重为 3160克,样本标准差为 300克,
而根据过去统计资料,新生儿 (女 )平均本重为
3140克,问现在与过去的新生儿 (女 )体重有无显著差异 (假设新生儿体重服从正态分布 )?(a=0.01)
若把所有 1975年新生儿 (女 )体重体现为一个正态总体 N(m,s2),问题就是判断
m=Ex=3140是否成立?
18
解 待检假设 H0:m=3140,由于 s2未知,自然想到用 S2代表 s2,则如果 H0成立,则
.
,
861.2298.0
20/300
31403160
||
01.0861.2
20/
3140
,861.2)19(,01.0
)19(~
20/
3140
0
01.0
明显差异与过去没有认为现在的新生儿体重因此接收而即查表得由给定的检验水平
H
t
S
X
P
t
t
S
X
T


a
19
方差未知对期望值 m的检验步骤,
(1) 提出待检假设 H0:m=m0(m0已知 );
(2) 选取样本 (X1,...,Xn)的统计量,如 H0成立,则
)1(~
/
0 nt
nS
X
T
m
(3) 根据检验水平 a,查表确定临界值 ta,使
P(|T|>ta)=a;
(4) 根据样本观察值计算统计量 T的值 t并与临界值 ta比较 ;
(5) 若 |t|>ta则否定 H0,否则接收 H0.
20
例 4 某炼铁厂的铁水含碳量 x在正常情况下服从正态分布,现对操作工艺进行了某些改进,
从中抽取 5炉铁水测得含碳量数据如下,
4.412,4.052,4.357,4.287,4.683
据此是否可以认为新工艺炼出的铁水含碳量的方差仍为 0.1082(a=0.05).
解 建立待检假设 H0:s2=0.1082; 在 H0成立时,
样本来自总体 N(m,0.1082),这时
)1(~
1 0 8.0
)1( 2
2
2
2 nSn
21
对于给定的检验水平 a=0.05,可查表确定临界
1.11827.17
108.0
228.04
:,1.11)4(
,484.0)4(
2108.0
)1(
108.0
)1(
,
2
2
2
22
025.0
2
2
975.0
2
2
2
2
2
2
2
22





a


的值具体计算统计量查表得使及值
b
a
ba
ba
Sn
P
Sn
P
因而应拒绝 H0,即方差不能认为是 0.1082
22
未知期望对正态总体方差的假设检验步骤,
(1) 建立待检假设 H0:s2=s02;
(2) 如 H0成立,则
)1(~)1( 22
0
2
2 nSn?
s
2
)1()1( 2
2
0
2
2
2
0
2 a
s
s




ab
Sn
P
Sn
P
(3) 由给定的检验水平 a查表求?a2,?b2满足,
(4) 计算?2的值与?a2,?b2比较 ;
(5) 若?2>?b2或?2<?a2拒绝 H0否则接收 H0;
23
例 5 机器包装食盐,假设每袋盐的净重服从正态分布,规定每袋标准重量为 500g,标准差不超过 10g,某天开工后,为检查其机器工作是否正常,从装好的食盐中随机取 9袋,测其净重
(单位,g)为
497,507,510,475,484,488,524,491,515
问这天包装机工作是否正常 (a=0.05)?
解 设 x为一袋食盐的净重,则 x~N(m,s2),今需假设
H0:m=500以及 H0':s2?102是否成立?
H0:m=500,查表求临界值 t0.05(9?1)=2.306,计算得
03.16,499 sx
24
如 H0成立,则有
.
500,
306.2187.0
9/03.16
500499
||
)19(~
9/
500
0
机器没有系统误差重为即认为平均每袋食盐净故接受具体算得
gH
t
t
S
X
T

25
当 s2=102时,必有作不正常该天打包机工即方差过大由此拒绝再算得查得使查表求对给定的
,,
5.1556.20
10
03.168
5.15)8(
05.0}{
,
)19(~
10
)19(
0
2
2
2
2
05.0
22
2
2
2
2
2
H
P
S
a
a


a
a

26
顺便指出,在检验假设 H0:s2=s02时,有两个临界值?a2和?b2,即当 (n?1)S2/s02<?a2或 (n?
1)S2/s02>?b2时,都应拒绝 H0,这是基于若 H0成立,即 s2=s02,则 S2/s02的值不应太大或太小,
而在检验假设 H0':s2?s02时,考虑到若 H0'成立,
即 s2?s02,则 S2/s02不应太大,但较小是合理的,
因此拒绝域只取 (n?1)S2/s02>?a2.
27
对两个正态总体的假设检验在实际过程中还常常需要对两个正态总体进行比较,即假设 xi~N(mi,si2),i=1,2.
三种情况,
(1) 未知 m1,m2,检验假设 H0:s12=s22;
(2) 未知 m1,m2,检验假设 H0:s12?s22;
(3) 未知 s12,s22,但知道 s12=s22,检验假设
H0:m1=m2;
在统计前都分别对两个总体采样并分别计算出相样的样本均值和样本方差,
28
(1) 未知 m1,m2,检验假设 H0:s12=s22
如果 H0为真,则
)1,1(~
212
2
2
1
nnF
S
S
F
经查 F分布表可以作出判决,
29
(2) 未知 m1,m2,检验假设 H0:s12?s22;
因为当 s12=s22时,
00
212
2
2
1
,
)1,1(~
HHF
nnF
S
S
F
否则接收值过大则否定因此

30
(3) 未知 s12,s22,但知道 s12=s22,检验假设
H0:m1=m2;
如果 H0成立,则有
)2(~
11
2
)1()1(
21
2121
2
22
2
11



nnt
nnnn
SnSn
YX
T
因此可查 t分布表作出判决,
31
作业 习题九第 184页开始
1,2,3,5
32
请提问