1
概率论与数理统计第 12讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '工程数学 1'子目录 )
2
§ 4 区间估计
3
对一个未知量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度 (亦即所求真值所在的范围 ),类似地,对于未知参数 q,除了求出它的点估计 外,还希望估计出一个范围,并希望知道这个范围包含参数 q真值的可信程度,这样的范围通常以区间的形式给出,同时还给出此区间包含参数 q真值的可信程度,这种形式的估计称为区间估计,
q?
4
置信区间 设总体 X的分布函数 F(x;q)含有一个未知参数 q,q(?是 q的可能取值范围 ),对于给定值 a(0<a<1),若由样本 X1,X2,...,Xn确定的两个统计量 q = q(X1,X2,...,Xn)和
`q=`q(X1,X2,...,Xn)(q <`q),对于任意 q满足
P{q(X1,X2,...,Xn) < q <`q(X1,X2,...,Xn)}?1-a
(4.1)
则称随机区间 (q,`q)是 q的 置信水平 为 1-a的置信区间,q 和 `q分别称为置信水平为 1-a的双侧置信区间的 置信下限 和 置信上限,
5
当 X是连续型随机变量时,对于给定的 a,总是按要求 P(q< q <`q)=1-a求出置信区间,而当
X是离散型随机变量时,对于给定的 a,常常找不到区间 (q,`q)使得 P(q< q <`q)恰为 1-a,此时去找区间 (q,`q)使得 P(q< q <`q)至少为
1-a,且尽可能地接近 1-a.
6
(4.1)式 的含义为,若反复抽样多次 (各次得到的样本的容量相等,都是 n),每个样本值确定一个区间 (q,`q),每个这样的区间要么包含 q
的真值,要么不包含 q的真值,按大数定律,包含 q真值的约占 100(1-a)%,不包含 q真值的约占 100a%,例如,若 a=0.01,反复抽样 1000次,
则得到的 1000个区间中不包含 q真值的约仅为
10个,
7
区间估计的图示
q
8
例 设总体 X~N(m,s2),s2为已知,m为未知,设
X1,X2,...,Xn是来自 X的样本,求 m的置信水平为
1-a的置信区间,

).1,0(~
,
N
n
X
X
s
m
m
-
且有的无偏估计是我们知道不依赖于任何未知所服从的分布 )1,0(N
n
X
s
m-
参数,
9
按标准正态分布的上 a分位点的定义,有
)3.4(,12/ a
s
m
a -?


-
z
n
X
P
0
a/2
za/2
a/2
-za/2
10
这样就得到了 m的一个置信水平为 1-a的置信区间
)5.4(.,2/2/?
- aa
ss
z
n
Xz
n
X
常写成
)4.4(.1
)3.4(,1
2/2/
2/
a
s
m
s
a
s
m
aa
a
-?
-
-?
-
z
n
Xz
n
XP
z
n
X
P
)6.4(.2/?
a
s
z
n
X
11
如果取 a=0.05,即 1-a=0.95,又若 s=1,n=16,
查表得 za/2=z0.025=1.96,于是得到一个置信水平为 0.95的置信区间
)7.4().49.0(,96.1
16
1

XX 即再者,若由一个观察值算得样本均值的观察值
`x =5.20,则得到一个区间
(5.20?0.49),即 (4.71,5.69)
)6.4(.2/?
a
s
z
n
X
12
最后得到的区间 (4.71,5.69)已经不是随机区间了,但我们仍称它为置信水平为 0.95的置信区间,其含义是,若反复抽样多次,每个样本值
(n=16)按 (4.7)式确定一个区间,按上面的解释,
在这么多的区间中,包含 m的约占 95%,不包含 m的约仅占 5%,现在抽样得到区间
(4.71,5.69),则该区间属于那些包含 m的区间的可信程度为 95%,或 "该区间包含 m"这一陈述的可信度为 95%.
13
然而,置信水平为 1-a的置信区间并不是惟一的,以上例来说,若给定 a=0.05,则又有
)8.4(,
.95.0
,95.0
04.001.0
04.001.0
01.004.0
-
-
-
-
z
n
Xz
n
X
z
n
Xz
n
XP
z
n
X
zP
ss
s
m
s
s
m
故也是置信水平为 0.95的置信区间,
14
而比较两个置信区间
.,08.4
,92.3
,
,
04.001.0
025.0025.0
比前者要大为后者的区间长度前者的区间长度为和
n
n
z
n
Xz
n
X
z
n
Xz
n
X
s
s
ss
ss
-
-
15
易知,象 N(0,1)分布那样其概率密度的图形是单峰且对称的情况,当 n固定时,以形如 (4.5)那样的区间其长度为最短,我们自然选用它,
通过上例,可看到求未知参数 q的置信区间的具体做法如下
(1)寻求一个样本 X1,X2,...,Xn的函数,
W=W(X1,X2,...,Xn;q),
它包含待估的参数 q,而不含其它未知参数,并且 W的分布已知且不依赖于任何未知参数 (当然不依赖于待估参数 q);
16
(2) 对于给定的置信水平 1-a,定出两个常数
a,b,使 P{a<W(X1,X2,...,Xn;q)<b)?1-a;
(3) 若能从 a<W(X1,X2,...,Xn;q)<b得到等价的不等式 q< q <`q,其中 q=q(X1,X2,...,Xn),
`q =`q(X1,X2,...,Xn)都是统计量,那么 (q,`q)就是 q的一个置信水平为 1-a的置信区间,
函数 W(X1,X2,...,Xn;q)的构造,通常可以从 q的点估计着手考虑,常用的正态总体参数的置信区间可以用上述步骤推得,
17
§ 5 正态总体均值与方差的估计
18
(一 )单个总体 N(m,s2)的情况 设已给定置信水平为 1-a,并设 X1,X2,...,Xn为总体 N(m,s2)的样本,`X,S2分别是样本均值和样本方差,
1,均值 m的置信区间
(a) s2为已知,此时由例 1采用 (4.2)的函数,已得到 m的置信水平 1-a的置信区间为
)1.5(2/?
a
s
z
n
X
19
(b) s2为未知,由第六章定理三,知
)2.5(),1(~ -
-
nt
nS
X m
)3.5(
1)1()1(
2/2/
a
m
aa
-?
-?
-
-- nt
nS
X
ntP
右边的分布 t(n-1)不依赖于任何未知参数,可得
20
)3.5(
1)1()1(
2/2/
a
m
aa
-?
-?
-
-- nt
nS
X
ntP
0
a/2a/2
-ta/2(n-1) ta/2(n-1)
21
于是得 m的一个置信水平为 1-a的置信区间
)4.5(.)1(2/?
-? nt
n
S
X a
.1)1()1(
)3.5(
1)1()1(
2/2/
2/2/
am
a
m
aa
aa
-?
---
-?
-?
-
--
nt
n
S
Xnt
n
S
XP
nt
nS
X
ntP

22
例 1 从一大批糖果中随机取 16袋,称得重量
(克 )为,506,508,499,503,504,510,497,512,514,
505,493,496,506,502,509,496 设袋装糖果重量近似服从正态分布,求总体均值 m的置信水平为 0.95的置信区间,
解 1-a=0.95,a/2=0.025,n-1=15,
t0.025(15)=2.1315,算得 `x=503.75,s=6.2022,由
(5.4)式 算得置信区间为
,1 3 1 5.2
16
2 0 2 2.6
75.5 0 3?

即 (500.4,507.1).
23
2,方差 s2的置信区间 (m未知 )
s2的无偏估计为 S2,由第六章 § 2定理二知
),1(~
)1( 2
2
2
-
-
n
Sn
s
)'6.5(
1
)1(
)1(
)1(
)1(
)6.5(
1)1(
)1(
)1(
2
2/1
2
2
2
2/
2
2
2/2
2
2
2/1
a
s
a?
s
aa
aa
-?
-
-

-
-
-?
-?
-
-
-
-
n
Sn
n
Sn
P
n
Sn
nP
即上式右端分布不依赖任何参数,故有
24
a?
s
aa -?
-?
-
-- 1)1(
)1(
)1( 2 2/2
2
2
2/1 n
Sn
nP
a/2
)1(2 2/ -na?)1(2 2/1 -- na?
a/2
25
得到方差 s2的一个置信水平为 a的置信区间
)7.5(.
)1(
)1(
,
)1(
)1(
2
2/1
2
2
2/
2


-
-
-
-
- n
Sn
n
Sn
aa
)'6.5(
1
)1(
)1(
)1(
)1(
1)1(
)1(
)1(
2
2/1
2
2
2
2/
2
2
2/2
2
2
2/1
a
s
a?
s
aa
aa
-?
-
-

-
-
-?
-?
-
-
-
-
n
Sn
n
Sn
P
n
Sn
nP

26
由 (5.6)'式还可得到标准差 s的 1-a置信区间为
)8.5(
1(
1
,
1(
1
2
2/1
2
2/
-
-
-
-
- n
Sn
n
Sn
aa
在密度函数不对称时,如?2分布和 F分布,习惯上仍是取对称的分位点来确定置信区间的,
)'6.5(
1
)1(
)1(
)1(
)1(
2
2/1
2
2
2
2/
2
a
s
aa
-?
-
-

-
-
-
n
Sn
n
Sn
P
27
例 2 求例 1中总体标准差 s的置信水平为 0.95
的置信区间,
解 现在 a/2=0.025,1-a/2=0.975,n-1=15,查表得
,2 6 2.6)15(,4 8 8.27)15( 2 975.02 025.0
又 s=6.2022,由 (5.8)式得所求的标准差 s的一个置信水平为 0.95的置信区间为
(4.58,9.60)
28
(二 )两个总体 N(m1,s12),N(m2,s22)的情况
.
,,,
,,,
,,,,;,,,
,1
2
2
2
1
21
21
2
1
个总体的样本方差二分别是第一二个总体的样本均值分别为第一且设这两个样本相互独立本是来自第二个总体的样本是来自第一个总体的样并设设已给定置信水平为
SS
YX
YYY
XXX
n
n
a-
29
1,两个总体均值差 m1-m2的置信区间
--
--
2
2
2
1
2
1
21
2
22
2
11
21
21
2
2
2
1
,~
),(~
),,(~
,,,
,,.,)(
nn
NYX
nNY
nNX
YXYX
YXa
ss
mm
sm
sm
mm
mmss
得的独立性以及由的无偏估计是故偏估计的无分别为因均为已知
30

)9.5(),1,0(~
)()(
2
2
2
1
2
1
21 N
nn
YX
ss
mm
---
)10.5(.
2
2
2
1
2
1
2/?
-
nn
zYX
ss
a
即得 m1-m2的一个置信度为 1-a的置信区间
31
(b) s12=s22=s2,但 s2为未知,此时
)11.5().2(~
11
)()(
21
21
21 -?
---
nnt
nn
S
YX
w
mm
2
21
2
22
2
112
21
212/
,
2
)1()1(
)12.5(.
11
)2(
www
w
SS
nn
SnSn
S
nn
SnntYX
-?
-?-
--
此处
a
从而可得 m1-m2的一个置信水平为 1-a的置信区间为
(5.13)
32
例 3 为比较 I,II两种型号步枪子弹的枪口速度,
随机地取 I型子弹 10发,得到枪口速度的平均值为 `x1=500(m/s),标准差 s1=1.10(m/s),随机地取 II型子弹 20发,得到枪口速度的平均值为
`x2=496(m/s),标准差 s2=1.20(m/s),假设两总体都可认为近似地服从正态分布,且由生产过程可以认为方差相等,求两总体均值差
m1-m2的一个置信水平为 0.95的置信区间,
33
解 用 (5.12)式 求均值差的置信区间,1-a=0.95,
a/2=0.025,n1=10,n2=20,n1+n2-2=28,
t0.025(28)=2.0484,sw2=(9?1.102+19?1.202)/28,
sw=1.1688,故所求均值差 m1-m2的一个置信水平为 0.95的置信区间是
),93.04(
20
1
10
1
)28(025.021
- tsxx w
即 (3.07,4.93).
本题中得到的置信区间的下限大于零,我们就认为 m1比 m2大,
34
例 4 为提高某一化学生产过程的得率,试图采用一种新的催化剂,为慎重起见,在实验工厂先进行试验,设采用原来的催化剂进行了 n1=8
次试验,得到得率的平均值 `x1=91.73,样本方差 s12=3.89; 又采用新的催化剂进行了 n2=8次试验,得到的得率的均值 `x2=93.75,样本方差
s22=4.02,假设两总体都可认为服从正态分布,
且方差相等,两样本独立,试求两总体均值差
m1-m2的置信水平为 0.95的置信区间,
35
解 现在
.96.3,96.3
2
)1()1(
21
2
22
2
112
-?
-?-
ww s
nn
snsn
s
),13.202.2(
8
1
8
1
)14(025.021?-
- wstxx
由 (5.12)式 得所求的置信区间为即 (-4.15,0.11).
由于所得置信区间包含零,认为两种均值没有显著差别,
36
2,两个总体方差比 s12/s22的置信区间仅讨论总体均值 m1,m2为未知的情况,由第六章 § 2定理四
)14.5(),1,1(~ 212
2
2
1
2
2
2
1 -- nnFSS
ss
)15.5(,1
)1,1()1,1( 212/
2
2
2
1
2
2
2
1
212/1
a
ss
aa
-?
----- nnF
SS
nnFP
并且分布 F(n1-1,n2-1)不依赖任何未知参数,
由此得
37

)'15.5(1
)1,1(
1
)1,1(
1
212/1
2
2
2
1
2
2
2
1
212/
2
2
2
1
a
s
s
aa
-?
--

-- - nnFS
S
nnFS
S
P
.
)1,1(
1
,
)1,1(
1
212/1
2
2
2
1
212/
2
2
2
1


---- - nnFS
S
nnFS
S
aa
于是得 s12/s22的一个置信水平为 1-a的置信区间为
(5.16)
38
例 5 研究由机器 A和机器 B生产的钢管的内径,
随机抽取机器 A生产的管子 18只,测得样本方差 s12=0.34(mm2); 抽取机器 B生产的管子 13只,
测得样本方差 s22=0.29(mm2),设两样本相互独立,且设由机器 A,机器 B生产的管子内径分别服从正态分布 N(m1,s12),N(m2,s22),这里 mi,
si2(i=1,2)均未知,试求方差比 s12/s22的置信水平为 0.90的置信区间,
39
解 现在 n1=18,s12=0.34,n2=13,s22=0.29,a=0.1,
Fa/2(n1-1,n2-1)=F0.05(17,12)=2.59,
F1-a/2(17,12)=F0.95(17,12)=1/2.38,于是由 (5.16)
式 得 s12/s22的一个置信水平为 0.90的置信区间为
,38.2
29.0
34.0
,
59.2
1
29.0
34.0

即 (0.45,2.79)
由于 s12/s22的置信区间包含 1,在实际中我们就认为 s12,s22两者没有显著差别,
40
§ 6 (0-1)分布参数的区间估计
41
设总体 X服从 0-1分布,其分布率为
f(x;p)=px(1-p)1-x,x=0,1,(6.1)
其中 p为未知参数,X的均值和方差为
m=p,s2=p(1-p),(6.2)
设一样本 X1,X2,...,Xn的容量 n>50,要求 p的置信水平为 1-a的置信区间,因 n较大,按中心极限定理,知
)3.6(
)1()1(
1
pnp
npXn
pnp
npX
n
i i
-
-
-
-?
近似地服从 N(0,1)分布,
42
于是有
)4.6(1
)1(
2/ aa -?


-
-
z
pnp
npXn
P
)5.6(
)1(
2
2/
2
az
pnp
npXn
-
-
而上面的不等式等价于即
)6.6(.0)2()( 22 2/22 2/-? XnpzXnpzn aa
43

)8.6(,4
2
1
)7.6(,4
2
1
2
2
2
1
acbb
a
p
acbb
a
p
-?-?
---?
此处
)6.6(.0)2()( 22 2/22 2/-? XnpzXnpzn aa
22
2/
2
2/ ),2(,XnczXnbzna- aa
于是 p的一个近似的置信水平为 1-a的置信区间为 (p1,p2).
44
例 设自一大批产品的 100个样品中,得一级品
60个,求这批产品的一级品率 p的置信水平为
0.95的置信区间,
解 一级品率 p是 (0-1)分布的参数,此处 n=100,
`x=60/100=0.6,1-a=0.95,a/2=0.025,
za/2=1.96,按 (6.7),(6.8)式 来求 p的置信区间,其中
.36
,84.123)2(,84.103
2
2
2/
2
2/

--
xnc
zxnbzna aa
于是 p1=0.50,p2=0.69
故得 p的一个置信水平为 0.95的近似置信区间为 (0.50,0.69)
45
§ 7 单侧置信区间
46
在上述讨论中,对于未知参数 q,我们给出两个统计量 q,`q,得到 q的双侧置信区间 (q,`q),但在一些实际问题中,例如,对于设备,元件的寿命来说,平均寿命长是我们所希望的,我们关心的是平均寿命 q的 "下限 ",与此相反,在考虑化学药品中杂质含量的均值 m时,我们常关心参数 m的 "上限 ",这就引出了单侧置信区间的概念,
47
对于给定值 a(0<a<1),若由样本 X1,X2,...,Xn确定的统计量 q=q(X1,X2,...,Xn),对于任意 q满足
P{q>q }?1-a,(7.1)
称随机区间 (q,?)是 q的置信水平为 1-a的 单侧置信区间,q 称为 q的置信水平为 1-a的 单侧置信下限,
48
又若统计量 `q =`q(X1,X2,...,Xn),对于任意 q
满足
P{q <`q }?1-a,(7.2)
称随机区间 (-?,`q )是 q 的置信水平为 1-a的单侧置信区间,`q 称为 q 的置信水平为 1-a的单侧置信上限,
49
例如对于正态总体 X,若均值 m,方差 s2均为未知,设 X1,X2,...,Xn是一个样本,由
)1(~ -
-
nt
nS
X m
.1)1(
,1)1(
am
a
m
a
a
-?
--?
-?
-?
-
nt
n
S
XP
nt
nS
X
P
有即
50
于是得到 m的一个置信水平为 1-a的单侧置信区间
)3.7(.),1(?
-- nt
n
S
X a
)4.7().1( --? nt
n
S
X am
m的置信水平为 1-a的单侧置信下限为
51
又由
),1(~
)1( 2
2
2
-
-
n
Sn
s
.1
)1(
)1(
,1)1(
)1(
2
1
2
2
2
12
2
a
s
a?
s
a
a
-?
-
-
-?
-?
-
-
-
n
Sn
P
n
Sn
P
有即
52
于是得 s2的一个置信水平为 1-a的单侧置信区间
)5.7(.
)1(
)1(
,0
2
1
2


-
-
- n
Sn
a?
)6.7(.
)1(
)1(
2
1
2
2
-
-
- n
Sn
a?
s
s2的置信水平为 1-a的单侧置信上限为
53
例 从一批灯泡中随机地取 5只做寿命试验,测得寿命 (以小时计 )为
1050,1100,1120,1250,1280
设灯泡寿命服从正态分布,求灯泡寿命平均值的置信水平为 0.95的置信下限,
解 1-a=0.95,n=5,ta(n-1)=t0.05(4)=2.1318,
`x=1160,s2=9950,由 (7.4)式得所求单侧置信下限为
.1 0 6 5)1(?--? nt
n
s
x am
54
作业 第七章习题第 210页第 14,15,16题
55
请提问