§ 4 百分数的估计及其误差
在介绍盒子模型时已经指出,对于总体中具有某种特性
的单元所占比例的抽样调查,可建立 0- 1盒子模型。即 个
具有某种特性的单元相应的票上全标上 1,其余全标上 0。1
N
1 0个
1N 个1NN ?
1N 是未知数。盒子中 1所占的比例是待估参数,。
N
NP 1?
由于该参数恰为 0- 1盒子的平均数,在简单随机抽样理论中
自然地采用 这个无偏估计。为与参数记号相配,记:y
PQpqyp ????? 1,?1?,?
由第二章第七节的讨论可知,盒子的方差为:
PQN NN NNNNN NS 11 112 ???????
因此:
n
PQ
N
nNpV a r ?
?
??
1)
?(
其中 PQ为未知参数的乘积,只有对 进行估计才有可能
获得 P 的置信区间。尽管 P,Q各有它们的无偏估计
但它们的乘积并非 PQ的无偏估计。这里需要借助于 的无偏
估计,并且容易计算得:
)?(pVar
pqp ?1?,? ??
2S
2s
qpn nyyns
n
i
i ??1)(1
1
1
22
????? ??
)?( pVar这样可得 的无偏估计为:
2)?( s
nN
nNpv ?? qp
n
n
nN
nN ??
1??
?? )?1(?
)1( ppNn
nN ???

(或写为 )
qpn f ??11 ???
其实当 N 比较大时,样本中 1 的个数服从二项分布,因此当
n 不是很大时,近似置信区间 (3.26)会发生一定差错,应当考
虑必要的修正。 p 的修正置信区间为:
现在可以构造百分数或比例 p 的置信度为 的置信区间)1( ??
当 N,n,N- n 都比较大时,置信区间为:
)??
1
1?,??
1
1?(
2
1
2
1
qp
n
fupqp
n
fup
?
???
?
???
?? ??
(3.26)
)
2
1??
1
1?,
2
1??
1
1?(
2
1
2
1 ?
?
?
?
???
?
?
?
???
???
?
???
?
?
?
???
?? n
qp
n
fup
n
qp
n
fup
??
(3.27)
例 3.4 某地区有 30587人,为调查其中吸烟者所占比例而从中
随机无放回抽取 2000人进行访问,得知其中烟民 785人。试估
计该地区吸烟者比例,并给出吸烟比例的置信水平为 90%的
近似置信区间。
解,N= 30587,n= 2000
3925.02000785? ??p 6 0 7 5.0?1? ??? pq
置信水平为 90%,则,查表得10.0?? 64.1
21 ?? ?u

0 6 5 4.03 0 5 8 72 0 0 0 ??f
)??
1
1?,??
1
1?(
2
1
2
1
qp
n
fupqp
n
fup
?
???
?
???
?? ??
故置近似信区间为
)4098.0,3752.0(? = (37.52%,40.98% )
§ 5 样本容量 n 的确定
抽样调查理论中,样本容量 n 的确定具有实实在在的意
义。 n 过大,违背抽样调查的宗旨,n 过小,则抽样误差偏
大,无法作出精确的估计。
一般情况,总费用是固定的,在固定的费用下尽量提高
精度或在必需的精度下使费用尽可能减少,是我们确定 n 的
基本原则。下面主要研究简单随机抽样下如何确定 n 。
设选取 n 个样本,访问每个单元所需的平均费用为,
另外除了样本调查所需的费用以外,还需要一笔基本费用,
例如办公费、设计问卷的费用等,用 表示。这样总费用为
1c
0c
01tc c n c? ? ?
我们 主要考虑 n 与精度的关系:
精度要求主要涉及到估计的方差(或相应的标准差),
或估计量与参数的绝对误差或相对误差。若记 为基于简单
随机样本 的关于参数 的估计量。 是一个
随机变量,要使此绝对误差控制在一定数之内,只能以概率
加以描述,假设置信水平为,那么:
?n?
?12(,,,)ny y y ?
n???
1 ??
?{ } 1nPd? ? ?? ? ? ?
221
?
( ) ( )
?()
n
n
P u u
V a r
??
??
?
?
???
?? ? ? ? ? ?
??
???()n
d
V ar ?
同样,若以相对误差 r 作为标准,则有
假设 n 相当大时,可以利用正态近似,我们有?n?
这样:
21
?()nd u V a r? ????
21
?()nd u S? ????或 (3.31)
?
1
n
Pr
??
?
?
???
?? ? ? ?
??
????
再利用正态近似的手段,得,
21
?()nr u V a r? ?????
21
?()nu CV? ????
?()nCV ? ?()
nV a r ???
这里我们定义:
我们称之为统计量 的 变异系数,它在抽样调查中也是一个
比较重要的量,尤其是在评价统计量的精度时常常用到。
?n?
将 (3.31)式中的 取为 为例,,如
果调查时 有一定要求,那么由 (3.31)式以及额定的,只要
已知,我们完全可以求得 n 的值。
?n? y 211( ) ( ) SV a r y n N n??
d d
2S
如果 是未知的,我们可以先作少量抽样以估计,
然后再确定 n, 当然这个确定的 n 比少量抽样的容量通常
要大。
2S 2S
如果问题是估计总体的具有某种特征的子总体所占的
百分数 P, 那么
代入 (3.31)式,并解得:
n
PQ
N
nNpV a r ?
?
??
1)?(
22
22
11 111u P Q u P Qn
d N d
???? ??????
??? ? ???
????
(3.35)
由于 P 未知,仍然必须事先利用少量抽样加以估计。但在实
际操作中,当 时,PQ很接近 P=0.5时的最大值,0,3 0,7P??
以 P=0.5代入,此时
22
2 2 2 211 4u P Q d u d
???? ?
得到 n 约为
如果调查对 有一定要求,自然也能得到 n 的大约数值。
tc
2
2
2
1
2
2
1
2
4
1
11
4
u
d
n
u
Nd
?
?
?
?
?
??
????
??
??
(3.36)
以 (3.36)式确定 n, 建立在 P 不大不小的基础之上。这
种信息有时在抽样之前事先感觉得到。有时事先也可能感觉
P相当小(或 Q相当小)。例如,要估计流水线上生产一批
精密元件的废品率,此时废品率往往很小,P<0.1是最起码
的。对此废品率的抽样调查所需的 n 就不能用 (3.36)式了。
这种场合下如何确定 n 呢?一个可供选择的方法就是 逆
抽样 。思路很简单,我们事先估计 P 很小,此时确定的 n 次
抽样中必须含有废品,否则很难估计 P 。 于是逆抽样方法建
议我们事先确定一个大于 1 的整数 m, 从总体中随机逐次抽
取样本,直到出现第 m 个“废品”(或具有某种特征的单元)
为止。此时,我们实际抽取的样本容量 n 是一个随机变量,
我们使用:
来估计 P。 逆抽样 的特点是 n 为随机变量,与 P及 m有相当的
关系,的精度就与 m 有密切的关系。我们的问题是根据调
查的需要去确定事先指定的“废品”数 m 。
?p?
1?
1
mp
n
?? ?
?
(3.37)
一般地,由于欲估计的 P 相当小,因此可以认为 Q 几乎
为 1 。运用概率论知识可求得 的变异系数的一个上界:?p?
?( ) ( 1 )c v p m m? ??
如果对 有一定要求(这实际上就是精度要求),那么
可以求得 m 的大致值。
?()cv p?
?( ) 2 0 %cv p? ?例如,那么 27m ?
?( ) 1 0 %cv p? ? 102m ?,那么
理论上 是 P 的无偏估计,因此当 P 很小时,由 (3.37)
可知,n 应相当大。
?p?
本章习题解答
习题 3.1
总体总和 的估计为,yNY ???~Y~
YyE ?)(?
YYNyENyNEYE ~)()()?~( ????????
yNY ???~故 为 的无偏估计Y~
)()()?~( 2 yV a rNyNV a rYV a r ???
22 )11( S
NnN ??
n
S
N
nN 22 )1( ??
n
SnNN 2)( ??
这样,的 置信区间为:%100)1( ??Y~
])11(?~,)11(?~[
2
1
2
1
2
1
2
1
?? ?? ???????? uSNnNYuSNnNY
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ?????????? uSNnNyNuSNnNyN
即:
)(
)
?~
(
~?~
tt
YV a r
YY
P ??
?
?
?
?
?
?
?
?
?
?
?
?由
?? ??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
1
)
11
(
~?~
2
12
2
u
n
S
Nn
N
YY
P可得
])(,)([
2121
?? ?? ????? uyV a ryuyV a ryN

])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ????????? usNnyusNnyN
亦即:
习题 3.2
以印刷错误的个数为标准,可以使用简单随机抽样来检查
一本 700页的书的印刷质量。
将每一页作为一个单元,单元标志值为该页错误数,随机
抽取 n 页,检查这 n 页中每页的错误数,计算得到平均每页的
错误数 —— 样本平均数 作为总体平均数(即估计参数 ——
该书平均每页的错误数)的估计。
y
snyV a r ??
?
??
?
? ??
700
11)( 为抽样估计误差
?
?
?
?
?
n
i
i yyns
1
22 )(
1
1其中 为样本方差
习题 3.3
N=10000 n=425 k=4
0 0 9 4 1 1 7 6 4.0?1? ??? pq
0 4 2 5.01 0 0 0 04 2 5 ??f
qpn fSNnpV a r ??11)11()?( 2 ?????? 0 0 0 0 2 1 0 5 4.0?
0 0 4 5 8 8 4 6 3.0)?( ?pV a r
9 9 0 5 8 8 2 3 5.04 2 5 44 2 5? ???p
为这批电视机合格率的估计
置信水平 95.01 ?? ? 05.0??
96.1
21
?? ?u
置信水平为 95%的置信区间为:
0 0 4 5 8 8 4 6 3.096.19 9 0 5 8 8 2 3 5.0)?(?
21
????? ? ?upV a rp
)9996.0,9816.0(?
%)96.99,%16.98(?