§ 3 样本总容量 n 的确定
上一节讨论的分配原则主要是在 n 给定的条件下对各
层中的抽样容量的合理分配。本节面临的问题是在分层抽样
下如何确定 n 。显然它与调查所要求的精度、调查的统计
量、如何分层、各层的样本容量如何分配以及各层单位抽样
花费等等因素有关。
1,待估的总体参数为 (总体平均数)Y
设此时各层的分配额为,那么
12
1
,,,,
k
kh
h
n n n n n
?
??
2 2 2
11
()
kk
h h h h
st
hh h
W S W SV a r y
nN??
??????
若按调查的精度要求,的最大方差为 V,则有
sty
若记 (相当于样本中的层权),并取 n 的一次近似:
hhnn? ?
22
1
2
1
1
h
k
n
hh n
h
k
hh
h
WS
n
V W S
N
?
?
?
?
?
?
(4.28)
22
22
1
0
1
1
k
hh
k
h h h h
h h
WS
WS
n
VV
?
?
?
?
??
?
?(4.29)
那么
0
2
1
1
1
k
hh
h
n
n
WS
NV ?
?
? ?
(4.30)
现考虑按比例分配的情况,此时
h h h hn n N N W? ? ? ?
22
2
0
11
11kkhh
hh
hh h
WSn W S
VV ???????
于是 (4.31)
00
2 0
1
1 1
1
k
hh
h
nn
n
n
WS
NNV ?
??
?? ?
而 (4.32)
由 (4.32)式,一般地,当 远远小于 N时,自然取 。
当然实际由 (4.32)式计算 n 时,公式中的 应换为 。
0n 0nn?
2hS 2hs
假如换为 Neyman最优分配,则
1
k
h h h h h
h
W S W S?
?
? ?
2
1
2
1
1
k
hh
h
k
hh
h
Ws
n
V W s
N
?
?
??
??
??
?
?
?
?
(4.33)
假如考虑费用问题,仍按线性费用函数,当
V给定时,可以计算得,0 1
k
hh
h
c c c n
?
?? ?
11
2
1
1
kk
h h h h h h
hh
k
hh
h
W s c W s c
n
V W s
N
??
?
? ? ? ?
? ? ? ?
? ? ? ?
?
?
??
?
(4.34)
如果总费用 c 给定,此时将 (4.20)式 写成:
hh
h
h
WS n
c
??
( 1,2,,)h h h h hW S c c n h k???
(4.35)
将 (4.35)式对所有的 h 求和得:
1
11 0
k
h h hkk
h
h h h h h
hh
W S c
W S c c n
cc
? ?
??
??
?
?
??
(4.36)
利用,将 (4.37)式对所有的 h 求和,并将 代
1
k
h
h
nn
?
?? hs hS
于是
0
1
( 1,2,,)hhh
k
h
j j j
j
c c W S
n h k
c W S c
?
?
? ? ?
?
(4.37)
1
0
1
()
k
h h h
h
k
h h h
h
W s c
n c c
W s c
?
?
? ? ?
?
?
(4.38)
例 4.3 对一个 N 相当大的总体进行某指标调查,关心的参数
是总体平均数,假设合理地可以分为两层,一些具体数据如
下表:
hW 2hS hch
1
2
0.3
0.7
100
625
9
16
为方便起见,设费用函数为 。试求使得
1 1 2 2c c n c n??
( ) 1stV a r y ?
所需的最优分配
12nn、
解:
1 1 2 2
12
0, 3 1 0 0, 7 2 5 5, 4
9 1 6
W S W S
cc
??? ? ? ?
由 (4.21)可得最优分配为
11
1
1
1 1 2 2
12
0, 3 1 0
59
0, 3 1 0 0, 7 2 5 27
9 1 6
WS
c
n n n n
W S W S
cc
?
? ? ? ? ?
??
??
22
2
2
1 1 2 2
12
0, 7 2 5
2216
0, 3 1 0 0, 7 2 5 27
9 1 6
WS
c
n n n n
W S W S
cc
?
? ? ? ? ?
??
??
11
2
1
1
kk
h h h h h h
hh
k
hh
h
W s c W s c
n
V W s
N
??
?
? ? ? ?
? ? ? ?
? ? ? ?
?
?
??
?
由 (4.34)式,此时样本容量 n 为:
由于 N相当大,此时 可忽略不计,于是
2
1
k
hh
h
W s N
?
?
22
11
1
h h h h h h
hh
n W s c W s cV
??
? ? ? ??
? ? ? ?? ? ? ???
1 ( 0,3 1 0 9 0,7 2 5 1 6 ) 5,4 4 2 6,6 4 2 7
1? ? ? ? ? ? ? ? ? ?

1
5 427 79
27n ? ? ? 2
22 4 2 7 3 4 8
27n ? ? ?
此时总费用约为,7 9 9 3 4 8 1 6 6 2 7 9c ? ? ? ? ?
2,待估的参数为总体总和 Y
由于总体总和的分层估计可以写成,样本容量
n 的确定是十分容易的。
st sty N y??
假设 为 的允许的最大方差,由于
只需将 代入有关 的一切公式,就可以得到相应的
结论,下面列出有关的结果。
v 2( ) ( )s t s tV a r y N V a r y??sty
2v v N? sty
对给定的各层分配额,有:
hhnn??
22
1
2
1
k
h h h
h
k
hh
h
NS
n
v N S
?
?
?
?
?
?
?
(4.39)
若记,则22
0
1
1 k hh
h h
NSn
v ??? ?
0
2
1
1
1
k
hh
h
n
n
NS
v ?
?
? ?
(4.40)
若记,则 2
0
1
1 k
hh
h
n N Sv
?
???
?????
(4.42)
0
2
1
1
1
k
hh
h
n
n
NS
v ?
?
? ?
相应的 Neyman最优分配:
2
1
2
1
k
hh
h
k
hh
h
NS
n
v N S
?
?
??
??
??
?
?
?
?
(4.41)
若记,则 2
0
1
k
hh
h
Nn N S
v ?? ?
(4.44)
0
01
nn
n
N
?
?
若按比例分配:
2
1
2
1
k
hh
h
k
hh
h
N N S
n
v N S
?
?
?
?
?
?
(4.43)
§ 4 分层的若干技术问题
1,单指标分层的构造方法
这一原则在理论上是无可置疑的,但在实际应用中较难
实施,看上去符合基本原则的分层手法可以有许许多多种,
究竟哪一种是最理想最合理的呢?
本章第一节介绍分层抽样时已经强调了分层时应注意的
一些问题。根据对平均数 的方差的分析,我们看到合理的
分层比起简单随机抽样来可以避开层间差异的影响而使方差
较小。因此,要使分层合理,一个基本原则是, 使层内差异
尽可能小, —— 各层有自己鲜明的特色, 并,使层间差异明
显地较大, —— 各层之间有显著不同 。
sty
前面提到根据具体的调查目的,有时可以根据地理、性
别、民族、宗教、职业等因素来分层,在多项指标问题中有
时采用聚类分析的手段进行分层。这一小节我们考虑单项指
标调查时如何分层。如果按地区、民族等因素分层则称为基
于辅助因素的分层,倘若该辅助因素与我们感兴趣的指标关
系密切,那么这样分层常获益匪浅;反之,有可能导致不合
理的分层从而引起糟糕的结果。假如我们对总体的单项指标
有所认识,最有效的方法是按这些数值来分层,具体的做法
是确定各层之间的分点。
设将总体分为 k 层,假设 与 分别为总体的最小与最
大可能值 (所谓“可能”,是因为其实我们并不确切地知道 ),
按数值分层即为在 与 之间插上 (k- 1) 分点:
0y ky
0y ky
0 1 2 1kky y y y y?? ? ? ? ?
如果各层抽样分配方案已定,我们设法求这些分点使得
达到最小。()
stVar y
考虑分配原则为比例分配,且假定各层 相当大,那么
由于:
hN
2
1
11() k
s t h h
h
V a r y W SnN
?
????
???? ?
2
1
11 k h
h
h
N S
n N N?
????
???? ?
2
11
1 1 1 1 ()
1
hNk
h h i h
hi h
N Y Y
n N N N??
????
? ? ?????
??? ????
2
11
1 1 1 ()hNk
h i h
hi
YY
n N N ??
????
? ? ?????
?? ????
22
11
1 1 1 hNk
h i h h
hi
Y N Y
N n N ??
????
? ? ?????
?? ????
(4.45)
显然对每个总体,是常数,因此为使
达到最小,只需要 达到最大。数学推算告诉我
们:
2
11
hNk
hi
hi
Y
??
??
2
1
k
hh
h
NY
?
?
()stVar y
1
1 ( ) ( 1,2,,1 )
2h h hy Y Y h k?? ? ? ?
(4.46)
公式虽然简单,但问题不少。首先要确定 k 的大小,只有 k
确定以后,(4.46)式才有意义。应该将总体分多少层在分层抽
样中是个重要的问题。 k 的大小涉及到估计的精度与工作量
及费用的大小;其次 进而 是调查的指标,它们是未知
的;再者,即使 已知,解一系列 (4.46)需要用到差分方程。
iY hY
hY
2,事后分层
前面讨论的分层抽样是建立在抽样之前总体已经分好层,
但有时候这种事先分层会遇到较大困难。而我们又很想利用分
层抽样的优越之处,此时可以采用事后分层的方法。
先用简单随机抽样的方法从总体中抽取容量为 n 的样本,
然后将这些样本中的单元按某种特征分类或分层。每一层抽
取容量仍记为,假如通过其它途径可以得到
,那么总体平均数 的事后分层估计为:
( 1,2,,)hn h k?
Y
hhW N N?
其中 为样本的第 h 层中的平均数。hy
1
k
p s t h h
h
y W y
?
? ?
(4.47)
事后分层的合理性是最简单不过的。既然简单随机样本
是总体的一个“惟妙惟肖”的刻划,那么按样本特征所聚的类
恰好反映了总体具有某一特色部分的层,而样本的各层恰好
可认为是来自总体相应层的简单随机样本。基于这种合理性
保留了分层的某些优点,当然由于事前分层而带来的组
织工作方面的便利则是丝毫全无。
psty
如果 均为已知,则可计算:
hn
hn
而事后分层中 是个随机变量,从而 也是随机变
量,为判断 的效果,须求平均,我们不加证明给出结果
()pstVar y
psty
22
2
11
1() kkhh
p s t h h
hh h
WSV a r y W S
nN??????
(4.48)
22
2
11
1 1 1[ ( ) ] ( ) ( 1 )kk
p s t h h h h
hh
E V a r y W S W Sn N n
??
? ? ? ???
(4.49)
(4.49)式右边第一项恰好为按比例分配分层抽样时样本平均数
的方差,第二项显然是由于事后分层所引起的方差的增加量
假如 n 相当大的话,该项自然趋于很小,因此当 n 足够大时
事后分层的精度相当于按比例分配的事先分层时的精度。
3,层权误差的影响及二重抽样
我们一直是在 假设为已知的前提下介绍和讨论分层抽
样的。在实际操作中常常会遇到 未知,这种场合我们得先
对层权 进行估计,采用的手段是二重抽样。
hW
hW
hW
在总体单元分层原则十分明确的情况下,先抽取一个容
量为 的简单随机样本,令 为第一重抽样中属于第 h 层
的单元数,则 当然地作为 的合理估计。
n?
hn?
hhw n n??? hW
hW
其合理性是因为 实质上是第 h 层占总体的百分数,样本
的百分数是总体百分数的无偏估计。
第二重抽样则是在第一重样本中进行分层抽样。基于这一点
第一重抽样样本容量一般相当大,由于此时只考虑样本单元
属于哪一层而不涉及其它,因此 虽大并不表示工作量大
得无法接受。另外,的相当大也为了使层权的估计误差
趋于很小。
n?
n?
4,设计效应
我们已经研究了简单随机抽样,以及较复杂的分层抽样
抽样方法的不同会引起估计精度的不同。之所以采用比较复
杂的抽样方式,目的无非是提高估计的效果。因此,看一个
抽样方案的效果究竟如何,最好的办法是将它与简单随机抽
样在相同样本容量之下对精度作比较。这就是 Kish 在 1965年
提出的设计效应 (Deff):
Deff=
从一个复杂样本所得估计量的方差
从按相同容量的简单随机样本所得估计量的方差
我们总希望所设计的复杂抽样方案的 Deff<1。分层抽样的设
计方案就要考虑到设计效应。
本章习题解答
习题 4- 1
将 10000名学生按系分层,共分为 10层,即 k=10 。由于
是在学校内部进行,故不考虑费用问题,因此采取按比例分
层抽取 200名学生。即:
200 0, 0 2
10000
h
h
n n
NN ? ? ?
各层(系)抽取人数为:
0, 0 2 ( 1,2,,1 0 )hhn N h??
hN
为第 h 个系的人数。
如果 恰好均为整数,则分配完毕。否则,先按取整
分配,剩余部分按小数部分的大小进行分配。
0.02 hN
习题 4- 2
这是分层抽样,共分了 10层。并且是按比例分配的分层
抽样。
优点, (1) 便于组织;( 2)可以了解到各个不同行业内计算
机使用情况;( 3)各层(行业)内计算机使用情况差别不
会太大,层与层之间(行业之间)的差距是比较大的,这正
好符合分层抽样的合理性原则。
缺点, 可能分层太多 。有些行业部门是可以进行聚类的,比
如:飞机、火车及长途汽车的售票处可以聚类为交通运输售
票处,因为这些售票处一般来讲使用计算机的情况比较一致
差别不大;宾馆、大型商场可以聚类为商业服务系统等。
习题 4- 3
2 2 2
11
()
kk
h h h h
st
hh h
W S W SV a r y
nN??
??????
在费用函数 取定值的条件下使
0
1
k
hh
h
c c c n
?
?? ?
达到最小,令
2 2 2
0
1 1 1
()
k k k
h h h h
hh
h h hh
W S W ST c c c n
nN ?? ? ?
??? ? ? ? ?? ? ?
22
2
1( ) 0
2
jj
j
jj j
WST
c
nn n
?
??
? ? ? ? ?
?
( 1,2,,)jk?
2
22 32
jj
j
j
WS
n
c?
??
?? ??
??
( 1,2,,)jk?
或 2223 3
2
2 jj
j
j
WS
n
c
?
??
?? ??
??
由 得
1
k
j
j
nn
?
??
2
223 3
2
1
2k jj
j j
WS
n
c
?
?
??
?? ??
??
?
2
223 3
2
1
21 k jj
j j
WS
nc
?
?
??
?? ??
??
?
故 ? ?
? ?
2
22 3
2
22 3
1
2
2
h h h
h k
j j j
j
W S c
nn
W S c
?
??
?
( 1,2,,)hk?
习题 4- 4
hW 2hS hch
1
2
3
0.4
0.3
0.2
16
25
36
1
2
4
2 2
2 2 23 3
11
1
2 2 0, 4 1 6
2, 9 7 0 6
1
WS
c
?? ????
???? ??
????
2 2
2 2 23 3
22
2
2 2 0, 3 2 5
1, 7 1 7 1
2
WS
c
?? ????
???? ??
????
2 2
22 23 3
33
3
2 2 0, 2 3 6
0, 8 0 3 3
4
WS
c
?? ????
???? ??
????
2
223 3
1
2
5, 4 9 1 0hh
h h
WS
c?
??
???
??
?
1
2,9 7 0 6 0,5 4 1 0
5,4 9 1 0n n n??
2
1,7 1 7 1 0,3 1 2 7
5,4 9 1 0n n n??
3
0,8 0 3 3 0,1 4 6 3
5,4 9 1 0n n n??
习题 4- 5
hW 2hS hch
1
2
3
0.4
0.3
0.2
16
25
36
1
2
4
11
1
0,4 4 1,6
1
WS
c
??? 22
2
0, 3 5 1, 0 6 0 7
2
WS
c
???
33
3
0, 2 6 0, 6
4
WS
c
??? 3
1
3, 2 6 0 7hh
h h
WS
c?
??
1
1,6 0,4 9 0 7
3,2 6 0 7n n n?? 2
1,0 6 0 7 0,3 2 5 3
3,2 6 0 7n n n??
3
0,6 0,1 8 4 0
3,2 6 0 7n n n??
习题 4- 6
应采用分层抽样,而不采取简单随机抽样。
具体实施时,可以按区分层,每个区为一个层,在每
一层进行简单随机抽样或再进行分层抽样(这时可以按居
委会分层)
因为分层抽样相对于简单随机抽样来讲,从组织形式上
便于实施,简单随机抽样要随机抽取 500个样本点,产生随
机数较麻烦,而分层后,就可以由各层分别进行随机数产生
进行抽样。再者,合理的分层使得统计量的方差小于简单随
机抽样相应统计量的方差,从而提高调查的精度。
另外,还可以获得每个区的家庭收支情况。
按区分层还是比较合理的。因为一般地,同一个区内
家庭收支情况大体相当,当然也不排除一些收支过高或过
低的家庭。而区与区之间的家庭收支一般差别还是比较大
的。这些都有利于分层抽样。