§ 1 分层抽样及估计量
简单随机抽样是最基本的抽样手段,在一些小型的抽样
调查中被人们采纳。所谓小型是指总体容量 N 较小,当总体
容量 N 较大时,不便采用简单随机抽样方法。这时,分层抽
样将起到作用。
第四章 分 层 抽 样
根据调查的要求,将总体 N 划分为若干个子总体
(通常用总体或子总体的容量大小来表示总体或子
总体本身),实质上是将总体分为 k 层。独立地在各层中
进行抽样,称为 分层抽样 。如果在各层中的抽样都是简单随
机进行,则称为 分层随机抽样,所得的样本称为 分层随机样
本。
,,21 NN
kN,?
总体如何分层是一门学问。
一般来说,按照调查的目的要求,从地区、民族、指标
的反映程度等因素出发考虑分层。因为一项社会经济调查,
常常不仅需对总体的有关参数进行估计,而且对一定群体的
相应参数也需要估计。例如,调查全国的消费物价指数,同
时想知道各省市的消费物价指数,根据这种要求自然以全国
所有省市作为层来进行抽样。如果我们希望在样本中有某些
子总体的代表,比如前面所讲的民族的代表,那么分层就要
考虑到这些子总体作为独立的层。
应当注意,按照某种因素或特征进行分层时,各层之间
具有明显的区分界限将会提高估计的精度 。样本既然考虑到
各种类型的代表性,那么这样获取的样本就更能代表总体,
直观告诉我们,这种样本用来估计总体会达到较小的误差。
各层中的抽样是独立进行的。这一事实还包括在各层中
所采取的抽样手段完全可以不相同,在一个层进行简单随机
抽样,在另一层则可采用更复杂一些的抽样,完全视各层的
情况不同而定,这种因地制宜的手段将使样本尽可能反映总
体的特性以及子总体的特性。
现在考虑分层抽样的具体估计方法,首先引进一些符号
1、符号
总体 N=
kNNN 子总体子总体子总体 ???? 21
?
?
?
k
h
hNN
1
第 h 层的单元标志值记为,从该层抽
取的样本记为,第 h 层子总体的总体平均
数为,子总体之和为,样本平均数记为,其和
),,2,1( hhi NiY ??
),,2,1( hhi niy ??
hY hY
~ hy hy~
再记,表示第 h 层在总体中的权重,一般假定它
是已知的。 表示 h 层中的抽样比。
NNW hh ?
hhh Nnf ?
)1()(
1
22 ??? ?
?
h
N
i
hhih NYYS
h 第 h 层层内方差
)1()(
1
22 ??? ?
?
h
n
i
hhih nyys
h 第 h 层样本方差
2、参数的估计量
假定我们想估计总体的平均数,获取的样本是分层
随机样本。将 写为:
Y
Y
? ??
? ??
??
k
h
N
i
hi
N
i
i
h
Y
N
Y
N
Y
1 11
11 ?
?
?
k
h
hhYN
1
1 ?
?
?
k
h
hhYW
1
(4.1)
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第 h
个小盒子中的单元值是,小盒子的平均数
是,方差是,该小盒子在大盒子里所占的权为,分
层随机抽样是指从每个小盒子里按一定份额 (
)作随机无放回抽样。
hhNhh YYY,,,21 ?
hY 2hS hW
hn
nnnn k ???? ?21
kh,,2,1 ??
由第三章知道,是 的无偏估计量,因此,由 (4.1)式
可知,的一个无偏估计量自然地选为:
hy hY
Y
?
?
?
k
h
hhst yWy
1
?
?
?
k
h
hh yNN
1
1(或 ) (4.2)
??
??
?????
k
h
hh
k
h
hhstst yNyWNyNy
11
~ (4.3)
总体总和 的无偏估计可选为:Y~
1
( ) ( )
k
s t h h
h
V a r y V a r W y
?
? ?
由于各个小盒子的抽样过程是相互独立的,故各个 相互
独立,由独立随机变量之和的方差计算公式,有
hy
2
1
( ) ( )
k
s t h h
h
V a r y W V a r y
?
? ? 22
1
11()k
hh
h hh
WSnN
?
? ? ? ??
22
1
k
hh
h h
WS
n?
?? ? 22
1
k
hh
h h
WS
N?
???
22
1
k
hh
h h
WS
n?
?? ? 2
1
k
hh
h
WS
N?
??? (4.4)
(4.4)式的第一项 恰好为从各个小盒子里随机有放22
1
k
hh
h h
WS
n?
??
回抽样时得到的 的方差计算公式,而现在是无放回抽样
sty
估计量 的方差为:
sty
因此第二项 表示考虑有限总体修正因子引起的
方差减少。
2
1
k
hh
h
WS
N?
??
如果不用分层抽样,而用大盒子中的简单随机抽样的平均
数来估计总体平均数,此时方差为:
211( ) ( )V ar y S
nN??

22
1
( 1 ) ( )
N
i
i
N S Y Y
?
? ? ?? 2
11
()
hNk
hi
hi
YY
??
????
2
11
()
hNk
h i h h
hi
Y Y Y Y
??
? ? ? ???
2
11
()
hNk
h i h
hi
YY
??
???? 2
1
()
k
hh
h
N Y Y
?
???
2
1
( 1 )
k
hh
h
NS
?
??? 2
1
()
k
hh
h
N Y Y
?
???
(4.5)
(4.5)式两端各除以 (N- 1),假如各层的单元数 都很大,当
近似认为:
hN
1
11
h h h
h
N N N W
N N N
?? ? ?
??
(4.6)
因此直接来自总体的简单随机抽样平均数的方差大约为:
22
11
11( ) ( ) ( )kk
h h h h
hh
V a r y W S W Y YnN
??
??? ? ? ???
????
(4.7)
(4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二
项则表示了各小盒子之间的差异平方和。比较 (4.4)和 (4.7),
若取,那么易见 (4.4)式变为
hhn n W?
2
1
11( ) ( ) k
s t h h
h
V a r y W SnN
?
?? ?
2
1
11( ) ( ) ( ) ( ) 0k
s t h h
h
V a r y V a r y W Y YnN
?
? ? ? ? ??
因此 (4.8)
hhn n W?
也即至少当 时,分层抽样的误差比简单随机抽样
的误差小。相差的部分几乎恰恰只与各层之间的差异平方
和有关。 分层抽样的优点在于通过各层的独立抽样过程而
减少了由于各层之间的差异所造成的误差。
设想一下,如果各小盒子之间没有任何差异,那么各小
盒子的平均数 应当一致,此时各层之间的差异平方和为零
因而分层抽样与简单随机抽样的误差相同,也就是说,分层
与不分层并无不同之处。这个事实告诉我们,为了取得分层
的效果,必须注意层与层之间要有较显著的差异 。当然并不
是讲在总体中分辨不出各有特色的层时就一定不用分层抽样
不过那时的得益在于组织管理上的方便而不表现在精度上。
hY
上述讨论是在所有的 都较大的假设下,利用近似式
(4.6)进行的,如不考虑近似因素,仍设,则有
hhn n W?
hN
22
11
( ) ( )
1 1 1 1
( ) ( ) ( )
1
st
kk
h h h h
hh
V a r y V a r y
N Y Y N N S
n N N N??
?
??
? ? ? ? ???
? ??
??
(4.9)
22
11
1( ) ( )kk
h h h h
hh
N Y Y N N SN
??
? ? ???是否会有 呢?这种情
况的发生实质上意味着分层在精度上不如简单随机抽样。
2
1
()
k
hh
h
N Y Y
?
??
其实,恰好表示各层之间差异平方和
2
1
1 ()k
hh
h
N N SN
?
?? 2
1
( 1 )
k
hh
h
WS
?
??? 在一定程度上表示各层内
差异的平方和。
如果分层使得各层的中心离总体中心比较近,而各层中单元
又比较分散,那么不利于分层抽样的“不幸现象”就会发生。
下面构造这样的一个例子:
例 4.1 假设总体 N=15,分层 k=3,数值如下表
1 2 3 4 5
0 -1 2 5 4
-1 -2 3 6 9
-2 -3 4 5 16
i
h
1
2
3
hY
Y 2
hS
2
3
4
6.5
21.5
57.5
3
15 ( 1,2,3 ),
3hhN h W? ? ?
3
22
11
( ) 5 ( 3) 1 0
k
h h h
hh
N Y Y Y
??
? ? ? ???
2
1
( 1 )
k
hh
h
WS
?
??
3
2
1
1( 1 ) 5 7
3 hh S?? ? ??
产生这种结果的原因
在于对该总体的分层
不合理。可见 合理的
分层对体现分层抽样
的优点至关重要!
下面给出 的近似置信区间
sty
22
1
11( ) ( )k
s t h h
h hh
V a r y W SnN
?
???
由于 中的 是未知的2
hS
用该层中的样本方差进行估计,即
22
1
1 ()
1
hn
h h i h
ih
s y y
n ?
??
? ?
2
22
2
11
1 1 1( ) ( ) ( )kk h
s t h h h h h
hhh h h
sv y W s N N n
n N N n??
? ? ? ???
(4.11)
于是
注意到 是各层样本平均数的加权和,只要 与
适当大,各层样本平均数都可正态近似,因此 也可正态
近似,这样得到 的 的近似置信区间为:
sty,hhNn hhNn?
sty
Y (1 )??
2211
( ( ),( ) )s t s t s t s ty u v y y u v y??????
(4.12)
§ 2 比例分配及最优分配
简单随机抽样只需根据调查精度的要求与费用的限制来
确定抽样容量的大小。而分层抽样则提出另一个重要的问题
一旦确定 n,又如何在各层中分配抽样容量,其中有一些
问题需要考虑,比如在各层中各有精度的要求以及费用的限
制,由于各层具有各自的鲜明特点,其花费自然不同,因而
在样本容量的分配上必须带有经济观点。另一个重要因素是
由于 的不同而带来数据处理的困难。我们的样本量分配必
须尽可能地使估计量及其方差估计具有较简单的形式,从而
使数据汇总工作量趋小,做到省时省力。
hn
hn
1、比例分配
由于我们假设每层的单元数 为已知,合理且自然的
想法是哪个层的单元数多则相应抽取的样本量也大。
hN
根据这个原则,可以使每层的样本量 与该层的大小
成比例,即:
hNhn
hhn N n N?
或 ( 1,2,,)
hf f h k??
(4.13)
采用这种分配样本量的方法称为 比例分配 。
我们知道,简单随机抽样中总体的每一个单元入样的概
率即为抽样比 。因而,按比例分配而在各层中进行
简单随机抽样的分层方法实际上使总体中任何一个单元入样
的概率都为,对于这种等概率抽取的样本,此时:
f n N?
f n N?
显然估计量具有相当简洁的形式。
st st
Ny N y N y y
n? ? ? ? ?
(4.15)
1
k
s t h h
h
y W y
?
???
11
1()knk h
hi
hi h
n y
nn?????? 11
1 knk
hi
hi
yyn
??
????
(4.14)
不管那种抽样方法,如果总体总和的无偏估计可以像
(4.15)式那样写成样本总和的常数倍,那么这种样本(或估
计量)称为 自加权的 或 等加权的 。
按比例分配的分层抽样就是自加权的,它的有关总体平均数
估计以及估计量的方差计算与估计,上一节已经进行了讨论
2、最优分配
自加权的比例分配方法使得估计量呈现简单形式,并且
在直观上与实用上都使人们感觉到它的合理性与方便。但是
它没有回答是否在给定费用下能使估计量的方差达到最小或
对给定 的方差大小时能使总费用达到最小。分层抽样中
的样本量在各层中分配力求使得上述问题得到解决,这样的
分配称为 最优分配 。
sty
考虑最简单的线性费用函数:
0
1
k
hh
h
c c c n
?
?? ?
(4.16)
其中 c 为总费用,为基本费用且与样本量无关,是第 h
层中单位样本所花费的费用。
0c hc
若总费用 c 为给定的,各层相应的分配量为
那么此时分层抽样 的方差为:
( 1,2,,)hn h k?
sty
2 2 2
11
()
kk
h h h h
st
hh h
W S W SV a r y
nN??
?????? (4.17)
给定总费用 c 为使 (4.17)式达到最小,可利用条件极值的拉
格朗日乘数法。令
2 2 2
0
1 1 1
()
k k k
h h h h
hh
h h hh
W S W ST c c c n
nN ?? ? ?
??? ? ? ? ?? ? ?(4.18)
22
2 0
hh
h
hh
WST c
nn ?
?? ? ? ? ?
?
令 ( 1,2,,)hk?
由于 为常数,将 (4.19)对所有的 h 求和,并利用?
1
k
h
h
nn
?
??
1
h h h
k
h h h
h
n N S c
N S c
?
?
?
( 1,2,,)hk? (4.22)
所以
1
h h h
h k
h h h
h
W S c
nn
W S c
?
??
?
( 1,2,,)hk? (4.21)

1
k
hh
h h
WS n
c
?
?
? ?
(4.20)

hh
h
h
WS c
n ??
hh
h
h
WS n
c ???
或 (4.19)
(4.22)式表明,越大 (即层越大 ),则层内抽样应越多;又若
越大 ( 即层内方差越大 ),则层内抽样也应越多;但如果
越大 ( 即层内平均每单元抽样费用越大 ),则该层中抽样
应少一些。这些关系在直观上很容易为人们所接受。
hN
hS
hc
在最优分配中,如果每层中单位抽样的费用相等,
那么最优分配简化为:
hcc?
11
h h h h
h kk
h h h h
hh
W S N Sn n n
W S N S
??
? ? ? ?
??
( 1,2,,)hk? (4.23)
我们称 (4.23)式为 Neyman分配 。利用 (4.23)可以计算出此时的
方差为:
22
m i n
11
( ) ( )
h
kk
s t h h h
hh
V y W S n W S N
??
????
(4.24)
(4.24)式给出了 Neyman分配下 的最小方差。
sty
1 2 3
0 1 2
4 6 11
i
h
1
2
hY
Y2
hS
1
7
1
13 4
hW
1/2
1/2
例 4.2,构造一个虚拟总体,N= 6,分为两层,各层的单元值
如下表:
如果抽样容量为 n= 4,现按比例分配,则有
4 6 2 3hhn N n N? ? ?1,2h? 12 2nn??
此时,的方差由 (4.4)式可得:sty
2 2 222
11
() h h h hst
hh h
W S W SV a r y
nN??
??????
1 1 1 11 1 3 1 1 3
74 4 2 2
2 2 6 6 1 2
? ? ? ?
? ? ? ? ?
现若采用 Neyman分配,假设各层单位抽样费用相同,由 (4.23)
11
1
1 1 2 2
1
41
2 0, 8 7 1
11
1 1 3
22
n W S
n
W S W S
??
? ? ? ?
? ? ? ?
22
2
1 1 2 2
1
4 1 3
2 3, 1 3 3
11
1 1 3
22
n W S
n
W S W S
??
? ? ? ?
? ? ? ?
仍按 (4.4)式计算可得:
1 1 1 11 1 3 1 1 3
14 4 2 2( ) 0, 1 6 7
1 3 6 6 6st
V a r y
? ? ? ?
? ? ? ? ? ?
按最小方差公式 (4.24)有
2
min
1 1 1 1 1 1( ) ( 1 1 3 ) ( 1 1 3 ) 0,1 5 8
4 2 2 6 2 2stVy ? ? ? ? ? ? ? ? ? ? ?
可以看到,最优分配下的方差比按比例分配的方差要小的多
理论上的最小方差比实际计算还要小,这是因为实际上 只
能取整数,因而产生的方差比理论最小值稍大一些。
hn
通过这些讨论可知,对样本平均数来讲,简单随机抽样
的方差大于按比例分配的分层抽样方差,当然这是在分层合
理的情况下的规律,而分层抽样中按比例分配方式的方差又
大于最优分配下的方差。
但在具体实施最优分配方案时,可能会发生意外的麻烦
为方便起见,以 Neyman 最优分配为例,假设某一层的方差
特别大 (不妨假设 很大 ),又整体抽样比 比较大,
此时:
21S f n N?
1 1 1 1
11
1
11
kk
h h h
hh
N S N S
n n n f N
N S S N
??
? ? ? ? ?
??
由于不等号严格成立,如果 f比较大的话,很有可能发生
的情况。这样我们至少对于该层要实施 100%的抽样,若不够
怎么办?自然是将余额 分配到其它各层去,这种再分
配当然也应采用最优原则。仍假定为 Neyman 分配情形,通常
的步骤为:
11nN?
11nN?
11nN? 11nN?
若,则令 (即第一层为普查 ),且
1
2
() hhh k
hh
h
WS
n n N
WS
?
? ? ?
?
2,3,,hk?
1nN?
这实质上就是将 按 Neyman 分配原则分配到其余层
如果此时所有,那么分配完毕,否则,假
如,则令,而
( 2 )hhn N h??
22nN? 1 1 2 2,n N n N????
12
3
() hhh k
hh
h
WS
n n N N
WS
?
? ? ? ?
?
3,4,,hk?
如果此时所有,那么分配完毕,否则,继
续这个过程直到所有的 为止。此时的最优分配所可
能达到的最小方差需要做适当修改:
( 3 )hhn N h??
hhnN?
22
min
11( ) ( ' ) '
hs t h h h
hh
V y W S W SnN??? ??
(4.27)
其中 是仅对最后实际分配的 层求和,而 是
这些层中抽取的单元总数。直观上很容易理解它,因为那些
普查的层再也不存在所谓抽样误差,自然要从原来的公式中
去掉。
'
h
? hhnN? n?