第一节 分层抽样概述第四章 分层抽样第二节 总体参数的估计第三节 总样本量的分配第四节 分层与提高精度第一节 分层抽样概述
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。
分层时应遵循,尽可能使层内差异小,而使层间差异大,
的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,
因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人 们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。
⑦ 分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
满足下述条件时,分层在精度上会有很大的得益:
①总体是由一些大小差异很大的单元组成的,即总体差异大;
②分层后,每层所包含的总体单元数应是可知的,
也即分层后各层的权重是确知的或可以精确估计的;
③要调查的主要变量(标志)与单元的大小是密切相关的;
④对单元的大小有很好的测量资料可用于分层,
也即分层变量容易确定。
第二节 总体参数的估计
二、估计量
1、总体均值的估计量在分 层抽样中,总体均值 Y 的估计量一般用
sty
表示,它是各层总体均值
hY
的估计量按层权
hW
的加权平均,即
Y
N
YWyY
L
st
N
1
L
1h
h
1h
h
一般情况下,
sty
≠
y
=
L
h
1
st
y
n
在分层随机抽样中,
hy
是
hY
的无偏估计量,即 Y? =
hy
,因此,
L
h
h
W yy
st
也是 Y 的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量
L
h
hhN? yyNY stst
3、总体比例 P 的估计量按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为,
h
h h
hhh
pWPWP L L
st
可以证明,在分层随机抽样中,
sty
Y 的无偏估计量,
stY?
是Y的无偏估计量,
stP?
是
P的 无偏估计量。
三、估计量的方差
1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸
h
Y 也相互独立,因此总体均值
Y 估计量的方差是总体各层均值估计量方差的加权平均,即
L
h
h
2
h )
(W)()?( YVyvYV
stst
式中
)?( hYV
是第 h 层总体均值估计量的方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差,
Lstst YVNYVNYV
h
h
2
h
2 )?()?()?(
3、总体比例估计量的方差估计总体比例,当
hN
充分大时,有,
L
h
h
2
h )
()?( PVWPV
st
对于分层随机抽样则可以写出其方差的具体形式来。
四、方差的估计量
按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,
各层的总体方差又常常是未知的,此时,
一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
第三节 总样本量的分配
一、总样本量在各层间的分配
在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:
精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?
数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?各层的容量大小问题。
总样本量在各层间分配时可采用如下方法,
(一)比例分配在分层抽样中,若各层的抽样比都相同,即 f h =f,则称总样本量为按比例分配。此时
N
nn
h
h
N
所以
h
hh
N
W
N
n
n
,因此,
hh nWn?
。 (
hn
应取整 )
比例分配时,总体中任一单元的入样概率都相等,都为 f =n/N 。由此所得到的样本称为是自 加权的或等加权的。在这种情况下
L n
i
stst ynnyY
1h 1
hi
h 1
y
1?,
kyy
n
NyNY
stst
,(
n
Nk? 为常数 )
即
stY
或
stY?
为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。
对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式,
Lstp r o pstp r o p SWn fyVYV h 2hh1)()?(
(二)最优分配
1、一般情形
在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。
h
L
1h
hh
hhh
h
C
C
SW
SW
nn
=
h
L
1h
hh
hhh
C
CSN
SN
n
(
hn
应取整 )
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
2、特殊情形 —— 内曼分配如果各层内每个单元的平均抽样费用相等,也即
0h CC?
时,最优分配简化为:
L
1h
hh
hh
L
1h
hh
hhh
n
SN
SN
SW
SWn
即
hn
=
L
1h
hh
hh
SW
SW
n
L
1h
hh
hh
SN
SN
n
(
hn
应取整 )
在内曼分配时,估计量
stY
所能达到的最小方差为,
)()?( sto p tsto p t yVYV
N
S
n
S
L
1h
2
hh
L
h
2
hh
W)W(
=
n
S?
L
h
2
hh
)W(
-
N
S
2
3、某些层需要超过 100 % 抽样时 的修正
hn
若抽样比f=n/N较大,而个别层的
hS
也很大,则按最优分配,一些层的
hn
有可能超过
hN
( 即
hf
> 1) 。这时,可以对这些极端层进行 100% 抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行 分配。
4、估计 p 时的最优分配
1)一般情形
L
h
hhhh
hhhh
L
h
hhhh
hhhh
h
)1(N
)1(
)1(W
)1(
CPP
CPPN
n
CPP
CPPW
nn
2)特殊情形 —— 内曼分配
L
h
hhh
hhh
L
h
hhh
hhh
h
)1(N
)1(
)1(W
)1(
PP
PPN
n
PP
PPW
nn
5、最优分配与比例分配的精度比较比例分配时估计量的方差为,
222 111
)( S
N
S
n
S
n
f
yV
stp r o p
,
而内曼分配时估计量的最小方差为,
)( sto p t yV
=
L
h
22
hh
1
)(
1
S
N
SW
n
,
因此,
)( stp r o p yV
-
)( sto p t yV
=
L
h
2
hh
2
)(
1
SWS
n
=
L
h
2
hh
0)(W
1
SS
n
若诸
hS
很接近,则比例分配与内曼分配的精度相差无己。只有当各层的
hS
相差较大时,最优分配比比例分配在精度上才有较大的得益 。因此,在设计抽样方案时,可依已有的信息对各层的
hS
的离散程度加以分析,以决定是采用比例分配还最优分配。
讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什 (L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②
最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于 0.1到 0.9之间变动的值是不敏感的。
③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本 (即使其抽样比为 1),以完全排除它对抽样误差的影响。
二、总样本量的确定
1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有,
nwn hh?
,
代入总体均值估计量的方差的计算公式,则有,
L
h
hh
L
h h
hh
st
SW
Nw
SW
n
yV
1
2
1
22
11
)(
,
于是对给定的V,
L
h
hh
L
h h
hh
SW
N
V
w
SW
n
1
2
1
22
1
当 hh Ww? 比例分配 ) 时当
L
h
hh
hh
h
SW
SWw
1
( 内曼分配 ) 时当各层抽样费用不同,而总费用给定时
2、估计总体总和的情形同样的道理,可得出对给定的分配 形式(
nwn hh?
)有,
L
h
hh
h
L
h
hh
SNVN
wSN
n
22
22
,
当比例分配时
22
22
22
2
SNVN
SN
SNVN
SNN
n
L
h
hh
L
h
hh
,
当内曼分配时
22
22
22
2
)(
)(
SNVN
SN
SNVN
SN
n
L
h
hh
L
h
hh
3、估计总体比例的情形若
hN
较大,则
2
hS
≈
)1( hh PP?
,此时可进一步求出估计 P 时对给定的分配形式
(
hh nwn?
) 有,
L
h
hhh
h
hhh
PPW
N
V
w
PPW
n
)1(
1
)1(
2
,
比例分配时,
)1(
1
)1(
PP
N
V
PP
n
,
内曼分配时,
L
h
hhh
L
h
hhh
PPW
N
V
PPW
n
)1(
1
))1((
2
第四节 分层与提高精度
是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,
那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?
二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?
一,分层随机抽样与简单随机抽样的精度比较
二、设计效应
三、层权误差的影响
四、分层标志的选择
五、层数的确定
六、层界的确定
七、抽样后分层
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。
分层时应遵循,尽可能使层内差异小,而使层间差异大,
的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,
因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人 们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。
⑦ 分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
满足下述条件时,分层在精度上会有很大的得益:
①总体是由一些大小差异很大的单元组成的,即总体差异大;
②分层后,每层所包含的总体单元数应是可知的,
也即分层后各层的权重是确知的或可以精确估计的;
③要调查的主要变量(标志)与单元的大小是密切相关的;
④对单元的大小有很好的测量资料可用于分层,
也即分层变量容易确定。
第二节 总体参数的估计
二、估计量
1、总体均值的估计量在分 层抽样中,总体均值 Y 的估计量一般用
sty
表示,它是各层总体均值
hY
的估计量按层权
hW
的加权平均,即
Y
N
YWyY
L
st
N
1
L
1h
h
1h
h
一般情况下,
sty
≠
y
=
L
h
1
st
y
n
在分层随机抽样中,
hy
是
hY
的无偏估计量,即 Y? =
hy
,因此,
L
h
h
W yy
st
也是 Y 的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量
L
h
hhN? yyNY stst
3、总体比例 P 的估计量按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为,
h
h h
hhh
pWPWP L L
st
可以证明,在分层随机抽样中,
sty
Y 的无偏估计量,
stY?
是Y的无偏估计量,
stP?
是
P的 无偏估计量。
三、估计量的方差
1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸
h
Y 也相互独立,因此总体均值
Y 估计量的方差是总体各层均值估计量方差的加权平均,即
L
h
h
2
h )
(W)()?( YVyvYV
stst
式中
)?( hYV
是第 h 层总体均值估计量的方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差,
Lstst YVNYVNYV
h
h
2
h
2 )?()?()?(
3、总体比例估计量的方差估计总体比例,当
hN
充分大时,有,
L
h
h
2
h )
()?( PVWPV
st
对于分层随机抽样则可以写出其方差的具体形式来。
四、方差的估计量
按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,
各层的总体方差又常常是未知的,此时,
一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
第三节 总样本量的分配
一、总样本量在各层间的分配
在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:
精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?
数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?各层的容量大小问题。
总样本量在各层间分配时可采用如下方法,
(一)比例分配在分层抽样中,若各层的抽样比都相同,即 f h =f,则称总样本量为按比例分配。此时
N
nn
h
h
N
所以
h
hh
N
W
N
n
n
,因此,
hh nWn?
。 (
hn
应取整 )
比例分配时,总体中任一单元的入样概率都相等,都为 f =n/N 。由此所得到的样本称为是自 加权的或等加权的。在这种情况下
L n
i
stst ynnyY
1h 1
hi
h 1
y
1?,
kyy
n
NyNY
stst
,(
n
Nk? 为常数 )
即
stY
或
stY?
为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。
对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式,
Lstp r o pstp r o p SWn fyVYV h 2hh1)()?(
(二)最优分配
1、一般情形
在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。
h
L
1h
hh
hhh
h
C
C
SW
SW
nn
=
h
L
1h
hh
hhh
C
CSN
SN
n
(
hn
应取整 )
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
2、特殊情形 —— 内曼分配如果各层内每个单元的平均抽样费用相等,也即
0h CC?
时,最优分配简化为:
L
1h
hh
hh
L
1h
hh
hhh
n
SN
SN
SW
SWn
即
hn
=
L
1h
hh
hh
SW
SW
n
L
1h
hh
hh
SN
SN
n
(
hn
应取整 )
在内曼分配时,估计量
stY
所能达到的最小方差为,
)()?( sto p tsto p t yVYV
N
S
n
S
L
1h
2
hh
L
h
2
hh
W)W(
=
n
S?
L
h
2
hh
)W(
-
N
S
2
3、某些层需要超过 100 % 抽样时 的修正
hn
若抽样比f=n/N较大,而个别层的
hS
也很大,则按最优分配,一些层的
hn
有可能超过
hN
( 即
hf
> 1) 。这时,可以对这些极端层进行 100% 抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行 分配。
4、估计 p 时的最优分配
1)一般情形
L
h
hhhh
hhhh
L
h
hhhh
hhhh
h
)1(N
)1(
)1(W
)1(
CPP
CPPN
n
CPP
CPPW
nn
2)特殊情形 —— 内曼分配
L
h
hhh
hhh
L
h
hhh
hhh
h
)1(N
)1(
)1(W
)1(
PP
PPN
n
PP
PPW
nn
5、最优分配与比例分配的精度比较比例分配时估计量的方差为,
222 111
)( S
N
S
n
S
n
f
yV
stp r o p
,
而内曼分配时估计量的最小方差为,
)( sto p t yV
=
L
h
22
hh
1
)(
1
S
N
SW
n
,
因此,
)( stp r o p yV
-
)( sto p t yV
=
L
h
2
hh
2
)(
1
SWS
n
=
L
h
2
hh
0)(W
1
SS
n
若诸
hS
很接近,则比例分配与内曼分配的精度相差无己。只有当各层的
hS
相差较大时,最优分配比比例分配在精度上才有较大的得益 。因此,在设计抽样方案时,可依已有的信息对各层的
hS
的离散程度加以分析,以决定是采用比例分配还最优分配。
讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什 (L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②
最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于 0.1到 0.9之间变动的值是不敏感的。
③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本 (即使其抽样比为 1),以完全排除它对抽样误差的影响。
二、总样本量的确定
1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有,
nwn hh?
,
代入总体均值估计量的方差的计算公式,则有,
L
h
hh
L
h h
hh
st
SW
Nw
SW
n
yV
1
2
1
22
11
)(
,
于是对给定的V,
L
h
hh
L
h h
hh
SW
N
V
w
SW
n
1
2
1
22
1
当 hh Ww? 比例分配 ) 时当
L
h
hh
hh
h
SW
SWw
1
( 内曼分配 ) 时当各层抽样费用不同,而总费用给定时
2、估计总体总和的情形同样的道理,可得出对给定的分配 形式(
nwn hh?
)有,
L
h
hh
h
L
h
hh
SNVN
wSN
n
22
22
,
当比例分配时
22
22
22
2
SNVN
SN
SNVN
SNN
n
L
h
hh
L
h
hh
,
当内曼分配时
22
22
22
2
)(
)(
SNVN
SN
SNVN
SN
n
L
h
hh
L
h
hh
3、估计总体比例的情形若
hN
较大,则
2
hS
≈
)1( hh PP?
,此时可进一步求出估计 P 时对给定的分配形式
(
hh nwn?
) 有,
L
h
hhh
h
hhh
PPW
N
V
w
PPW
n
)1(
1
)1(
2
,
比例分配时,
)1(
1
)1(
PP
N
V
PP
n
,
内曼分配时,
L
h
hhh
L
h
hhh
PPW
N
V
PPW
n
)1(
1
))1((
2
第四节 分层与提高精度
是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,
那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?
二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?
一,分层随机抽样与简单随机抽样的精度比较
二、设计效应
三、层权误差的影响
四、分层标志的选择
五、层数的确定
六、层界的确定
七、抽样后分层