第九章 二重抽样第一节 二重抽样概述第二节 二重分层抽样第三节 二重比估计第四节 二重回归估计返回一、二重抽样的概念在设计和实施某些抽样调查时,需要事先掌握有关总体的一些信息。但在许多场合下,总体的这些有关信息是事先未知的,或者不完全知道。为此,人们提出了二重或多重抽样的方法,以掌握有关总体信息,然后实施抽样调查。
二重抽样也称二相抽样。其基本做法是:对于一个大总体,
先从总体中随机抽取一个较大的样本 (第一重样本 ),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本 (第二重样本 ),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。其中二重抽样是最为常用的。
第一节 二重抽样概述二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:
第一,用于从总体所有基本单元中筛选确定出主调查对象。
第二,用于经常性调查。对于诸如居民的某些收入、居民基本生活支出、某些商品价格等指标,统计部门需经常了解。
第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。
第四,为分层抽样推断提供层权资料。分层抽样推断的前提是总体各单元能按分层标志进行归类并事先已知各层的层权。
第五,为比率估计和回归估计提供辅助资料。
第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。
第七,用于研究样本轮换中的某些问题。
第二节 二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,
如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本 n′,
对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本 n,用于估计总体指标。由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
在二重分层抽样中,
'
'
n
n
w
h
h
为第 h 层估计层权,
n
第一重样本量,
hn '
第一重样本中第 h 层单元数,
n
第二重样本量,
N 总体单元数,
hn
第二重样本中第 h 层单元数 ( 第 h 层第二重样本量 ),
hkh nnv '/?
为第二重抽样第 h 层的抽样比,
hjy
第二重样本中第 h 层第 j 单元观测值,
L 总体层数。
二、估计量及其方差在讨论二重分层抽样估计量的性质之前,我们先给出二重抽样中对估计量

求均值与方差的一般公式如下
)]
([)]
([)
(
) ],
([)
(
2121
21

VEEVV
EEE

其中,
2E

2V
为第一重抽样结果条件下对第二重抽样的均值及方差,
1E

1V
则是对第一重抽样的均值与方差。
据此,可以构造出二重分层抽样的总体均值估计量为

L
h
hhs t Ds t D
ywyY
1
其中
h
n
j
hj
h
h
y
n
y
1
1
为第一重样本第 h 层均值的无偏估计。
可以证明
stDy
是总体均值
st DY
的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为

L
h
h
hh
L
h
h
hh
h
s t D
vn
SW
Nn
S
n
n
n
S
W
N
n
n
S
yVEyVYV
1
2
2
1
2
2
2
211
)1
1
(
'
)
1
'
1
(
)1
'
(
'
)
'
1(
'
)]([)'()
(
其中
)'(1 yV
为第一重抽样之方差,
)(2 yV
为第二重抽样之方差。
以各层的样本方差代替各层的总体方差,以样本各层间方差代替总体方差,则可得方差的近似无偏估计量为
)
'
11
()()
1
'
1
()
(?
1
22
1
2
h
L
h h
hh
L
h
s t Dhhs t D
nn
swyyw
Nn
YV

三、样本容量的最优分配在二重分层抽样中,样本量最优分配的目的是按在费用一定时使方差达到极小,或在方差一定时使费用最省的原则确定第一重样本量 n ′和第二重每层样本量
hn

为此,可以考虑费用函数
hh
nCnCC ''
其中,C ′为第一重抽样平均每一单元的调查费用;
hC
是第二重样本中 h 层平均每个单元的调查费用。
由于
hn
是随机的,因此,我们考虑选择的 n ′与
hv
的期望费用
hhh WvCnnCCEC ''')(
*
另一方面,由于方差函数

L
h
hh
L
h
h
hh
L
h
h
hh
s t D
N
S
n
SW
vn
SW
n
S
vn
SW
Nn
SYV
1
22
1
22
1
2
2
'''
)1
1
(
'
)
1
'
1
()
(
因此,当
)
( s t DYVV?
时,

L
h h
hh
L
h
hh
v
SW
SWS
N
S
Vn
1
2
1
22
2
()('
所以,样本量的最优分配 ( 即 n ′与
hv
的选择 ) 应使函数

L
h
h
hh
L
h
hhhh
v
SW
SWSvCC
N
S
VCQ
1
2
1
22
2
*
]]['[
)(
达到极小。
根据柯西 — 施瓦茨不等式,可以得出符合上述要求的条件是
hhh
hhh
L
h
hh
vSW
vWC
SWS
C
/
'
2
1
22

也即

L
h
hhhhh
SWSCCSv
1
2
1
22
)](/'[
将其代入费用函数 ( 当
*C
给定时 ) 或方差函数 ( 当 V 给定时 ),即可求出
n ′的最优值。
在最优分配条件下,若给定
*C
,则可得出方差的极小值为
N
S
CSWSCSW
C
YV
h
L
h
hhhhhs t D
2
2
1
22
*m i n
]')([
1
)
(
第三节 二重比估计
在使用比估计量时,要求作为辅助变量的总体均值或总和应事先已知,但在实际中可能并
不掌握关于辅助变量的资料,此时,就要考虑采用二重比估计的方法。
二重比估计的基本思路是先在总体中抽第一重样本用以估计总体辅助变量指标,再在一重样本中抽第二重样本按比估计法推断总体调查变量的数值。
二重比估计中常见符号的涵义为,
'n,一重样本量,
n,二重样本量,
'X,总体辅助变量平均数估计值,
iy
:调查变量观测值,
y
:二重样本平均数,
x,辅助变量二重样本平均数用二重比估计法估计
Y
的一般形式为
'?'
XRX
y
x
Y
RD

其中
y
x
R
,是总体比率 R 的有偏估计量,
'
1
'
1
'
n
i
i
x
n
X
,因为 R? 是有偏的,故
RDY
也为有偏的,但当 n 充分大时,
RDY
为近似无偏的。当 n ′和
n 均为简单随机样本时,其方差为
222222
2222
2121
1
)2(
'
1
)2(
1
)2(
'
11
)
1
'
1
(
)]
([)]
([)
(
yxxyxxyy
xxyyy
RDRDRD
S
N
SRRS
n
SRRSS
n
SRRSS
nn
S
Nn
YVEYEVYV

在 N 充分大时,
2)/1(
ySN
项可以忽略。
当 n 为 n ′的子样本时,方差估计量为
)2(
'
1
)2(
1
)
(?
22222
xxyxxyyRD
sRsR
n
sRsRs
n
YV
科克伦曾经证明,在 n ′与 n 相互独立,且均为简单随机样本时,方差估计量为
22222?
'
1
)2(
1
)
(?
xxxyyRD
sR
n
sRsRs
n
YV
显然,
①当 n ′远大于 n 时,两种估计之间的差异很小,并且当 n
是 n ′的子样本时的方差比 n 与 n ′相互独立时的方差要小。
②二重比估计的结果
R
Y

)
(?
R
YV
都是有偏估计量,但随样本量的增大,这些偏差会减小,故它们是近似无偏的,且当 n ′较大时,二重比估计的精度比较高。
③当 n ′ =N 时,二重比估计的估计精度与一般的估计是相同的。但由于 n ′ <N,故二重比估计的精度会低于一般比估计。
当 n=n ′时,二重比估计的估计精度会低于简单随机抽样。
原因是二重比估计增加了第一重样本关于辅助变量的误差。
一般情况下,二重抽样中,n<n ′ 。
④若第一重和第二重样本是各自独立抽取的,也即先从总体中抽取第一重样本 n ′,用以估计辅助信息,然后再从总体中,而不是从一重样本中,抽取第二重样本 n,用以调查和推断总体研究变量,则其精度会更高,但抽样工作量却会大大增加。
二、样本容量的最优分配考虑费用函数
vnCnCCnCC '''
2121

( 其中,
1C
为第一重抽样平均每一单元的调查费用;
2C
是第二重抽样平均每个单元的调查费用,ν =n/n ′为抽样比。 ) 和方差函数
222222
1
)2(
'
1
)2(
1
)
(
yxxyxxyyRD
S
N
SRRS
n
SRRSS
n
YV
样本量的最优分配应是使函数
)]2(
'
1
)2(
1
)[(
)(
22222
21
2
xxyxxyy
SRRS
n
SRRSS
v
vCC
N
S
VCQ

极小化依柯西 — 施瓦茨不等式,有
)2(
)2(
22
2
222
1
xxy
xxyy
SRRSC
SRRSSC
v

因此
2
22
1
222
)2(
)2(
'
CSRRS
CSRRSS
nn
xxy
xxyy

于是,当费用一定时,有
1
22
222
21
2
)2(
'
C
SRRS
SRRSS
CC
C
n
xxy
xxyy

第四节 二重回归估计
一、估计方法
在使用回归估计量时,需要掌握有关辅助变量的资料,当其未知时,一个可行的办法是采用二重抽样加以估计。
二重回归估计的基本思路是先在总体中抽第一重样本作简单测试以估计辅助变量的总体资;再在第一重样本中抽取第二重样本用以对调查变量的总体指标进行估计。
有关符号:
N
:总体单元数,
'n
:一重样本量,
n
:二重样本量,
'/ nnv?
:为第二重抽样比,
'X,辅助变量一重样本估计值,
iy
:调查变量观测值,
ix
:辅助变量观测值,
b
:依第二重样本计算的 ( 线性 ) 回归系数,
r,样本相关系数。
二重回归估计可以采用多种形式,这里只涉及一元线性回归估计,此时,对总体均值的二重回归估计可采用以下形式,
)'(
xXbyY
l r D

当 n 充分大时
YYE
l r D
)
(
其中

n
i
i
n
i
ii
xx
yyxx
b
1
2
1
)(
))((
若 n ′和 n 均为简单随机样本,则估计量的方差为
N
S
n
S
n
S
YV
yyy
l r D
22222
'
)1(
)
(


N
时,估计量的方差可按以下形式进行估计
'
)1(
)
(
2222
n
sr
n
rs
YV
yy
l r D
其中

n
i
ii
n
i
ii
yyxx
yyxx
r
1
22
1
)()(
))((
卡恩与特里帕绥 ( K h a n a n d T r i p a t h i ) 曾将二重一元回归估计推广到多元线性回归。
由此可见,
①若 n ′ =N,则二重回归估计与一般回归估计的效果相同。
若 n ′ =n,则二重回归估计的估计效果同简单随机抽样的相同。因为,在一般情况下,回归估计优于简单随机抽样,所以,n ′越大,则估计效果越好。
②相关系数 ρ 对抽样方差影响较大,ρ 越大,抽样方差越小,
所以有效地利用辅助变量,对提高抽样估计效果是很有帮助的。
③通常二重回归估计的估计精度是低于一般回归估计,原因是二重抽样中,以第一重抽样所估计的 'X 代替了总体 X,因而使抽样方差增加,故二重回归估计精度总比一般回归估计差。但当 n ′增大时,特别当 Nn?',或者当 'X = X 时,二重回归估计与一般回归估计精度一致。
二、样本容量的最优分配在二重回归估计中,费用函数和方差函数分别为
N
S
n
S
n
S
YV
nCnCC
yyy
l r D
22222
21
'
)1(
)
(
'

因此,样本量的最优分配应是使函数
)'](
'
)1(
[
)(
21
2222
2
nCnC
n
S
n
S
C
N
S
VQ
yy
y

达到极小。
则依柯西 — 施瓦茨不等式,有
22
2
1
22
2
2
'
)1(
yy
S
nC
S
nC
也即
2/1
2
2
2
1
]
)1(
[
'?

C
C
n
n
所以
2
2
1
2
)1(
'
C
C
nn

当给定总费用时,则有
2
21
2
1
)1(
'
CC
C
C
n
三、二重分层估计、比估计和回归估计的比较
1、在回归估计中,一般要求调查变量与辅助变量之间要有很高的相关关系,并且用于辅助资料的费用很低,实际中,这些条件常常难以满足。另外,回归估计的计算过程远比比估计和分层估计要复杂。
2、比估计不是无偏的,一般比回归估计有较大的方差。
3、如果调查变量与分层变量是线性相关的,则按比例分层的得益与回归估计基本一致。此时,使用分层方法还是回归估计法取决于回归方法的计算量带来的费用和分层方法的分层费用的多少。
4、分层抽样常比回归和比率均值有特殊的优越性,
特别是在调查变量与辅助变量为非线性关系时,
按比例分层能得到更大的得益;若分层变量不是数值型时,分层方法仍然可以使用,而回归和比估计方法则不能用。
5、如果辅助变量的总体均值是已知的,则回归和比估计可以在独立于辅助变量的 n次抽选的样本上进行,而在分层抽样中,样本 n必须是第一重样本
n′的子样本。