第八章 多阶抽样第一节 多阶抽样概述第二节 一阶单元等大小的两阶抽样第三节 一阶单元不等大小的两阶抽样返回第一节 多阶抽样概述
一、多阶抽样的基本概念
根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对它们进行全面调查,我们把这种抽样技术称为两阶抽样。它是由印度统计学家马哈拉诺比斯首先提出来的。
二、多阶抽样的特点
(一 )便于组织抽样 (二 )抽样方式灵活,有利于提高抽样的估计效率 (三 )多阶段抽样对基本调查单元的抽选不是一步到位的 (四 )多阶段抽样实质上是分层抽样与整群抽样的有机结合 (五 )多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框 (六 )多阶抽样还可用于,散料,的抽样,即散料抽样第二节 一阶单元等大小的两阶抽样返回一,估计量及其方差由于二阶抽样中,抽样过程分成两步,因此,对于总体参数? 的估计量 求均值和方差时,必须把这两阶抽样过程所能产生的所有样本加以平均,即
)?()?( 21 EEE?
)?()?()?( 2121 VEEVV
其中,E 表示所有样本的期望值或均值,
1E

1V
分别表示对第一阶抽样求的均值与方差,
2E

2V
分别表示对固定的第一阶抽样中抽得的一组一阶单元对第二阶抽样求的均值与方差。
1,总体均值的估计对于二阶抽样,若两个阶段的抽样都 是简单随机的,则其总体均值 Y 的无偏估计量为

n
i
i
n
i
m
j
ij
y
n
myyY
11 1
0
1
,
由于在每个一阶单元中的第二阶抽样是相互独立进行的,所以,在二阶段都用不放回方法抽样时,其总体均值估计量的方差可构造为
2
2
22
1
1
11
)( S
mn
f
S
n
f
yV
=
N
S
mn
S
M
S
S
n
2
1
2
2
2
22
1
)(
1

可以证明其方差的无偏估计量为
2
2
212
1
1
)1(1
)(? s
mn
ff
s
n
f
yV
若两阶段的抽样都是不放回简单随机的,则总体比例 P 的无偏估计量为

n
i
ip
n
pP
1
1?
其方差为
2
1
22
1
1 11)?()?( S
Mn
f
S
n
f
pVPV

方差估计量为
2
2
22
1
1 11)(? s
mn
f
s
n
f
pV
2、总体比例的估计可求得 m 的最优值为
2
1
2
22
1
2
C
C
M
SS
Sm
o p t
( 其中 MSS 2
221?
)
求出 m 后,将其代 入估计量方差的计算公式或上述线性费用函数式中,即可求出 n 的值。
这样就可确定出最佳的抽样比
1f

2f

特别地,当
12?f
时,即 Mm? 时,二阶抽样就化为对一阶单元进行的单级整群抽样,
故其估计量的方差及其 估计量就转变为整群抽 样估计量的方差及其估 计。当
11?f
,即
Nn? 时,二阶抽样就化为按比例分配的分层随机抽样,且其层权相等,此时二阶抽样估计量的方差及其估计也就转变为分层随机抽样估计量的方差及其估计。所以,一般地二阶抽样也可看作是把一阶单元作为层的不完全的分层抽样。
3.最佳抽样比的确定按费用固定条件下,使方差极小,或在方差固定条件下使费用极小的条件二、分层二阶抽样
设总体分成 L层,第 h层有 Nh个一阶单元,
每个一阶单元均含 Mh个二阶单元。在第 h
层随机抽了 nh个一阶单元,又从每个被抽中的一阶单元中随机抽了 mh个二阶单元。
则的估计量为
h
L
h
hst yWy
其中
L
h
hh
hh
h
mN
MN
W
是按二阶单元的层权;
hh
n
i
m
j
h i jh
mnyy
h h
/
1 1

为第 h层的样本均值 。 其方差为
)
11
()(
2
2
22
1
12
h
hh
h
h
h
h
L
h
hsh
S
mn
f
S
n
f
WyV

方差估计量为
)
)1(1
()(?
2
2
212
1
12
h
hh
hh
h
h
h
L
h
hsh s
mn
ff
s
n
f
WyV

其中
上式乘以
h
h
h
h
h
h M
mf
N
nf
21,
2)(?
L
h
hh MN
则得 stY?
即总体中每个二阶单元入样的概率都相等,则样本是自加权时,
常数
h
h
h
h
hh
M
m
N
n
ff 21
ymnyy
L
h
hh
L
h
n
i
m
j
h i jst
h h

11 1 1
/
三、三阶抽样
设总体中含有 N个一阶单元,每个一阶单元又含 M个二阶单元,
而每个二阶单元中又含有 K个三阶单元,各阶样本大小分别为
n,m和 k。
令 yiju(u=1,2,? K)为第 i个一阶单元的第 j个二阶单元中,第 u个三阶单元的观测值,则

M
j
K
u
ijui
K
u
ijuij
y
MK
Y
y
K
Y
1 1
1
1
1

N
i
M
j
K
u
iju
y
N M K
Y
1 1 1
1
2
1
2
1
)(
1
1
YY
N
S
N
i
i?
2
1 1
2
2
)(
)1(
1
ij
N
i
M
j
i
YY
MN
S?

2
1 1 1
2
3 )(
)1(
1
ij
N
i
M
j
K
u
iju Yy
KNM
S?

m
j
k
u
ijui
k
u
ijuij
y
mk
y
y
k
y
1 1
1
1
1

n
i
m
j
k
u
ijuyn m ky
1 1 1
1
2
1
2
1
)(
1
1
yy
n
s
n
i
i?
2
1 1
2
2
)(
)1(
1
ij
n
i
m
j
i
yy
mn
s?

2
1 1 1
2
3 )(
)1(
1
ij
n
i
m
j
y
u
iju yy
knm
s?

若 三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为
Y
n
i
iy
n
y
1
1
其方差为
方差的无偏估计量为
2
3
32
2
22
1
1 111)( S
m n k
fS
nm
fS
n
fyV
2
3
3212
2
122
1
1 )1()1(1)(? s
m n k
fffs
nm
ffs
n
fyV
其中
K
k
f
M
m
f
N
n
f 321,,
第三节 一阶单元不等大小的两阶抽样在两阶抽样中,各一阶单元所包含的二阶单元数不等是最普遍的现象,因此对其样本指标和抽样方差的估算,具有普遍意义,但较一阶单元等大小的估算复杂很多。根据各个一阶单元的不相等及其差异程度是否悬殊,在抽样时 (即抽取一阶单元时 )就要考虑采用等概抽样或不等概抽样。
一、等概率抽样
在进行两阶段抽样时,不考虑各一阶单元权重 (主要用所含二阶单元数的多少表示 )的不同,一律予以同等被抽中的机会,在的变 异不大时,既简单易行,且效果也好;当的 变异悬殊时,则会对抽样产生不合理的影响。
假定总体由 N个一阶单元组成,第 i个一阶单元包含个 二阶单元。从 N个一阶单元中按简单随机抽样抽取 n个一阶单元,然后在每个被抽中的一阶单元中按简单随机抽样抽取个二阶单元。
iM
iM
iM
1、简单估计量
由于两阶段的抽样都是简单随机的,因此总体总和的无偏估计量为
当两阶段均为不放回抽样时,其方差为

n
i
n
i
ii
n
i
ij
i
i
n
i
iu yMn
Ny
m
M
n
NY
n
NY
1 111

n
i i
iii
n
i
i
u m
SfM
n
N
n
YY
n
fN
YV
1
2
22
2
1
2
1
2 )1(
1
)(
)1(
)?(

n
i i
iii
n
i
i
u m
sfM
n
N
n
YY
n
fN
YV
1
2
22
2
1
2
1
2 )1(
1
)(
)1(
)?(
1f
iii Mmf /2?
方差的无偏估计量为其中
=n/N为第一阶段抽样比,
为第 i个一阶单元内的抽样比;

iM
j
iij
i
i YyMS
1
22
2 )(1
1
im
j
iij
i
i yyms
1
22
2 )(1
1

n
i
iiiiiii YnYmyyMYY
1
1?,/,/
i
i
i M
mf?
2

若,即第二阶段的抽样比为常数,则

n
i
m
j
iju
i
y
nf
NY
1 12
uY? N
nf2
0

M
YY u?
2
0/)?()
( MYVYV
u?
2
0/)?(?)
(? MYVYV
u?
N
i
iMM
1
0
可见,此时是自加权的,是总体中每个二阶单元入样的概率。
其方差为方差估计量为其中若估计总体均值,则有简单估计量 虽然是无偏的,但效果一般不好,
方差较大。因此也可利用以 为辅助变量来构造比估计量。
uY?
iM

n
i
i
n
i
ii
n
i
i
n
i
ii
R
M
YM
M
yM
MY
1
1
0
1
1
0

n
i
i
n
i
ii
R
M
yM
Y
1
1?
2、比估计量比估计量是有偏的,其估计量 的近似方差为
RY?

n
i i
iii
n
i
ii
R m
SfM
n
N
N
YYM
N
fN
YV
1
2
22
2
1
22
1
2 )1(
1
)(
)1(
)?(

n
i i
iii
n
i
Rii
R m
sfM
n
N
n
YyM
n
fN
YV
1
2
22
2
1
22
1
2 )1(
1
)
(
)1(
)?(?
方差估计量为其中 用 估计由此易得关于 估计量的相应结果
RY
20/)?()?( MYVYV RR?
20/)?()?(? MYVYV RR?
M?
n
i
iMn
1
1
就可得到估计比例 P的公式。由于二阶单元总数通常是未知的,这里给出比估计的公式。
设 表示第 i个一阶单元的二阶样本单元中具有某特性的单位占的比例,则总体中具有该特性的单位占的比例的估计量在估计 的公式中,令Y

,个二阶单元不具某特性个一阶单元中第若第,
,个二阶单元具有某特性个一阶单元中第若第
ji
jiy
ij 0
,1
iP?

n
i
i
n
i
ii
M
PM
P
1
1
3、比例的估计

n
i i
ii
ii
n
i
ii
m
PP
fM
MnNn
PPm
Mn
f
PV
1
2
2
2
1
2
2
1
1
)?1(?
)1(?
1
1
)(
1
)?(?,
n
i
iMnM
1
1?
其方差估计量其中二、不等概率抽样
( 一 ) 放回的不等概率抽样
1,估计量及其方差,
设总体由 N 个一阶单元组成,第 i 个一阶单元包含
iM
个二阶单元。
按 PPz 抽样 ( 与第一阶单元的大小成比例的放回地逐个独立地抽样 ) 抽取了 n 个一阶单元,第 i 个一阶单元入样的概率为
iz
,
1
1

N
i
i
z



N
i
iii
MMMMz
1
''
0
'
0
'
/,
'
iM
为衡量第 i 个一阶单元大小尺度;若
'
iM
为确知,则
0
1
/ MMz
i
N
i
i

)。 然后在被抽中的一阶单元中,按简单随机抽样,抽取
im
个二阶单元,
)21(/2 niMmf iii,,,
(1) 如果一阶单元被重复抽中,则原来在第二阶段抽样中被抽中的
im
个二阶单元也放回,按简单随机抽样再抽
im
个二阶单元。在这种情况下,总体总和的无偏估计量是

n
i i
ii
n
i i
i
ppz
z
yM
nz
Y
n
Y
11
1
1
pp z
Y?
可看作是从总体
},,2,1,/?{ 1 NizY i
中独立抽取的一个大小为 n 的样本 ( 对一阶单元而言 ) 的样本均值。可以证明,
Y
z
Y
E
i
i
)
(
所以,
pp z
Y?
是 Y 的无偏估计,其方差为

N
i ii
iii
N
i i
i
ippz
mz
SfM
Y
z
Y
z
n
YV
1
2
22
2
1
2
]
)1(
)([
1
)
(
方差估计量
n
i
ppz
i
i
ppz
Y
z
Y
nn
YV
1
2
)
(
)1(
1
)
(
是无偏的。
(2) 当一阶单元被重复抽中时,抽取二阶单元的其它方法,
①若第 i 个一阶单元被抽中
it
次,就从中一次随机抽取
iitm
个二阶单元 ( 假定
iii Mtm?
),
此时,
)?( ppzYV
减少
N
i
ii
SM
n
n
1
2
2
1

不论第 i 个一阶单元被抽中多少次,都只从中随机抽
im
个二阶单元,这时,
)?( ppzYV
增加

N
i i
iii
m
SfM
n
n
1
2
22
2
)1(1
在①、②两种情况下,估计量均为
N
i i
iii
nz
yMt
Y
1
其中
it
为第 i 个一阶单元被抽中的次数。
2,估计量为自加权的条件前面已提到,如果一个估计量能表示成所有样本单元 ( 在二阶抽样中是指所有二阶单元 ) 的观测值之和乘以某个常数,则该估计量称为是自加权的。
在 ppz 抽样时,由

n
i
n
i
m
j
ij
ii
i
i
ii
ppz
i
y
mz
M
nz
yM
n
Y
1 1 1
11

pp zY
自加权的条件是
0
1
f
K
mnz
M
ii
i

此时

n
i
m
j
ijp p z
i
yKY
1 1
其中 K 为常数,
i
ii
M
mnz
f?
0
是任意一个二阶单元被抽中的概率,因而,
上式表示任意一个二阶单元被抽中的概率都相等。在实际应用中,若
0f
事先确定,
ii
i
i
nz
f
M
m
f
0
2

也可按已被抽中的二阶单元确定。
对自加权的样本,其方差估计量可简化为
n
i
ippz
yy
fnn
n
YV
1
2
2
0
)(
)1(
)
(
其中
i
m
j
iji
yy
1
是第 i 一阶单元中的
im
个二阶单元之和。
在 P P S 抽样 ( 即
0/ MMz ii?
) 时,估计量简化为
i
m
j
ip p s
y
n
M
Y
1
0?

mm i?
时,
yMY pps 0
为自加权,
pp sY
也是 Y 的无偏估计。它的一个无偏的方差估计量为,
n
i
i
n
i
pps
ipps
yy
nn
M
M
Y
y
nn
M
YV
1
2
2
0
1
2
0
2
0
)(
)1(
)
(
)1(
)
(
其中

n
i
m
j
ij
y
nm
y
1 1
1
( 二 ) 不放回的不等概抽样设总体由 N 个一阶单元组成,第 i 个一阶单元包含
iM
个二阶单元。
第一阶段抽样是不放回的不等概率抽样,
i?
为第 i 个一阶单元入样的概率,
ii nz
,
ij?
为第 i 和第 j 个一阶单元同时入样的概率。第二阶段是简单随机抽样。
此时,总体总和可采用以下形式估计,

n
i
i
i
n
i
i
i
n
i
i
ii
HT
z
Y
n
Y
yM
Y
11
1
1
可 以证明
HTY
是 Y 的无偏估计量,其方差为

N
i
i
ii
ii
j
j
N
i
N
ij i
i
ijjiHT
S
m
fMYY
YV
1
2
2
2
2
2
1
)1(
))(()?(

方差
)?( HTYV
的一个无偏估计量为

N
i
i
ii
ii
j
j
n
i
n
ij i
i
ij
ijji
HT
s
m
fMYY
YV
1
2
2
2
2
2
1
)1(
)

()?(?