第九章 二阶与多阶抽样
二阶抽样与分层抽样、整群抽样 的一个 共同特点 是,将
总体分为若干个群 ;所 不同的 是, 分层抽样是每个群内都进
行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样
则是抽若干个群再在群内抽样 。因此,可将分层抽样与整群
抽样看作是二阶抽样的特殊情况。
在整群抽样中,如果抽中的群内所含的次级单元个数相
当地多,此时对该群作普查会感到, 心有余而力不足, 。特
别当群内的次级单元差异不大,即 比较大,这种情形下
对群内所有的次级单元一一访问似乎完全没有必要,一个省
时省钱又省力的念头会在调查者的头脑中油然而生,何不在
抽到的群内再作一定方式的抽样呢?这种在选中的初级单元
中再进行抽样的方法称为 二阶抽样 。倘若在抽取的次级单元
中又包含许多更次一级的单元,在这些单元中继续抽样就自
然地称为 三阶抽样 。
c?
抽样形式 第一阶段 第二阶段
分层抽样
整群抽样
二阶抽样
抽全部 抽部分
抽全部抽部分
抽部分 抽部分
二阶与多阶抽样的 优点,
1、它具有实施上的方便,比如在编制抽样框时那些没有被
抽到的群或次一级群内的单元就没有必要也去编制抽样框。
仅需对那些已抽中的单元才去准备下一级单元的抽样框,而
且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽
样本身创造了有利的条件。
另外,多阶抽样方法可以用到关于散料的抽样。所谓散
料是指连续松散的不易区分为个体或抽样单元的材料。例如
,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元
常常需要人为划分,一般取自然单位,诸如一公斤、一杯子
等;而初级单元则为包装袋、一卡车、一个车皮等。这种数
量众多的散料的质量检测采用二阶或多阶抽样也许是最有效
的手段。为方便,本章主要讨论二阶抽样。
2、能够满足各级政府部门对抽样调查资料的需求。因为各
级政府领导都关心全国和本地区、本部门的社会经济发展状
况,希望抽样调查能同时满足全国性和地方性的需要。因而
采用二阶或多阶抽样,在一定程度上能够满足各级政府、部
门对调查资料的需求。
3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查
方法,可以使每个一阶样本单位分布比较均匀,具有很好的
代表性;对于方差大的阶段多抽些样本单位以提高精度。
先作一些基本假设:
( 1) 初级单元中包含的次级单元个数同为 M,因此在
抽中的初级单元中再抽取的次级单元个数也相等,记为 m。
§ 1 初级单元大小相等的二阶抽样
( 2) 两个阶段的抽样方法都是简单随机抽样 。
( 3) 在抽中的若干初级单元中作第二阶抽样是相互独
立进行的 。
再引进一些必要的记号:
ijY
—— 表示第 初级单元中第 个次级单元
1,2,,; 1,2,,i N j M??
i j
ijy
—— 表示样本中第 初级单元中第 个次级单元的观测值
1,2,,; 1,2,,i n j m??
i j
1
M
i ij
j
YY
?
? ?
— 第 初级单元总和i
iiY Y M?
— 第 初级单元平均值i
1 1 1
11N M N
ij i
i j i
Y Y YN M N
? ? ?
??? ? ?
— 总体平均值
22
2
11
1 ()
( 1 )
NM
i j i
ij
S Y YNM
??
??? ??
— 初级单元 (群 )内的方差
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ?
— 总体中初级单元 (群 )间方差
将 改为, N改为 n,M改为 m,则为相应的样本指标值Y y
第 i 群内次级单元间的方差记为:
22
2
1
1 ()
1
M
i ij i
j
S Y YM
?
??? ?
显然有 —— 所有 的平均数。
22
1
1 N
i
i
SSN
?
? ? 22iS
1、估计量及其方差
总体平均数 的估计是用样本平均数进行估计的Y
1 1 1
11n n m
i ij
i i j
y y yn n m
? ? ?
??? ? ?
容易证明,这个估计量 是 的无偏估计。y Y
其方差为:
2212
12
11() ffV ar y S S
n n m
???? (9.1)
其中,
1
nf
N? 2
mf
M?
方差的无偏估计为:
221 1 2
12
1 ( 1 )() f f fv y s s
n nm
???? (9.2)
总体总数 的估计为:Y y N M y??
方差的无偏估计为,2( ) ( ) ( )v y N M v y??
总体平均数 95%的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
总体总数 95%的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
例 9.1,新华书店某柜台上月共用去发票 70本,每本 100张,
现随机从中抽出 10本,每本随机抽出 15张发票,得到数据
如下表:给出上月柜台营业总额的估计及其方差。
i 15
1
ij
j
y
?
?
1
2
3
4
5
6
7
8
9
10
375.25
408.30
323.40
502.50
234.00
387.75
284.20
256.60
314.10
280.50
15 2
1
ij
j
y
?
?
11280.25
12115.99
8752.76
17833.75
3953.00
11302.50
6573.04
4822.36
6921.01
5827.25
25.02
27.22
21.56
33.50
15.60
25.85
18.95
17.11
20.94
18.70
135.02
71.58
127.16
71.43
21.61
97.37
84.75
30.79
24.55
41.56
iy 22is
解,N=70,n=10,M=100,m=15
1 0 1 5
1 1 1 1
11
1 0 1 5
nm
i j i j
i j i j
y y ynm
? ? ? ?
?? ?? ? ? ?
1 [ 3 7 5,2 5 2 8 0,5 0 ] 2 2,4 4 4
1 0 1 5? ? ? ??
1
1
7f ?
2 0.15f ?
7 0 1 0 0 2 2, 4 4 4 1 5 7 1 0 8y N M y? ? ? ? ? ?
故上月柜台营业总额的估计为 157108.00元
22
1
1
1 ( ) 2 9, 7 6
1
n
i
i
s y yn
?
? ? ?? ?
22
1
1 7 0, 5 8n
i
i
ssn
?
???
221 1 2
12
1 ( 1 )( ) 2,6 1f f fv y s s
n nm
??? ? ?
标准差为 元( ) 7 0 1 0 0 2, 6 1 1 1 3 0 8, 8 5vy ? ? ? ?
营业总额 95%的置信区间为
22( ) ( ) ( ) ( 7 0 1 0 0 ) 2, 6 1v y N M v y? ? ? ?
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
( 1 3 4 9 4 2, 6 5,1 7 9 2 7 3, 3 5 )?
2、最优抽样比
如果初级单元(或群)之间的旅行费用不占重要地位的
话,常采用简单线性费用函数:
二阶抽样存在两次概率抽样,因而存在两个抽样比
因此我们面临的问题是,(1)在总费用给定的条件下,如何
确定 与 而使 的方差达到最小; (2)在给定估计量的精
度 条件下,如何确定 与 以使总费用最小。
y
12,ff
1f 2f
1f 2f()Var y
0c 12,cc
其中 是基本费用,是每调查一个初级单元与次级单元
所花费的费用。
0 1 2C c c n c n m? ? ?
(9.3)
将方差表达成:
2 2 2
2 2 2 1
1
1( ) ( )S S SV a r y S
n M nm N? ? ? ?
(9.4)
于是,在固定 C下极小化 或在固定 下极小化
C均等价于使下式极小化:
()Var y ()Var y
2
22 2
01
SSS
M??
其中,。但这里要求 。2
22 2
01 0
SSS
M? ? ?
2
22 2
01 0
SSS
M? ? ?
假如,表明群内差异明显地大于群间的差异,
因此对于抽到的群来说,最好作全面调查才能保证样本的代
表性,此时总使 m= M。
2
22 2
01 0
SSS
M? ? ?
现考虑
22
22 22
1 0 1 1 2
2
2 2
0 1 2
1
( ( ) ) ( ) [ ( ) ] ( )
( ) ( )
SS
V ar y S C c S c c m
N M m
S
S c c m
m
? ? ? ? ? ?
? ? ?(9.5)
在 (9.5)式中,由于 都是常数,为使 (9.5)达到最
小,只要
220 2 1 2,,,S S c c
2
221
02
ScQ S c m
m??
(9.6)
达到最小,这两个加项的乘积恰好为常数,因此
只要这两项相等就可使 Q达到最小,此时应取
220 2 1 2S S c c
12
0
2
cSS
m cm
?
或者 m的最优取值为:
21
02
opt
Scm
Sc?
(9.7)
一般地,不是整数,记 为 的最小整数部分,那
么 ( 为 的小数部分,且 )。
optm optm[]optm
[]o p t o p tm m a?? optma 0a?
2 ( 1 2 ) [ ]opta a m??如果,则取 [ ] 1optmm??
如果,则取
2 ( 1 2 ) [ ]opta a m?? []optmm?
易见,对于 的小数部分大于或等于 0.5的情况,我们总取
,这符合通常的“五入”规则,是否“四舍”?
当 时,就要看 的最小整数部分的大小了。
optm
[ ] 1optmm??
optm0.5a ?
由 m 的选取,代入 (9.3)或 (9.4)立即可以得到 n 的数值。
3、分层二阶抽样
所谓分层二阶抽样就是将总体分为 k 个层,在每层内进
行二阶抽样。比如,一所大学有 8 个系,每个系有若干个班
级,每班大约人数为 40人,为了解学生的情况需要作一次抽
样调查,在每个系都随机抽几个班,再在抽中的班级里抽取
若干人的简单随机抽样,这就构成二阶分层抽样。
本节讨论的二阶分层抽样,假设在同一层内初级单元大
小相等,但不同层可以不相等。设第 h 层含 个初级单元,
每个初级单元包含 个次级单元,于是总体中共含有
个次级单元。又假设在第 h 层按照简单随机抽样方法抽取
个初级单元,在每个被抽中的初级单元中再抽取容量为 的
简单随机抽样。
hN
hM
1
k
hh
h
NM
?
?
hn
hm
hy
设第 h 层中样本的 (二阶抽样 )平均数为,因此按照分
层估计的技巧,总体的 (按次级单元 )平均数 的分层二阶估
计量为:
Y
1
1
1
k
h h h k
h
s t h hk
h
hh
h
N M y
y W y
NM
?
?
?
??
?
?
?
(9.8)
其中 为第 h 层 (按次级单元 )的层权:
hW
1
hh
h k
hh
h
NMW
NM
?
?
?
(9.9)
(9.10)而 11
hhnm
h ij
ij
h
hh
y
y
nm
???
??
由于各层的抽样相互独立,而由二阶抽样的有关讨论,的
方差及其方差估计是已知的,因此:
hy
2 2 212
12
1
11( ) ( )k hh
s t h h h
h h h h
ffV a r y W S S
n n m?
????? (9.11)
2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h
h h h h
f f fv y W s s
n n m?
????? (9.12)
其中 分别为第 h 层中的两个抽样比。
12
hh
hh
nmff
NM??、
和 是第 h 层中的群间和群内方差,与 是第 h 层中
样本的群间和群内方差。
21hS 22hS 21hs 22hs
显然,总体总和的分层二阶抽样估计为:
1
k
s t h h h
h
y N M y
?
? ?
(9.13)
其方差及其方差估计为:
2 2 2 212
12
1
11( ) ( )k hh
s t h h h h
h h h h
ffV a r y N M S S
n n m?
?????
2 2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h h
h h h h
f f fv y N M s s
n n m?
?????
在分层二阶抽样中当然也存在最优抽样比的问题,不过此
时假定费用函数一般应当与“层”有关系:
0 1 1 2 2
11
kk
h h h h h
hh
C c c n c n m
??
? ? ???
(9.14)
固定费用 C而使方差达到最小或方差有一定精度要求下使
费用达到最小,此时 的最优选择为:hm
21
22
212
hh
h
hh h h
Scm
cS S M
? ?
?
(9.15)
其中总假设对所有的 h, 都有 。22
12 0h h hS S M??
§ 2 初级单元大小不等的二阶抽样
在实践中,除少数情况外,初级单元的大小不一定相等
当然理想一些的情况,我们在分群时就注意到先将单元按照
大小分层,使得同一层中初级单元大小相等,然后利用上面
所讲的分层二阶抽样的办法来做。只可惜在实际操作中,分
层分群常常有一些, 自然, 形式,例如从行政系统划分等。
因此,我们只能面对初级单元大小不等的情形,由于初级单
元大小不一样,合理的手段是对初级单元采用不等概率抽样
。 先给出一些相关的记号:
ijY
—— 表示第 初级单元中第 个次级单元
1,2,,; 1,2,,ii N j M??
i j
1
iM
i ij
j
YY
?
? ?
— 第 初级单元总和i
ii iY Y M?
— 第 初级单元平均值i
1 1 1
iMNN
i ij
i i j
Y Y Y
? ? ?
??? ? ?
—— 总体总和
0
1
N
i
i
MM
?
? ? 0Y Y M?
—— 总体平均数 (按次级单元 )
Y Y N? —— 总体平均数 (按初级单元 )
22
2
1
1 ()
1
iM
i ij i
ji
S Y YM
?
??? ?
— 第 i 初级单元内方差
1、只抽取一个初级单元情形( n=1)
先考虑从 N 个初级单元中随机选取 1 个以推断总体,
这种情形看起来似乎很特殊,但在生活中也不少见,例如在
随机地选的一个班级中抽取几个人进行考试以测试全年级的
教育质量。只选取 1 个单元,仍有等概率与不等概率之分,
(1)等概率抽取初级单元
考虑对总体平均数 的估计,Y
首先使用抽中的初级单元中的样本平均数 对 进行估计
Iy Y
1
1 im
I i ij
ji
y y ym
?
?? ?
(9.16)
对第 i 初级单元来讲,由盒子模型可知,是 的无偏估计。
由于第 i 个抽样单元是等概率抽取,相当于从盒子
中等可能抽取一次,那么所得之数一定是这个盒子平均数的
无偏估计,即
iy iY
1(,,)NYY
1
1() N
Ii
i
E y Y YN ?
?
???
YY??而,那么 不是 的无偏估计,而是有偏估计!YIy
Y因此,对 只能求均方误差:
2 2 2
2
11
11( ) ( ) ( )NN ii
I i i
ii ii
MmM S E y Y Y Y Y S
N N M m?? ??
?? ? ? ? ???
作为 的有偏估计,的均方误差由三部分构成:一是由偏
倚引起的平方和,这就是 (9.17)式右边的第一项;二是按初级
单元 (此时初级单元的特征指标当然只能是其平均数 )而计算的
总体方差,(9.17)式右边的第二项恰好体现出这一点;最后一
部分是初级单元中次级单元的方差平方和,这恰好是 (9.17)式
右边的第三项。
Y Iy
()IM SE y从 的表达式可以看出,其第一项和第二项都与
的选择没有任何关系,倘若要尽力减少误差,目标自然注意
到第三项,然而第三部分是无法知道且也是无法估计的,因为
既然我们只选取一个初级单元,又如何能估计所有的 呢?2
2iS
im
由于是二阶抽样,也不可能取 。在一般情况下,
为了方便起见,常采用选取 =常数,不管取到哪
一个初级单元,总抽预先指定好的样本容量,要不,取
与 成一定的比例比较合理一些。
iimM?
imm?
im
iM
Iy 不是 的无偏估计这一缺陷是由“等可能”抽取而引
起的,这时候每一个 有着同等重要的地位
而由于初级单元大小不同,在 的构造中显然 不是有着
同等地位的,这个事实使我们找到了一个弥补“等可能”所引
起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单
元的大小作为“权”:
Y
( 1,2,,)iY i N?
Y iY
0
II
ii
ii
M N My y y
MM
??
(9.18)
其中 表示所有初级单元的平均大小。这个估计的
意义很清楚,它的 乘以 成为第 i 个初级单元内总和的
估计,再乘以 N 成为总体总和的估计,这个估计除以 作
为 的估计量是合理的。
0M M N?
iM iy
0M
Y
“权” 的作用是使初级单元的指标化为次级单元的有关
指标。既然 是第 i 个初级单元的总和的无偏估计,由于
第一阶抽样的“等可能性”,应当是总体总和的无偏估
计,于是有:
iM
M
iiMy
iiNM y
()IIE y Y? (9.19)
2
2
22
11
()11()
II
NN
i i i i
ii
ii i
M M M mV a r y Y Y S
N M N M m??
???? ? ?
??????
(9.20)
IIy 的方差为:
应当指出,对 弥补的只是“期望”或“平均”上的偏
倚,至于在精度上是否获益则很难定。例如,倘若各个初级
单元的平均数 比较稳定,而 相距较大,引起 前的系
数 的差异较大,这种场合下 比起 来变化范围
显然大得多,效果就比较差。
IIy Iy
iY iM iy
iMM IIy Iy
(2)不等概率抽取初级单元
用等概率方法抽取初级单元对于大小不等的初级单元情
形显然不太合理,精度较差是可想而知的。一般地,我们采
用的不等概率抽取法有如下几种:
① 按概率 抽取到第 i 个初级单元,此时构造的估计
量为:
0iMM
III iyy?
(9.21)
IIIy Iy
与 表面上形式相同,只不过 取 的概率为
Iy iy 1N
而 取 的概率为
IIIy iy 0iMM
1 1 100
1() iMNN i
I I I i i j
i i j
ME y y Y Y
MM? ? ?
? ? ?? ? ?
(9.22)
IIIy
即 是 的无偏估计量。Y
22
2
1100
11( ) ( ) ( )NN ii
I I I i i
ii ii
MMV a r y Y Y S
M M m M??? ? ? ???
22
2
110
()1 [ ( ) ]NN ii
i i i
ii i
MmM Y Y S
Mm??
?? ? ???
(9.23)
② 抽取概率 按预先指定的一组概率 来实施,
构造估计量为,1
,1Nii
i
ZZ
?
?????
???
0
ii
IV
i
Myy
Mz
??
(9.24)
11 00
()
NN
i i i
I V i i
ii i
M Y ME y Z Y Y
M Z M??
? ? ???
(9.25)
IVy
即 是 的无偏估计量。Y
2
22
222
11 00
1 1 1( ) ( ) ( )NN i i i
I V i i i
ii i i i i
M Y MV a r y Z Y Z S
M Z M Z m M??? ? ? ? ???
22
022
110
1 [ ( ) ]NN i i i i i
ii
ii i i i
M Y M M mZ M Y S
M Z Z m??
?? ? ? ???
(9.26)
显然,若取,则 。
若取,则 。
0iiZ M M? IV IIIyy?
1
iZ N?
IV IIyy?
③ 抽取方式与 ② 相同,但构造的关于 的估计量为:Y
Viyy?
(9.27)
此时,每个 具有权,因此
iY iZ
1
()
N
V i i Z
i
E y Z Y Y
?
???
(9.28)
一般地,因此 是有偏估计。其均方误差为:
ZYY? Vy
2 2 2
2
11
()( ) ( ) ( )NN i i i
V Z i i Z i
ii ii
Z M mM S E y Y Y Z Y Y S
Mm??
?? ? ? ? ???
(9.29)
Cochran构造了一个虚拟总体 (N= 3)进行抽样以对上述
五种方法进行比较:
例 9.2 Cochran(1977)
N=3 初级单元 (大小不等 )的虚拟总体
i
ijY i
M iY 22iS iY
1
2
3
0,1
1,2,2,3
3,3,4,4,5,5
2
4
6
1
8
24
0.500
0.667
0.800
0.5
2.0
4.0
0 12M ? 33Y ?
0
33 2, 7 5
12
YY
M? ? ?
1 ( 0,5 2,0 4,0 ) 2,1 6 7
3Y ? ? ? ? ?
方
法 抽取各单元的概率
的
估计量
Y
是否
无偏
MSE
2()偏 倚 单元间 单元内 总计
Ⅱ 1 1 1 1(,,)
333N 0 i i
NM y
M
无偏 0 5.792 0.256 6.048
Ⅲ
0
( 0, 1 7,0, 3 3,0, 5 0)iMM iy 无偏 0 1.813 0.189 2.002
Ⅳ ( 0,2,0,4,0,4 )
iZ
0
ii
i
My
Mz
无偏 0 3.583 0.213 3.796
Ⅴ ( 0,2,0,4,0,4 )
iZ iy
有偏 0.062 1.800 0.173 2.035
Ⅰ a
Ⅰ b
1 1 1 1(,,)
333N
1 1 1 1(,,)
333N
iy
?
?
?
?
?
有偏
0.340 2.056 0.144 2.541
0.340 2.056 0.183 2.579
取 2
im ?
Ⅰ b唯 取 2
iimM?
上表中最后一列的 MSE是比较优劣的关键,尽管是
无偏估计,但是效果最差。同样是无偏估计,的效果最
好。
IIy
IIIy
这两个事实也表明了“无偏性”对于估计量的误差判断并
非是决定性的,有时为了使均方误差小一些,人们宁可放弃
无偏性,作为有偏估计其效果几乎不亚于 。注意到
Ⅲ, Ⅳ, Ⅴ 三种方法都是不等概率抽样,Ⅴ 与 Ⅲ 除了 不同
外其余均相同,由于 与 差异不大,因此 Ⅴ 的效果相
对也就比较好。而对于,尽管 与 相同,但对其估计
量“刻意”要求无偏却引起了均方误差的很不理想!
Vy IIIy
iZ
iZ 0iMM
VyiZIVy
2、抽取 个初级单元情形1n ?
两个以上的初级单元里进行第二阶抽样,合理的基本假
定是在不同的初级单元内的抽样过程相互之间独立。为方便
起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这
一小段讨论中,我们主要考虑总体总和的估计。
( 1)初级单元按多项抽样方法抽取
设初级单元以给定的一组概率 逐个放回地
1
(,1 )
N
ii
i
ZZ
?
??
im
im
抽取 n 次,在每个被抽中的初级单元里实施容量为 的简
单随机抽样:假若第 i 个初级单元在第一阶抽样中被抽中二
次或二次以上,那么在第 i 个初级单元中将独立地对全体次
级单元进行二次或二次以上的容量为 的简单随机抽样。
显然,对第 i 个初级单元的总和 可自然地找到无偏估
计,以这些 代替 的话,那么整群抽样中的
Hansen— Hurwitz型估计无疑为 提供了无偏估计:
iY
iY
Y
iyi i iy M y?
11
11nni i i
HH
iiii
y M yy
n z n z??????
(9.30)
其方差为:
2 2
22
2
11
( 1 )11() NN i i i
H H i i
ii i i i
Y M fV a r y Z Y S
n Z n m Z??
?? ?
? ? ???
??
??
(9.31)
其中
2 ( 1,2,,)
i
i
i
mf i N
M??
( 2)初级单元按简单随机抽取方式抽取
由于二阶抽样都是采用简单随机抽样形式,于是可对总
体总和采用一个最为简单的估计形式:
11
nn
u i i i
ii
NNy M y y
nn??????
(9.32)
由于 与 是 与 的无偏估计,因此 也是 的无
偏估计。
iy iy iY iY Yuy
其方差为:
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
ui
i
N
ii
i ii
V ar y N Y Y
n N N
N
MS
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.33)
方差 的无偏估计为:()
uVar y
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
u i u
i
n
ii
i ii
v y N y y
n N n
N
Ms
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.34)
其中
1
1 n
ui
i
yyn
?
? ? 222
1
1 ()
1
im
i ij i
ji
s y ym
?
??? ?
这类简单估计虽然形式简单,而且结构也容易为人们接
受,同时又是总体的无偏估计,但是它的效果并不理想,方
差显得较大。
( 3)按不放回不等概率抽取初级单元
如果抽取到的第 i 个初级单元的总和估计为 (简单
随机抽样下的无偏估计 ),那么由第六章第二节易知,总体
总和的二阶估计可采用如下形式的 Horvitz— Thompson估计
量。
iiMy
现在考虑初级单元是按不放回不等概率抽取,而第二阶
抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第
一阶抽样中就存在包含概率 。,
i ij??
11
nn
i i i
HT
iiii
M y yy
????
????
(9.35)
由于 或 是 的无偏估计,又 是 的无偏估
计,所以 是 的无偏估计。
iiMy iy iY Y
1
n
i
i i
y
???Y
HTy
其方差为:
2
2
2
11
( ) ( )
N N N
jii
H T i j i j
i j i ii j i
YY
V a r y
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?
(9.38)
其中
? ? 2222
1
1 1 1
1
iM
i i i j i
ji i i
M Y Y
n M M
?
?
??? ? ? ? ?
?? ?
??
?
方差 的无偏估计为:()
HTVar y
2
2
2
11
?
( ) ( )
n n N
jii
H T i j i j
i j i ii j i
yy
vy
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?(9.39)
其中
? ? 2222
1
1 1 1?
1
in
i i i j i
ji i i
M y y
n M n
?
?
??? ? ? ? ?
?? ?
??
?
§ 3 三阶及多阶抽样
将有关二阶抽样的一些公式与估计推广到三阶乃至更高
阶的情况是很现实的,其实基本上是依样画葫芦,只不过在
符号与计算方面更为复杂些,尤其是对于各级单元大小都相
等时更是如此,下面以三阶为例。
1、各级单元大小均相等时的三阶抽样
设总体中含有 N个初级单元,每个初级单元包含 M个次
级单元,而每一个次级单元均包含 K个三级单元。各阶的抽
样容量分别为 n,m,k,引进一些必要的记号:
ijtY
— 表示第 初级单元中第 个次级单元里第 个三级单元
1,2,,; 1,2,,; 1,2,,i N j M t K???
i j t
1
1 K
ij ijt
t
YYK
?
? ?
— 第 初级单元中第 次级单元总体平均数i j
1
1 k
ij ijt
t
yyk
?
? ?
— 第 初级单元中第 次级单元样本平均数i j
— 第 初级单元总体平均数i
11
1 MK
i ijt
jt
YYMK
??
? ??
11
1 mk
i ijt
jt
yymk
??
? ??
— 第 初级单元样本平均数i
1 1 1
1 N M K
ijt
i j t
YYN M K
? ? ?
? ???
—— 总体平均数
1 1 1
1 n m k
ijt
i j t
yyn m k
? ? ?
? ???
—— 样本平均数
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ? 221
1
1 ()
1
n
i
i
s y yn
?
??? ?
22
2
11
1 ()
( 1 )
NM
ij i
ij
S Y YNM
??
??? ??
22
2
11
1 ()
( 1 )
nm
ij i
ij
s y ynm
??
??? ??
22
3
1 1 1
1 ()
( 1 )
N M K
i j t i j
i j t
S Y YN M K
? ? ?
??? ???
22
3
1 1 1
1 ()
( 1 )
n m k
i j t i j
i j t
s y yn m k
? ? ?
??? ???
如果三阶抽样均为简单随机抽样,则有以下结论:
y Y即 是总体平均数 的无偏估计。
其中
1 2 3,,
n m kf f f
N M K? ? ?
( 3) ()Var y 的无偏估计为
( 1) ()E y Y? (9.40)
( 2)
222 312
1 2 3
111() fffV a r y S S S
n nm nm k
???? ? ?(9.41)
2 2 21 2 31 1 2
1 2 3
( 1 )1 ( 1 )() f f ff f fv y s s s
n nm nm k
???? ? ?
(9.42)
2、多阶抽样中不等概率抽样的应用
一般地,各级单元大小常常并不相等,因此普遍采用不
等概率抽样,这样不仅合理,能被接受,而且自然提高效率
比如,三阶抽样均采用多项抽样形式,各阶样本量仍分别为
n,m,k,而抽样概率分别为:
,,i ij ijtZ Z Z
且
1 1 1
1,1,1
iji KMN
i i j i j t
i j i
Z Z Z
? ? ?
? ? ?? ? ?
1,2,,; 1,2,,; 1,2,,i iji N j M t K? ? ?
那么总体总和 的无偏估计为:Y
**
1 1 1 1
1 1 1 1n m k nijt
i
i j t ii i j i j t
y
yy
n m k z z z n? ? ? ?
??? ? ? ?
(9.43)
其方差为,22
* 2 2
1 1 1
2
2
1 1 1
1 1 1
()
1 1 1
i
iji
MNN
iji
i
i i ji i ij
KMN
ijt
ij
i j ti ij ijt
YY
V a r y Y Y
n Z nm Z Z
Y
Y
nm k Z Z Z
? ? ?
? ? ?
????
? ? ? ?????
?? ??
?? ??
?? ?? ??
????
? ? ?
? ? ?(9.44)
方差的无偏估计为:
* * * 2 * 2 * 2
11
11( ) ( )
( 1 ) ( 1 )
nn
ii
ii
v y y y y n y
n n n n??
??? ? ? ?
???? ????
(9.45)
其中
*
11
1 1 1 ( 1,2,,)mk ijt
i
jti i j i j t
y
y i n
z m z k z??
??
?? ??
??
??
(9.46)
高阶抽样是复杂抽样,不但每一阶抽样可以采用不同
的概率抽样形式,即使在同一阶的抽样中,各单元内进行
的抽样形式也将视该单元的情况而采用不同的概率抽样形
式。因此,在构造一个好的合理的估计量时,必须相当小
心谨慎,在计算和作出估计量方差估计的过程中尤其要注
意,通常大规模的抽样调查就是这种复杂的多阶抽样。
二阶抽样与分层抽样、整群抽样 的一个 共同特点 是,将
总体分为若干个群 ;所 不同的 是, 分层抽样是每个群内都进
行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样
则是抽若干个群再在群内抽样 。因此,可将分层抽样与整群
抽样看作是二阶抽样的特殊情况。
在整群抽样中,如果抽中的群内所含的次级单元个数相
当地多,此时对该群作普查会感到, 心有余而力不足, 。特
别当群内的次级单元差异不大,即 比较大,这种情形下
对群内所有的次级单元一一访问似乎完全没有必要,一个省
时省钱又省力的念头会在调查者的头脑中油然而生,何不在
抽到的群内再作一定方式的抽样呢?这种在选中的初级单元
中再进行抽样的方法称为 二阶抽样 。倘若在抽取的次级单元
中又包含许多更次一级的单元,在这些单元中继续抽样就自
然地称为 三阶抽样 。
c?
抽样形式 第一阶段 第二阶段
分层抽样
整群抽样
二阶抽样
抽全部 抽部分
抽全部抽部分
抽部分 抽部分
二阶与多阶抽样的 优点,
1、它具有实施上的方便,比如在编制抽样框时那些没有被
抽到的群或次一级群内的单元就没有必要也去编制抽样框。
仅需对那些已抽中的单元才去准备下一级单元的抽样框,而
且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽
样本身创造了有利的条件。
另外,多阶抽样方法可以用到关于散料的抽样。所谓散
料是指连续松散的不易区分为个体或抽样单元的材料。例如
,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元
常常需要人为划分,一般取自然单位,诸如一公斤、一杯子
等;而初级单元则为包装袋、一卡车、一个车皮等。这种数
量众多的散料的质量检测采用二阶或多阶抽样也许是最有效
的手段。为方便,本章主要讨论二阶抽样。
2、能够满足各级政府部门对抽样调查资料的需求。因为各
级政府领导都关心全国和本地区、本部门的社会经济发展状
况,希望抽样调查能同时满足全国性和地方性的需要。因而
采用二阶或多阶抽样,在一定程度上能够满足各级政府、部
门对调查资料的需求。
3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查
方法,可以使每个一阶样本单位分布比较均匀,具有很好的
代表性;对于方差大的阶段多抽些样本单位以提高精度。
先作一些基本假设:
( 1) 初级单元中包含的次级单元个数同为 M,因此在
抽中的初级单元中再抽取的次级单元个数也相等,记为 m。
§ 1 初级单元大小相等的二阶抽样
( 2) 两个阶段的抽样方法都是简单随机抽样 。
( 3) 在抽中的若干初级单元中作第二阶抽样是相互独
立进行的 。
再引进一些必要的记号:
ijY
—— 表示第 初级单元中第 个次级单元
1,2,,; 1,2,,i N j M??
i j
ijy
—— 表示样本中第 初级单元中第 个次级单元的观测值
1,2,,; 1,2,,i n j m??
i j
1
M
i ij
j
YY
?
? ?
— 第 初级单元总和i
iiY Y M?
— 第 初级单元平均值i
1 1 1
11N M N
ij i
i j i
Y Y YN M N
? ? ?
??? ? ?
— 总体平均值
22
2
11
1 ()
( 1 )
NM
i j i
ij
S Y YNM
??
??? ??
— 初级单元 (群 )内的方差
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ?
— 总体中初级单元 (群 )间方差
将 改为, N改为 n,M改为 m,则为相应的样本指标值Y y
第 i 群内次级单元间的方差记为:
22
2
1
1 ()
1
M
i ij i
j
S Y YM
?
??? ?
显然有 —— 所有 的平均数。
22
1
1 N
i
i
SSN
?
? ? 22iS
1、估计量及其方差
总体平均数 的估计是用样本平均数进行估计的Y
1 1 1
11n n m
i ij
i i j
y y yn n m
? ? ?
??? ? ?
容易证明,这个估计量 是 的无偏估计。y Y
其方差为:
2212
12
11() ffV ar y S S
n n m
???? (9.1)
其中,
1
nf
N? 2
mf
M?
方差的无偏估计为:
221 1 2
12
1 ( 1 )() f f fv y s s
n nm
???? (9.2)
总体总数 的估计为:Y y N M y??
方差的无偏估计为,2( ) ( ) ( )v y N M v y??
总体平均数 95%的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
总体总数 95%的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
例 9.1,新华书店某柜台上月共用去发票 70本,每本 100张,
现随机从中抽出 10本,每本随机抽出 15张发票,得到数据
如下表:给出上月柜台营业总额的估计及其方差。
i 15
1
ij
j
y
?
?
1
2
3
4
5
6
7
8
9
10
375.25
408.30
323.40
502.50
234.00
387.75
284.20
256.60
314.10
280.50
15 2
1
ij
j
y
?
?
11280.25
12115.99
8752.76
17833.75
3953.00
11302.50
6573.04
4822.36
6921.01
5827.25
25.02
27.22
21.56
33.50
15.60
25.85
18.95
17.11
20.94
18.70
135.02
71.58
127.16
71.43
21.61
97.37
84.75
30.79
24.55
41.56
iy 22is
解,N=70,n=10,M=100,m=15
1 0 1 5
1 1 1 1
11
1 0 1 5
nm
i j i j
i j i j
y y ynm
? ? ? ?
?? ?? ? ? ?
1 [ 3 7 5,2 5 2 8 0,5 0 ] 2 2,4 4 4
1 0 1 5? ? ? ??
1
1
7f ?
2 0.15f ?
7 0 1 0 0 2 2, 4 4 4 1 5 7 1 0 8y N M y? ? ? ? ? ?
故上月柜台营业总额的估计为 157108.00元
22
1
1
1 ( ) 2 9, 7 6
1
n
i
i
s y yn
?
? ? ?? ?
22
1
1 7 0, 5 8n
i
i
ssn
?
???
221 1 2
12
1 ( 1 )( ) 2,6 1f f fv y s s
n nm
??? ? ?
标准差为 元( ) 7 0 1 0 0 2, 6 1 1 1 3 0 8, 8 5vy ? ? ? ?
营业总额 95%的置信区间为
22( ) ( ) ( ) ( 7 0 1 0 0 ) 2, 6 1v y N M v y? ? ? ?
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
( 1 3 4 9 4 2, 6 5,1 7 9 2 7 3, 3 5 )?
2、最优抽样比
如果初级单元(或群)之间的旅行费用不占重要地位的
话,常采用简单线性费用函数:
二阶抽样存在两次概率抽样,因而存在两个抽样比
因此我们面临的问题是,(1)在总费用给定的条件下,如何
确定 与 而使 的方差达到最小; (2)在给定估计量的精
度 条件下,如何确定 与 以使总费用最小。
y
12,ff
1f 2f
1f 2f()Var y
0c 12,cc
其中 是基本费用,是每调查一个初级单元与次级单元
所花费的费用。
0 1 2C c c n c n m? ? ?
(9.3)
将方差表达成:
2 2 2
2 2 2 1
1
1( ) ( )S S SV a r y S
n M nm N? ? ? ?
(9.4)
于是,在固定 C下极小化 或在固定 下极小化
C均等价于使下式极小化:
()Var y ()Var y
2
22 2
01
SSS
M??
其中,。但这里要求 。2
22 2
01 0
SSS
M? ? ?
2
22 2
01 0
SSS
M? ? ?
假如,表明群内差异明显地大于群间的差异,
因此对于抽到的群来说,最好作全面调查才能保证样本的代
表性,此时总使 m= M。
2
22 2
01 0
SSS
M? ? ?
现考虑
22
22 22
1 0 1 1 2
2
2 2
0 1 2
1
( ( ) ) ( ) [ ( ) ] ( )
( ) ( )
SS
V ar y S C c S c c m
N M m
S
S c c m
m
? ? ? ? ? ?
? ? ?(9.5)
在 (9.5)式中,由于 都是常数,为使 (9.5)达到最
小,只要
220 2 1 2,,,S S c c
2
221
02
ScQ S c m
m??
(9.6)
达到最小,这两个加项的乘积恰好为常数,因此
只要这两项相等就可使 Q达到最小,此时应取
220 2 1 2S S c c
12
0
2
cSS
m cm
?
或者 m的最优取值为:
21
02
opt
Scm
Sc?
(9.7)
一般地,不是整数,记 为 的最小整数部分,那
么 ( 为 的小数部分,且 )。
optm optm[]optm
[]o p t o p tm m a?? optma 0a?
2 ( 1 2 ) [ ]opta a m??如果,则取 [ ] 1optmm??
如果,则取
2 ( 1 2 ) [ ]opta a m?? []optmm?
易见,对于 的小数部分大于或等于 0.5的情况,我们总取
,这符合通常的“五入”规则,是否“四舍”?
当 时,就要看 的最小整数部分的大小了。
optm
[ ] 1optmm??
optm0.5a ?
由 m 的选取,代入 (9.3)或 (9.4)立即可以得到 n 的数值。
3、分层二阶抽样
所谓分层二阶抽样就是将总体分为 k 个层,在每层内进
行二阶抽样。比如,一所大学有 8 个系,每个系有若干个班
级,每班大约人数为 40人,为了解学生的情况需要作一次抽
样调查,在每个系都随机抽几个班,再在抽中的班级里抽取
若干人的简单随机抽样,这就构成二阶分层抽样。
本节讨论的二阶分层抽样,假设在同一层内初级单元大
小相等,但不同层可以不相等。设第 h 层含 个初级单元,
每个初级单元包含 个次级单元,于是总体中共含有
个次级单元。又假设在第 h 层按照简单随机抽样方法抽取
个初级单元,在每个被抽中的初级单元中再抽取容量为 的
简单随机抽样。
hN
hM
1
k
hh
h
NM
?
?
hn
hm
hy
设第 h 层中样本的 (二阶抽样 )平均数为,因此按照分
层估计的技巧,总体的 (按次级单元 )平均数 的分层二阶估
计量为:
Y
1
1
1
k
h h h k
h
s t h hk
h
hh
h
N M y
y W y
NM
?
?
?
??
?
?
?
(9.8)
其中 为第 h 层 (按次级单元 )的层权:
hW
1
hh
h k
hh
h
NMW
NM
?
?
?
(9.9)
(9.10)而 11
hhnm
h ij
ij
h
hh
y
y
nm
???
??
由于各层的抽样相互独立,而由二阶抽样的有关讨论,的
方差及其方差估计是已知的,因此:
hy
2 2 212
12
1
11( ) ( )k hh
s t h h h
h h h h
ffV a r y W S S
n n m?
????? (9.11)
2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h
h h h h
f f fv y W s s
n n m?
????? (9.12)
其中 分别为第 h 层中的两个抽样比。
12
hh
hh
nmff
NM??、
和 是第 h 层中的群间和群内方差,与 是第 h 层中
样本的群间和群内方差。
21hS 22hS 21hs 22hs
显然,总体总和的分层二阶抽样估计为:
1
k
s t h h h
h
y N M y
?
? ?
(9.13)
其方差及其方差估计为:
2 2 2 212
12
1
11( ) ( )k hh
s t h h h h
h h h h
ffV a r y N M S S
n n m?
?????
2 2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h h
h h h h
f f fv y N M s s
n n m?
?????
在分层二阶抽样中当然也存在最优抽样比的问题,不过此
时假定费用函数一般应当与“层”有关系:
0 1 1 2 2
11
kk
h h h h h
hh
C c c n c n m
??
? ? ???
(9.14)
固定费用 C而使方差达到最小或方差有一定精度要求下使
费用达到最小,此时 的最优选择为:hm
21
22
212
hh
h
hh h h
Scm
cS S M
? ?
?
(9.15)
其中总假设对所有的 h, 都有 。22
12 0h h hS S M??
§ 2 初级单元大小不等的二阶抽样
在实践中,除少数情况外,初级单元的大小不一定相等
当然理想一些的情况,我们在分群时就注意到先将单元按照
大小分层,使得同一层中初级单元大小相等,然后利用上面
所讲的分层二阶抽样的办法来做。只可惜在实际操作中,分
层分群常常有一些, 自然, 形式,例如从行政系统划分等。
因此,我们只能面对初级单元大小不等的情形,由于初级单
元大小不一样,合理的手段是对初级单元采用不等概率抽样
。 先给出一些相关的记号:
ijY
—— 表示第 初级单元中第 个次级单元
1,2,,; 1,2,,ii N j M??
i j
1
iM
i ij
j
YY
?
? ?
— 第 初级单元总和i
ii iY Y M?
— 第 初级单元平均值i
1 1 1
iMNN
i ij
i i j
Y Y Y
? ? ?
??? ? ?
—— 总体总和
0
1
N
i
i
MM
?
? ? 0Y Y M?
—— 总体平均数 (按次级单元 )
Y Y N? —— 总体平均数 (按初级单元 )
22
2
1
1 ()
1
iM
i ij i
ji
S Y YM
?
??? ?
— 第 i 初级单元内方差
1、只抽取一个初级单元情形( n=1)
先考虑从 N 个初级单元中随机选取 1 个以推断总体,
这种情形看起来似乎很特殊,但在生活中也不少见,例如在
随机地选的一个班级中抽取几个人进行考试以测试全年级的
教育质量。只选取 1 个单元,仍有等概率与不等概率之分,
(1)等概率抽取初级单元
考虑对总体平均数 的估计,Y
首先使用抽中的初级单元中的样本平均数 对 进行估计
Iy Y
1
1 im
I i ij
ji
y y ym
?
?? ?
(9.16)
对第 i 初级单元来讲,由盒子模型可知,是 的无偏估计。
由于第 i 个抽样单元是等概率抽取,相当于从盒子
中等可能抽取一次,那么所得之数一定是这个盒子平均数的
无偏估计,即
iy iY
1(,,)NYY
1
1() N
Ii
i
E y Y YN ?
?
???
YY??而,那么 不是 的无偏估计,而是有偏估计!YIy
Y因此,对 只能求均方误差:
2 2 2
2
11
11( ) ( ) ( )NN ii
I i i
ii ii
MmM S E y Y Y Y Y S
N N M m?? ??
?? ? ? ? ???
作为 的有偏估计,的均方误差由三部分构成:一是由偏
倚引起的平方和,这就是 (9.17)式右边的第一项;二是按初级
单元 (此时初级单元的特征指标当然只能是其平均数 )而计算的
总体方差,(9.17)式右边的第二项恰好体现出这一点;最后一
部分是初级单元中次级单元的方差平方和,这恰好是 (9.17)式
右边的第三项。
Y Iy
()IM SE y从 的表达式可以看出,其第一项和第二项都与
的选择没有任何关系,倘若要尽力减少误差,目标自然注意
到第三项,然而第三部分是无法知道且也是无法估计的,因为
既然我们只选取一个初级单元,又如何能估计所有的 呢?2
2iS
im
由于是二阶抽样,也不可能取 。在一般情况下,
为了方便起见,常采用选取 =常数,不管取到哪
一个初级单元,总抽预先指定好的样本容量,要不,取
与 成一定的比例比较合理一些。
iimM?
imm?
im
iM
Iy 不是 的无偏估计这一缺陷是由“等可能”抽取而引
起的,这时候每一个 有着同等重要的地位
而由于初级单元大小不同,在 的构造中显然 不是有着
同等地位的,这个事实使我们找到了一个弥补“等可能”所引
起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单
元的大小作为“权”:
Y
( 1,2,,)iY i N?
Y iY
0
II
ii
ii
M N My y y
MM
??
(9.18)
其中 表示所有初级单元的平均大小。这个估计的
意义很清楚,它的 乘以 成为第 i 个初级单元内总和的
估计,再乘以 N 成为总体总和的估计,这个估计除以 作
为 的估计量是合理的。
0M M N?
iM iy
0M
Y
“权” 的作用是使初级单元的指标化为次级单元的有关
指标。既然 是第 i 个初级单元的总和的无偏估计,由于
第一阶抽样的“等可能性”,应当是总体总和的无偏估
计,于是有:
iM
M
iiMy
iiNM y
()IIE y Y? (9.19)
2
2
22
11
()11()
II
NN
i i i i
ii
ii i
M M M mV a r y Y Y S
N M N M m??
???? ? ?
??????
(9.20)
IIy 的方差为:
应当指出,对 弥补的只是“期望”或“平均”上的偏
倚,至于在精度上是否获益则很难定。例如,倘若各个初级
单元的平均数 比较稳定,而 相距较大,引起 前的系
数 的差异较大,这种场合下 比起 来变化范围
显然大得多,效果就比较差。
IIy Iy
iY iM iy
iMM IIy Iy
(2)不等概率抽取初级单元
用等概率方法抽取初级单元对于大小不等的初级单元情
形显然不太合理,精度较差是可想而知的。一般地,我们采
用的不等概率抽取法有如下几种:
① 按概率 抽取到第 i 个初级单元,此时构造的估计
量为:
0iMM
III iyy?
(9.21)
IIIy Iy
与 表面上形式相同,只不过 取 的概率为
Iy iy 1N
而 取 的概率为
IIIy iy 0iMM
1 1 100
1() iMNN i
I I I i i j
i i j
ME y y Y Y
MM? ? ?
? ? ?? ? ?
(9.22)
IIIy
即 是 的无偏估计量。Y
22
2
1100
11( ) ( ) ( )NN ii
I I I i i
ii ii
MMV a r y Y Y S
M M m M??? ? ? ???
22
2
110
()1 [ ( ) ]NN ii
i i i
ii i
MmM Y Y S
Mm??
?? ? ???
(9.23)
② 抽取概率 按预先指定的一组概率 来实施,
构造估计量为,1
,1Nii
i
ZZ
?
?????
???
0
ii
IV
i
Myy
Mz
??
(9.24)
11 00
()
NN
i i i
I V i i
ii i
M Y ME y Z Y Y
M Z M??
? ? ???
(9.25)
IVy
即 是 的无偏估计量。Y
2
22
222
11 00
1 1 1( ) ( ) ( )NN i i i
I V i i i
ii i i i i
M Y MV a r y Z Y Z S
M Z M Z m M??? ? ? ? ???
22
022
110
1 [ ( ) ]NN i i i i i
ii
ii i i i
M Y M M mZ M Y S
M Z Z m??
?? ? ? ???
(9.26)
显然,若取,则 。
若取,则 。
0iiZ M M? IV IIIyy?
1
iZ N?
IV IIyy?
③ 抽取方式与 ② 相同,但构造的关于 的估计量为:Y
Viyy?
(9.27)
此时,每个 具有权,因此
iY iZ
1
()
N
V i i Z
i
E y Z Y Y
?
???
(9.28)
一般地,因此 是有偏估计。其均方误差为:
ZYY? Vy
2 2 2
2
11
()( ) ( ) ( )NN i i i
V Z i i Z i
ii ii
Z M mM S E y Y Y Z Y Y S
Mm??
?? ? ? ? ???
(9.29)
Cochran构造了一个虚拟总体 (N= 3)进行抽样以对上述
五种方法进行比较:
例 9.2 Cochran(1977)
N=3 初级单元 (大小不等 )的虚拟总体
i
ijY i
M iY 22iS iY
1
2
3
0,1
1,2,2,3
3,3,4,4,5,5
2
4
6
1
8
24
0.500
0.667
0.800
0.5
2.0
4.0
0 12M ? 33Y ?
0
33 2, 7 5
12
YY
M? ? ?
1 ( 0,5 2,0 4,0 ) 2,1 6 7
3Y ? ? ? ? ?
方
法 抽取各单元的概率
的
估计量
Y
是否
无偏
MSE
2()偏 倚 单元间 单元内 总计
Ⅱ 1 1 1 1(,,)
333N 0 i i
NM y
M
无偏 0 5.792 0.256 6.048
Ⅲ
0
( 0, 1 7,0, 3 3,0, 5 0)iMM iy 无偏 0 1.813 0.189 2.002
Ⅳ ( 0,2,0,4,0,4 )
iZ
0
ii
i
My
Mz
无偏 0 3.583 0.213 3.796
Ⅴ ( 0,2,0,4,0,4 )
iZ iy
有偏 0.062 1.800 0.173 2.035
Ⅰ a
Ⅰ b
1 1 1 1(,,)
333N
1 1 1 1(,,)
333N
iy
?
?
?
?
?
有偏
0.340 2.056 0.144 2.541
0.340 2.056 0.183 2.579
取 2
im ?
Ⅰ b唯 取 2
iimM?
上表中最后一列的 MSE是比较优劣的关键,尽管是
无偏估计,但是效果最差。同样是无偏估计,的效果最
好。
IIy
IIIy
这两个事实也表明了“无偏性”对于估计量的误差判断并
非是决定性的,有时为了使均方误差小一些,人们宁可放弃
无偏性,作为有偏估计其效果几乎不亚于 。注意到
Ⅲ, Ⅳ, Ⅴ 三种方法都是不等概率抽样,Ⅴ 与 Ⅲ 除了 不同
外其余均相同,由于 与 差异不大,因此 Ⅴ 的效果相
对也就比较好。而对于,尽管 与 相同,但对其估计
量“刻意”要求无偏却引起了均方误差的很不理想!
Vy IIIy
iZ
iZ 0iMM
VyiZIVy
2、抽取 个初级单元情形1n ?
两个以上的初级单元里进行第二阶抽样,合理的基本假
定是在不同的初级单元内的抽样过程相互之间独立。为方便
起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这
一小段讨论中,我们主要考虑总体总和的估计。
( 1)初级单元按多项抽样方法抽取
设初级单元以给定的一组概率 逐个放回地
1
(,1 )
N
ii
i
ZZ
?
??
im
im
抽取 n 次,在每个被抽中的初级单元里实施容量为 的简
单随机抽样:假若第 i 个初级单元在第一阶抽样中被抽中二
次或二次以上,那么在第 i 个初级单元中将独立地对全体次
级单元进行二次或二次以上的容量为 的简单随机抽样。
显然,对第 i 个初级单元的总和 可自然地找到无偏估
计,以这些 代替 的话,那么整群抽样中的
Hansen— Hurwitz型估计无疑为 提供了无偏估计:
iY
iY
Y
iyi i iy M y?
11
11nni i i
HH
iiii
y M yy
n z n z??????
(9.30)
其方差为:
2 2
22
2
11
( 1 )11() NN i i i
H H i i
ii i i i
Y M fV a r y Z Y S
n Z n m Z??
?? ?
? ? ???
??
??
(9.31)
其中
2 ( 1,2,,)
i
i
i
mf i N
M??
( 2)初级单元按简单随机抽取方式抽取
由于二阶抽样都是采用简单随机抽样形式,于是可对总
体总和采用一个最为简单的估计形式:
11
nn
u i i i
ii
NNy M y y
nn??????
(9.32)
由于 与 是 与 的无偏估计,因此 也是 的无
偏估计。
iy iy iY iY Yuy
其方差为:
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
ui
i
N
ii
i ii
V ar y N Y Y
n N N
N
MS
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.33)
方差 的无偏估计为:()
uVar y
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
u i u
i
n
ii
i ii
v y N y y
n N n
N
Ms
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.34)
其中
1
1 n
ui
i
yyn
?
? ? 222
1
1 ()
1
im
i ij i
ji
s y ym
?
??? ?
这类简单估计虽然形式简单,而且结构也容易为人们接
受,同时又是总体的无偏估计,但是它的效果并不理想,方
差显得较大。
( 3)按不放回不等概率抽取初级单元
如果抽取到的第 i 个初级单元的总和估计为 (简单
随机抽样下的无偏估计 ),那么由第六章第二节易知,总体
总和的二阶估计可采用如下形式的 Horvitz— Thompson估计
量。
iiMy
现在考虑初级单元是按不放回不等概率抽取,而第二阶
抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第
一阶抽样中就存在包含概率 。,
i ij??
11
nn
i i i
HT
iiii
M y yy
????
????
(9.35)
由于 或 是 的无偏估计,又 是 的无偏估
计,所以 是 的无偏估计。
iiMy iy iY Y
1
n
i
i i
y
???Y
HTy
其方差为:
2
2
2
11
( ) ( )
N N N
jii
H T i j i j
i j i ii j i
YY
V a r y
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?
(9.38)
其中
? ? 2222
1
1 1 1
1
iM
i i i j i
ji i i
M Y Y
n M M
?
?
??? ? ? ? ?
?? ?
??
?
方差 的无偏估计为:()
HTVar y
2
2
2
11
?
( ) ( )
n n N
jii
H T i j i j
i j i ii j i
yy
vy
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?(9.39)
其中
? ? 2222
1
1 1 1?
1
in
i i i j i
ji i i
M y y
n M n
?
?
??? ? ? ? ?
?? ?
??
?
§ 3 三阶及多阶抽样
将有关二阶抽样的一些公式与估计推广到三阶乃至更高
阶的情况是很现实的,其实基本上是依样画葫芦,只不过在
符号与计算方面更为复杂些,尤其是对于各级单元大小都相
等时更是如此,下面以三阶为例。
1、各级单元大小均相等时的三阶抽样
设总体中含有 N个初级单元,每个初级单元包含 M个次
级单元,而每一个次级单元均包含 K个三级单元。各阶的抽
样容量分别为 n,m,k,引进一些必要的记号:
ijtY
— 表示第 初级单元中第 个次级单元里第 个三级单元
1,2,,; 1,2,,; 1,2,,i N j M t K???
i j t
1
1 K
ij ijt
t
YYK
?
? ?
— 第 初级单元中第 次级单元总体平均数i j
1
1 k
ij ijt
t
yyk
?
? ?
— 第 初级单元中第 次级单元样本平均数i j
— 第 初级单元总体平均数i
11
1 MK
i ijt
jt
YYMK
??
? ??
11
1 mk
i ijt
jt
yymk
??
? ??
— 第 初级单元样本平均数i
1 1 1
1 N M K
ijt
i j t
YYN M K
? ? ?
? ???
—— 总体平均数
1 1 1
1 n m k
ijt
i j t
yyn m k
? ? ?
? ???
—— 样本平均数
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ? 221
1
1 ()
1
n
i
i
s y yn
?
??? ?
22
2
11
1 ()
( 1 )
NM
ij i
ij
S Y YNM
??
??? ??
22
2
11
1 ()
( 1 )
nm
ij i
ij
s y ynm
??
??? ??
22
3
1 1 1
1 ()
( 1 )
N M K
i j t i j
i j t
S Y YN M K
? ? ?
??? ???
22
3
1 1 1
1 ()
( 1 )
n m k
i j t i j
i j t
s y yn m k
? ? ?
??? ???
如果三阶抽样均为简单随机抽样,则有以下结论:
y Y即 是总体平均数 的无偏估计。
其中
1 2 3,,
n m kf f f
N M K? ? ?
( 3) ()Var y 的无偏估计为
( 1) ()E y Y? (9.40)
( 2)
222 312
1 2 3
111() fffV a r y S S S
n nm nm k
???? ? ?(9.41)
2 2 21 2 31 1 2
1 2 3
( 1 )1 ( 1 )() f f ff f fv y s s s
n nm nm k
???? ? ?
(9.42)
2、多阶抽样中不等概率抽样的应用
一般地,各级单元大小常常并不相等,因此普遍采用不
等概率抽样,这样不仅合理,能被接受,而且自然提高效率
比如,三阶抽样均采用多项抽样形式,各阶样本量仍分别为
n,m,k,而抽样概率分别为:
,,i ij ijtZ Z Z
且
1 1 1
1,1,1
iji KMN
i i j i j t
i j i
Z Z Z
? ? ?
? ? ?? ? ?
1,2,,; 1,2,,; 1,2,,i iji N j M t K? ? ?
那么总体总和 的无偏估计为:Y
**
1 1 1 1
1 1 1 1n m k nijt
i
i j t ii i j i j t
y
yy
n m k z z z n? ? ? ?
??? ? ? ?
(9.43)
其方差为,22
* 2 2
1 1 1
2
2
1 1 1
1 1 1
()
1 1 1
i
iji
MNN
iji
i
i i ji i ij
KMN
ijt
ij
i j ti ij ijt
YY
V a r y Y Y
n Z nm Z Z
Y
Y
nm k Z Z Z
? ? ?
? ? ?
????
? ? ? ?????
?? ??
?? ??
?? ?? ??
????
? ? ?
? ? ?(9.44)
方差的无偏估计为:
* * * 2 * 2 * 2
11
11( ) ( )
( 1 ) ( 1 )
nn
ii
ii
v y y y y n y
n n n n??
??? ? ? ?
???? ????
(9.45)
其中
*
11
1 1 1 ( 1,2,,)mk ijt
i
jti i j i j t
y
y i n
z m z k z??
??
?? ??
??
??
(9.46)
高阶抽样是复杂抽样,不但每一阶抽样可以采用不同
的概率抽样形式,即使在同一阶的抽样中,各单元内进行
的抽样形式也将视该单元的情况而采用不同的概率抽样形
式。因此,在构造一个好的合理的估计量时,必须相当小
心谨慎,在计算和作出估计量方差估计的过程中尤其要注
意,通常大规模的抽样调查就是这种复杂的多阶抽样。