抽样调查理论与方法：9-1～3.PPT

分类：统计格式：ppt 日期：2006年02月08日

第九章二阶与多阶抽样
二阶抽样与分层抽样、整群抽样的一个共同特点是,将
总体分为若干个群；所不同的是, 分层抽样是每个群内都进
行抽样，整群抽样是抽若干个群再在群内普查，而二阶抽样
则是抽若干个群再在群内抽样。因此，可将分层抽样与整群
抽样看作是二阶抽样的特殊情况。
在整群抽样中，如果抽中的群内所含的次级单元个数相
当地多，此时对该群作普查会感到, 心有余而力不足, 。特
别当群内的次级单元差异不大，即比较大，这种情形下
对群内所有的次级单元一一访问似乎完全没有必要，一个省
时省钱又省力的念头会在调查者的头脑中油然而生，何不在
抽到的群内再作一定方式的抽样呢？这种在选中的初级单元
中再进行抽样的方法称为二阶抽样。倘若在抽取的次级单元
中又包含许多更次一级的单元，在这些单元中继续抽样就自
然地称为三阶抽样。
c?
抽样形式第一阶段第二阶段
分层抽样
整群抽样
二阶抽样
抽全部抽部分
抽全部抽部分
抽部分抽部分
二阶与多阶抽样的优点,
1、它具有实施上的方便，比如在编制抽样框时那些没有被
抽到的群或次一级群内的单元就没有必要也去编制抽样框。
仅需对那些已抽中的单元才去准备下一级单元的抽样框，而
且许多抽样调查常常采用行政系统及隶属单元，这给多阶抽
样本身创造了有利的条件。
另外，多阶抽样方法可以用到关于散料的抽样。所谓散
料是指连续松散的不易区分为个体或抽样单元的材料。例如
，煤、粮食、水泥、化肥等原料的质量检测，此时抽样单元
常常需要人为划分，一般取自然单位，诸如一公斤、一杯子
等；而初级单元则为包装袋、一卡车、一个车皮等。这种数
量众多的散料的质量检测采用二阶或多阶抽样也许是最有效
的手段。为方便，本章主要讨论二阶抽样。
2、能够满足各级政府部门对抽样调查资料的需求。因为各
级政府领导都关心全国和本地区、本部门的社会经济发展状
况，希望抽样调查能同时满足全国性和地方性的需要。因而
采用二阶或多阶抽样，在一定程度上能够满足各级政府、部
门对调查资料的需求。
3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查
方法，可以使每个一阶样本单位分布比较均匀，具有很好的
代表性；对于方差大的阶段多抽些样本单位以提高精度。
先作一些基本假设：
（ 1）初级单元中包含的次级单元个数同为 M,因此在
抽中的初级单元中再抽取的次级单元个数也相等，记为 m。
§ 1 初级单元大小相等的二阶抽样
（ 2）两个阶段的抽样方法都是简单随机抽样。
（ 3）在抽中的若干初级单元中作第二阶抽样是相互独
立进行的。
再引进一些必要的记号：
ijY
—— 表示第初级单元中第个次级单元
1,2,,; 1,2,,i N j M??
i j
ijy
—— 表示样本中第初级单元中第个次级单元的观测值
1,2,,; 1,2,,i n j m??
i j
1
M
i ij
j
YY
?
? ?
— 第初级单元总和i
iiY Y M?
— 第初级单元平均值i
1 1 1
11N M N
ij i
i j i
Y Y YN M N
? ? ?
??? ? ?
— 总体平均值
22
2
11
1 ()
( 1 )
NM
i j i
ij
S Y YNM
??
??? ??
— 初级单元 (群 )内的方差
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ?
— 总体中初级单元 (群 )间方差
将改为, N改为 n,M改为 m,则为相应的样本指标值Y y
第 i 群内次级单元间的方差记为：
22
2
1
1 ()
1
M
i ij i
j
S Y YM
?
??? ?
显然有 —— 所有的平均数。
22
1
1 N
i
i
SSN
?
? ? 22iS
1、估计量及其方差
总体平均数的估计是用样本平均数进行估计的Y
1 1 1
11n n m
i ij
i i j
y y yn n m
? ? ?
??? ? ?
容易证明，这个估计量是的无偏估计。y Y
其方差为：
2212
12
11() ffV ar y S S
n n m
???? (9.1)
其中,
1
nf
N? 2
mf
M?
方差的无偏估计为：
221 1 2
12
1 ( 1 )() f f fv y s s
n nm
???? (9.2)
总体总数的估计为：Y y N M y??
方差的无偏估计为,2( ) ( ) ( )v y N M v y??
总体平均数 95％的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
总体总数 95％的置信区间为
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
例 9.1,新华书店某柜台上月共用去发票 70本，每本 100张，
现随机从中抽出 10本，每本随机抽出 15张发票，得到数据
如下表：给出上月柜台营业总额的估计及其方差。
i 15
1
ij
j
y
?
?
1
2
3
4
5
6
7
8
9
10
375.25
408.30
323.40
502.50
234.00
387.75
284.20
256.60
314.10
280.50
15 2
1
ij
j
y
?
?
11280.25
12115.99
8752.76
17833.75
3953.00
11302.50
6573.04
4822.36
6921.01
5827.25
25.02
27.22
21.56
33.50
15.60
25.85
18.95
17.11
20.94
18.70
135.02
71.58
127.16
71.43
21.61
97.37
84.75
30.79
24.55
41.56
iy 22is
解,N=70,n=10,M=100,m=15
1 0 1 5
1 1 1 1
11
1 0 1 5
nm
i j i j
i j i j
y y ynm
? ? ? ?
?? ?? ? ? ?
1 [ 3 7 5,2 5 2 8 0,5 0 ] 2 2,4 4 4
1 0 1 5? ? ? ??
1
1
7f ?
2 0.15f ?
7 0 1 0 0 2 2, 4 4 4 1 5 7 1 0 8y N M y? ? ? ? ? ?
故上月柜台营业总额的估计为 157108.00元
22
1
1
1 ( ) 2 9, 7 6
1
n
i
i
s y yn
?
? ? ?? ?
22
1
1 7 0, 5 8n
i
i
ssn
?
???
221 1 2
12
1 ( 1 )( ) 2,6 1f f fv y s s
n nm
??? ? ?
标准差为元( ) 7 0 1 0 0 2, 6 1 1 1 3 0 8, 8 5vy ? ? ? ?
营业总额 95％的置信区间为
22( ) ( ) ( ) ( 7 0 1 0 0 ) 2, 6 1v y N M v y? ? ? ?
( 1, 9 6 ( ),1, 9 6 ( ) )y v y y v y? ? ? ?
( 1 3 4 9 4 2, 6 5,1 7 9 2 7 3, 3 5 )?
2、最优抽样比
如果初级单元（或群）之间的旅行费用不占重要地位的
话，常采用简单线性费用函数：
二阶抽样存在两次概率抽样，因而存在两个抽样比
因此我们面临的问题是,(1)在总费用给定的条件下，如何
确定与而使的方差达到最小； (2)在给定估计量的精
度条件下，如何确定与以使总费用最小。
y
12,ff
1f 2f
1f 2f()Var y
0c 12,cc
其中是基本费用,是每调查一个初级单元与次级单元
所花费的费用。
0 1 2C c c n c n m? ? ?
(9.3)
将方差表达成：
2 2 2
2 2 2 1
1
1( ) ( )S S SV a r y S
n M nm N? ? ? ?
(9.4)
于是，在固定 C下极小化或在固定下极小化
C均等价于使下式极小化：
()Var y ()Var y
2
22 2
01
SSS
M??
其中,。但这里要求。2
22 2
01 0
SSS
M? ? ?
2
22 2
01 0
SSS
M? ? ?
假如,表明群内差异明显地大于群间的差异，
因此对于抽到的群来说，最好作全面调查才能保证样本的代
表性，此时总使 m＝ M。
2
22 2
01 0
SSS
M? ? ?
现考虑
22
22 22
1 0 1 1 2
2
2 2
0 1 2
1
( ( ) ) ( ) [ ( ) ] ( )
( ) ( )
SS
V ar y S C c S c c m
N M m
S
S c c m
m
? ? ? ? ? ?
? ? ?(9.5)
在 (9.5)式中，由于都是常数，为使 (9.5)达到最
小，只要
220 2 1 2,,,S S c c
2
221
02
ScQ S c m
m??
(9.6)
达到最小，这两个加项的乘积恰好为常数,因此
只要这两项相等就可使 Q达到最小，此时应取
220 2 1 2S S c c
12
0
2
cSS
m cm
?
或者 m的最优取值为：
21
02
opt
Scm
Sc?
(9.7)
一般地,不是整数，记为的最小整数部分，那
么（为的小数部分，且）。
optm optm[]optm
[]o p t o p tm m a?? optma 0a?
2 ( 1 2 ) [ ]opta a m??如果,则取 [ ] 1optmm??
如果,则取
2 ( 1 2 ) [ ]opta a m?? []optmm?
易见，对于的小数部分大于或等于 0.5的情况，我们总取
，这符合通常的“五入”规则，是否“四舍”？
当时，就要看的最小整数部分的大小了。
optm
[ ] 1optmm??
optm0.5a ?
由 m 的选取，代入 (9.3)或 (9.4)立即可以得到 n 的数值。
3、分层二阶抽样
所谓分层二阶抽样就是将总体分为 k 个层，在每层内进
行二阶抽样。比如，一所大学有 8 个系，每个系有若干个班
级，每班大约人数为 40人，为了解学生的情况需要作一次抽
样调查，在每个系都随机抽几个班，再在抽中的班级里抽取
若干人的简单随机抽样，这就构成二阶分层抽样。
本节讨论的二阶分层抽样，假设在同一层内初级单元大
小相等，但不同层可以不相等。设第 h 层含个初级单元，
每个初级单元包含个次级单元，于是总体中共含有
个次级单元。又假设在第 h 层按照简单随机抽样方法抽取
个初级单元，在每个被抽中的初级单元中再抽取容量为的
简单随机抽样。
hN
hM
1
k
hh
h
NM
?
?
hn
hm
hy
设第 h 层中样本的 (二阶抽样 )平均数为,因此按照分
层估计的技巧，总体的 (按次级单元 )平均数的分层二阶估
计量为：
Y
1
1
1
k
h h h k
h
s t h hk
h
hh
h
N M y
y W y
NM
?
?
?
??
?
?
?
(9.8)
其中为第 h 层 (按次级单元 )的层权：
hW
1
hh
h k
hh
h
NMW
NM
?
?
?
(9.9)
(9.10)而 11
hhnm
h ij
ij
h
hh
y
y
nm
???
??
由于各层的抽样相互独立，而由二阶抽样的有关讨论,的
方差及其方差估计是已知的，因此：
hy
2 2 212
12
1
11( ) ( )k hh
s t h h h
h h h h
ffV a r y W S S
n n m?
????? (9.11)
2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h
h h h h
f f fv y W s s
n n m?
????? (9.12)
其中分别为第 h 层中的两个抽样比。
12
hh
hh
nmff
NM??、
和是第 h 层中的群间和群内方差,与是第 h 层中
样本的群间和群内方差。
21hS 22hS 21hs 22hs
显然，总体总和的分层二阶抽样估计为：
1
k
s t h h h
h
y N M y
?
? ?
(9.13)
其方差及其方差估计为：
2 2 2 212
12
1
11( ) ( )k hh
s t h h h h
h h h h
ffV a r y N M S S
n n m?
?????
2 2 2 21 1 2
12
1
1 ( 1 )( ) ( )k h h h
s t h h h h
h h h h
f f fv y N M s s
n n m?
?????
在分层二阶抽样中当然也存在最优抽样比的问题，不过此
时假定费用函数一般应当与“层”有关系：
0 1 1 2 2
11
kk
h h h h h
hh
C c c n c n m
??
? ? ???
(9.14)
固定费用 C而使方差达到最小或方差有一定精度要求下使
费用达到最小，此时的最优选择为：hm
21
22
212
hh
h
hh h h
Scm
cS S M
? ?
?
(9.15)
其中总假设对所有的 h, 都有。22
12 0h h hS S M??
§ 2 初级单元大小不等的二阶抽样
在实践中，除少数情况外，初级单元的大小不一定相等
当然理想一些的情况，我们在分群时就注意到先将单元按照
大小分层，使得同一层中初级单元大小相等，然后利用上面
所讲的分层二阶抽样的办法来做。只可惜在实际操作中，分
层分群常常有一些, 自然, 形式，例如从行政系统划分等。
因此，我们只能面对初级单元大小不等的情形，由于初级单
元大小不一样，合理的手段是对初级单元采用不等概率抽样
。先给出一些相关的记号：
ijY
—— 表示第初级单元中第个次级单元
1,2,,; 1,2,,ii N j M??
i j
1
iM
i ij
j
YY
?
? ?
— 第初级单元总和i
ii iY Y M?
— 第初级单元平均值i
1 1 1
iMNN
i ij
i i j
Y Y Y
? ? ?
??? ? ?
—— 总体总和
0
1
N
i
i
MM
?
? ? 0Y Y M?
—— 总体平均数 (按次级单元 )
Y Y N? —— 总体平均数 (按初级单元 )
22
2
1
1 ()
1
iM
i ij i
ji
S Y YM
?
??? ?
— 第 i 初级单元内方差
1、只抽取一个初级单元情形（ n=1）
先考虑从 N 个初级单元中随机选取 1 个以推断总体,
这种情形看起来似乎很特殊，但在生活中也不少见，例如在
随机地选的一个班级中抽取几个人进行考试以测试全年级的
教育质量。只选取 1 个单元，仍有等概率与不等概率之分,
(1)等概率抽取初级单元
考虑对总体平均数的估计,Y
首先使用抽中的初级单元中的样本平均数对进行估计
Iy Y
1
1 im
I i ij
ji
y y ym
?
?? ?
(9.16)
对第 i 初级单元来讲,由盒子模型可知,是的无偏估计。
由于第 i 个抽样单元是等概率抽取，相当于从盒子
中等可能抽取一次，那么所得之数一定是这个盒子平均数的
无偏估计，即
iy iY
1(,,)NYY
1
1() N
Ii
i
E y Y YN ?
?
???
YY??而,那么不是的无偏估计，而是有偏估计！YIy
Y因此，对只能求均方误差：
2 2 2
2
11
11( ) ( ) ( )NN ii
I i i
ii ii
MmM S E y Y Y Y Y S
N N M m?? ??
?? ? ? ? ???
作为的有偏估计,的均方误差由三部分构成：一是由偏
倚引起的平方和，这就是 (9.17)式右边的第一项；二是按初级
单元 (此时初级单元的特征指标当然只能是其平均数 )而计算的
总体方差,(9.17)式右边的第二项恰好体现出这一点；最后一
部分是初级单元中次级单元的方差平方和，这恰好是 (9.17)式
右边的第三项。
Y Iy
()IM SE y从的表达式可以看出，其第一项和第二项都与
的选择没有任何关系，倘若要尽力减少误差，目标自然注意
到第三项，然而第三部分是无法知道且也是无法估计的，因为
既然我们只选取一个初级单元，又如何能估计所有的呢？2
2iS
im
由于是二阶抽样，也不可能取。在一般情况下，
为了方便起见，常采用选取＝常数，不管取到哪
一个初级单元，总抽预先指定好的样本容量，要不，取
与成一定的比例比较合理一些。
iimM?
imm?
im
iM
Iy 不是的无偏估计这一缺陷是由“等可能”抽取而引
起的，这时候每一个有着同等重要的地位
而由于初级单元大小不同，在的构造中显然不是有着
同等地位的，这个事实使我们找到了一个弥补“等可能”所引
起缺陷的办法，那就是在构造估计量时考虑被抽到的初级单
元的大小作为“权”：
Y
( 1,2,,)iY i N?
Y iY
0
II
ii
ii
M N My y y
MM
??
(9.18)
其中表示所有初级单元的平均大小。这个估计的
意义很清楚，它的乘以成为第 i 个初级单元内总和的
估计，再乘以 N 成为总体总和的估计，这个估计除以作
为的估计量是合理的。
0M M N?
iM iy
0M
Y
“权” 的作用是使初级单元的指标化为次级单元的有关
指标。既然是第 i 个初级单元的总和的无偏估计，由于
第一阶抽样的“等可能性”,应当是总体总和的无偏估
计，于是有：
iM
M
iiMy
iiNM y
()IIE y Y? (9.19)
2
2
22
11
()11()
II
NN
i i i i
ii
ii i
M M M mV a r y Y Y S
N M N M m??
???? ? ?
??????
(9.20)
IIy 的方差为：
应当指出,对弥补的只是“期望”或“平均”上的偏
倚，至于在精度上是否获益则很难定。例如，倘若各个初级
单元的平均数比较稳定，而相距较大，引起前的系
数的差异较大，这种场合下比起来变化范围
显然大得多，效果就比较差。
IIy Iy
iY iM iy
iMM IIy Iy
(2)不等概率抽取初级单元
用等概率方法抽取初级单元对于大小不等的初级单元情
形显然不太合理，精度较差是可想而知的。一般地，我们采
用的不等概率抽取法有如下几种：
① 按概率抽取到第 i 个初级单元，此时构造的估计
量为：
0iMM
III iyy?
(9.21)
IIIy Iy
与表面上形式相同，只不过取的概率为
Iy iy 1N
而取的概率为
IIIy iy 0iMM
1 1 100
1() iMNN i
I I I i i j
i i j
ME y y Y Y
MM? ? ?
? ? ?? ? ?
(9.22)
IIIy
即是的无偏估计量。Y
22
2
1100
11( ) ( ) ( )NN ii
I I I i i
ii ii
MMV a r y Y Y S
M M m M??? ? ? ???
22
2
110
()1 [ ( ) ]NN ii
i i i
ii i
MmM Y Y S
Mm??
?? ? ???
(9.23)
② 抽取概率按预先指定的一组概率来实施，
构造估计量为,1
,1Nii
i
ZZ
?
?????
???
0
ii
IV
i
Myy
Mz
??
(9.24)
11 00
()
NN
i i i
I V i i
ii i
M Y ME y Z Y Y
M Z M??
? ? ???
(9.25)
IVy
即是的无偏估计量。Y
2
22
222
11 00
1 1 1( ) ( ) ( )NN i i i
I V i i i
ii i i i i
M Y MV a r y Z Y Z S
M Z M Z m M??? ? ? ? ???
22
022
110
1 [ ( ) ]NN i i i i i
ii
ii i i i
M Y M M mZ M Y S
M Z Z m??
?? ? ? ???
(9.26)
显然，若取,则。
若取,则。
0iiZ M M? IV IIIyy?
1
iZ N?
IV IIyy?
③ 抽取方式与 ② 相同，但构造的关于的估计量为：Y
Viyy?
(9.27)
此时，每个具有权,因此
iY iZ
1
()
N
V i i Z
i
E y Z Y Y
?
???
(9.28)
一般地,因此是有偏估计。其均方误差为：
ZYY? Vy
2 2 2
2
11
()( ) ( ) ( )NN i i i
V Z i i Z i
ii ii
Z M mM S E y Y Y Z Y Y S
Mm??
?? ? ? ? ???
(9.29)
Cochran构造了一个虚拟总体 (N＝ 3)进行抽样以对上述
五种方法进行比较：
例 9.2 Cochran(1977)
N=3 初级单元 (大小不等 )的虚拟总体
i
ijY i
M iY 22iS iY
1
2
3
0,1
1,2,2,3
3,3,4,4,5,5
2
4
6
1
8
24
0.500
0.667
0.800
0.5
2.0
4.0
0 12M ? 33Y ?
0
33 2, 7 5
12
YY
M? ? ?
1 ( 0,5 2,0 4,0 ) 2,1 6 7
3Y ? ? ? ? ?
方
法抽取各单元的概率
的
估计量
Y
是否
无偏
MSE
2()偏倚单元间单元内总计
Ⅱ 1 1 1 1(,,)
333N 0 i i
NM y
M
无偏 0 5.792 0.256 6.048
Ⅲ
0
( 0, 1 7,0, 3 3,0, 5 0)iMM iy 无偏 0 1.813 0.189 2.002
Ⅳ ( 0,2,0,4,0,4 )
iZ
0
ii
i
My
Mz
无偏 0 3.583 0.213 3.796
Ⅴ ( 0,2,0,4,0,4 )
iZ iy
有偏 0.062 1.800 0.173 2.035
Ⅰ a
Ⅰ b
1 1 1 1(,,)
333N
1 1 1 1(,,)
333N
iy
?
?
?
?
?
有偏
0.340 2.056 0.144 2.541
0.340 2.056 0.183 2.579
取 2
im ?
Ⅰ b唯取 2
iimM?
上表中最后一列的 MSE是比较优劣的关键,尽管是
无偏估计，但是效果最差。同样是无偏估计,的效果最
好。
IIy
IIIy
这两个事实也表明了“无偏性”对于估计量的误差判断并
非是决定性的，有时为了使均方误差小一些，人们宁可放弃
无偏性,作为有偏估计其效果几乎不亚于。注意到
Ⅲ, Ⅳ, Ⅴ 三种方法都是不等概率抽样,Ⅴ 与 Ⅲ 除了不同
外其余均相同，由于与差异不大，因此 Ⅴ 的效果相
对也就比较好。而对于,尽管与相同，但对其估计
量“刻意”要求无偏却引起了均方误差的很不理想！
Vy IIIy
iZ
iZ 0iMM
VyiZIVy
2、抽取个初级单元情形1n ?
两个以上的初级单元里进行第二阶抽样，合理的基本假
定是在不同的初级单元内的抽样过程相互之间独立。为方便
起见，仍像以前一样假定第二阶抽样为简单随机抽样，在这
一小段讨论中，我们主要考虑总体总和的估计。
（ 1）初级单元按多项抽样方法抽取
设初级单元以给定的一组概率逐个放回地
1
(,1 )
N
ii
i
ZZ
?
??
im
im
抽取 n 次，在每个被抽中的初级单元里实施容量为的简
单随机抽样：假若第 i 个初级单元在第一阶抽样中被抽中二
次或二次以上，那么在第 i 个初级单元中将独立地对全体次
级单元进行二次或二次以上的容量为的简单随机抽样。
显然，对第 i 个初级单元的总和可自然地找到无偏估
计,以这些代替的话，那么整群抽样中的
Hansen— Hurwitz型估计无疑为提供了无偏估计：
iY
iY
Y
iyi i iy M y?
11
11nni i i
HH
iiii
y M yy
n z n z??????
(9.30)
其方差为：
2 2
22
2
11
( 1 )11() NN i i i
H H i i
ii i i i
Y M fV a r y Z Y S
n Z n m Z??
?? ?
? ? ???
??
??
(9.31)
其中
2 ( 1,2,,)
i
i
i
mf i N
M??
（ 2）初级单元按简单随机抽取方式抽取
由于二阶抽样都是采用简单随机抽样形式，于是可对总
体总和采用一个最为简单的估计形式：
11
nn
u i i i
ii
NNy M y y
nn??????
(9.32)
由于与是与的无偏估计，因此也是的无
偏估计。
iy iy iY iY Yuy
其方差为：
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
ui
i
N
ii
i ii
V ar y N Y Y
n N N
N
MS
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.33)
方差的无偏估计为：()
uVar y
? ?
2
2
1
22
2
1
1 1 1
()
1
11
N
u i u
i
n
ii
i ii
v y N y y
n N n
N
Ms
n m M
?
?
??
? ? ? ? ???
???
??
?? ??
??
?
?(9.34)
其中
1
1 n
ui
i
yyn
?
? ? 222
1
1 ()
1
im
i ij i
ji
s y ym
?
??? ?
这类简单估计虽然形式简单，而且结构也容易为人们接
受，同时又是总体的无偏估计，但是它的效果并不理想，方
差显得较大。
（ 3）按不放回不等概率抽取初级单元
如果抽取到的第 i 个初级单元的总和估计为 (简单
随机抽样下的无偏估计 )，那么由第六章第二节易知，总体
总和的二阶估计可采用如下形式的 Horvitz— Thompson估计
量。
iiMy
现在考虑初级单元是按不放回不等概率抽取，而第二阶
抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第
一阶抽样中就存在包含概率。,
i ij??
11
nn
i i i
HT
iiii
M y yy
????
????
(9.35)
由于或是的无偏估计，又是的无偏估
计，所以是的无偏估计。
iiMy iy iY Y
1
n
i
i i
y
???Y
HTy
其方差为：
2
2
2
11
( ) ( )
N N N
jii
H T i j i j
i j i ii j i
YY
V a r y
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?
(9.38)
其中
? ? 2222
1
1 1 1
1
iM
i i i j i
ji i i
M Y Y
n M M
?
?
??? ? ? ? ?
?? ?
??
?
方差的无偏估计为：()
HTVar y
2
2
2
11
?
( ) ( )
n n N
jii
H T i j i j
i j i ii j i
yy
vy
?
? ? ?
? ? ?? ? ?
??
? ? ? ???
??
? ? ?(9.39)
其中
? ? 2222
1
1 1 1?
1
in
i i i j i
ji i i
M y y
n M n
?
?
??? ? ? ? ?
?? ?
??
?
§ 3 三阶及多阶抽样
将有关二阶抽样的一些公式与估计推广到三阶乃至更高
阶的情况是很现实的，其实基本上是依样画葫芦，只不过在
符号与计算方面更为复杂些，尤其是对于各级单元大小都相
等时更是如此，下面以三阶为例。
1、各级单元大小均相等时的三阶抽样
设总体中含有 N个初级单元，每个初级单元包含 M个次
级单元，而每一个次级单元均包含 K个三级单元。各阶的抽
样容量分别为 n,m,k，引进一些必要的记号：
ijtY
— 表示第初级单元中第个次级单元里第个三级单元
1,2,,; 1,2,,; 1,2,,i N j M t K???
i j t
1
1 K
ij ijt
t
YYK
?
? ?
— 第初级单元中第次级单元总体平均数i j
1
1 k
ij ijt
t
yyk
?
? ?
— 第初级单元中第次级单元样本平均数i j
— 第初级单元总体平均数i
11
1 MK
i ijt
jt
YYMK
??
? ??
11
1 mk
i ijt
jt
yymk
??
? ??
— 第初级单元样本平均数i
1 1 1
1 N M K
ijt
i j t
YYN M K
? ? ?
? ???
—— 总体平均数
1 1 1
1 n m k
ijt
i j t
yyn m k
? ? ?
? ???
—— 样本平均数
22
1
1
1 ()
1
N
i
i
S Y YN
?
??? ? 221
1
1 ()
1
n
i
i
s y yn
?
??? ?
22
2
11
1 ()
( 1 )
NM
ij i
ij
S Y YNM
??
??? ??
22
2
11
1 ()
( 1 )
nm
ij i
ij
s y ynm
??
??? ??
22
3
1 1 1
1 ()
( 1 )
N M K
i j t i j
i j t
S Y YN M K
? ? ?
??? ???
22
3
1 1 1
1 ()
( 1 )
n m k
i j t i j
i j t
s y yn m k
? ? ?
??? ???
如果三阶抽样均为简单随机抽样，则有以下结论：
y Y即是总体平均数的无偏估计。
其中
1 2 3,,
n m kf f f
N M K? ? ?
（ 3） ()Var y 的无偏估计为
（ 1） ()E y Y? (9.40)
（ 2）
222 312
1 2 3
111() fffV a r y S S S
n nm nm k
???? ? ?(9.41)
2 2 21 2 31 1 2
1 2 3
( 1 )1 ( 1 )() f f ff f fv y s s s
n nm nm k
???? ? ?
(9.42)
2、多阶抽样中不等概率抽样的应用
一般地，各级单元大小常常并不相等，因此普遍采用不
等概率抽样，这样不仅合理，能被接受，而且自然提高效率
比如，三阶抽样均采用多项抽样形式，各阶样本量仍分别为
n,m,k，而抽样概率分别为：
,,i ij ijtZ Z Z
且
1 1 1
1,1,1
iji KMN
i i j i j t
i j i
Z Z Z
? ? ?
? ? ?? ? ?
1,2,,; 1,2,,; 1,2,,i iji N j M t K? ? ?
那么总体总和的无偏估计为：Y
**
1 1 1 1
1 1 1 1n m k nijt
i
i j t ii i j i j t
y
yy
n m k z z z n? ? ? ?
??? ? ? ?
(9.43)
其方差为,22
* 2 2
1 1 1
2
2
1 1 1
1 1 1
()
1 1 1
i
iji
MNN
iji
i
i i ji i ij
KMN
ijt
ij
i j ti ij ijt
YY
V a r y Y Y
n Z nm Z Z
Y
Y
nm k Z Z Z
? ? ?
? ? ?
????
? ? ? ?????
?? ??
?? ??
?? ?? ??
????
? ? ?
? ? ?(9.44)
方差的无偏估计为：
* * * 2 * 2 * 2
11
11( ) ( )
( 1 ) ( 1 )
nn
ii
ii
v y y y y n y
n n n n??
??? ? ? ?
???? ????
(9.45)
其中
*
11
1 1 1 ( 1,2,,)mk ijt
i
jti i j i j t
y
y i n
z m z k z??
??
?? ??
??
??
(9.46)
高阶抽样是复杂抽样，不但每一阶抽样可以采用不同
的概率抽样形式，即使在同一阶的抽样中，各单元内进行
的抽样形式也将视该单元的情况而采用不同的概率抽样形
式。因此，在构造一个好的合理的估计量时，必须相当小
心谨慎，在计算和作出估计量方差估计的过程中尤其要注
意，通常大规模的抽样调查就是这种复杂的多阶抽样。

课件简介

课件名称：	抽样调查理论与方法
课件分类：	统计
课件类型：	电子教案
文件大小：	4.45MB
下载次数：	4
评论次数：	3
用户评分：	8

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们