抽样调查理论与方法：4-1～2.PPT

分类：统计格式：ppt 日期：2006年02月08日

§ 1 分层抽样及估计量
简单随机抽样是最基本的抽样手段，在一些小型的抽样
调查中被人们采纳。所谓小型是指总体容量 N 较小，当总体
容量 N 较大时，不便采用简单随机抽样方法。这时，分层抽
样将起到作用。
第四章分层抽样
根据调查的要求，将总体 N 划分为若干个子总体
（通常用总体或子总体的容量大小来表示总体或子
总体本身），实质上是将总体分为 k 层。独立地在各层中
进行抽样，称为分层抽样。如果在各层中的抽样都是简单随
机进行，则称为分层随机抽样,所得的样本称为分层随机样
本。
,,21 NN
kN,?
总体如何分层是一门学问。
一般来说，按照调查的目的要求，从地区、民族、指标
的反映程度等因素出发考虑分层。因为一项社会经济调查，
常常不仅需对总体的有关参数进行估计，而且对一定群体的
相应参数也需要估计。例如，调查全国的消费物价指数，同
时想知道各省市的消费物价指数，根据这种要求自然以全国
所有省市作为层来进行抽样。如果我们希望在样本中有某些
子总体的代表，比如前面所讲的民族的代表，那么分层就要
考虑到这些子总体作为独立的层。
应当注意，按照某种因素或特征进行分层时,各层之间
具有明显的区分界限将会提高估计的精度。样本既然考虑到
各种类型的代表性，那么这样获取的样本就更能代表总体，
直观告诉我们，这种样本用来估计总体会达到较小的误差。
各层中的抽样是独立进行的。这一事实还包括在各层中
所采取的抽样手段完全可以不相同，在一个层进行简单随机
抽样，在另一层则可采用更复杂一些的抽样，完全视各层的
情况不同而定，这种因地制宜的手段将使样本尽可能反映总
体的特性以及子总体的特性。
现在考虑分层抽样的具体估计方法，首先引进一些符号
1、符号
总体 N＝
kNNN 子总体子总体子总体 ???? 21
?
?
?
k
h
hNN
1
第 h 层的单元标志值记为,从该层抽
取的样本记为,第 h 层子总体的总体平均
数为,子总体之和为,样本平均数记为,其和
),,2,1( hhi NiY ??
),,2,1( hhi niy ??
hY hY
~ hy hy~
再记,表示第 h 层在总体中的权重，一般假定它
是已知的。表示 h 层中的抽样比。
NNW hh ?
hhh Nnf ?
)1()(
1
22 ??? ?
?
h
N
i
hhih NYYS
h 第 h 层层内方差
)1()(
1
22 ??? ?
?
h
n
i
hhih nyys
h 第 h 层样本方差
2、参数的估计量
假定我们想估计总体的平均数,获取的样本是分层
随机样本。将写为：
Y
Y
? ??
? ??
??
k
h
N
i
hi
N
i
i
h
Y
N
Y
N
Y
1 11
11 ?
?
?
k
h
hhYN
1
1 ?
?
?
k
h
hhYW
1
(4.1)
从盒子模型观点看，这是一个大盒子装有 k 个小盒子，第 h
个小盒子中的单元值是,小盒子的平均数
是,方差是,该小盒子在大盒子里所占的权为,分
层随机抽样是指从每个小盒子里按一定份额（
）作随机无放回抽样。
hhNhh YYY,,,21 ?
hY 2hS hW
hn
nnnn k ???? ?21
kh,,2,1 ??
由第三章知道,是的无偏估计量，因此，由 (4.1)式
可知,的一个无偏估计量自然地选为：
hy hY
Y
?
?
?
k
h
hhst yWy
1
?
?
?
k
h
hh yNN
1
1(或 ) (4.2)
??
??
?????
k
h
hh
k
h
hhstst yNyWNyNy
11
~ (4.3)
总体总和的无偏估计可选为：Y~
1
( ) ( )
k
s t h h
h
V a r y V a r W y
?
? ?
由于各个小盒子的抽样过程是相互独立的，故各个相互
独立，由独立随机变量之和的方差计算公式，有
hy
2
1
( ) ( )
k
s t h h
h
V a r y W V a r y
?
? ? 22
1
11()k
hh
h hh
WSnN
?
? ? ? ??
22
1
k
hh
h h
WS
n?
?? ? 22
1
k
hh
h h
WS
N?
???
22
1
k
hh
h h
WS
n?
?? ? 2
1
k
hh
h
WS
N?
??? (4.4)
(4.4)式的第一项恰好为从各个小盒子里随机有放22
1
k
hh
h h
WS
n?
??
回抽样时得到的的方差计算公式，而现在是无放回抽样
sty
估计量的方差为：
sty
因此第二项表示考虑有限总体修正因子引起的
方差减少。
2
1
k
hh
h
WS
N?
??
如果不用分层抽样，而用大盒子中的简单随机抽样的平均
数来估计总体平均数，此时方差为：
211( ) ( )V ar y S
nN??
而
22
1
( 1 ) ( )
N
i
i
N S Y Y
?
? ? ?? 2
11
()
hNk
hi
hi
YY
??
????
2
11
()
hNk
h i h h
hi
Y Y Y Y
??
? ? ? ???
2
11
()
hNk
h i h
hi
YY
??
???? 2
1
()
k
hh
h
N Y Y
?
???
2
1
( 1 )
k
hh
h
NS
?
??? 2
1
()
k
hh
h
N Y Y
?
???
(4.5)
(4.5)式两端各除以 (N－ 1),假如各层的单元数都很大，当
近似认为：
hN
1
11
h h h
h
N N N W
N N N
?? ? ?
??
(4.6)
因此直接来自总体的简单随机抽样平均数的方差大约为：
22
11
11( ) ( ) ( )kk
h h h h
hh
V a r y W S W Y YnN
??
??? ? ? ???
????
(4.7)
(4.7)式花括弧内第一项为各个小盒子方差的加权和，而第二
项则表示了各小盒子之间的差异平方和。比较 (4.4)和 (4.7)，
若取,那么易见 (4.4)式变为
hhn n W?
2
1
11( ) ( ) k
s t h h
h
V a r y W SnN
?
?? ?
2
1
11( ) ( ) ( ) ( ) 0k
s t h h
h
V a r y V a r y W Y YnN
?
? ? ? ? ??
因此 (4.8)
hhn n W?
也即至少当时，分层抽样的误差比简单随机抽样
的误差小。相差的部分几乎恰恰只与各层之间的差异平方
和有关。分层抽样的优点在于通过各层的独立抽样过程而
减少了由于各层之间的差异所造成的误差。
设想一下，如果各小盒子之间没有任何差异，那么各小
盒子的平均数应当一致，此时各层之间的差异平方和为零
因而分层抽样与简单随机抽样的误差相同，也就是说，分层
与不分层并无不同之处。这个事实告诉我们,为了取得分层
的效果，必须注意层与层之间要有较显著的差异。当然并不
是讲在总体中分辨不出各有特色的层时就一定不用分层抽样
不过那时的得益在于组织管理上的方便而不表现在精度上。
hY
上述讨论是在所有的都较大的假设下，利用近似式
(4.6)进行的，如不考虑近似因素，仍设,则有
hhn n W?
hN
22
11
( ) ( )
1 1 1 1
( ) ( ) ( )
1
st
kk
h h h h
hh
V a r y V a r y
N Y Y N N S
n N N N??
?
??
? ? ? ? ???
? ??
??
(4.9)
22
11
1( ) ( )kk
h h h h
hh
N Y Y N N SN
??
? ? ???是否会有呢？这种情
况的发生实质上意味着分层在精度上不如简单随机抽样。
2
1
()
k
hh
h
N Y Y
?
??
其实,恰好表示各层之间差异平方和
2
1
1 ()k
hh
h
N N SN
?
?? 2
1
( 1 )
k
hh
h
WS
?
??? 在一定程度上表示各层内
差异的平方和。
如果分层使得各层的中心离总体中心比较近，而各层中单元
又比较分散，那么不利于分层抽样的“不幸现象”就会发生。
下面构造这样的一个例子：
例 4.1 假设总体 N=15,分层 k=3，数值如下表
1 2 3 4 5
0 -1 2 5 4
-1 -2 3 6 9
-2 -3 4 5 16
i
h
1
2
3
hY
Y 2
hS
2
3
4
6.5
21.5
57.5
3
15 ( 1,2,3 ),
3hhN h W? ? ?
3
22
11
( ) 5 ( 3) 1 0
k
h h h
hh
N Y Y Y
??
? ? ? ???
2
1
( 1 )
k
hh
h
WS
?
??
3
2
1
1( 1 ) 5 7
3 hh S?? ? ??
产生这种结果的原因
在于对该总体的分层
不合理。可见合理的
分层对体现分层抽样
的优点至关重要！
下面给出的近似置信区间
sty
22
1
11( ) ( )k
s t h h
h hh
V a r y W SnN
?
???
由于中的是未知的2
hS
用该层中的样本方差进行估计，即
22
1
1 ()
1
hn
h h i h
ih
s y y
n ?
??
? ?
2
22
2
11
1 1 1( ) ( ) ( )kk h
s t h h h h h
hhh h h
sv y W s N N n
n N N n??
? ? ? ???
(4.11)
于是
注意到是各层样本平均数的加权和，只要与
适当大，各层样本平均数都可正态近似，因此也可正态
近似，这样得到的的近似置信区间为：
sty,hhNn hhNn?
sty
Y (1 )??
2211
( ( ),( ) )s t s t s t s ty u v y y u v y??????
(4.12)
§ 2 比例分配及最优分配
简单随机抽样只需根据调查精度的要求与费用的限制来
确定抽样容量的大小。而分层抽样则提出另一个重要的问题
一旦确定 n,又如何在各层中分配抽样容量,其中有一些
问题需要考虑，比如在各层中各有精度的要求以及费用的限
制，由于各层具有各自的鲜明特点，其花费自然不同，因而
在样本容量的分配上必须带有经济观点。另一个重要因素是
由于的不同而带来数据处理的困难。我们的样本量分配必
须尽可能地使估计量及其方差估计具有较简单的形式，从而
使数据汇总工作量趋小，做到省时省力。
hn
hn
1、比例分配
由于我们假设每层的单元数为已知，合理且自然的
想法是哪个层的单元数多则相应抽取的样本量也大。
hN
根据这个原则，可以使每层的样本量与该层的大小
成比例，即：
hNhn
hhn N n N?
或 ( 1,2,,)
hf f h k??
(4.13)
采用这种分配样本量的方法称为比例分配。
我们知道，简单随机抽样中总体的每一个单元入样的概
率即为抽样比。因而，按比例分配而在各层中进行
简单随机抽样的分层方法实际上使总体中任何一个单元入样
的概率都为,对于这种等概率抽取的样本，此时：
f n N?
f n N?
显然估计量具有相当简洁的形式。
st st
Ny N y N y y
n? ? ? ? ?
(4.15)
1
k
s t h h
h
y W y
?
???
11
1()knk h
hi
hi h
n y
nn?????? 11
1 knk
hi
hi
yyn
??
????
(4.14)
不管那种抽样方法,如果总体总和的无偏估计可以像
(4.15)式那样写成样本总和的常数倍,那么这种样本（或估
计量）称为自加权的或等加权的。
按比例分配的分层抽样就是自加权的，它的有关总体平均数
估计以及估计量的方差计算与估计，上一节已经进行了讨论
2、最优分配
自加权的比例分配方法使得估计量呈现简单形式，并且
在直观上与实用上都使人们感觉到它的合理性与方便。但是
它没有回答是否在给定费用下能使估计量的方差达到最小或
对给定的方差大小时能使总费用达到最小。分层抽样中
的样本量在各层中分配力求使得上述问题得到解决，这样的
分配称为最优分配。
sty
考虑最简单的线性费用函数：
0
1
k
hh
h
c c c n
?
?? ?
(4.16)
其中 c 为总费用,为基本费用且与样本量无关,是第 h
层中单位样本所花费的费用。
0c hc
若总费用 c 为给定的，各层相应的分配量为
那么此时分层抽样的方差为：
( 1,2,,)hn h k?
sty
2 2 2
11
()
kk
h h h h
st
hh h
W S W SV a r y
nN??
?????? (4.17)
给定总费用 c 为使 (4.17)式达到最小，可利用条件极值的拉
格朗日乘数法。令
2 2 2
0
1 1 1
()
k k k
h h h h
hh
h h hh
W S W ST c c c n
nN ?? ? ?
??? ? ? ? ?? ? ?(4.18)
22
2 0
hh
h
hh
WST c
nn ?
?? ? ? ? ?
?
令 ( 1,2,,)hk?
由于为常数，将 (4.19)对所有的 h 求和，并利用?
1
k
h
h
nn
?
??
1
h h h
k
h h h
h
n N S c
N S c
?
?
?
( 1,2,,)hk? (4.22)
所以
1
h h h
h k
h h h
h
W S c
nn
W S c
?
??
?
( 1,2,,)hk? (4.21)
得
1
k
hh
h h
WS n
c
?
?
? ?
(4.20)
得
hh
h
h
WS c
n ??
hh
h
h
WS n
c ???
或 (4.19)
(4.22)式表明,越大 (即层越大 )，则层内抽样应越多；又若
越大 ( 即层内方差越大 )，则层内抽样也应越多；但如果
越大 ( 即层内平均每单元抽样费用越大 )，则该层中抽样
应少一些。这些关系在直观上很容易为人们所接受。
hN
hS
hc
在最优分配中，如果每层中单位抽样的费用相等，
那么最优分配简化为：
hcc?
11
h h h h
h kk
h h h h
hh
W S N Sn n n
W S N S
??
? ? ? ?
??
( 1,2,,)hk? (4.23)
我们称 (4.23)式为 Neyman分配。利用 (4.23)可以计算出此时的
方差为：
22
m i n
11
( ) ( )
h
kk
s t h h h
hh
V y W S n W S N
??
????
(4.24)
(4.24)式给出了 Neyman分配下的最小方差。
sty
1 2 3
0 1 2
4 6 11
i
h
1
2
hY
Y2
hS
1
7
1
13 4
hW
1/2
1/2
例 4.2,构造一个虚拟总体,N＝ 6,分为两层，各层的单元值
如下表：
如果抽样容量为 n＝ 4,现按比例分配，则有
4 6 2 3hhn N n N? ? ?1,2h? 12 2nn??
此时,的方差由 (4.4)式可得：sty
2 2 222
11
() h h h hst
hh h
W S W SV a r y
nN??
??????
1 1 1 11 1 3 1 1 3
74 4 2 2
2 2 6 6 1 2
? ? ? ?
? ? ? ? ?
现若采用 Neyman分配，假设各层单位抽样费用相同，由 (4.23)
11
1
1 1 2 2
1
41
2 0, 8 7 1
11
1 1 3
22
n W S
n
W S W S
??
? ? ? ?
? ? ? ?
22
2
1 1 2 2
1
4 1 3
2 3, 1 3 3
11
1 1 3
22
n W S
n
W S W S
??
? ? ? ?
? ? ? ?
仍按 (4.4)式计算可得：
1 1 1 11 1 3 1 1 3
14 4 2 2( ) 0, 1 6 7
1 3 6 6 6st
V a r y
? ? ? ?
? ? ? ? ? ?
按最小方差公式 (4.24)有
2
min
1 1 1 1 1 1( ) ( 1 1 3 ) ( 1 1 3 ) 0,1 5 8
4 2 2 6 2 2stVy ? ? ? ? ? ? ? ? ? ? ?
可以看到，最优分配下的方差比按比例分配的方差要小的多
理论上的最小方差比实际计算还要小，这是因为实际上只
能取整数，因而产生的方差比理论最小值稍大一些。
hn
通过这些讨论可知,对样本平均数来讲，简单随机抽样
的方差大于按比例分配的分层抽样方差，当然这是在分层合
理的情况下的规律，而分层抽样中按比例分配方式的方差又
大于最优分配下的方差。
但在具体实施最优分配方案时，可能会发生意外的麻烦
为方便起见，以 Neyman 最优分配为例，假设某一层的方差
特别大 (不妨假设很大 )，又整体抽样比比较大，
此时：
21S f n N?
1 1 1 1
11
1
11
kk
h h h
hh
N S N S
n n n f N
N S S N
??
? ? ? ? ?
??
由于不等号严格成立，如果 f比较大的话，很有可能发生
的情况。这样我们至少对于该层要实施 100％的抽样，若不够
怎么办？自然是将余额分配到其它各层去，这种再分
配当然也应采用最优原则。仍假定为 Neyman 分配情形，通常
的步骤为：
11nN?
11nN?
11nN? 11nN?
若,则令 (即第一层为普查 )，且
1
2
() hhh k
hh
h
WS
n n N
WS
?
? ? ?
?
2,3,,hk?
1nN?
这实质上就是将按 Neyman 分配原则分配到其余层
如果此时所有,那么分配完毕，否则，假
如,则令,而
( 2 )hhn N h??
22nN? 1 1 2 2,n N n N????
12
3
() hhh k
hh
h
WS
n n N N
WS
?
? ? ? ?
?
3,4,,hk?
如果此时所有,那么分配完毕，否则，继
续这个过程直到所有的为止。此时的最优分配所可
能达到的最小方差需要做适当修改：
( 3 )hhn N h??
hhnN?
22
min
11( ) ( ' ) '
hs t h h h
hh
V y W S W SnN??? ??
(4.27)
其中是仅对最后实际分配的层求和，而是
这些层中抽取的单元总数。直观上很容易理解它，因为那些
普查的层再也不存在所谓抽样误差，自然要从原来的公式中
去掉。
'
h
? hhnN? n?

课件简介

课件名称：	抽样调查理论与方法
课件分类：	统计
课件类型：	电子教案
文件大小：	4.45MB
下载次数：	4
评论次数：	3
用户评分：	8

用户列表