设想国家教育部想了解上海中学生的体质状况,抽样调
查是既省钱又省时的办法,显然上海地区的中学生均是总体
的单元,从全体学生中随机无放回地抽取若干样本是理想的
概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦
事,况且一个合理的有代表性的样本一般应该遍布全市,在
对如此分散的中学生样本逐个进行访问,其工作量之大可想
而知。一个方便的方法是在上海地区按学校抽样,在抽得的
几所学校中对该校所有中学生进行普遍调查。这就是本章要
讲述的整群抽样。
第八章 整群抽样
若总体可分为 N个 初级单元 (称为 群 ),每个初级单
元包含若干次级单元。按照某种方式从总体中抽取 n个初级
单元,对这些单元中的所有次级单元全部进行调查。这种抽
样方法称为 整群抽样 。
在实际工作中,整群抽样方法被广泛采用。例如,在社
会经济调查中的人口调查、家计调查、农林牧业调查以及工
业产品质量检验等等都经常采用整群抽样调查。
采用整群抽样调查的原因有二。其一是在某些情况下,
往往由于不适合采用一个个地抽取样本单位,不得不采用整
群抽样。例如,某些工业产品的质量检验,事实上不能逐个
抽取样本单位来进行,只能在某一时间内,成批地抽取产品
来检验。
其二,即使抽样调查能够一个个地取样,但由于经济的
考虑也会选择整群抽样。例如,职工家庭生活水平调查中,
如果不是以居委会为群进行整群抽样调查,而是以居民户为
单位抽样,这些被抽到的居民户一般分散地居住,必然增加
交通费、延长调查时间等。所以出于对工作时间、经费等客
观条件的考虑,也得采用整群抽样调查。
整群抽样作为一种抽样组织形式,具有以下的 优点,
1、调查单位比较集中,进行调查比较方便,可以减少
调查人员来往于调查单位之间的时间和费用。例如,在进行
农村居民户收入情况调查时,在一个县抽千分之五的村庄,
对其所有居民户进行调查,明显地比从全县直接抽千分之五
的农户进行调查,更便于组织,节省人力、旅途往返时间及
费用。
2、设计和组织抽样比较方便。例如,调查农村居民住
户,不必列出农村所有居民住户的抽样框,可以利用现成的
行政区域,如县、乡、村,将农村划分为若干群,这给抽样
设计方案带来很大方便。尤其是对那些无法事先掌握总体单
位情况的总体,采用整群抽样更为合适。
然而,整群抽样 由于调查单位只能集中在若干群上,而
不能均匀分布在总体的各个部分,因此,它 的精度比起简单
随机抽样来要低一些 。
当然我们可以通过多抽几个群来弥补这一缺陷,但最关
键的一条还是在于总体内群的划分。 为了使整群抽样的样本
具有一定的代表性,应当使群与群之间尽可能地差异小,而
群内单元之间的差异应当大 ( 注意:这一点与分层抽样中总
体内层的划分有着极大的差别 ),这意味着每个群均具有足
够的代表性。如果划分的群相互之间颇多相似之处,那么少
量群的抽取足以提供良好的精度。一个总体划分成多少个群
,每个群的规模大小如何又是一个新问题,通常我们面临的
总体会有自然的初级单元,例如本章开头所说的各所中学它
们互相之间 关于学生的体质 很相似,但在一个学校里每个学
生之间有一定的差异。
例如,在一个有 500个村庄,100000个农户的县,抽取
1%的农户就是 1000户,而抽 1%的村庄则只有 5个村庄,也
许抽到的 5个村庄农户多于 1000,但由于样本单位只集中在
5个村庄,显然不如在全县范围内简单随机抽取 1000户分布
均匀,代表性一般要差一些,抽样误差较大。
倘若需要我们自行划分群,一般还要考虑到组织管理上
的方便、精度上的要求以及费用的多少等等因素。
§ 1 群大小相等的整群抽样
首先讨论群大小相等时的简单情况。所谓群的大小相等
主要指群内次级单元的个数相等,假定关于群的抽取是随机
无放回的。
首先引进一些必要的记号:
ijY
—— 表示第 群中第 个次级单元
1,2,,; 1,2,,i N j M??
i j
ijy
—— 表示样本中第 群中第 个次级单元的观测值
1,2,,; 1,2,,i n j M??
i j
1
M
i ij
j
YY
?
? ?
— 第 群总和i
iiY Y M?
— 第 群平均值i
11
1 NM
ij
ij
YYNM
??
? ??
— 总体平均值
22
11
1 ()
1
NM
ij
ij
S Y YNM
??
??? ??
— 总体差异平方和
22
1
()1
N
bi
i
MS Y Y
N ???? ?
— 群间差异平方和
22
11
1 ()
( 1 )
NM
w i j i
ij
S Y YNM
??
??? ??
— 群内差异平方和
将 改为,则为相应的样本指标值Y y
它们之间的关系为:
2 2 21 [ ( 1 ) ( 1 ) ]
1 bwS N S N M SNM? ? ? ??
(8.1)
将 改为, 代替,由于是整群抽样,仍为,不难
得到样本方差平方和的关系式:
Y y n N M M
2 2 21 [ ( 1 ) ( 1 ) ]
1 bws n s n M snM? ? ? ??
(8.2)
可作为 的估计,但不是无偏估计。这是因为次级单元是
在抽到的群内普查,此时样本不是简单随机的。
2s 2S
由于群的选取是简单随机的,因此 与 分别是 与 的
无偏估计,于是得到 的无偏估计为:
2bs 2
ws 2bS 2wS
2S
2 2 21? [ ( 1 ) ( 1 ) ]
1 bwS N s N M sNM? ? ? ??
(8.3)
22
2 ( 1 )? bws M sS
M
??? (8.4)
当 相当大时,该估计可近似写为:N
从 (8.2)式可知,若 n 也足够大的话,也可写成 (8.4)形式,
此时,就可以看作是 的近似无偏估计了。
2s
2S2s
再引进一个群内相关的记号,这个概念的重要性在于
它可以度量群内次级单元的差异程度,因为我们已经知道群
内单元的差异大就可能保证样本的代表性,如何划分群实质
上是一个抽样方案的设计问题。易见设计的效应好还是差在
相当程度上与这个 有关。 的定义为:
c?
c? c?
2
( ) ( )
()
ij ik
c
ij
E Y Y Y Y
E Y Y
?
??
?
?
(8.5)
具体计算得
1
2
2 ( ) ( )
( 1 ) ( 1 )
MM
ij ik
i j k
c
Y Y Y Y
M N M S
? ??
??
?
??
?? (8.6)
2 2 2 2( ) 2 ( )a b a b a b? ? ? ? ?
计算可得, 在一定程度上反映了群内单元的
差异,当然这种差异一般是相对于群间差异而言的。它可以
用群内方差 与群间方差 来表示:
11c?? ? ? c?
2bS2wS
2
2
( 1 )1 ( 1 )
( 1 )
b
c
M N SM
N M S?
?? ? ?
?
(8.7)
当 N足够大时,近似有
2 2 2( ) ( 1 )cb S S M S? ? ? ?
(8.8)
当 N足够大时,近似有
又 2
2 ( 1 ) ( 1 )c
w
N M SS
MN
???? (8.9)
2
21
w
c
S
S? ??
(8.10)
由 (8.8)以及 (8.10)可得 的估计c?
22
22? ( 1 )
bw
c
bw
ss
s M s
? ??
??
(8.11)
由 (8.11)也可以发现,考虑 N相当大时,当, 与
几乎相等,也就是说群间方差几乎与群内方差一样,实际上
指出了我们对群的划分完全是随机进行的。如果,那
么群间的方差远远大于群内方差,群内单元差异相对不显著
将引起样本的代表性差,从而精度一定会差!
0c? ? 2bS 2wS
0c?
0c?,表明群内单元的差异远比群间差异大。
由 (8.11)可知,的情况最多只能到,此时
群间毫无诧异,任意抽取几个群都可以作为总体的真实写照
因此,的取值范围应当在 之间。
0c? ? 1 ( 1 )M??
c? [ 1 ( 1 ),1 ]M??
1、估计量及其方差
总体平均数 的无偏估计是Y
11
1 nM
ij
ij
yynM
??
? ??其方差为:
2
2
11( ) [ 1 ( 1 ) ]
( 1 ) c
f N MV a r y S M
n M N ?
??? ? ? ?
?
(8.12)
当 N足够大时,近似有
21( ) [ 1 ( 1 ) ]
c
fV ar y S M
nM ?
?? ? ?(8.13)
f n N?
另外,我们还可以提供一个关于 的无偏估计:()Var y
2
1
11( ) ( )
1
n
i
i
fv y y y
nn ?
?? ? ?
? ?
(8.16)
总体总和 的无偏估计为:
11
NM
ij
ij
Y Y N M Y
??
? ? ???
1 1 1 1
11n M n M
i j i j
i j i j
y N M y N M y N yn M n
? ? ? ?
? ? ? ? ? ?? ? ? ?
2
22
2
22
( ) ( ) ( )
11
( ) [ 1 ( 1 ) ]
( 1 )
11
[ 1 ( 1 ) ]
( 1 )
c
c
V a r y N M V a r y
f N M
N M S M
n M N
f N M
N S M
nN
?
?
?
??
? ? ? ?
?
??
? ? ? ?
?
其方差为:
在实际问题中,具有某种特征的(次级)单元在总体中
的比例 的估计常用整群抽样,不仅方便而且效率也高,在
各群大小相等的情况下,利用前面 的讨论立即可得 的估
计量及其方差。
p
pY
1
1 N
i
i
ppN
?
? ?
—— 总体百分数
ip
—— 第 群百分数i
总体百分数的无偏估计为:
1
1 n
ci
i
ppn
?
? ?
—— 样本百分数
2
1
11( ) ( )
1
n
c i c
i
fv p p p
nn ?
?? ? ?
? ?
方差 的无偏估计为:()
cVar pcp
例题,试根据下表所得的某林场抽取的 5个样本群的林木蓄
积量资料,对该林场每块 0.04公顷的林地上的平均蓄积量及
该林场的每公顷蓄积量进行估计,并给出估计误差。如果一
棵林木能够出材 3 立方米以上就为成材林木,求该林场林木
的成材率估计及其误差。(假设共分为 N=100个群)
群号 i
单元号 j
1iy 2iy 3iy 4iy 5iy
5
1
ij
j
y
?
? ip
1
2
3
4
5
3.4
5.9
6.3
13.2
3.3
0.1
2.5
11.8
11.4
2.2
1.8
1.7
2.9
2.9
4.6
0
4.9
7.6
15.5
2.4
3.1
2.5
18.9
6.9
0.5
8.4
17.5
47.5
49.9
13
0.4
0.4
0.8
0.8
0.4
解,N=100,n=5,M=5
该林场每块 0.04公顷的林地上的平均蓄积量的无偏估计是
55
1 1 1 1
11
55
nM
i j i j
i j i j
y y ynM
? ? ? ?
?? ?? ? ? ?
1 [ 8.4 17.5 47.5 49.9 13] 5.45 2
55? ? ? ? ? ??
3米
2
1
11( ) ( )
1
n
i
i
fv y y y
nn ?
?? ? ?
? ?
方差为
0, 0 5nf N??
22
2 2 2
1 0, 0 5 1
[ ( 1, 6 8 5, 4 5 2 ) ( 3, 5 5, 4 5 2 )
5 5 1
( 9, 5 5, 4 5 2 ) ( 9, 9 8 5, 4 5 2 ) ( 2, 6 5, 4 5 2 ) ]
?
? ? ? ? ?
?
? ? ? ? ? ?
2,9 9 5 4?
由表可得 分别为,1.68,3.5,9.5,9.98,2.6
iy
标准差为 ( ) 1, 7 3 0 7vy ? 3米
该林场每公顷的林地上的平均蓄积量估计为
5, 4 5 2 / 0, 0 4 1 3 6, 3? 3米
标准差为 11
( ) 1,7 3 0 7 4 3,2 6 7 50,0 4 0,0 4vy? ? ? ?
3米
1
11 [0, 4 0, 4 0, 8 0, 8 0, 4 ] 0, 5 6
5
n
ci
i
pp n
?
? ? ? ? ? ? ??
故该林场林木的成材率估计为,56%
2
1
11( ) ( )
1
n
c i c
i
fv p p p
nn ?
?? ? ?
? ?
方差为
22
222
1 0, 0 5 1
[ ( 0, 4 0, 5 6 ) ( 0, 4 0, 5 6 )
5 5 1
( 0, 8 0, 5 6 ) ( 0, 8 0, 5 6 ) ( 0, 4 0, 5 6 ) ]
?
? ? ? ? ?
?
? ? ? ? ? ?
0,0 0 9 1?
标准差为 ( ) 0, 0 9 5 4
cvp ?
即 9.54%
2、设计效应
已经指出在整群抽样中,如何划分群、群的大小规模如
何控制对于估计的精度颇有影响,这就涉及到设计效应的讨
论。根据设计效应的定义,我们必须考虑与整群抽样同等规
模的简单随机抽样,由于整群抽样调查的对象是次级单元,
因此考虑在拥有 NM个次级单元的总体中抽取容量为 nM的简
单随机样本,计算所得的平均数(为统一且方便起见,记为
)的方差为:
ry
21()
r
fV ar y S
nM
??
群大小相等的整群抽样的设计效应为:
( ) ( ) 1 ( 1 )rcd e f f V a r y V a r y M ?? ? ? ?(8.17)
(8.17)式右端 是显然的,否则就不是整群抽样。实
际问题中,很难做得划分的群互相之间很少差异,因此一
般有,这就是说,整群抽样的精度在大多数情形下
要比抽同样数量的次级单元的简单随机抽样的精度低。倘
若要想获得相同的精度,那么整群抽样的样本量必须是简
单随机抽样样本量的 倍。这个事实提供
给我们确定整群抽样的样本量的方法。
1M ?
0c? ?
1 ( 1 ) cM ???
例 8.1 对全国成年人人体尺寸测量,若以工作单位为现成的
群划分,这些单位一般不是等规模的,以平均大小 人
计算,通过少量样本的预测,若单位内同性别人的群内相关
估计 。根据精度要求,简单随机抽样需要样
本量为 6147人,那么整群抽样需要多少人才能达到同样的估
计精度?
80M ?
0,0 0 7 7 5c? ?
1 ( 1 ) 1 (8 0 1 ) 0, 0 0 7 7 5 1, 6 1 2 2 5cd e f f M ?? ? ? ? ? ? ? ?
整群抽样需要人数 人1,6 1 2 2 5 6 1 4 7 9 9 1 1n ? ? ?
约等于 个群9 9 1 1 8 0 1 2 4?
§ 2 群大小不等的整群抽样
在实际操作中,很少有各群 M相等的情况,那些 相差
不大的情况就常常作为群大小相等进行处理,通常的手法是
以群的平均大小 代替公式中的 M 。
iM
M
如果各群大小差异甚大,那么它们在总体中所占的地位
也各有不同,对群采取用简单随机抽样明显地效果欠佳,这
种场合一般我们采用不等概率抽样。
同样先引进一些记号:
ijY
—— 表示第 群中第 个次级单元
1,2,,; 1,2,,ii N j M??
i j
ijy
—— 表示样本中第 群中第 个次级单元的观测值
1,2,,; 1,2,,ii n j M??
i j
1
iM
i ij
j
YY
?
? ?
— 第 群总和i
ii iY Y M?
— 第 群平均值i
110
1 iMN
ij
ij
YY
M ??
? ??
— 总体平均值
0
1
N
i
i
MM
?
? ?
—— 表示总体中次级单元总数
1
1 N
i
i
YYN
?
? ?
各群平均值的平均值
iM
—— 表示第 群含有的次级单元数i
1、对群实施 pps 抽样
独立有放回地从 N 个群中抽取 n 个群,每次抽取一个
群,第 个群被抽到的概率为
相应抽到的群的群内总和记为,群大小记为
i
0 ( 1,,)iiZ M M i N??
jy ( 1,,)jm j n?
11
iMN
ij
ij
YY
??
? ??
则总体总和 的估计量为:
00
11
11nnii
HH
ii
yyy M M y
n z n m??? ? ? ? ???
(8.18)
2
1
1( ) ( )n i
H H i
i i
YV a r y Z Y
nZ?
???
(8.19)
根据第七章关于 H— H统计量的讨论,是 的无偏估计,
其方差为:
HHy Y
它的一个无偏估计为:
2
1
1( ) ( )
( 1 )
n
i
H H H H
i i
yv y y
n n z???? ?
(8.20)
在实际问题中,如果产生的自然群(例如现成的工厂、
学校、居委会等)内次级单元比较均匀,则采用 pps 抽样效
果较好一些。
2、对群实施严格的 抽样ps?
ps?与上一章的 抽样情况完全一样,若设第 个群的
入样概率为,采用 Horvitz— Thompson 估计:
i
i?
1
n
i
HT
i i
yy
??? ?
Y也是 的无偏估计。
本章习题解
8-1
1
1 N
i
i
ppN
?
? ?
—— 总体百分数
ip
—— 第 群百分数i
总体百分数的无偏估计为:
1
1 n
ci
i
ppn
?
? ?
—— 样本百分数
2
1
11( ) ( )
1
n
c i c
i
fv p p p
nn ?
?? ? ?
? ?
方差 的无偏估计为:()
cVar pcp
8-2 N=500,n=10,M=6
0, 0 2nf N??
1 0 6
1 1 1 1
11 2, 2 5
1 0 6
nM
i j i j
i j i j
y y ynM
? ? ? ?
? ? ??? ? ? ?
人均选修付课门数的估计为:
由表经计算可知,每个宿舍人均选修付课门数为
11 13 16 14 9 15 16 15 15 11,,,,,,,,,
6 6 6 6 6 6 6 6 6 6
2
1
11( ) ( )
1
n
i
i
fv y y y
nn ?
?? ? ?
? ?
方差为
22
222
222
22
1 0,02 1 11 13
[ ( 2,25 ) ( 2,25 )
10 10 1 6 6
16 14 19
( 2,25 ) ( 2,25 ) ( 2,25 )
666
15 16 15
( 2,25 ) ( 2,25 ) ( 2,25 )
666
15 11
( 2,25 ) ( 2,25 ) ] 0,01 59
66
?
? ? ? ? ?
?
? ? ? ? ? ?
? ? ? ? ? ?
? ? ? ? ?
标准差为 0, 0 1 5 9 0, 1 2 6?
8-3 N=1000,n=10,M=30
0, 0 1nf N??
箱均坏灯泡数的估计为:
1 ( 3 2 1 4 0 5 4 3 3 4 ) 2,9
10y ? ? ? ? ? ? ? ? ? ? ?
坏灯泡总数的估计为,1 0 0 0 2, 9 2 9 0 0y N y? ? ? ? ?
2 2 2
1
11( ) ( ) ( )
1
n
i
i
fv y N v y N y y
nn ?
?? ? ? ?
? ?
方差为
2 2 2 2
2222
2 2 2
1 0, 0 1 1
1 0 0 0 [ ( 3 2, 9 ) ( 2 2, 9 ) ( 1 2, 9 )
1 0 1 0 1
( 4 2, 9 ) ( 0 2, 9 ) ( 5 2, 9 ) ( 4 2, 9 )
( 3 2, 9 ) ( 3 2, 9 ) ( 4 2, 9 ) ] 2 2 9 9 0 0
?
? ? ? ? ? ? ? ?
?
? ? ? ? ? ? ? ?
? ? ? ? ? ? ?
经计算可知被抽的各箱废品率分别为
3 2 1 4 0 5 4 3 3 4,,,,,,,,,
3 0 3 0 3 0 3 0 3 0 3 0 3 0 3 0 3 0 3 0
11 ( 3 2 1 4 0 5 4 3 3 4 ) 0,0 9 6 7
1 0 3 0cp ? ? ? ? ? ? ? ? ? ? ? ?
灯泡废品率的估计为
2
1
11( ) ( )
1
n
c i c
i
fv p p p
nn ?
?? ? ?
? ?
方差为
22
222
222
22
1 0,0 1 1 3 2
[ ( 0,0 9 6 7 ) ( 0,0 9 6 7 )
1 0 1 0 1 3 0 3 0
1 4 0
( 0,0 9 6 7 ) ( 0,0 9 6 7 ) ( 0,0 9 6 7 )
3 0 3 0 3 0
5 4 3
( 0,0 9 6 7 ) ( 0,0 9 6 7 ) ( 0,0 9 6 7 )
3 0 3 0 3 0
34
( 0,0 9 6 7 ) ( 0,0 9 6 7 ) ] 0,0 0 0 2 5 5 4
3 0 3 0
?
? ? ? ? ?
?
? ? ? ? ? ?
? ? ? ? ? ?
? ? ? ? ?