第六章 整群抽样
第一节 整群抽样概述第二节 等概率整群抽样的情形第三节 不等概率整群抽样的情形第一节 整群抽样概述
一、整群抽样的概念
整群抽样是先将总体各单元划分成若干群
(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。
二、分群的原则
尽量扩大群内差异,而缩小群间差异。
三、整群抽样的特点
1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,
虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,
实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。
3.整群抽样的随机性体现在群与群间不重叠,
也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。
5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。有些现象的研究,
如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,
进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。
类似地诸如人口出生率、流动率等调查都需要采用整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
四、关于群大小的计量
整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。
在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
五、整群抽样与分层抽样的比较
综合前面的分析,比较整群抽样和分层抽样可以发现二者在分组(层或群)的条件、调查的方式、分组(层或群)
的目的、分组(层或群)的原则、总体方差的分解等方面都存在着较为明显的差别。
第二节 等概率整群抽样的情形
一、群的大小相等时
(一 )估计量
整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。
1、总体均值 Y 的估计
n
i
iYnyY
1
1?
2、总体总和 Y 的估计同理可得总体总和的无偏估计量为
y
n
NY
n
NyNMY n
i
i?
1
3、总体比例P的估计
n
i
i
n
i
i nMPnpP
11
11
( 二 ) 估计量的方差及其估计由于群是按简单随机方法抽 取的,因此,估计量 YY?,? 与 P? 的方差及方差的无偏估计量可直接按第三章的方法构造,无需专门推导。
三、群的大小不等时在许多情况下,总体各群的大小
iM
是不完全相等,或完全不相等的。若各群的大小相差不大时,总体参数的估计量可按简单估计或比估计来确定,
( 一 ) 简单估计如果群的抽取是简单随机的,则可将每个群的总和
iY
看作是第 i 群的指标,于是总体总和
N
1i
iYY
的简单估计可依照简单随机抽样的情形(参第三章)来做
(二)比估计当群的大小不等时,在对群进行简单随机抽样的情况下,
N
i
i
N
i
i
MYY
11
,我们注意到它同第五章所讨论的比率
N
i
i
N
i
i
XYR
11
形式上完全相同,只不过在这里是将各群的大小
iM
作为辅助变量。因此,可采用比估计的方法得出有关参数的比估计量。按前面的论述,
比估计量是有偏的,但当 n 充分大时,其偏差可以很小,近似无偏。
第三节 不等概率整群抽样的情形一、放回的不等概率抽样
(一) PPS抽样的入样概率和实施方法
1、入样概率
2、实施方法
1)代码法 (累计和法,由汉森 — 赫维茨提出 )
2)拉希里法
(二) PPS抽样的估计量
对于 PPS抽样,其估计量可按汉森 — 赫维茨
1943年提出的方法构造。
二、不放回的不等概率抽样当 n 固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小 iM 严格成比例,则称之为严格的 PS? 抽样。
若群的抽取是用严格的 PS? 抽样方法进行的,则 Y 的估计应该用霍维茨-汤 普森
( H or v i t z - Thom ps on )方法。
n
i i
i
HT
Y
Y
1
2
1
))(()?(?
j
j
i
i
ijj
N
i
N
ij
iHT
YY
YV
( n 固定时 )
2
1
)()?(?
j
j
i
i
n
i
n
ij ij
ijji
HT
YY
YV
( n 固定时 )
第四节 设计效应和样本容量的确定整群抽样的设计效应为,
)y(V
)y(VD e f f
s r s
≈
2
C
2
S
nM
f1
])1M(1[S
nM
f1
≈
C)1M(1
一、设计效应可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。
二、最佳群大小的确定
如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。
三、样本容量的确定
确定整群抽样的样本量一般有两种思路。
1、根据设计效应来定
n ≈ D ef fnMn C ]11[?)(
2、依精度要求来定依精度要求确定样本 量,通常是以允许最大绝对方差形式来确定,此时根据 )y(V,)Y?(V,
)P?(V 的计算公式可以直接推导出在不同估计目标下样本量的计算公式
第一节 整群抽样概述第二节 等概率整群抽样的情形第三节 不等概率整群抽样的情形第一节 整群抽样概述
一、整群抽样的概念
整群抽样是先将总体各单元划分成若干群
(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。
二、分群的原则
尽量扩大群内差异,而缩小群间差异。
三、整群抽样的特点
1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,
虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,
实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。
3.整群抽样的随机性体现在群与群间不重叠,
也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。
5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。有些现象的研究,
如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,
进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。
类似地诸如人口出生率、流动率等调查都需要采用整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
四、关于群大小的计量
整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。
在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
五、整群抽样与分层抽样的比较
综合前面的分析,比较整群抽样和分层抽样可以发现二者在分组(层或群)的条件、调查的方式、分组(层或群)
的目的、分组(层或群)的原则、总体方差的分解等方面都存在着较为明显的差别。
第二节 等概率整群抽样的情形
一、群的大小相等时
(一 )估计量
整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。
1、总体均值 Y 的估计
n
i
iYnyY
1
1?
2、总体总和 Y 的估计同理可得总体总和的无偏估计量为
y
n
NY
n
NyNMY n
i
i?
1
3、总体比例P的估计
n
i
i
n
i
i nMPnpP
11
11
( 二 ) 估计量的方差及其估计由于群是按简单随机方法抽 取的,因此,估计量 YY?,? 与 P? 的方差及方差的无偏估计量可直接按第三章的方法构造,无需专门推导。
三、群的大小不等时在许多情况下,总体各群的大小
iM
是不完全相等,或完全不相等的。若各群的大小相差不大时,总体参数的估计量可按简单估计或比估计来确定,
( 一 ) 简单估计如果群的抽取是简单随机的,则可将每个群的总和
iY
看作是第 i 群的指标,于是总体总和
N
1i
iYY
的简单估计可依照简单随机抽样的情形(参第三章)来做
(二)比估计当群的大小不等时,在对群进行简单随机抽样的情况下,
N
i
i
N
i
i
MYY
11
,我们注意到它同第五章所讨论的比率
N
i
i
N
i
i
XYR
11
形式上完全相同,只不过在这里是将各群的大小
iM
作为辅助变量。因此,可采用比估计的方法得出有关参数的比估计量。按前面的论述,
比估计量是有偏的,但当 n 充分大时,其偏差可以很小,近似无偏。
第三节 不等概率整群抽样的情形一、放回的不等概率抽样
(一) PPS抽样的入样概率和实施方法
1、入样概率
2、实施方法
1)代码法 (累计和法,由汉森 — 赫维茨提出 )
2)拉希里法
(二) PPS抽样的估计量
对于 PPS抽样,其估计量可按汉森 — 赫维茨
1943年提出的方法构造。
二、不放回的不等概率抽样当 n 固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小 iM 严格成比例,则称之为严格的 PS? 抽样。
若群的抽取是用严格的 PS? 抽样方法进行的,则 Y 的估计应该用霍维茨-汤 普森
( H or v i t z - Thom ps on )方法。
n
i i
i
HT
Y
Y
1
2
1
))(()?(?
j
j
i
i
ijj
N
i
N
ij
iHT
YY
YV
( n 固定时 )
2
1
)()?(?
j
j
i
i
n
i
n
ij ij
ijji
HT
YY
YV
( n 固定时 )
第四节 设计效应和样本容量的确定整群抽样的设计效应为,
)y(V
)y(VD e f f
s r s
≈
2
C
2
S
nM
f1
])1M(1[S
nM
f1
≈
C)1M(1
一、设计效应可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。
二、最佳群大小的确定
如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。
三、样本容量的确定
确定整群抽样的样本量一般有两种思路。
1、根据设计效应来定
n ≈ D ef fnMn C ]11[?)(
2、依精度要求来定依精度要求确定样本 量,通常是以允许最大绝对方差形式来确定,此时根据 )y(V,)Y?(V,
)P?(V 的计算公式可以直接推导出在不同估计目标下样本量的计算公式