到目前为止,我们所讨论的两种抽样方法 — 简单随机抽
样和分层抽样都有一个共同的特点:总体或层中每个个体被
抽中入样的概率都是相同的。对于各单元所处地位几乎,
平等, 的总体,这种抽样原则既公正又方便。但在许多社
会经济活动中并非所有单元地位相同,这时就需要采用不等
概率抽样方法。
第七章 不等概率抽样
例如,要了解上海地区钢铁企业的景气状况,总体有上
钢一厂、三厂、五厂 …… 等等,再加上宝钢。由于宝钢规模
极大,它是否景气对整个上海地区钢铁工业起着至关重要的
作用。而在抽样中将它与其它规模较小的单位处于同等地位
就会既不公正又使抽样推断结果有较大可能发生大的偏差。
这个例子提示我们,若对总体单元进行不等概率抽样,使得
,大, 单元入样概率大,,小, 单元入样概率小,这里的,
大,,, 小, 与我们所关心的调查指标有着密切的关系。
不等概率抽样又分为有放回与无放回两种情况。我们最
关心也是最重要的情形是抽样容量 n固定时,单元入样的概
率(不放回抽样)或每次抽样的概率(有放回抽样)与单元
的大小严格成比例。这种情况下的有放回抽样称为 抽样
不放回抽样称为 抽样。ps?
pps
§ 1 放回的不等概率抽样
1、多项抽样,抽样及其实施方法pps
既然是不等概率抽样,那么就应该在抽样之前给总体中
的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽
取中,设第 个单元入样的概率为
且,按此规定有放回地独立抽取 n 次,形成所谓
的 多项抽样 。
i (0 1,1,2,,)iiZ Z i N? ? ?
1 1
N
Z ii?? ?
假设第 个单元在 n次抽样中被抽中 次,则
是一个随机向量,其联合分布为:
i it 12(,,,)Nt t t
这是我们熟悉的 多项分布, 多项抽样 其名正出于此。
12
12
12
!
! ! !
Nt t t
N
N
n Z Z Z
t t t 1
N
i
i
tn
?
??
(7.1)
多项分布 (7.1)具有如下性质:
()
( ) ( 1 ) 1,2,,
(,)
ii
i i i
i j i j
E t nZ
V a r t nZ Z i N
C o v t t nZ Z i j
? ?
?
? ? ??
? ? ? ?
?
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 为第 个单元的
,大小,,并记
iM i
0 1
N M
iiM ???
多项抽样是最简单的不等概率抽样,它的实施方法通常
有两种,以 pps抽样为例。
则可取
0iiZ M M?
此时多项抽样体现了每次抽样时单元的入样概率与单元的大
小成比例,即为 pps抽样。
( 1)代码法
它适合于 N不太大的情形。假定所有的 为整数,倘若
在实际中存在 不是整数的话,则可以乘以一个倍数使一切
为整数(对一般的多项抽样,也总可找到整数,使一切
成为整数)。对于具整数 的第 个单元赋予一个与
相等的代码数,见表 7— 1。
iM
iM
iM 0M
0 iMZ iM iMi
单元 i 单元大小 iM 代码数
1
2
N
1
2
N
M
M
M 1 1 1
0
1 1 1
1,2,,N N Ni i i N
i i i
M M M M M? ? ?
? ? ?
? ? ? ?? ? ?
11,2,,M
1 1 1 21,2,,M M M M? ? ?
表 7— 1 pps 抽样时各单元的代码数
每次抽样前,先在整数 里面随机等可能的选
取一个整数,设为 m,若代码 m 属于第 j个单元拥有的代码
数,则第 j个单元入样。整个过程重复 n次,得到 n个单元
入样(当然存在重复的可能性)构成 pps 样本。
01,2,,M
例 7.1 设某总体共有 N=8个单元,相应 及代码如表所示
iM
1
2
3
4
5
6
7
8
i iM
2/5
1/2
2/3
4/3
8/5
3/5
2/3
1
30 iM?
12
15
20
40
48
18
20
30
累计
12
27
47
87
135
153
173
203
代码
1~ 12
13~ 27
28~ 47
48~ 87
88~ 135
136~ 153
154~ 173
174~ 203
0 203M ??
若取 n=3,在 1~ 203中随机有放回地产生 3个随机整数,不
妨设为 45,89,101,则第 3 个单元入样一次,第 5 个单
元入样 2 次。
( 2) Lahiri(拉希里) 方法
当 N 相当大时,累计的 将很大,给代码法的实施带
来很多不方便。 Lahiri提出下列方法:令
每次抽取 1~ N 中一个随机整数 及 1~ 内一个随机整数
,如果,则第 个单元入样;若,则按前面
步骤重抽,显然,第 个单元的入样与否受到 的影
响,只有 时它才入样,因此第 个单元入样的概率与
的大小成正比,此时
*
1m a x { }iiNMM???
i
i
i
i
(,)im
*M
m iMm?
iMm?
iMm?
iM 0iiZ M M?
0M
m
2,Hansen-Hurwitz (汉森 — 赫维茨)估计量
若 是按 为入样概率的多项抽样而得的样
本数据,它们相应的 值自然记为,则对总
体总和,Hansen-Hurwitz 给出了如下的估计量:
12,,,ny y y
12,,,nz z z
iZ
iZ
1
1 n i
HH
i i
yy
nz?? ?
(7.4)
且,即 是总体总和 的无偏估计。()
HHE y Y? HHy Y
2
1
1( ) ( )N i
H H i
i i
YV a r y Z Y
nZ????
(7.6)
()HHVar y 的无偏估计为
2
1
1( ) ( )
( 1 )
n
i
H H H H
i i
yv y y
n n z???? ?
(7.7)
§ 2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是
从估计计算以及精度估计都显得十分方便。但是,一个单元
被抽中两次以上总会使样本的代表性打折扣,从而引起抽样
误差的增加。因此,实际调查工作者一般倾向于使用 不放回
形式 。
最简单的不放回不等概率抽样方式自然会想到逐一抽样
这在第一次抽样时不会发生问题,但在抽第二个样本时面临
的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什
么样的概率参与第二次抽样就是个问题;再在抽第三个样本
时又面临新问题,如此下去,一是抽样实施的复杂,二是估
计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤
其是 n=2时的情形。同时,我们只对使总体中每个单元的入
样概率严格地与其, 大小, 成比例感兴趣,这就是所谓的
抽样。 ps?
1、包含概率,
i ij??
不放回不等概率抽样中,总体中每个单元被包含到样本
的概率,即入样概率 是个重要的概念,而且任意
两个单元包含到样本中去的概率 也是个重要的
概念可以想象,估计量的方差等计算会与 有着密切
的关系
()i pi? ?
(,)ij p i j? ?
,i ij??
既然 表示第 个单元在 n个样本中出现的可能性,
那么所有 N个单元在样本中出现的可能性之和自然等于 n,
这就是 的一个众所周知的性质:
i? i
{}i?
我们所考虑的严格 抽样,既然 与 成比例,若
n固定的话,显然有,ps? i? iM
1
N
i
i
n?
?
??
(7.8)
0
10
,
N
i
i i i
i
Mn Z n M M
M? ?? ? ? ? ?
(7.9)
对于,我们有
1
1 ( 1 )
2
NN
ij
i i j
nn?
??
????ij?
(7.11)
2,Horvitz— Thompson(霍维茨 — 汤普森)估计量
1
n
i
HT
i i
yy
??? ?
(7.12)
H— T估计量与 H— H估计量是及其相似的。因为,它
们在形式上似乎完全一样,但是 H— H估计量中的 可以互相
重复,而 H— T中的 却是绝对地互不相同。
iinZ? ?
iy
iy
对于不放回不等概率抽样,关于总体总和 由 Horvitz和
Thompson提出如下的估计量:
Y
当 n 固定时,H— T估计量的方差为:
2
1
( ) ( )
NN
ji
H T i j i j
i i j ij
YY
V a r y ? ? ?
????
??
? ? ???
??
??
(7.13)
3、几种严格的不放回 抽样方法
ps?
前面已经指出,所谓“严格不放回,是指样本容量
n 固定,严格不放回,的抽样。仅介绍 n=2的情形。
ps?
iinZ? ?
( 1) Brewer(布鲁尔)方法( 1963)
假设对所有,均有,现抽取两个样本,最通常的
方法是逐个选取。
i 1
2iZ ?
先以正比于 的概率从 N个单元中抽取 1 个样本,(1 )
12
ii
i
ZZ
Z
?
?
然后在余的 N- 1个单元中按与 成正比的概率抽取第 2样本
jZ
这种抽样方法可以保证每个单元入样概率为:
2 ( 1,2,,)ii Z i N? ??

( 1 2 ) ( 1 2 )
i j i j
ij
ji
Z Z Z Z
D Z D Z
? ??
??
1
4 ( 1 )
( 1 2 ) ( 1 2 ) ( 1 )
12
i j i j
N
i
ij
i i
Z Z Z Z
Z
ZZ
Z?
??
?
? ? ?
??
(7.17)
其中
11
( 1 ) 1 1
1 2 2 1 2
NN
i i i
ii ii
Z Z ZD
ZZ??
???? ? ? ?
????
??
??
( 2) Durbin(德宾)方法( 1967)
的概率抽取第二个样本。此时
以概率 在总体中进行一次不等概率抽样,
设第 个单元以概率 入样,在剩余的 N- 1个单元中,以
正比于
12(,,,)NZ Z Z
i
iZ
11()
1 2 1 2j ij
Z
ZZ
?
??
于是可以计算出
11
()
1 2 1 2
2
jN
ij
i i i i
ji
Z
ZZ
Z Z Z
D
?
?
?
??
? ? ? ?
??
(7.19)
11( ) 2
1 2 1 2
N
i
ji ij
D Z D
ZZ?
? ? ? ?
???
(7.18)
Durbin方法中的 与 Brewer方法中的 完全一样
这表明两种不等概率抽样方法其实是等价的。
,i ij??,i ij??
11
2 ( )
1 2 1 2
11
()
1 2 1 2
ij i j
ij
ij
ij
Z Z D
ZZ
Z Z D
ZZ
? ???
??
??
??
(7.20)
本章习题解