二重比估计与二重回归估计的思想与二重分层估计的思
想相类似。比估计与回归估计需要事先知道辅助变量 X的平
均数或总和。如果事先并不掌握辅助变量的平均数或者总和
的信息,但辅助变量的观察要比调查的指标 Y容易得多,那
么就可以使用二重比估计或者二重回归估计。第一重抽样只
观察辅助变量的值,获得均值或者总和的估计,然后在第二
重抽样时应用比估计或者回归估计。为简单起见,本节仅讨
论对总体平均数的估计。
§ 3 二重抽样的比估计与回归估计
1、二重比估计方法
由于涉及到两个指标,一个是主调查指标 Y,另一个是
辅助变量 X,用数据对表示一个单元 。先从总体中抽
取一个大样本,记作:
(,)xy
1 1 2 2{ (,),(,),,(,) }nnx y x y x y??
是样本容量,仅对辅助变量 X进行观察,计算样本均值n?
1
1 n
i
i
xx
n
?
?
? ?
??
它是总体辅助变量平均数 的无偏估计。X
把该样本作为总体进行第二重简单随机抽样,样本容量
,得样本:nn??
2 1 2 1 2 2 2 2 2 2{ (,),(,),,(,) }nnx y x y x y
第一个下标表示第二重抽样。分别计算辅助变量与主调查指
标的样本均值
构造总体主调查指标平均数 的比估计量:Y
2
1
1 n
j
j
xx
n ?
? ? 2
1
1 n
j
j
yy
n ?
? ?
(6.7)
这里用记号 表示,根据第五章第一节的讨论,我们
知道当 n 足够大时,近似地等于,即 是 的
渐近无偏估计。因此
?R
?R?R R
yx
R y x???
而由第三章可知,是总体平均数 的无偏估计。故,
是总体平均数 的渐近无偏估计。
y? Y
Y
RDy
二重比估计 的方差 的估计为:
RDy ()RDVar y
?
RD
yy x R x
x ??? ? ?
(6.8)
RD
yy x y
x
? ??? ? ?
?
(6.9)
2
2211 ? ?( ) ( 2 )y
R D x y x
s
v y R s R s
n n n
??? ? ? ?
?? ???
(6.10)
这里,和 分别为第二重样本关于主调查指标、辅助变
量的方差以及它们的协方差,即
22,yxss yxs
22
2
1
1 ()
1
n
yj
j
s y yn
?
??? ? 22 2
1
1 ()
1
n
xj
j
s x xn
?
??? ?
22
1
1 ( ) ( )
1
n
y x j j
j
s y y x xn
?
? ? ?? ?
(6.11)
例 6.2 某县共有 200个村,现要估计去年全县平均每村交售肉
猪的头数。已知肉猪的交售头数与生猪年终存栏数之间有较高
的相关性,而存栏头数的资料容易取得。采用二重比估计的方
法,先抽取 80个村作为第一重样本,得年终平均每村的生猪存
栏数为 1080头。然后在这 80个村中又选了 13个村作为第二重样
本,分别统计了年终的存栏数和交售头数,资料见下表。
1
2
3
4
5
6
7
8
9
10
11
12
13
550
720
1500
1020
620
980
928
1200
1350
1750
670
729
1530
610
780
1600
1030
600
1050
977
1440
1570
2210
980
865
1710
i村 2() jx年 终 生 猪 存 栏 头 数 2() jy全 年 交 售 肉 猪 头 数
试估计该县去年全年平均每村交售肉猪的头数,并计算其标
准差。
解,根据表中数据计算可得
1 1 8 6,3 1y ? 1 0 4 2,0 8x ? ? 1, 1 3 8 4R y x??
13
22
2
1
1 ( ) 2 3 1 5 4 3
1 3 1yj js y y?? ? ?? ?
13
22
2
1
1 ( ) 1 5 3 8 7 6
1 3 1xj js x x?? ? ?? ?
13
22
1
1 ( ) ( ) 1 8 3 5 7 8
1 3 1y x j jjs y y x x?? ? ? ?? ?
8 0,1 0 8 0,1 3n x n??? ? ?而
于是计算可得每村平均交售肉猪头数的估计为
? 1, 1 3 8 4 1 0 8 0 1 2 3 0RDy R x ?? ? ? ? ?(头 )
二重比估计 的方差 的估计为:
RDy ()RDVar y
2
2211 ? ?( ) ( 2 )y
R D x y x
s
v y R s R s
n n n
??? ? ? ?
?? ???
21 1 12 3 1 5 4 3 ( 1, 1 3 8 4 1 5 3 8 7 6 2 1, 1 3 8 4 1 8 3 5 7 8)
1 3 1 3 8 0
??? ? ? ? ? ? ? ? ???
??
3731.09?
于是交售头数平均数估计的标准差为 (头 ) ( ) 6 1, 0 8
RDvy ?
2、二重回归估计方法
沿用前一小节的符号,仅讨论 为样本回归系数的情形。
利用第二重样本估计回归系数,即
?
?
对总体平均数 的二重抽样的回归估计量为:Y
22
1
2
2
1
( ) ( )
()
n
jj
j
n
j
j
y y x x
xx
?
?
?
??
?
?
?
?
()lr Dy y x x? ?? ? ?
(6.12)
为第一重样本辅助变量的平均值,与 分别是第二重样
本辅助变量与主调查指标的平均值。
x? x y
是总体平均数 的渐近无偏估计,其方差的估计为:
lrDy Y
2
2211() y
lr D y
s
v y r s
n n n
??? ? ?
?? ???
(6.13)
r 是辅助变量 X与主调查指标 Y之间的相关系数的估计,即
22
1
22
22
11
( ) ( )
( ) ( )
n
jj
j
nn
jj
jj
y y x x
r
x x y y
?
??
??
?
? ? ?
?
??
(6.14)
例 6.3 在前例中,改用二重回归估计来估计该县去年全年每
村肉猪平均交售头数,并计算估计的标准差。
解,根据前例数据计算可得
22
1
2
2
2
1
( ) ( )
183578
1, 1 9 3
153876
()
n
jj
j y x
n
x
j
j
y y x x
s
s
xx
?
?
?
??
? ? ? ?
?
?
?
22
1
22
22
11
( ) ( )
( ) ( )
n
jj
j
nn
jj
jj
y y x x
r
x x y y
?
??
??
?
? ? ?
?
??
2
2
1
2
2
1
()
()
n
j
j
n
j
j
xx
yy
?
?
?
?
?
?
?
?
x
y
s
s
??
1538761, 1 9 3 0, 9 7 2 5 6
231543
??
()lr Dy y x x? ?? ? ?
1 1 8 6, 3 1 1, 1 9 3 ( 1 0 8 0 1 0 4 2, 0 8 ) 1 2 3 2? ? ? ? ?(头 )
于是该县去年全年每村肉猪平均交售头数 的二重回归估计Y
方差的估计为:
2
2211() y
lr D y
s
v y r s
n n n
??? ? ?
?? ???
21 1 12 3 1 5 4 3 0, 9 7 2 5 6 2 3 1 5 4 3
1 3 1 3 8 0
??? ? ? ? ? ?
????
3701.69?
标准误差为
( ) 3 7 0 1, 6 9 6 0, 8 4lr Dvy ??
(头 )
§ 4 二重抽样样本量的最优分配
在二重抽样中,先后必须进行两次抽样。第一重抽样抽取
个单元,调查一些辅助信息,通常要容易一些,每个单元花
费较少,因此 往往比第二重样本容量 n 大得多。 越大,观
察辅助信息的单元越多,掌握辅助信息的可靠程度也就越高,
对于改善第二重样本估计量的性质有很大帮助。但是,如果第
一重抽样占用了较多的调查费用,可用于第二重抽样的费用少
了,第二重样本容量 n 不能够适当的大,没有足够的费用调查
足够多的单元,反过来也会影响主调查估计量的精确程度。因
此,对于二重抽样来讲,有一个在两重抽样之间如何分配调查
费用的问题。即如何确定 与 n, 使在总调查费用固定时,估
计量的方差最小,或在估计量的方差限定时,总费用最小。
n?
n? n?
n?
1、二重分层样本量的最优分配
在二重分层抽样中,表示第一重样本容量,n 表示第
二重样本容量。先考虑在总费用固定的情况下,如何分配
及 n 使得总体平均值的估计量方差最小。
n?
n?
hn?
设 和 分别为第一和第二重样本中第 h 层的单元数,我们
研究 和 成正比的情况,即, 是某个待定的常
数,问题变为如何确定 以及
hn
hnhn? h h hn r n?? hr
h
h
nn? ? n?,1,2,,hr h L?
定义费用函数为:
12T h h
h
C C n C n??? ?
其中 为第一重抽样每个单元的平均调查费用,而 是第二
重抽样中 h 层的每个单元的平均调查费用。
1C 2hC
由于 是随机的,即 也是随机的,考虑总调查费用的
期望值。 hn? hn
( ) ( )h h hh h h h
h
n n nE n E n n r E n r W
n n n
?? ??? ? ?
? ? ? ? ? ? ? ? ???
? ? ???
hW
为总体的层权,所以总费用期望值为
*
12()T T h h h
h
C E C C n n C r W??? ? ? ?
而总费用期望值是固定的,所以
2222
h h h h
hh h
W S W SSSV
n n r n N
? ? ? ?? ? ???
而总体平均数的二重分层估计 的方差为:
stDy
*
12()T h h h
h
n C C C r W? ?? ?
(6.17)
使得 V达到最小的各层抽样比为:
代入 (6.17)式,可解得 。由,在第一层抽样后
即可得 以及 。
n? h h hn r n n???
hn
h
h
nn? ?
1
22
2 ()
hh
h h h
h
C
rS
C S W S
?
? ?
(6.20)
2、二重比估计与回归估计时样本的最优分配
对于二重比估计,总体平均数估计量的方差为:
设 r 是第二重样本容量 n 与第一重样本容量 之间的比
例,即,称 r 为抽样比。费用函数为:
n?
n rn ??
1 2 1 2TC C n C n C n C n r? ? ?? ? ? ?
(6.21)
无论是总费用固定求方差最小,还是方差限定求总费用最小
最佳抽样比都为:
2 2 2
1
22
2
( 2 )
( 2 )
y x y x
y x x
C S R S R S
r
C R S R S
??
?
?
(6.23)
2
2 2 2 2 211( 2 ) ( 2 ) y
y x x y x y x
SV R S R S S R S R S
n n N? ? ? ? ? ?? (6.22)
如果总费用固定,代 (6.23)式入 (6.21)式;如果方差限定,则
代 (6.23)式入 (6.22)式,都可以解得最优样本量分配 以及 n。
hn
对于二重回归估计,总体平均数估计量的方差为:
2
2 2 2 211 ( 1 ) y
yy
SV S S
n n r N??? ? ? ???
(6.24)
? 为辅助变量和主调查变量之间的相关系数
最佳抽样比为:
2
1
2
2
( 1 )Cr
C
?
?
?? (6.25)
如果总费用固定,代 (6.25)式入 (6.21)式;如果方差限定,则
代 (6.25)式入 (6.24)式,都可以解得最优样本量分配 以及 n。
hn
本章习题解
1 2 3 8,2 4,5 0 0,6 0 2N n n x??? ? ? ?
5 6 5, 7 9 1 7,5 6 8, 5 8 3 3xy??
2 2 8 0 0 1 6, 7 8xs ? 2 2 5 6 1 5 4, 8 6ys ? 2 5 6 9 8 3, 3 4yxs ?
5 6 8,5 8 3 3? 1,0 0 4 9
5 6 5,7 9 1 7R y x? ? ?
? 1, 0 0 4 9 6 0 2 6 0 5RDy R x ?? ? ? ? ?(人 /小区 )
6 0 5 1 2 3 8 7 4 8 9 9 0R D R Dy N y? ? ? ? ?
该地区年末人口总数的估计为:
( 1)二重比估计
221 1 11 2 3 8 2 5 6 1 5 4, 8 6 ( 1, 0 0 4 9 2 8 0 0 1 6, 7 8 2 1, 0 0 4 9 2 5 6 9 8 3, 3 4 )
2 4 2 4 5 0 0
?? ??? ? ? ? ? ? ? ? ? ?
???? ????
2124856431,0836?
于是年末人口总数估计的标准差为 人( ) 4 6 0 9 6, 1 6 5
RDvy ?
2
2 2 211 ? ?( ) ( 2 )y
RD x y x
s
v y N R s Rs
n n n
????
? ? ? ? ?????
?????
该地区年末人口总数的估计的方差的估计为:
( 2)二重回归估计
2
2 5 6 9 8 3, 3 4 0, 9 1 7 7
2 8 0 0 1 6, 7 8
yx
x
s
s
? ? ? ?
回归系数
[ ( ) ]lr D lr Dy N y N y x x? ?? ? ? ? ? ?
1 2 3 8 [ 5 6 8, 5 8 0, 9 1 7 7 ( 6 0 2 5 6 5, 7 9 ) ] 7 4 5 0 4 1? ? ? ? ? ?(人 )
于是该地区年末人口总数的二重回归估计为
28 00 16,7 80,91 77 0,95 95
25 61 54,8 6
x
y
sr
s
?? ? ? ?
方差的估计为:
2
2 2 211( ) [ ]y
l r D y
s
v y N r s
n n n
??? ? ? ?
?? ???
221 1 11 2 3 8 [ 2 5 6 1 5 4, 8 6 0, 9 5 9 5 2 5 6 1 5 4, 8 6 ]
2 4 2 4 5 0 0
??? ? ? ? ? ? ?
????
2021050175,8992?
标准误差为
( ) 4 4 9 5 6, 0 9 1 6lr Dvy ? (人 )