第五章 比估计与回归估计
第一节 比估计的一般形式
第二节 分层比估计
第三节 回归估计的一般形式
第四节 分层回归估计第一节 比估计的一般形式
一、比估计综述
比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。
同简单估计相比,比估计具有以下特点:
(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。
(2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。
(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。
(4)当每个单元的调查变量与辅助变量的比例 (一般要求为正比例 )十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。
(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在 1/2以上。
比估计中,辅助变量可以是上次普查或调查时与调查变量相应的数据 (即调查变量的前期或历史资料 );也可以是对调查变量的粗略估计;或者是表示单元规模的某个量。
为了充分发挥比估计的优越性,在应用比估计时应考虑两条:
一是选与调查变量有较密切的正相关关系的变量作为辅助变量。因为如果辅助变量与调查变量的关系不密切,各自独立变化,则对比估计起不了应有的辅助作用。
二是样本容量要比较大。因为比估计是有偏倚的,
只有当样本容量 n比较大时,其偏倚才能比较小,
比估计才更加有效。
二、总体比率 的估计设总体有 N 个单元,对每个单元考虑两个指标 y 和 x 。抽取容量为 n 的简单随机样本,
则总体比率 R 的估计量为,
,? xyxyR
比率估计是有偏的,但当样本量 n增大时,偏倚逐渐趋于零。
其方差为
)2(
1
1
)(
1
)?(
222
2
1
2
2 yxxy
N
i
ii
RSSRS
Xn
f
N
Rxy
Xn
f
RV
)2(1 2222 xyxy SSRSRS
Xn
f
当总体方差未知时,可用样本方差替代,以估计方差。
此时
)?2?(1
1
)?(
1)?(? 222
2
1
2
21 yxxy
N
i
ii
sRsRs
Xn
f
n
xRy
Xn
fRV

三、总体均值和总和的比估计当调查变量和辅助变量具有正相关关系时,为了利用辅助变量的信息,可以构造总体均值或总和的比估计量。在简单随机抽样中,总体均值和总体总和的比估计量分别为
XRXxyXxyY R
NYXRXxyXxyY RR
其方差为
)?()?( 2 RVXYV R?,
)?()?()?( 222 RVXNYVNYV RR
其方差估计量为,
)?2?(
1
1
)?(
1
)?(? 2221
2
yxxy
n
i
ii
R sRsRsn
f
n
xRy
n
f
YV
)?(?)?(? 2 RR YVNYV?
四、比估计量与简单估计量的比较对简单随机抽样,若 n 足够大,则当
y
x
y
x
C
C
YS
XS

2
1
2
1
时,有
)?( RYV
<
)( yV
其中
X
S
C x
x
,
Y
S
C
y
y
分别为总体中 x 与 y 的变异系数。
结论为:利用比估计提高抽样效果的条件是 ρ>1/2。
五、样本容量的确定第二节 分层比估计
分层随机抽样中的比估计量有两种形式:
先构造各层比估计,再加权平均 —— 各层分别比估计;先加权平均,再构造比估计 —— 联合比估计。
一、各层分别比估计
各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即:

L
h
RhhRS YWY

L
h
h
h
h
h X
x
y
W

L
h
h
h
h X
x
y
N
1
,(
hh XX 及已知)

L
h
Rh
L
h h
h
RS YX
x
y
Y h
,(
hX
已知)
其方差为,
)2()1()?( 2222 xhyhhhxhhyh
h
h
L
h
hRS SSRSRSn
fNYV
方差的估计量,)?2?()1()?(? 2222
xhyhhhxhhyh
h
hL
h hRS
ssrRsRsn fNYV
Y 的估计量的方差 ( 或方差估计量 ) 乘以
2
1N 即可得出 Y 的估计量的方差 ( 或方差估计量 ) 。
二、联合比估计联合比估计是先按分层随机抽样公式估计 Y 和 X,
L
h
hhst yNY
L
h
hhst xNX
然后用这两个量的比及已知的 X 对 Y 作估计,
XRY cRC
联合比估计 RCY? 只需要已知 X,而无需已知每层的 hX
分层随机抽样中,若总样本量 n 是较大的,则
RCY? RCY
分别为 Y 与 Y 的近似无偏估计,其方差为,
)2(
)1(
)?( 2222 xhyhhxhyh
h
h
L
h
hRC SSRSRSn
f
NYV

)2(
)1(
)?( 2222 xhyhhxhyh
h
h
L
h
hRC SSRSRSn
f
WYV

其方差估计量为,
)?2?(
)1(
)?(?
2222
xhyhhcxhcyh
h
h
L
h
hRC ssrRsRs
n
f
NYV

)?2?(
)1(
)?(?
2222
xhyhhcxhcyh
h
h
L
h
hRC ssrRsRs
n
f
WYV

三、各层分别比估计量与联合比估计量的比较从偏倚的角度看,各层分别比估计量
RSY
的偏倚较大,从方差的角度看,除了各层比率
hR
均相等时,
)?()?( RCRS YVYV?
外,一般只要各层的样本量均较大时,各层比估计更加有效因此,当 hn 均大时,用分别比估计量 RSY? 否则,用联合比估计量 RCY? 较好第三节 回归估计的一般形式
一、回归估计概述
回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。
如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若同时采用多个辅助变量综合进行估计,则称为多元回归估计。多元回归估计比一元回归估计效果更好,但更复杂。这里只介绍一元回归中的线性回归估计。
回归估计的主要特点有:
同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;
回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率
(即总体回归直线通过原点 )时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数 ρ=0时,回归估计与简单估计的效果相同。
但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好,因而使用回归估计量,样本量一定要大,一般情况 n≥30时,回归估计量较比估计量和简单估计量有较优的估计效果,但它的意义不如后两法简单明了,计算方法也较为复杂,特别是多元线性回归估计或非线性回归估计时更是如此。不过随着电子计算机的广泛应用,再复杂的计算也可通过计算机进行。
回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系 (不一定是密切关系 )。
二、回归估计量的一般形式对于简单随机抽样,总体均值 Y 与总和 Y 的线性回归估计量定义为,
)()(? XxyxXyY lr
lrlr YNY

1,β为设定的常数 (如 β=B)时的情形回归估计量则为,
)()(? XxByxXByY lr
lrlr YNY
在简单随机抽样中,
lrY
是 Y 的无偏估计量。其方差为,

1
)()(
1
)?( 1
2

N
XxBYy
n
f
YV
N
i
ii
lr
)2(1 222 yxxy BSSBS
n
f

1
)()(
1
)
(? 1
2

n
xxByy
n
f
YV
n
i
ii
lr
)2(1 222 yxxy BssBs
n
f

)?( lrYV
的无偏估计量当
x
y
x
yx
N
i
i
N
i
ii
S
S
S
S
Xx
XxYy
B

2
1
2
1
)(
))((
时,
lrY
的方差达到极小,且
)1(1)?( 22m i n ylr S
n
fYV
2,β需从样本计算时的情形当 β需从样本计算时,受前面确定 B的最佳值的思路的启发,
β的一个有效估计应是总体回归系数 B的最小二乘估计,
也即取 β为样本回归系数b。
三、回归估计量与简单估计量及比估计量的比较在大样本时,回归估计量的精度要好于简单估计量和比估计量。
第四节 分层回归估计
一、各层分别回归估计
先对每层分别进行回归估计,然后按层权加权平均,得总体平均数的估计量。
二、联合回归估计先按分层随机抽样公式估计 Y 和 X,即得到估计量
sty

stx
,然后用这两个估计量构造 Y 的回归 估计量若确信每层中的回归线性很好,
hn
又不大,
hB
的变化也不大,则应采用
l rcY;而当回归是线性的,但
hB
的变化很大,
hn
都比较大时,应采用
l rsY;若回归的线性不好,除非
hn
都相当大,否则还是用
l rcY
比较保险。