前面讨论的简单随机抽样和分层抽样,我们所关心的参
数都是单指标的,给出的估计量也是线性形式。这一章我们
将要讨论比较复杂的情况,我们关心的参数不再是单指标的
而是两个或两个以上的指标。此时,遇到的统计量不再是线
性形式,往往呈现出非线性形式,比如两个变量之比,或呈
现变量之间的回归关系。
第五章 比估计与回归估计
所谓回归关系就是变量之间的关系不是确定的,是带有
随机影响的。比如身高和体重的关系,身高增加时,一般来
说,体重也会增加,但又不能说一定如此。要确定身高和体
重的关系,一般用回归的方法。这类问题首先是由英国统计
学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现 儿子的身高有回到家族平均身高的趋势,因而 把所得关系
式称为回归方程,于是回归的名词就沿用下来了。
§ 1 比估计及其性质
设有一个二元变量的总体,(,)XY
1 1 2 2(,),(,),,(,)NNX Y X Y X Y
有 4 个参数是我们所熟悉的:
XY,———— 指标 的平均数XY、
22
1
1 ()
1
N
Xi
i
S X XN
?
??? ?
22
1
1 ()
1
N
Yi
i
S Y YN
?
??? ?
—— 指标 的方差XY、
如果简单随机样本为,则
及 的估计为:
(,) ( 1,2,,)iix y i n? (,)C ov X Y
?
在研究比估计之前,再引进一个新的参数 —— 变量之间
的协方差:
1
1(,) ( ) ( )
1
N
ii
i
C o v X Y X X Y YN
?
? ? ?? ?
(5.1)
XY,之间的 相关系数 定义为:
(,)
( ) ( )
C o v X Y
V a r X V a r Y
? ?
?
1
11
22
11
( ) ( )
( ) ( )
N
ii
i
NN
ii
ii
X X Y Y
X X Y Y
?
??
??
?
? ? ? ?
??? ? ? ?
? ? ? ?
?
??
(5.2)
1
1 ( ) ( )
1
n
x y i i
i
S x x y yn
?
? ? ?? ? (5.3)
1
11
22
11
( ) ( )
?
( ) ( )
n
ii
i
nn
ii
ii
x x y y
x x y y
?
?
??
??
?
? ? ? ?
??? ? ? ?
? ? ? ?
?
??
(5.4)
在讨论比估计之前,先考察总体的两个平均数之比,即
R Y X?
由于 分别是 的无偏估计,的估计自然定义为,xy XY,R
?R y x?
假如 或 已知,总体平均数 与总体总和 的比估计
量定义为:
X X Y Y
?
R
yyy R X X X
xx? ? ? ?
(5.5)
?
R
yyy R X X X
xx? ? ? ?
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 则称为比值 的
估计。
?R R
由 (5.5) 式与 (5.6) 式可知,与 的习性主要依赖于估计量
,因此在不少场合,我们常用 来说明。?R ?R
Ry Ry
尽管 分别是 的无偏估计,由于 的非线性形式,因
此 关于 是有偏的,从而 关于 也是有偏的。
,xy XY,?R
?R R,
RRyy,YY
一个合理的估计量,应该随着样本容量 n 的增加,估计量的
期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
利用 Taylor展开式,有
将比估计 表示为:?R y x?
?
( 1 )
yy
R
xXx
X
X
??
?
?
2
? 1y y x X x XR
x X X X
?? ??????
? ? ? ? ??? ??
????
2
1y x X x X
X X X
?? ??????
? ? ??? ??
????
(5.7)
当 n 相当大时,与 相当接近,而 是常数,又 是 的
无偏估计,因此,实质上,所以 。
x X X Yy
?()E R R??R y X?
(5.7)式的好处不单单告诉我们 这一事实,而且告
诉了我们,当 n 相当大时,,表明 可以表示成
的平均数,因此 的分布可近似正态分布
?()E R R?
?R y X? ?R
( 1,2,,)iy X i n? ?R
因此,可利用 近似标准正态分布获得 的置信区间?
?()
RR
Var R
? R
而
2 2 2
2
1?( ) ( 2 )
Y X XY
fV a r R S R S RS
nX
?? ? ?(5.8)
另外
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?(5.9)
2
2 2 2( 1 )( ) ( 2 )
R Y X X Y
NfV a r y S R S R S
n
?? ? ?(5.10)
公式 (5.8),(5.9),(5.10)为我们提供了
的估计量的形式。具体计算时,只要将 分别换为
即可。我们将由此得到的估计量分别记为:
?( ),( ),( )RRV a r R V a r y V a r y
22,,,X Y X YS S S R
22 ?,,,X Y XYs s s R
?2)XYRs??()vR ? 2 2 2
2
1 ?(
YX
f s R s
nx
? ?
2 2 21 ?(
YX
f s R s
n
? ? ?2)XYRs?()Rvy ?
2
2 2 2( 1 ) ?(
YX
Nf s R s
n
? ? ?2)XYRs?()Rvy ?
那么,的置信水平为 的置信区间分别为:,,R Y Y (1 )??
21 ()Ru v y???
Ry
(, )
21 ()Ru v y???
Ry
21
?()u v R????R
21
?()u v R????R(, ) (5.11)
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
下面说明比估计的优点。主要针对 与 来说明,因为
它们仅相差一个常数因子,因此,只需讨论其中一个就可以。
Ry Ry
当 n 充分大时,
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?
21()
Y
fV a r y S
n
??而
欲使,仅需( ) ( )
RV a r y V a r y? 22 20X X YR S R S??
或 22 20
X X YR S R S S???
即 11
2 2 2
X X X
Y Y Y
R S S X C
S S Y C? ? ? ?
(5.12)
(5.12)表明,如果变量 X与 Y正相关,且相关程度非常密
切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( ),此时已知的 X信息并
没有较多地提供 Y的信息,借助 X来推断 也许会“帮倒忙”
假如 X与 Y是负相关,则更不能采用比估计方法,此时应采用
所谓乘积估计,即:
Y
2XYCC? ?
当 n 充分大时,且满足:
11
22
XX
YY
S X C
S Y C? ? ? ? ?
(5.14)
,ppx y x yy y NXX????
(5.13)
成立 ( ) ( )
RV a r y V a r y?
例 5.1 某县小麦种植面积为 218756亩,分布在 N=576个村,为
估计全县产量,随机无放回地抽取 n=24个村,所得数据如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
112.0
129.1
208.2
158.5
110.2
123.3
157.7
154.2
98.7
112.7
125.5
60.3
302
361
608
444
298
349
416
428
258
347
351
158
105.7
80.5
163.0
98.7
137.8
141.2
152.5
142.5
136.7
153.2
93.0
179.8
308
217
492
280
378
386
428
390
376
432
261
483
i村 i村()iy产量 吨 ()iy产量 吨()ix面积 亩 ()ix面积 亩
每个村有两个指标,面积 和 产量,即:
ix iy (,)iixy
经计算可得,3 6 4,6 2 5x ? 1 3 0,6 2 5y ?
2 1 1 1 2,1 9 5xs ? 2 9 4 9 8,5 0 5ys ?
3 2 1 3,1 1 0xys ? 218756X ? 218756 3 7 9,7 8 4 7
576X ??
所以该县平均亩产小麦估计为:
130.625? 0.358245 ( )
364.625
yR
x? ? ? 吨亩
? 2 1 8 7 5 6 0, 3 5 8 2 4 5 7 8 3 6 8, 2 ( )Ry X R? ? ? ? 吨
采用比估计可得 和 分别为:Ry ()Rvy
2
2 2 2( 1 ) ?(
yx
Nf s R s
n
? ? ?2)xyRs?()Rvy ? 385080?
仅利用 数据估计该县小麦总产量 与估计量方差分别为:y Y
5 7 6 1 3 0, 6 2 5 7 5 2 4 0 ( )y N y? ? ? ? ? 吨
2
2( 1 )( ) 1 4 7 3 4 3 5 9
y
Nfv y s
n
???
显然,的方差远远小于 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
Ry y
现在来求总产量的 95%的置信区间,首先
置信区间为:
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
( ) 6 2 0, 5 5 ( )Rvy ? 吨
2 0, 9 7 51 1, 9 6uu?? ??
( 7 7 1 5 2,7 9 5 8 4)?
§ 2 分层抽样中的比估计
1、分别比估计
设总体分为 k 层,第 h 层的样本均值记为,在该层
中 与 的比估计记为,又记 和 为第 h 层中指标
的平均数与总和,与 分别为该层中 的方差
和协方差,若 换为, 换为,则显然表示该层样本
的方差和协方差。
,hhyx
hY hY,Rh Rhyy hX hX
X 22,Yh XhSS YXhS,YX
S s,YX,yx
我们可以得到有关总体 和 的分别比估计为:Y Y
分层抽样中的比估计有两种:一是分层之后,先在各层
获得比估计,然后按层权平均得到总体参数估计;二是先对
作分层估计,然后再采用比估计方法。前者称为 分别比
估计,后者称为 联合比估计 。
,YX
1 1 1
1k k khh
R S h R h h h h
h h h
yyy W y W X X
x N x? ? ?? ? ? ? ?? ? ?
(5.15)
11
kk
h
R S R S h R h
hhh
yy N y X y
x??? ? ? ? ???
(5.16)
由上节可知,各层中的 是 的渐近无偏估计量,因此
是 的渐近无偏估计量:
Rhy hY
YRSy
各层的抽样又是独立进行的,由 (5.10)式,可以近似得到
的方差或均方误差,当各个 都相当大时:
RSy
hn
1
( ) ( )
k
R S R h
h
E y E y Y
?
???
(5.17)
( ) ( )R S R SM S E y V a r y?
2
2 2 2
1
( 1 ) ( 2 )k hh
Y h h X h h Y X h
h h
Nf S R S R S
n?
?? ? ?? (5.18)
h
h
h
YR
X?
(5.17),(5.18)告诉我们,即使每层 相当大,但如果层数 k
比较大,由于误差的积累,产生的偏倚与误差可能相当
大。
hn
RSy
2、联合比估计
而 的相应(联合)比估计可以写成:,YY
将 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
,XY
? s t s t
c
s t s t
yyR
xx??
(5.19)
? st
R c c
st
yy R X X
x??
(5.20)
st
R c R c
st
yy N y X
x? ? ?
(5.21)
为与分别比估计进行比较,我们讨论联合比估计的期
望和方差。当 n 相当大时,有
( ) ( )R c R cM S E y V a r y?
2
2 2 2
1
( 1 ) ( 2 )k hh
Y h X h Y X h
h h
Nf S R S R S
n?
?? ? ?? (5.23)
R Y X?其中 为总体的比值。
()RcE y Y?
(5.22)
(5.22)表明,是 的渐近无偏估计,(5.23)与 (5.18)非常相
似,唯一不同的是在 (5.18)中用的是各层的比值,而 (5.23)
中用的是总体的比值 。
Rcy Y
hR
R
3、分别比估计与联合比估计的比较
( ) ( )R c R sV a r y V a r y?
2
2 2 2
1
( 1 ) [ ( ) 2 ( ) ]k hh
h X h h Y X h
h h
Nf R R S R R S
n?
?? ? ? ??
(5.24)
2
2 2 2
1
( 1 ) [ ( ) 2 ( ) ( ) ]k hh
h X h h h Y h X h h X h
h h
Nf R R S R R S S R S
n ??
?? ? ? ? ??
仅就总体总和进行比较。如果各层的 相当大,由 (5.18)
和 (5.23)可得:
hn
当对一切 h 有 时,这两种估计方差相同,也就是说当
分层对比值并无多大意义情况下,谈论分别比估计与联合比
估计孰优孰劣已经无多大意义。
hRR?
然而,如果各层有自己的特色,不可能在每一层均等
于,此时倘若对每一层来说,与 之间的关系是比例
关系,即,此时,于是 (5.24)式内求
和式内每一项中括号内第二部分等于零,这样显然有
hR
R
hiY hiX
hi hiY kX? h Y h h X hS R S? ?
( ) ( )R c R sV a r y V a r y?
即“分别比估计”比“联合比估计”精度高一些。其实,只要比
估计非常有效,即对一切 h, 时,这一项值相
对地就小,此时中括号中均以第一部分占主导地位,仍有
( ) ( )R c R sV a r y V a r y?
2h X YCC? ?
当然,有些层的 不是相当大,这种场合分别比估计的偏倚
可能很大而使总的均方误差增大,于是我们宁可采用联合比
估计的方法。
hn
数都是单指标的,给出的估计量也是线性形式。这一章我们
将要讨论比较复杂的情况,我们关心的参数不再是单指标的
而是两个或两个以上的指标。此时,遇到的统计量不再是线
性形式,往往呈现出非线性形式,比如两个变量之比,或呈
现变量之间的回归关系。
第五章 比估计与回归估计
所谓回归关系就是变量之间的关系不是确定的,是带有
随机影响的。比如身高和体重的关系,身高增加时,一般来
说,体重也会增加,但又不能说一定如此。要确定身高和体
重的关系,一般用回归的方法。这类问题首先是由英国统计
学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现 儿子的身高有回到家族平均身高的趋势,因而 把所得关系
式称为回归方程,于是回归的名词就沿用下来了。
§ 1 比估计及其性质
设有一个二元变量的总体,(,)XY
1 1 2 2(,),(,),,(,)NNX Y X Y X Y
有 4 个参数是我们所熟悉的:
XY,———— 指标 的平均数XY、
22
1
1 ()
1
N
Xi
i
S X XN
?
??? ?
22
1
1 ()
1
N
Yi
i
S Y YN
?
??? ?
—— 指标 的方差XY、
如果简单随机样本为,则
及 的估计为:
(,) ( 1,2,,)iix y i n? (,)C ov X Y
?
在研究比估计之前,再引进一个新的参数 —— 变量之间
的协方差:
1
1(,) ( ) ( )
1
N
ii
i
C o v X Y X X Y YN
?
? ? ?? ?
(5.1)
XY,之间的 相关系数 定义为:
(,)
( ) ( )
C o v X Y
V a r X V a r Y
? ?
?
1
11
22
11
( ) ( )
( ) ( )
N
ii
i
NN
ii
ii
X X Y Y
X X Y Y
?
??
??
?
? ? ? ?
??? ? ? ?
? ? ? ?
?
??
(5.2)
1
1 ( ) ( )
1
n
x y i i
i
S x x y yn
?
? ? ?? ? (5.3)
1
11
22
11
( ) ( )
?
( ) ( )
n
ii
i
nn
ii
ii
x x y y
x x y y
?
?
??
??
?
? ? ? ?
??? ? ? ?
? ? ? ?
?
??
(5.4)
在讨论比估计之前,先考察总体的两个平均数之比,即
R Y X?
由于 分别是 的无偏估计,的估计自然定义为,xy XY,R
?R y x?
假如 或 已知,总体平均数 与总体总和 的比估计
量定义为:
X X Y Y
?
R
yyy R X X X
xx? ? ? ?
(5.5)
?
R
yyy R X X X
xx? ? ? ?
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 则称为比值 的
估计。
?R R
由 (5.5) 式与 (5.6) 式可知,与 的习性主要依赖于估计量
,因此在不少场合,我们常用 来说明。?R ?R
Ry Ry
尽管 分别是 的无偏估计,由于 的非线性形式,因
此 关于 是有偏的,从而 关于 也是有偏的。
,xy XY,?R
?R R,
RRyy,YY
一个合理的估计量,应该随着样本容量 n 的增加,估计量的
期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
利用 Taylor展开式,有
将比估计 表示为:?R y x?
?
( 1 )
yy
R
xXx
X
X
??
?
?
2
? 1y y x X x XR
x X X X
?? ??????
? ? ? ? ??? ??
????
2
1y x X x X
X X X
?? ??????
? ? ??? ??
????
(5.7)
当 n 相当大时,与 相当接近,而 是常数,又 是 的
无偏估计,因此,实质上,所以 。
x X X Yy
?()E R R??R y X?
(5.7)式的好处不单单告诉我们 这一事实,而且告
诉了我们,当 n 相当大时,,表明 可以表示成
的平均数,因此 的分布可近似正态分布
?()E R R?
?R y X? ?R
( 1,2,,)iy X i n? ?R
因此,可利用 近似标准正态分布获得 的置信区间?
?()
RR
Var R
? R
而
2 2 2
2
1?( ) ( 2 )
Y X XY
fV a r R S R S RS
nX
?? ? ?(5.8)
另外
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?(5.9)
2
2 2 2( 1 )( ) ( 2 )
R Y X X Y
NfV a r y S R S R S
n
?? ? ?(5.10)
公式 (5.8),(5.9),(5.10)为我们提供了
的估计量的形式。具体计算时,只要将 分别换为
即可。我们将由此得到的估计量分别记为:
?( ),( ),( )RRV a r R V a r y V a r y
22,,,X Y X YS S S R
22 ?,,,X Y XYs s s R
?2)XYRs??()vR ? 2 2 2
2
1 ?(
YX
f s R s
nx
? ?
2 2 21 ?(
YX
f s R s
n
? ? ?2)XYRs?()Rvy ?
2
2 2 2( 1 ) ?(
YX
Nf s R s
n
? ? ?2)XYRs?()Rvy ?
那么,的置信水平为 的置信区间分别为:,,R Y Y (1 )??
21 ()Ru v y???
Ry
(, )
21 ()Ru v y???
Ry
21
?()u v R????R
21
?()u v R????R(, ) (5.11)
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
下面说明比估计的优点。主要针对 与 来说明,因为
它们仅相差一个常数因子,因此,只需讨论其中一个就可以。
Ry Ry
当 n 充分大时,
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?
21()
Y
fV a r y S
n
??而
欲使,仅需( ) ( )
RV a r y V a r y? 22 20X X YR S R S??
或 22 20
X X YR S R S S???
即 11
2 2 2
X X X
Y Y Y
R S S X C
S S Y C? ? ? ?
(5.12)
(5.12)表明,如果变量 X与 Y正相关,且相关程度非常密
切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( ),此时已知的 X信息并
没有较多地提供 Y的信息,借助 X来推断 也许会“帮倒忙”
假如 X与 Y是负相关,则更不能采用比估计方法,此时应采用
所谓乘积估计,即:
Y
2XYCC? ?
当 n 充分大时,且满足:
11
22
XX
YY
S X C
S Y C? ? ? ? ?
(5.14)
,ppx y x yy y NXX????
(5.13)
成立 ( ) ( )
RV a r y V a r y?
例 5.1 某县小麦种植面积为 218756亩,分布在 N=576个村,为
估计全县产量,随机无放回地抽取 n=24个村,所得数据如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
112.0
129.1
208.2
158.5
110.2
123.3
157.7
154.2
98.7
112.7
125.5
60.3
302
361
608
444
298
349
416
428
258
347
351
158
105.7
80.5
163.0
98.7
137.8
141.2
152.5
142.5
136.7
153.2
93.0
179.8
308
217
492
280
378
386
428
390
376
432
261
483
i村 i村()iy产量 吨 ()iy产量 吨()ix面积 亩 ()ix面积 亩
每个村有两个指标,面积 和 产量,即:
ix iy (,)iixy
经计算可得,3 6 4,6 2 5x ? 1 3 0,6 2 5y ?
2 1 1 1 2,1 9 5xs ? 2 9 4 9 8,5 0 5ys ?
3 2 1 3,1 1 0xys ? 218756X ? 218756 3 7 9,7 8 4 7
576X ??
所以该县平均亩产小麦估计为:
130.625? 0.358245 ( )
364.625
yR
x? ? ? 吨亩
? 2 1 8 7 5 6 0, 3 5 8 2 4 5 7 8 3 6 8, 2 ( )Ry X R? ? ? ? 吨
采用比估计可得 和 分别为:Ry ()Rvy
2
2 2 2( 1 ) ?(
yx
Nf s R s
n
? ? ?2)xyRs?()Rvy ? 385080?
仅利用 数据估计该县小麦总产量 与估计量方差分别为:y Y
5 7 6 1 3 0, 6 2 5 7 5 2 4 0 ( )y N y? ? ? ? ? 吨
2
2( 1 )( ) 1 4 7 3 4 3 5 9
y
Nfv y s
n
???
显然,的方差远远小于 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
Ry y
现在来求总产量的 95%的置信区间,首先
置信区间为:
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
( ) 6 2 0, 5 5 ( )Rvy ? 吨
2 0, 9 7 51 1, 9 6uu?? ??
( 7 7 1 5 2,7 9 5 8 4)?
§ 2 分层抽样中的比估计
1、分别比估计
设总体分为 k 层,第 h 层的样本均值记为,在该层
中 与 的比估计记为,又记 和 为第 h 层中指标
的平均数与总和,与 分别为该层中 的方差
和协方差,若 换为, 换为,则显然表示该层样本
的方差和协方差。
,hhyx
hY hY,Rh Rhyy hX hX
X 22,Yh XhSS YXhS,YX
S s,YX,yx
我们可以得到有关总体 和 的分别比估计为:Y Y
分层抽样中的比估计有两种:一是分层之后,先在各层
获得比估计,然后按层权平均得到总体参数估计;二是先对
作分层估计,然后再采用比估计方法。前者称为 分别比
估计,后者称为 联合比估计 。
,YX
1 1 1
1k k khh
R S h R h h h h
h h h
yyy W y W X X
x N x? ? ?? ? ? ? ?? ? ?
(5.15)
11
kk
h
R S R S h R h
hhh
yy N y X y
x??? ? ? ? ???
(5.16)
由上节可知,各层中的 是 的渐近无偏估计量,因此
是 的渐近无偏估计量:
Rhy hY
YRSy
各层的抽样又是独立进行的,由 (5.10)式,可以近似得到
的方差或均方误差,当各个 都相当大时:
RSy
hn
1
( ) ( )
k
R S R h
h
E y E y Y
?
???
(5.17)
( ) ( )R S R SM S E y V a r y?
2
2 2 2
1
( 1 ) ( 2 )k hh
Y h h X h h Y X h
h h
Nf S R S R S
n?
?? ? ?? (5.18)
h
h
h
YR
X?
(5.17),(5.18)告诉我们,即使每层 相当大,但如果层数 k
比较大,由于误差的积累,产生的偏倚与误差可能相当
大。
hn
RSy
2、联合比估计
而 的相应(联合)比估计可以写成:,YY
将 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
,XY
? s t s t
c
s t s t
yyR
xx??
(5.19)
? st
R c c
st
yy R X X
x??
(5.20)
st
R c R c
st
yy N y X
x? ? ?
(5.21)
为与分别比估计进行比较,我们讨论联合比估计的期
望和方差。当 n 相当大时,有
( ) ( )R c R cM S E y V a r y?
2
2 2 2
1
( 1 ) ( 2 )k hh
Y h X h Y X h
h h
Nf S R S R S
n?
?? ? ?? (5.23)
R Y X?其中 为总体的比值。
()RcE y Y?
(5.22)
(5.22)表明,是 的渐近无偏估计,(5.23)与 (5.18)非常相
似,唯一不同的是在 (5.18)中用的是各层的比值,而 (5.23)
中用的是总体的比值 。
Rcy Y
hR
R
3、分别比估计与联合比估计的比较
( ) ( )R c R sV a r y V a r y?
2
2 2 2
1
( 1 ) [ ( ) 2 ( ) ]k hh
h X h h Y X h
h h
Nf R R S R R S
n?
?? ? ? ??
(5.24)
2
2 2 2
1
( 1 ) [ ( ) 2 ( ) ( ) ]k hh
h X h h h Y h X h h X h
h h
Nf R R S R R S S R S
n ??
?? ? ? ? ??
仅就总体总和进行比较。如果各层的 相当大,由 (5.18)
和 (5.23)可得:
hn
当对一切 h 有 时,这两种估计方差相同,也就是说当
分层对比值并无多大意义情况下,谈论分别比估计与联合比
估计孰优孰劣已经无多大意义。
hRR?
然而,如果各层有自己的特色,不可能在每一层均等
于,此时倘若对每一层来说,与 之间的关系是比例
关系,即,此时,于是 (5.24)式内求
和式内每一项中括号内第二部分等于零,这样显然有
hR
R
hiY hiX
hi hiY kX? h Y h h X hS R S? ?
( ) ( )R c R sV a r y V a r y?
即“分别比估计”比“联合比估计”精度高一些。其实,只要比
估计非常有效,即对一切 h, 时,这一项值相
对地就小,此时中括号中均以第一部分占主导地位,仍有
( ) ( )R c R sV a r y V a r y?
2h X YCC? ?
当然,有些层的 不是相当大,这种场合分别比估计的偏倚
可能很大而使总的均方误差增大,于是我们宁可采用联合比
估计的方法。
hn