§ 3 数值例子
例 5.2 某地区有 976个自然村,根据该地区的地貌将各村所属
耕地划为三种类型,各村按类型上报了耕地面积 (以亩计算 )
为核实这些上报数据,采用按比例分配的分层随机抽样方法
在每一种类型中抽取若干村进行实测核实,倘若以 X表示上
报数据,以 Y表示实测数据,抽样结果如下表,
1h? 2h? 3h?
i i i1iy 1ix 2iy 3iy2ix 3ix
1
2
3
4
5
6
7
8
9
10
1241
858
961
1132
934
838
621
647
654
848
1174
945
884
1113
1031
792
586
609
599
827
1
2
3
4
5
6
7
1030
931
1039
1101
941
561
930
885
996
805
995
831
545
807
652
627
974
1499
1200
1254
527
585
741
1130
1140
952
1
2
3
4
5
6
有关计算结果及其它数据如下表,
h hN
hW hX hn hy hx
? hh
h
yR
x? 2yhS 2xhS yxhS
976N ?
826800
X? 23n? 933.6087y? 847.7826x?
?
1.101236
yR
x?
?
2
57745
yS ? 2
41146
xS ?
43051
yxS ?
1
2
3
427
297
252
0.4375
0.3043
0.2582
367200
251600
208000
10
7
6
873.4000
933.2857
1034.3333
856.0000
837.7143
845.8333
1.020327
1.114086
1.222857
42064.933
31221.571
121470.667
45710.889
23294.905
71846.967
42055.667
22692.429
87713.867
试对总体总和 (该地区实际耕地面积总和 )用各种手法进行
估计,
Y
(1)简单随机抽样估计
由于分层抽样是在各层按比例分配进行的,因此可以将
23个村所得数据看作是从总体 976 个村中抽取的一个较合理
的简单随机样本,上表中最后一行的数据都是基于这样的“
简单随机样本”而计算的。
9 7 6 9 3 3, 6 0 8 7 9 1 1 2 0 2 ( )y N y? ? ? ? ? 亩
为求精度,常用其标准差
( ) ( ) ( )s y V a r y N V a r y??
若用,则有
211( ) ( )
yV a r y snN??
11( ) 9 7 6 ( ) 5 7 7 4 6 4 8 3 2 4 ( )
2 3 9 7 6sy ? ? ? ? ? 亩
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层
估计真正的简单随机抽样的平均数的方差,可以借用一个近
似公式(用于按比例分配的分层抽样情况)也许更为精确:
21( ) ( )
( 1 ) y s t
N n nv y s v y
n N n
?? ???? ??
? ??
22
1
1 1 1()
( 1 )
k
y h y h
h
N n n s W s
n N n n N ?
?? ??? ? ???
? ?? ?
(5.25)
( ) ( ) 9 7 6 ( ) 4 8 3 5 1 ( )s y N v y v y? ? ? ? 亩
此时 9 7 6 2 3 2 3 1
( ) { 5 7 7 4 52 3 ( 9 7 6 1 ) 2 3vy ?????
11( ) ( 0,4 3 7 5 4 2 0 6 4,9 3 3 0,3 0 4 3 3 1 2 2 1,5 7 1 0,2 5 8 2 1 21470.667 ) }
2 3 9 7 6? ? ? ? ? ? ?
2 4 5,4 2 3 5?
两种算法的差距并不大。
(2)简单随机抽样比估计
? 1,1 0 1 2 3 6 8 2 6 8 0 0 9 1 0 5 0 2 ( )R yy X RX
x? ? ? ? ? 亩
2 2 2( 1 ) ?( ) (
R y x
fs y N S R S
n
??? ?2 ) 2 3 0 9 5 ( )xyRS?? 亩
(3)分层随机抽样简单估计
1
9 1 0 7 8 0 ( )
k
s t h h
h
y N y
?
??? 亩
( ) ( )s t s ts y N v y? 2
1
11() k
hh
h
N W SnN
?
?? ?
119 7 6 ( ) ( 0, 4 3 7 5 4 2 0 6 4, 9 3 3 0, 3 0 4 3 3 1 2 2 1, 5 7 1 0, 2 5 8 2 1 2 1 4 7 0, 6 6 7 )
2 3 9 7 6? ? ? ? ? ? ?
4 8 9 7 5 (? 亩)
(4)分层随机抽样分别比估计
1
?kR S R S h h
h
y N y R X
?
? ? ? ??
3 6 7 2 0 0 1, 0 2 0 3 2 7 2 5 1 6 0 0 1, 1 1 4 0 8 6 2 0 8 0 0 0 1, 2 2 2 8 57? ? ? ? ? ?
9 0 9 3 2 2 ( )? 亩
2
2 2 2
1
( 1 ) ?( ) (k hh
R S y h h xh
h h
Nfs y s R s
n?
???? ?2)h yxhRs? 1 5 3 6 0 ( )? 亩
(5)分层随机抽样联合比估计
1
? s t s t
c k
st
hh
h
yy
R
x Nx
?
??
?
910780 1,1 0 0 6 9 0
827463??
? 1, 1 0 0 6 9 0 8 2 6 8 0 0 9 1 0 0 5 0 ( )R c cy R X? ? ? ? 亩
2
2 2 2
1
( 1 ) ?( ) (k hh
Rc Y h c xh
h h
Nfs y S R s
n?
???? ?2)c yxhRs? 1 5 9 3 6 ( )? 亩
从以上五种情况的结果分析,两种简单估计的精度较差
因为他们没有充分利用已知的 及 的信息,三种比估计由
于利用了 的信息,显然精度大大提高了。
X x
X
同时我们注意到分层随机抽样的两种比估计比起简单随
机抽样的比估计效果略好一些,这是因为在实际测量中已分
的三层的确有所区别。
最后我们指出,在分层随机抽样中,分别比估计与联合
比估计有着几乎差不多的效果,这正是我们在正文中所阐述
的理由,当每层抽样容量 不很大时,联合比估计不比分别
比估计来的差。
hn
一个有趣的事实是对于 的估计,恰好三个比估计比起
两个简单估计要略低一些,由于随机性,当然我们不能指认
到底哪一个估计比较接近事实,但是三种比估计统统略低会
使我们产生这样一个想法:这是否会是由于比估计本身时有
偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏
小了些。但是比估计的有偏性却在理论上是无法否认的事实
调查工作者与统计学家一直在设法尽力减少偏差,这称为估
计量的“纠偏”。
Y
§ 4 回归估计量
前面讨论的比估计之所以能在精度方面获益匪浅,是因
为我们充分利用了已知的辅助变量 X 的信息,而且这个辅助
变量 X 与我们所关心的变量 Y 之间有着密切的关系,这种关
系越密切,对 Y 的某些指标的估计精度就越高。
现在假定变量 Y与 X之间存在着线性回归关系(但不是通
过原点),又假设 X的信息已知或部分已知,我们想利用 X的
信息提高对 Y的估计精度。
1、简单随机抽样情况
设从总体 中随机无放回的抽取样本
,若变量 关于 的回归直线不通过
原点,具有如下形式:
(,) 1,2,,iiY X i N?
(,) 1,2,,iiy x i n? iy ix
01 1,2,,i i iy x i n? ? ?? ? ? ?
(5.26)
iy ?iy
的回归值 估计为
相应的,总体总和 的回归估计为:Y
这里 可以是一个设定的常数,也可以是估计得到的回归
系数。例如,若设定,则 即为简单估计量;
若令 是一个估计量,则
?
0? ? tryy?
yx? ?
()lr yyy y X x Xxx? ? ? ?
其中 是 的估计量。为方便起见,记,我们可
以用所有 N个 的回归值 的平均值来估计总体平均数
这样就得到 的线性回归估计,倘若 已知,有:
1????
iy ?iy Y
XY
1?? 1?
即为比估计量。可见回归估计包含简单估计和比估计。
1?? ()iiy y x x?? ? ?
(5.27)
()lry y X x?? ? ? (5.28)
lr lry N y??
(5.29)
( 1) 为设定常数的情形?
这种情况在实际应用中是存在的。比如为同一目的进行
的调查已重复进行多次,将以前数据中 关于 计算而得的
回归系数(倘若前几次该系数比较稳定在某一数值的话)直
接作为最新调查的 设定值。
iY iX
?
首先研究这种简单回归估计值的期望。注意到 是 的
无偏估计,又是 的无偏估计,因此,有:
y Y
x X
( ) ( ) ( )lrE y E y E X x Y?? ? ? ?
(5.30)
即回归估计量是总体平均数的无偏估计。
的方差可计算为:
lry
2 2 21( ) ( 2 )
lr Y X Y X
fV ar y S S S
n ??
?? ? ?(5.32)
由 (5.30)以及 (5.32)可知,无论 是怎样的设定值,总
是 的无偏估计,估计的精度与 的设定值有关。
? lry
Y ?
?(5.32)式的右端实际上是 的二次三项式,又由于 前的系
数为 是个正数,因此,只要适当选取 就可使 达
到最小值,利用高等数学的知识,可得使 达到最小
值的 应为:
2?
2XS ? ()lrVar y
?
()lrVar y
其中 为 X 和 Y 的相关系数,此时最小方差为:?
22
min
1( ) ( 1 )
lr Y
fV a r y S
n??
???(5.34)
1
m in
2
1
( ) ( )
()
N
ii
i Y
N
X
i
i
Y Y X X
S
S
XX
?
? ?
?
??
??
?
?
?
(5.33)
( 2) 取样本回归系数的情形?
如果 需要估计而定,估计的原则总是使 达到最小? ()
lrVar y
根据 (5.33)式的启发,自然取:
1
2
1
( ) ( )
()
n
ii
i
l n
i
i
y y x x
xx
? ?
?
??
?
?
?
?
(5.35)
这实际上就是样本回归系数。利用 得到的回归,由于
是比值型随机变量,与比估计一样的理由,不可能是总
体平均数的无偏估计。但当 n 相当大时,有下列近似结果:
l? l?
lry
1( ) ( )
lrE y Y O n??
(5.36)
22
32
11( ) ( 1 ) ( )
lr Y
fV a r y S O
nn ?
?? ? ?(5.37)
因此,对简单随机抽样,当样本容量 n 相当大时,回归
估计 (不管 是否设定)的方差均近似地看作:
lry ?
221( ) ( 1 )
lr Y
fV a r y S
n ?
???
与简单随机抽样时 的简单估计 的方差相比,只要,
则回归估计一定优于简单估计。
Y y 0??
至于 的情况,则表示 X与 Y没有任何线性关系,那么
用 X,Y的线性回归来估计 就相当于单纯依赖 去估计
0??
Y Yiy
回归估计与简单随机抽样时的比估计相比孰优孰劣呢?
当 n 相当大时,比估计的方差为:
2 2 21( ) ( 2 )
R Y X Y X
fV ar y S R S R S S
n ?
?? ? ?
欲使回归估计优于比估计,当且仅当:
2 2 2 2 2Y X X YS R S R S S??? ? ?
即 2( ) 0
YXS R S? ??
或 2
m i n( ) 0R? ??
(5.38)
这是一个当然的不等式。一般情况总是回归估计优于比估计
除非,此时这两种估计量效果几乎一样。
m in R? ?
回归估计量的上述性质都是在样本容量 n 相当大时才成
立,当 n 偏小时容易产生较大偏倚,(5.36)式中关于 1/n的同
阶无穷小这一项就蕴涵了这种可能性。
当 n 相当大时,或 如何估计呢?()
lrM SE y ()lrVar y
由于这两个参数的主要部分都是,因此,要
给出估计,只要将 S 换为 s,X,Y 换为 x,y,N 换为 n即可
221 ( 1 )
Y
f S
n ?
? ?
22(1 )YS ?? 形式上的估计可以写成
2
2 1
1 22
11
( ) ( )
1
( ) 1
1
( ) ( )
n
iin
i
i
nn
i
ii
ii
x x y y
yy
n
x x y y
?
?
??
????
???? ??
?? ??
???
??
??
??
????
?
?
??
2
12
221
11
( ) ( )
( ) 1
( ) ( )
n
iin
i
i nn
i
ii
ii
x x y y
yy
x x y y
?
?
??
????
??????
??
?? ??
?? ??
??
?
?
??
实质上是残差平方和,其自由度为 (n- 2),因此得到
或 的估计为:()
lrVar y
()lrM SE y
2
12
21
1
( ) ( )
1
( ) ( )
( 2 )
()
n
iin
i
lr i n
i
i
i
x x y y
f
v y y y
nn
xx
?
?
?
?? ??
???? ??
? ??
? ? ???
? ??
?
??
?
?
?
(5.39) 2
2
2
1 ( 1 ) ( )
( 2 )
yx
y
x
sf
ns
n n s
?? ? ?
?
1
2
2
1
( ) ( )
()
n
ii
yx i
ln
x
i
i
x x y y
s
s
xx
??
?
??
??
?
?
?
为样本回归系数
21( ) ( 1 ) ( )
( 2 )l r y l y x
fv y n s s
nn ?
?? ? ?
?
故
例 5.3 (续例 5.1)使用回归估计继续讨论某县小麦亩产与总产
量问题。
样本回归系数
2
3 2 1 3, 1 1 0 0, 3 3 8 3
9 4 9 8, 5 0 5
yx
l
x
s
s? ? ? ?
小麦产量的估计为, ()
lr ly y X x?? ? ?
1 3 0, 6 2 5 0, 3 3 8 3 ( 3 7 9, 7 8 4 7 3 6 4, 6 2 5 )? ? ? ?
1 3 5, 7 5 3 5 ( )? 吨
小麦总产量的估计为,
9 7 6 1 3 5, 7 5 3 5 7 8 1 9 4 ( )l r l ry N y? ? ? ? ? 吨
2 2 21( ) ( ) ( 1 ) ( )
( 2 )l r l r y l y x
fv y N v y N n s s
nn ?
?? ? ? ?
?
349023?
显见,回归估计比起比估计精度略高一点,但相差不大,它
们比简单估计则要精确的多!
2、分层随机抽样情况
与比估计情形一样,在分层随机抽样中考虑两种形式的
回归估计:分别回归估计与联合回归估计。
( 1)分别回归估计
所谓分别回归估计,就是先在各层中对该层的平均数或
总和进行回归估计,然后再按层权平均或相加。
设第 h 层的样本平均数回归估计为,那么分别回归估计为
lrhy
其中 分别为第 h 层的样本均值、回归参数。
h h hyx ?、,
1
[ ( ) ]
k
l r s l r s h h h h h
h
y N y N W y X x?
?
? ? ? ? ? ??
1
[ ( ) ]
k
h h h h h
h
N y X x?
?
? ? ??
(5.41)
11
[ ( ) ]
kk
l r s h l r h h h h h h
hh
y W y W y X x?
??
? ? ? ???
(5.40)
当各层的 为预先设定时,那么这两个估计量都是无偏估
计量。又由于各层抽样都是相互独立的,由 (5.31)式立即可
得:
h?
2 2 2 2
1
1( ) ( 2 )n h
l r s h Y h h X h h Y X h
h h
fV a r y W S S S
n
??
?
?? ? ?? (5.42)
并且当 时,达到最小值:2 ( 1,2,,)
h Y X h X hS S h k? ??
2 2 2
1
1 ( 1 )n h
h Y h h
h h
fWS
n ??
????
2( ( 1,2,,) )lr s h Y Xh XhV a r y S S h k? ??
(5.43)
1
2
1
( ) ( )
()
h
h
n
hi h hi h
i
lh n
hi h
i
y y x x
xx
? ?
?
??
?
?
?
?
(5.44)
2 2 2
1
1( ) ( 1 )k h
lr s h Y h h
h h
fV a r y W S
n ??
???? (5.45)
2 2 2
1
1( ) ( 1 ) ( 1 )
( 2)
k
h
l r s h h y h h
h hh
fv y W n s r
nn?
?? ? ?
??
(5.46)
若以 表示第 h 层的相关系数,那么 的估计为:
hr ()lrsVar y
当各层的 都比较大时:
hn
如果 需要利用样本来估计,还是采用最小二乘估计:
h?
( 2)联合回归估计
然后构造 与 的联合回归估计:Y Y
联合回归估计是先对 与 作分层估计:Y X
1
k
st h h
h
y W y
?
? ?
1
k
st h h
h
x W x
?
? ?
同样当 事先给定时,它们是无偏估计,方差为:?
2 2 2 2
1
1( ) ( 2 )n h
l r c h Y h X h Y X h
h h
fV a r y W S S S
n
??
?
?? ? ?? (5.49)
()lr c s t s ty y X x?? ? ?
(5.47)
()lr c lr c s t s ty N y y X x?? ? ? ? ?(5.48)
它在 取如下值时达到极小值?
2
1
m in
22 11
1
( 1 )
( 1 )
k
h h Y Xh h kk
h
h h hk
hh
h h Xh h
h
W f S n
a B a
W f S n
? ?
??
?
?
??
?
?
??
?
(5.50)
其中 2 2( 1 )
hh
h X h
h
WfaS
n
??
2
Y X h
h
Xh
SB
S?
(5.51)
2 2 2
m i n m i n m i n
11
( 2 ) ( ) 0
kk
h h h h h h h
hh
a B a B a a B? ? ?
??
? ? ? ? ???
(5.52)
这里的 恰好就是分别回归估计中的,它使分别回归
(平均数)估计的方差达到最小。为比较分别回归估计与
联合回归估计之间的优劣,将 代入 (5.49)式,再减去
(5.43)式右边,得到差为:
hB h?
min?
直观上这是因为“分别”方法比起“联合”方法更多地关心
到各层的指标与特征,只要分层有意义,也就是说所划分的
层各具有自己鲜明的特色,那么“分别”对各层过多的关注将
当然地得到精度上的回报。以回归估计来说,如果各层的回
归系数相差很大,那么分别回归估计的效果将更加显著。
(5.52)式表明,若在分别回归估计中设定最优,又在联合
回归估计中设定最优,那么除非一切最优 均等于
分别回归估计总是优于联合回归估计的。我们又一次谈到对
于分层抽样来讲,“分别估计”总是优于“联合估计”。不管是
比估计还是回归估计都是如此。
h?
h?min? min?
?当 必须根据样本来进行估计时,我们当然地取 的
样本来估计:
min?
2
11
2
2
11
( 1 )
( ) ( )
( 1 )
( 1 )
()
( 1 )
h
h
nk
hh
h i h h i h
hi hh
lc nk
hh
h i h
hi hh
Wf
y y x x
nn
Wf
xx
nn
?
??
??
?
??
?
?
?
?
?
??
??
(5.53)
如果样本量按比例分配,又用 代替 (5.53)式中的,则
hn 1hn ?
11
2
11
( ) ( )
()
h
h
nk
h i h h i h
hi
lc nk
h i h
hi
y y x x
xx
? ??
??
??
? ?
?
??
??
(5.54)
2 2 2 2
m i n m i n
1
1( ) ( 2 )n h
l r c h Y h X h Y X h
h h
fV a r y W S S S
n ???
?? ? ?? (5.55)
lrcy
的方差可以近似计算为:
它可用下式进行估计:
2 2 2 2
1
1( ) ( 2 )n h
l r c h y h l c x h l c y x h
h h
fv y W s s s
n ???
?? ? ?? (5.56)
以上讨论都是建立在 X,Y之间有较强烈回归关系的基
础之上,倘若在各层内回归规律性不是很强,则除非 均
相当大,否则也许还是采用联合估计比较稳妥一些。
hn
若各层的抽样容量 不太大,的变化也不大(各层
特色不明显),则为了避免由 过小而引起的偏倚,此时宜
用联合回归估计。若 的变化比较大,各 也比较大,由以
上分析自然采用分别回归估计效果会更好一些。
hn
hn
hn
h?
h?
本章习题解答
5- 1
如果变量 X与 Y负相关,即相关系数 为负数,此时必有?
11 0
22
XX
YY
C S X
C S Y? ? ? ?
不满足 的条件( ) ( )
RV a r y V a r y?
11
2 2 2
X X X
Y Y Y
R S S X C
S S Y C? ? ? ?
而采用乘积估计,当 n 充分大时,满足:
11
22
XX
YY
S X C
S Y C? ? ? ? ?
成立 ( ) ( )
RV a r y V a r y?
5- 2
( ) ( ( ) ) ( ) ( )dE y E y X x E y E X x? ? ? ? ? ?
( ),( )E y Y E x X??而
( ) ( ) ( )dE y E y X E x Y? ? ? ? ?
由教材 P98页 (5.31)式可知,内容为
{ ( ) 1,2,,}iiY X X i N? ? ?
盒子的方差可计算为:
2 2 2
1
1 [ ( ) ] 2
1
N
i i Y X Y X
i
Y X X Y S S SN
?
? ? ? ? ? ?? ?
可得
221( ) ( 2 )
d Y X X Y
fV a r y S S S
n
?? ? ?
5- 3 N=200,n=10 11600X ? 公 斤
0, 0 5nf N??
1 ( 6 1 4 2 5 0 5 8 6 7 4 5 3 9 5 5 5 2 7 0 ) 5 3,9
10y ? ? ? ? ? ? ? ? ? ? ?
1 ( 5 9 4 7 5 2 6 0 6 7 4 5 4 2 5 8 5 6 7 5 ) 5 6,1
10x ? ? ? ? ? ? ? ? ? ? ?
2 2 2 2 2 21 [ ( 6 1 5 3,9 ) ( 4 2 5 3,9 ) ( 5 0 5 3,9 ) ( 5 8 5 3,9 ) ( 6 7 5 3,9 )
9ys ? ? ? ? ? ? ? ? ? ?
2 2 2 2 2(4 5 5 3, 9 ) ( 3 9 5 3, 9 ) (5 5 5 3, 9 ) (5 2 5 3, 9 ) (7 0 5 3, 9 ) ]? ? ? ? ? ? ? ? ? ?
1 0 6,7 6 6 7?
2 2 2 2 2 21 [ ( 5 9 5 6,1 ) ( 4 7 5 6,1 ) ( 5 2 5 6,1 ) ( 6 0 5 6,1 ) ( 6 7 5 6,1 )
9xs ? ? ? ? ? ? ? ? ? ?
22222(4 5 5 6, 1 ) (4 2 5 6, 1 ) (5 8 5 6, 1 ) (5 6 5 6, 1 ) (7 5 5 6, 1 ) ]? ? ? ? ? ? ? ? ? ?
1 0 2,7 6 6 7?
1 [ ( 6 1 5 3, 9 ) ( 5 7 5 6, 1 ) ( 4 2 5 3, 9 ) ( 4 7 5 6, 1 ) ( 5 0 5 3, 9 ) ( 5 2 5 6, 1 )
9
( 5 8 5 3, 9 ) ( 6 0 5 6, 1 ) ( 6 7 5 3, 9 ) ( 6 7 5 6, 1 ) ( 4 5 5 9, 9 ) ( 4 5 5 6, 1 )
yxs ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ?
1 0 2,1 2 2 2?
( 3 9 5 3, 9) ( 4 2 5 6, 1 ) ( 5 5 5 3, 9) ( 5 8 5 6, 1 ) ( 5 2 5 3, 9) ( 5 6 5 6, 1 )
( 7 0 5 3, 9) ( 7 5 5 6, 1 ) ]
? ? ? ? ? ? ? ? ?
? ? ?
5 3, 9 5 6, 1 2, 2d y x? ? ? ? ? ?
Y 的估计为 ()
ddy N y N X d X N d? ? ? ? ? ? ?
= 11600公斤
2 2 2 21( ) ( ) ( 2 )
d d y x y x
fV a r y N V a r y N s s s
n
?? ? ? ? ?
40816.2559?
5- 4 回归估计
回归系数
2
1 0 2, 1 2 2 2 0, 9 9 3 7
1 0 2, 7 6 6 7
yx
l
x
s
s? ? ? ?
[ ( ) ]lr lr ly N y N y X x?? ? ? ? ?
()lN y X N x?? ? ? ? ?
2 0 0 5 3, 9 0, 9 9 3 7 ( 1 1 6 0 0 2 0 0 5 6, 1 ) 1 1 1 5 7, 6 1 7 4? ? ? ? ? ? ?
221( ) ( 1 ) ( )
( 2 )l r y l y x
fv y N n s s
nn ?
?? ? ?
?
2 1 0, 0 52 0 0 ( 1 0 1 ) ( 1 0 6, 7 6 6 7 0, 9 9 3 7 1 0 2, 1 2 2 2 )
1 0 ( 1 0 2 )
?? ? ? ?
?
22592.5465?
比估计:
? 0.96078yR
x??
? 0, 9 6 0 7 8 1 1 6 0 0 1 1 1 4 5, 0 4 8Ry R X? ? ? ? ?
2
2 2 2( 1 ) ? ?( ) ( 2 )
R y x y x
NfV a r y s R s R s
n
?? ? ? ?
2
22 0 0 ( 1 0, 0 5 ) ( 1 0 6, 7 6 6 7 0, 9 6 0 7 8 1 0 2, 7 6 6 7
10
2 0, 9 6 0 7 8 1 0 2, 1 2 2 2 )
?
? ? ?
? ? ?
20506.7837?
5- 5
21 ()Ru v y???
Ry
(, )
21 ()Ru v y???
Ry
Y 的置信区间为
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
Y 的置信区间为
其中 ?
Ry R X?? ?Ry R X??
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?
2
2 2 2( 1 )( ) ( 2 )
R Y X X Y
NfV a r y S R S R S
n
?? ? ?
例 5.2 某地区有 976个自然村,根据该地区的地貌将各村所属
耕地划为三种类型,各村按类型上报了耕地面积 (以亩计算 )
为核实这些上报数据,采用按比例分配的分层随机抽样方法
在每一种类型中抽取若干村进行实测核实,倘若以 X表示上
报数据,以 Y表示实测数据,抽样结果如下表,
1h? 2h? 3h?
i i i1iy 1ix 2iy 3iy2ix 3ix
1
2
3
4
5
6
7
8
9
10
1241
858
961
1132
934
838
621
647
654
848
1174
945
884
1113
1031
792
586
609
599
827
1
2
3
4
5
6
7
1030
931
1039
1101
941
561
930
885
996
805
995
831
545
807
652
627
974
1499
1200
1254
527
585
741
1130
1140
952
1
2
3
4
5
6
有关计算结果及其它数据如下表,
h hN
hW hX hn hy hx
? hh
h
yR
x? 2yhS 2xhS yxhS
976N ?
826800
X? 23n? 933.6087y? 847.7826x?
?
1.101236
yR
x?
?
2
57745
yS ? 2
41146
xS ?
43051
yxS ?
1
2
3
427
297
252
0.4375
0.3043
0.2582
367200
251600
208000
10
7
6
873.4000
933.2857
1034.3333
856.0000
837.7143
845.8333
1.020327
1.114086
1.222857
42064.933
31221.571
121470.667
45710.889
23294.905
71846.967
42055.667
22692.429
87713.867
试对总体总和 (该地区实际耕地面积总和 )用各种手法进行
估计,
Y
(1)简单随机抽样估计
由于分层抽样是在各层按比例分配进行的,因此可以将
23个村所得数据看作是从总体 976 个村中抽取的一个较合理
的简单随机样本,上表中最后一行的数据都是基于这样的“
简单随机样本”而计算的。
9 7 6 9 3 3, 6 0 8 7 9 1 1 2 0 2 ( )y N y? ? ? ? ? 亩
为求精度,常用其标准差
( ) ( ) ( )s y V a r y N V a r y??
若用,则有
211( ) ( )
yV a r y snN??
11( ) 9 7 6 ( ) 5 7 7 4 6 4 8 3 2 4 ( )
2 3 9 7 6sy ? ? ? ? ? 亩
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层
估计真正的简单随机抽样的平均数的方差,可以借用一个近
似公式(用于按比例分配的分层抽样情况)也许更为精确:
21( ) ( )
( 1 ) y s t
N n nv y s v y
n N n
?? ???? ??
? ??
22
1
1 1 1()
( 1 )
k
y h y h
h
N n n s W s
n N n n N ?
?? ??? ? ???
? ?? ?
(5.25)
( ) ( ) 9 7 6 ( ) 4 8 3 5 1 ( )s y N v y v y? ? ? ? 亩
此时 9 7 6 2 3 2 3 1
( ) { 5 7 7 4 52 3 ( 9 7 6 1 ) 2 3vy ?????
11( ) ( 0,4 3 7 5 4 2 0 6 4,9 3 3 0,3 0 4 3 3 1 2 2 1,5 7 1 0,2 5 8 2 1 21470.667 ) }
2 3 9 7 6? ? ? ? ? ? ?
2 4 5,4 2 3 5?
两种算法的差距并不大。
(2)简单随机抽样比估计
? 1,1 0 1 2 3 6 8 2 6 8 0 0 9 1 0 5 0 2 ( )R yy X RX
x? ? ? ? ? 亩
2 2 2( 1 ) ?( ) (
R y x
fs y N S R S
n
??? ?2 ) 2 3 0 9 5 ( )xyRS?? 亩
(3)分层随机抽样简单估计
1
9 1 0 7 8 0 ( )
k
s t h h
h
y N y
?
??? 亩
( ) ( )s t s ts y N v y? 2
1
11() k
hh
h
N W SnN
?
?? ?
119 7 6 ( ) ( 0, 4 3 7 5 4 2 0 6 4, 9 3 3 0, 3 0 4 3 3 1 2 2 1, 5 7 1 0, 2 5 8 2 1 2 1 4 7 0, 6 6 7 )
2 3 9 7 6? ? ? ? ? ? ?
4 8 9 7 5 (? 亩)
(4)分层随机抽样分别比估计
1
?kR S R S h h
h
y N y R X
?
? ? ? ??
3 6 7 2 0 0 1, 0 2 0 3 2 7 2 5 1 6 0 0 1, 1 1 4 0 8 6 2 0 8 0 0 0 1, 2 2 2 8 57? ? ? ? ? ?
9 0 9 3 2 2 ( )? 亩
2
2 2 2
1
( 1 ) ?( ) (k hh
R S y h h xh
h h
Nfs y s R s
n?
???? ?2)h yxhRs? 1 5 3 6 0 ( )? 亩
(5)分层随机抽样联合比估计
1
? s t s t
c k
st
hh
h
yy
R
x Nx
?
??
?
910780 1,1 0 0 6 9 0
827463??
? 1, 1 0 0 6 9 0 8 2 6 8 0 0 9 1 0 0 5 0 ( )R c cy R X? ? ? ? 亩
2
2 2 2
1
( 1 ) ?( ) (k hh
Rc Y h c xh
h h
Nfs y S R s
n?
???? ?2)c yxhRs? 1 5 9 3 6 ( )? 亩
从以上五种情况的结果分析,两种简单估计的精度较差
因为他们没有充分利用已知的 及 的信息,三种比估计由
于利用了 的信息,显然精度大大提高了。
X x
X
同时我们注意到分层随机抽样的两种比估计比起简单随
机抽样的比估计效果略好一些,这是因为在实际测量中已分
的三层的确有所区别。
最后我们指出,在分层随机抽样中,分别比估计与联合
比估计有着几乎差不多的效果,这正是我们在正文中所阐述
的理由,当每层抽样容量 不很大时,联合比估计不比分别
比估计来的差。
hn
一个有趣的事实是对于 的估计,恰好三个比估计比起
两个简单估计要略低一些,由于随机性,当然我们不能指认
到底哪一个估计比较接近事实,但是三种比估计统统略低会
使我们产生这样一个想法:这是否会是由于比估计本身时有
偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏
小了些。但是比估计的有偏性却在理论上是无法否认的事实
调查工作者与统计学家一直在设法尽力减少偏差,这称为估
计量的“纠偏”。
Y
§ 4 回归估计量
前面讨论的比估计之所以能在精度方面获益匪浅,是因
为我们充分利用了已知的辅助变量 X 的信息,而且这个辅助
变量 X 与我们所关心的变量 Y 之间有着密切的关系,这种关
系越密切,对 Y 的某些指标的估计精度就越高。
现在假定变量 Y与 X之间存在着线性回归关系(但不是通
过原点),又假设 X的信息已知或部分已知,我们想利用 X的
信息提高对 Y的估计精度。
1、简单随机抽样情况
设从总体 中随机无放回的抽取样本
,若变量 关于 的回归直线不通过
原点,具有如下形式:
(,) 1,2,,iiY X i N?
(,) 1,2,,iiy x i n? iy ix
01 1,2,,i i iy x i n? ? ?? ? ? ?
(5.26)
iy ?iy
的回归值 估计为
相应的,总体总和 的回归估计为:Y
这里 可以是一个设定的常数,也可以是估计得到的回归
系数。例如,若设定,则 即为简单估计量;
若令 是一个估计量,则
?
0? ? tryy?
yx? ?
()lr yyy y X x Xxx? ? ? ?
其中 是 的估计量。为方便起见,记,我们可
以用所有 N个 的回归值 的平均值来估计总体平均数
这样就得到 的线性回归估计,倘若 已知,有:
1????
iy ?iy Y
XY
1?? 1?
即为比估计量。可见回归估计包含简单估计和比估计。
1?? ()iiy y x x?? ? ?
(5.27)
()lry y X x?? ? ? (5.28)
lr lry N y??
(5.29)
( 1) 为设定常数的情形?
这种情况在实际应用中是存在的。比如为同一目的进行
的调查已重复进行多次,将以前数据中 关于 计算而得的
回归系数(倘若前几次该系数比较稳定在某一数值的话)直
接作为最新调查的 设定值。
iY iX
?
首先研究这种简单回归估计值的期望。注意到 是 的
无偏估计,又是 的无偏估计,因此,有:
y Y
x X
( ) ( ) ( )lrE y E y E X x Y?? ? ? ?
(5.30)
即回归估计量是总体平均数的无偏估计。
的方差可计算为:
lry
2 2 21( ) ( 2 )
lr Y X Y X
fV ar y S S S
n ??
?? ? ?(5.32)
由 (5.30)以及 (5.32)可知,无论 是怎样的设定值,总
是 的无偏估计,估计的精度与 的设定值有关。
? lry
Y ?
?(5.32)式的右端实际上是 的二次三项式,又由于 前的系
数为 是个正数,因此,只要适当选取 就可使 达
到最小值,利用高等数学的知识,可得使 达到最小
值的 应为:
2?
2XS ? ()lrVar y
?
()lrVar y
其中 为 X 和 Y 的相关系数,此时最小方差为:?
22
min
1( ) ( 1 )
lr Y
fV a r y S
n??
???(5.34)
1
m in
2
1
( ) ( )
()
N
ii
i Y
N
X
i
i
Y Y X X
S
S
XX
?
? ?
?
??
??
?
?
?
(5.33)
( 2) 取样本回归系数的情形?
如果 需要估计而定,估计的原则总是使 达到最小? ()
lrVar y
根据 (5.33)式的启发,自然取:
1
2
1
( ) ( )
()
n
ii
i
l n
i
i
y y x x
xx
? ?
?
??
?
?
?
?
(5.35)
这实际上就是样本回归系数。利用 得到的回归,由于
是比值型随机变量,与比估计一样的理由,不可能是总
体平均数的无偏估计。但当 n 相当大时,有下列近似结果:
l? l?
lry
1( ) ( )
lrE y Y O n??
(5.36)
22
32
11( ) ( 1 ) ( )
lr Y
fV a r y S O
nn ?
?? ? ?(5.37)
因此,对简单随机抽样,当样本容量 n 相当大时,回归
估计 (不管 是否设定)的方差均近似地看作:
lry ?
221( ) ( 1 )
lr Y
fV a r y S
n ?
???
与简单随机抽样时 的简单估计 的方差相比,只要,
则回归估计一定优于简单估计。
Y y 0??
至于 的情况,则表示 X与 Y没有任何线性关系,那么
用 X,Y的线性回归来估计 就相当于单纯依赖 去估计
0??
Y Yiy
回归估计与简单随机抽样时的比估计相比孰优孰劣呢?
当 n 相当大时,比估计的方差为:
2 2 21( ) ( 2 )
R Y X Y X
fV ar y S R S R S S
n ?
?? ? ?
欲使回归估计优于比估计,当且仅当:
2 2 2 2 2Y X X YS R S R S S??? ? ?
即 2( ) 0
YXS R S? ??
或 2
m i n( ) 0R? ??
(5.38)
这是一个当然的不等式。一般情况总是回归估计优于比估计
除非,此时这两种估计量效果几乎一样。
m in R? ?
回归估计量的上述性质都是在样本容量 n 相当大时才成
立,当 n 偏小时容易产生较大偏倚,(5.36)式中关于 1/n的同
阶无穷小这一项就蕴涵了这种可能性。
当 n 相当大时,或 如何估计呢?()
lrM SE y ()lrVar y
由于这两个参数的主要部分都是,因此,要
给出估计,只要将 S 换为 s,X,Y 换为 x,y,N 换为 n即可
221 ( 1 )
Y
f S
n ?
? ?
22(1 )YS ?? 形式上的估计可以写成
2
2 1
1 22
11
( ) ( )
1
( ) 1
1
( ) ( )
n
iin
i
i
nn
i
ii
ii
x x y y
yy
n
x x y y
?
?
??
????
???? ??
?? ??
???
??
??
??
????
?
?
??
2
12
221
11
( ) ( )
( ) 1
( ) ( )
n
iin
i
i nn
i
ii
ii
x x y y
yy
x x y y
?
?
??
????
??????
??
?? ??
?? ??
??
?
?
??
实质上是残差平方和,其自由度为 (n- 2),因此得到
或 的估计为:()
lrVar y
()lrM SE y
2
12
21
1
( ) ( )
1
( ) ( )
( 2 )
()
n
iin
i
lr i n
i
i
i
x x y y
f
v y y y
nn
xx
?
?
?
?? ??
???? ??
? ??
? ? ???
? ??
?
??
?
?
?
(5.39) 2
2
2
1 ( 1 ) ( )
( 2 )
yx
y
x
sf
ns
n n s
?? ? ?
?
1
2
2
1
( ) ( )
()
n
ii
yx i
ln
x
i
i
x x y y
s
s
xx
??
?
??
??
?
?
?
为样本回归系数
21( ) ( 1 ) ( )
( 2 )l r y l y x
fv y n s s
nn ?
?? ? ?
?
故
例 5.3 (续例 5.1)使用回归估计继续讨论某县小麦亩产与总产
量问题。
样本回归系数
2
3 2 1 3, 1 1 0 0, 3 3 8 3
9 4 9 8, 5 0 5
yx
l
x
s
s? ? ? ?
小麦产量的估计为, ()
lr ly y X x?? ? ?
1 3 0, 6 2 5 0, 3 3 8 3 ( 3 7 9, 7 8 4 7 3 6 4, 6 2 5 )? ? ? ?
1 3 5, 7 5 3 5 ( )? 吨
小麦总产量的估计为,
9 7 6 1 3 5, 7 5 3 5 7 8 1 9 4 ( )l r l ry N y? ? ? ? ? 吨
2 2 21( ) ( ) ( 1 ) ( )
( 2 )l r l r y l y x
fv y N v y N n s s
nn ?
?? ? ? ?
?
349023?
显见,回归估计比起比估计精度略高一点,但相差不大,它
们比简单估计则要精确的多!
2、分层随机抽样情况
与比估计情形一样,在分层随机抽样中考虑两种形式的
回归估计:分别回归估计与联合回归估计。
( 1)分别回归估计
所谓分别回归估计,就是先在各层中对该层的平均数或
总和进行回归估计,然后再按层权平均或相加。
设第 h 层的样本平均数回归估计为,那么分别回归估计为
lrhy
其中 分别为第 h 层的样本均值、回归参数。
h h hyx ?、,
1
[ ( ) ]
k
l r s l r s h h h h h
h
y N y N W y X x?
?
? ? ? ? ? ??
1
[ ( ) ]
k
h h h h h
h
N y X x?
?
? ? ??
(5.41)
11
[ ( ) ]
kk
l r s h l r h h h h h h
hh
y W y W y X x?
??
? ? ? ???
(5.40)
当各层的 为预先设定时,那么这两个估计量都是无偏估
计量。又由于各层抽样都是相互独立的,由 (5.31)式立即可
得:
h?
2 2 2 2
1
1( ) ( 2 )n h
l r s h Y h h X h h Y X h
h h
fV a r y W S S S
n
??
?
?? ? ?? (5.42)
并且当 时,达到最小值:2 ( 1,2,,)
h Y X h X hS S h k? ??
2 2 2
1
1 ( 1 )n h
h Y h h
h h
fWS
n ??
????
2( ( 1,2,,) )lr s h Y Xh XhV a r y S S h k? ??
(5.43)
1
2
1
( ) ( )
()
h
h
n
hi h hi h
i
lh n
hi h
i
y y x x
xx
? ?
?
??
?
?
?
?
(5.44)
2 2 2
1
1( ) ( 1 )k h
lr s h Y h h
h h
fV a r y W S
n ??
???? (5.45)
2 2 2
1
1( ) ( 1 ) ( 1 )
( 2)
k
h
l r s h h y h h
h hh
fv y W n s r
nn?
?? ? ?
??
(5.46)
若以 表示第 h 层的相关系数,那么 的估计为:
hr ()lrsVar y
当各层的 都比较大时:
hn
如果 需要利用样本来估计,还是采用最小二乘估计:
h?
( 2)联合回归估计
然后构造 与 的联合回归估计:Y Y
联合回归估计是先对 与 作分层估计:Y X
1
k
st h h
h
y W y
?
? ?
1
k
st h h
h
x W x
?
? ?
同样当 事先给定时,它们是无偏估计,方差为:?
2 2 2 2
1
1( ) ( 2 )n h
l r c h Y h X h Y X h
h h
fV a r y W S S S
n
??
?
?? ? ?? (5.49)
()lr c s t s ty y X x?? ? ?
(5.47)
()lr c lr c s t s ty N y y X x?? ? ? ? ?(5.48)
它在 取如下值时达到极小值?
2
1
m in
22 11
1
( 1 )
( 1 )
k
h h Y Xh h kk
h
h h hk
hh
h h Xh h
h
W f S n
a B a
W f S n
? ?
??
?
?
??
?
?
??
?
(5.50)
其中 2 2( 1 )
hh
h X h
h
WfaS
n
??
2
Y X h
h
Xh
SB
S?
(5.51)
2 2 2
m i n m i n m i n
11
( 2 ) ( ) 0
kk
h h h h h h h
hh
a B a B a a B? ? ?
??
? ? ? ? ???
(5.52)
这里的 恰好就是分别回归估计中的,它使分别回归
(平均数)估计的方差达到最小。为比较分别回归估计与
联合回归估计之间的优劣,将 代入 (5.49)式,再减去
(5.43)式右边,得到差为:
hB h?
min?
直观上这是因为“分别”方法比起“联合”方法更多地关心
到各层的指标与特征,只要分层有意义,也就是说所划分的
层各具有自己鲜明的特色,那么“分别”对各层过多的关注将
当然地得到精度上的回报。以回归估计来说,如果各层的回
归系数相差很大,那么分别回归估计的效果将更加显著。
(5.52)式表明,若在分别回归估计中设定最优,又在联合
回归估计中设定最优,那么除非一切最优 均等于
分别回归估计总是优于联合回归估计的。我们又一次谈到对
于分层抽样来讲,“分别估计”总是优于“联合估计”。不管是
比估计还是回归估计都是如此。
h?
h?min? min?
?当 必须根据样本来进行估计时,我们当然地取 的
样本来估计:
min?
2
11
2
2
11
( 1 )
( ) ( )
( 1 )
( 1 )
()
( 1 )
h
h
nk
hh
h i h h i h
hi hh
lc nk
hh
h i h
hi hh
Wf
y y x x
nn
Wf
xx
nn
?
??
??
?
??
?
?
?
?
?
??
??
(5.53)
如果样本量按比例分配,又用 代替 (5.53)式中的,则
hn 1hn ?
11
2
11
( ) ( )
()
h
h
nk
h i h h i h
hi
lc nk
h i h
hi
y y x x
xx
? ??
??
??
? ?
?
??
??
(5.54)
2 2 2 2
m i n m i n
1
1( ) ( 2 )n h
l r c h Y h X h Y X h
h h
fV a r y W S S S
n ???
?? ? ?? (5.55)
lrcy
的方差可以近似计算为:
它可用下式进行估计:
2 2 2 2
1
1( ) ( 2 )n h
l r c h y h l c x h l c y x h
h h
fv y W s s s
n ???
?? ? ?? (5.56)
以上讨论都是建立在 X,Y之间有较强烈回归关系的基
础之上,倘若在各层内回归规律性不是很强,则除非 均
相当大,否则也许还是采用联合估计比较稳妥一些。
hn
若各层的抽样容量 不太大,的变化也不大(各层
特色不明显),则为了避免由 过小而引起的偏倚,此时宜
用联合回归估计。若 的变化比较大,各 也比较大,由以
上分析自然采用分别回归估计效果会更好一些。
hn
hn
hn
h?
h?
本章习题解答
5- 1
如果变量 X与 Y负相关,即相关系数 为负数,此时必有?
11 0
22
XX
YY
C S X
C S Y? ? ? ?
不满足 的条件( ) ( )
RV a r y V a r y?
11
2 2 2
X X X
Y Y Y
R S S X C
S S Y C? ? ? ?
而采用乘积估计,当 n 充分大时,满足:
11
22
XX
YY
S X C
S Y C? ? ? ? ?
成立 ( ) ( )
RV a r y V a r y?
5- 2
( ) ( ( ) ) ( ) ( )dE y E y X x E y E X x? ? ? ? ? ?
( ),( )E y Y E x X??而
( ) ( ) ( )dE y E y X E x Y? ? ? ? ?
由教材 P98页 (5.31)式可知,内容为
{ ( ) 1,2,,}iiY X X i N? ? ?
盒子的方差可计算为:
2 2 2
1
1 [ ( ) ] 2
1
N
i i Y X Y X
i
Y X X Y S S SN
?
? ? ? ? ? ?? ?
可得
221( ) ( 2 )
d Y X X Y
fV a r y S S S
n
?? ? ?
5- 3 N=200,n=10 11600X ? 公 斤
0, 0 5nf N??
1 ( 6 1 4 2 5 0 5 8 6 7 4 5 3 9 5 5 5 2 7 0 ) 5 3,9
10y ? ? ? ? ? ? ? ? ? ? ?
1 ( 5 9 4 7 5 2 6 0 6 7 4 5 4 2 5 8 5 6 7 5 ) 5 6,1
10x ? ? ? ? ? ? ? ? ? ? ?
2 2 2 2 2 21 [ ( 6 1 5 3,9 ) ( 4 2 5 3,9 ) ( 5 0 5 3,9 ) ( 5 8 5 3,9 ) ( 6 7 5 3,9 )
9ys ? ? ? ? ? ? ? ? ? ?
2 2 2 2 2(4 5 5 3, 9 ) ( 3 9 5 3, 9 ) (5 5 5 3, 9 ) (5 2 5 3, 9 ) (7 0 5 3, 9 ) ]? ? ? ? ? ? ? ? ? ?
1 0 6,7 6 6 7?
2 2 2 2 2 21 [ ( 5 9 5 6,1 ) ( 4 7 5 6,1 ) ( 5 2 5 6,1 ) ( 6 0 5 6,1 ) ( 6 7 5 6,1 )
9xs ? ? ? ? ? ? ? ? ? ?
22222(4 5 5 6, 1 ) (4 2 5 6, 1 ) (5 8 5 6, 1 ) (5 6 5 6, 1 ) (7 5 5 6, 1 ) ]? ? ? ? ? ? ? ? ? ?
1 0 2,7 6 6 7?
1 [ ( 6 1 5 3, 9 ) ( 5 7 5 6, 1 ) ( 4 2 5 3, 9 ) ( 4 7 5 6, 1 ) ( 5 0 5 3, 9 ) ( 5 2 5 6, 1 )
9
( 5 8 5 3, 9 ) ( 6 0 5 6, 1 ) ( 6 7 5 3, 9 ) ( 6 7 5 6, 1 ) ( 4 5 5 9, 9 ) ( 4 5 5 6, 1 )
yxs ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ?
1 0 2,1 2 2 2?
( 3 9 5 3, 9) ( 4 2 5 6, 1 ) ( 5 5 5 3, 9) ( 5 8 5 6, 1 ) ( 5 2 5 3, 9) ( 5 6 5 6, 1 )
( 7 0 5 3, 9) ( 7 5 5 6, 1 ) ]
? ? ? ? ? ? ? ? ?
? ? ?
5 3, 9 5 6, 1 2, 2d y x? ? ? ? ? ?
Y 的估计为 ()
ddy N y N X d X N d? ? ? ? ? ? ?
= 11600公斤
2 2 2 21( ) ( ) ( 2 )
d d y x y x
fV a r y N V a r y N s s s
n
?? ? ? ? ?
40816.2559?
5- 4 回归估计
回归系数
2
1 0 2, 1 2 2 2 0, 9 9 3 7
1 0 2, 7 6 6 7
yx
l
x
s
s? ? ? ?
[ ( ) ]lr lr ly N y N y X x?? ? ? ? ?
()lN y X N x?? ? ? ? ?
2 0 0 5 3, 9 0, 9 9 3 7 ( 1 1 6 0 0 2 0 0 5 6, 1 ) 1 1 1 5 7, 6 1 7 4? ? ? ? ? ? ?
221( ) ( 1 ) ( )
( 2 )l r y l y x
fv y N n s s
nn ?
?? ? ?
?
2 1 0, 0 52 0 0 ( 1 0 1 ) ( 1 0 6, 7 6 6 7 0, 9 9 3 7 1 0 2, 1 2 2 2 )
1 0 ( 1 0 2 )
?? ? ? ?
?
22592.5465?
比估计:
? 0.96078yR
x??
? 0, 9 6 0 7 8 1 1 6 0 0 1 1 1 4 5, 0 4 8Ry R X? ? ? ? ?
2
2 2 2( 1 ) ? ?( ) ( 2 )
R y x y x
NfV a r y s R s R s
n
?? ? ? ?
2
22 0 0 ( 1 0, 0 5 ) ( 1 0 6, 7 6 6 7 0, 9 6 0 7 8 1 0 2, 7 6 6 7
10
2 0, 9 6 0 7 8 1 0 2, 1 2 2 2 )
?
? ? ?
? ? ?
20506.7837?
5- 5
21 ()Ru v y???
Ry
(, )
21 ()Ru v y???
Ry
Y 的置信区间为
21 ()Ru v y???
Ry(, )
21 ()Ru v y???
Ry
Y 的置信区间为
其中 ?
Ry R X?? ?Ry R X??
2 2 21( ) ( 2 )
R Y X X Y
fV ar y S R S RS
n
?? ? ?
2
2 2 2( 1 )( ) ( 2 )
R Y X X Y
NfV a r y S R S R S
n
?? ? ?