§ 2.4 一元线性回归分析的应用:预
测问题
一,?0是条件均值 E(Y|X=X0)或个值 Y0的一
个无偏估计
二、总体条件均值与个值预测值的置信区
间
对于一元线性回归模型
ii XY 10 ??? ?? ??
给定样本以外的解释变量的观测值 X0,可以得到
被解释变量的预测值 ?0,可以此作为其 条件均
值 E(Y|X=X0)或 个别值 Y0的一个近似估计。
注意:
严格地说,这只是被解释变量的预测值的
估计值,而不是预测值。
原因,( 1)参数估计量不确定;
( 2)随机项的影响
一,?0是条件均值 E(Y|X=X0)或个值 Y0
的一个无偏估计
对 总体回归函数 E(Y|X=X0)=?0+?1X,X=X0时
E(Y|X=X0)=?0+?1X0
0100 ??? XY ?? ??
于是 0101000100 )?()?()??()?( XEXEXEYE ?????? ??????
可见,?0是条件均值 E(Y|X=X0)的无偏估计。
对 总体回归模型 Y=?0+?1X+?,当 X=X0时
??? ??? 0100 XY于是
0100100100 )()()( XEXXEYE ???????? ????????
0101000100 )?()?()??()?( XEXEXEYE ?????? ??????
二、总体条件均值与个值预测值的置信
区间
1、总体均值预测值的置信区间
由于
0100 ??? XY ?? ??
),(~? 2211 ?
ix
N ??? ),(~? 22200 ??? ??
i
i
xn
XN
于是
0101000 )?()?()?( XEXEYE ???? ????
)?()?,?(2)?()?( 12010000 ???? V a rXC o vXV a rYV a r ???
可以证明 ???
2210 /)?,?( ixXC o v ???
因此
???? ??? 2
22
0
2
2
0
2
22
0
2)?(
iii
i
x
X
x
XX
xn
XYV a r ???
???
?
???
? ????? ?
? 2002
22
2
2
2 XXXXn XnXx i
i
?
))(( 20
2
2
2
XXn xx i
i
??? ??? ))(1( 2
2
02 ????
ix
XX
n?
故
)))(1(,(~? 2 2020100 ? ???
ix
XX
nXNY ???
)2(~)(?
0?
0100 ???? nt
S
XYt
Y
?? ))(1(? 2 202?
0 ?
???
i
Y x
XX
nS ?
其中
于是,在 1-?的置信度下,总体均值 E(Y|X0)的置信区间为
0202 ?00?0
?)|(? YY StYXYEStY ?????? ??
2、总体个值预测值的预测区间
由 Y0=?0+?1X0+? 知,
),(~ 20100 ??? XNY ?
于是 )))(11(,0(~?
2
2
02
00 ?
????
ix
XX
nNYY ?
)2(~?
00?
00 ???
?
ntS YYt
YY
式中,
))(11(? 2
2
02?
00 ?
????
?
i
YY x
XX
nS ?
从而在 1-?的置信度下,Y0的置信区间 为
00202 ?000?0
?? YYYY StYYStY ?? ?????? ??
在上述 收入 -消费支出 例中,得到的样本回归函数为
ii XY 7 7 7.01 7 2.1 0 3? ???
则在 X0=1000处,?0 = –103.172+0.777× 1000=673.84
29.37277425000 )21501000(10113402)?( 20 ??????? ???YV a r
而
05.61)?( 0 ?YS
因此,总体均值 E(Y|X=1000)的 95%的置信区间为:
673.84-2.306?61.05< E(Y|X=1000) <673.84+2.306?61.05
或 ( 533.05,814.62)
同样地,对于 Y在 X=1000的 个体值,其 95%的置信区间为:
673.84 - 2.306?61.05<Yx=1000 <673.84 + 2.306?61.05
或 (372.03,975.65)
? 总体回归函数的 置信带(域) ( confidence band)
? 个体的 置信带(域)
对于 Y的总体均值 E(Y|X)与个体值的预测区
间 ( 置信区间 ),
( 1) 样本容量 n越大, 预测精度越高, 反之
预测精度越低;
( 2) 样本容量一定时, 置信带的宽度当在 X
均值处最小, 其附近进行预测 ( 插值预测 )
精度越大; X越远离其均值, 置信带越宽,
预测可信度下降 。
测问题
一,?0是条件均值 E(Y|X=X0)或个值 Y0的一
个无偏估计
二、总体条件均值与个值预测值的置信区
间
对于一元线性回归模型
ii XY 10 ??? ?? ??
给定样本以外的解释变量的观测值 X0,可以得到
被解释变量的预测值 ?0,可以此作为其 条件均
值 E(Y|X=X0)或 个别值 Y0的一个近似估计。
注意:
严格地说,这只是被解释变量的预测值的
估计值,而不是预测值。
原因,( 1)参数估计量不确定;
( 2)随机项的影响
一,?0是条件均值 E(Y|X=X0)或个值 Y0
的一个无偏估计
对 总体回归函数 E(Y|X=X0)=?0+?1X,X=X0时
E(Y|X=X0)=?0+?1X0
0100 ??? XY ?? ??
于是 0101000100 )?()?()??()?( XEXEXEYE ?????? ??????
可见,?0是条件均值 E(Y|X=X0)的无偏估计。
对 总体回归模型 Y=?0+?1X+?,当 X=X0时
??? ??? 0100 XY于是
0100100100 )()()( XEXXEYE ???????? ????????
0101000100 )?()?()??()?( XEXEXEYE ?????? ??????
二、总体条件均值与个值预测值的置信
区间
1、总体均值预测值的置信区间
由于
0100 ??? XY ?? ??
),(~? 2211 ?
ix
N ??? ),(~? 22200 ??? ??
i
i
xn
XN
于是
0101000 )?()?()?( XEXEYE ???? ????
)?()?,?(2)?()?( 12010000 ???? V a rXC o vXV a rYV a r ???
可以证明 ???
2210 /)?,?( ixXC o v ???
因此
???? ??? 2
22
0
2
2
0
2
22
0
2)?(
iii
i
x
X
x
XX
xn
XYV a r ???
???
?
???
? ????? ?
? 2002
22
2
2
2 XXXXn XnXx i
i
?
))(( 20
2
2
2
XXn xx i
i
??? ??? ))(1( 2
2
02 ????
ix
XX
n?
故
)))(1(,(~? 2 2020100 ? ???
ix
XX
nXNY ???
)2(~)(?
0?
0100 ???? nt
S
XYt
Y
?? ))(1(? 2 202?
0 ?
???
i
Y x
XX
nS ?
其中
于是,在 1-?的置信度下,总体均值 E(Y|X0)的置信区间为
0202 ?00?0
?)|(? YY StYXYEStY ?????? ??
2、总体个值预测值的预测区间
由 Y0=?0+?1X0+? 知,
),(~ 20100 ??? XNY ?
于是 )))(11(,0(~?
2
2
02
00 ?
????
ix
XX
nNYY ?
)2(~?
00?
00 ???
?
ntS YYt
YY
式中,
))(11(? 2
2
02?
00 ?
????
?
i
YY x
XX
nS ?
从而在 1-?的置信度下,Y0的置信区间 为
00202 ?000?0
?? YYYY StYYStY ?? ?????? ??
在上述 收入 -消费支出 例中,得到的样本回归函数为
ii XY 7 7 7.01 7 2.1 0 3? ???
则在 X0=1000处,?0 = –103.172+0.777× 1000=673.84
29.37277425000 )21501000(10113402)?( 20 ??????? ???YV a r
而
05.61)?( 0 ?YS
因此,总体均值 E(Y|X=1000)的 95%的置信区间为:
673.84-2.306?61.05< E(Y|X=1000) <673.84+2.306?61.05
或 ( 533.05,814.62)
同样地,对于 Y在 X=1000的 个体值,其 95%的置信区间为:
673.84 - 2.306?61.05<Yx=1000 <673.84 + 2.306?61.05
或 (372.03,975.65)
? 总体回归函数的 置信带(域) ( confidence band)
? 个体的 置信带(域)
对于 Y的总体均值 E(Y|X)与个体值的预测区
间 ( 置信区间 ),
( 1) 样本容量 n越大, 预测精度越高, 反之
预测精度越低;
( 2) 样本容量一定时, 置信带的宽度当在 X
均值处最小, 其附近进行预测 ( 插值预测 )
精度越大; X越远离其均值, 置信带越宽,
预测可信度下降 。