§ 2.4 一元线性回归分析的应用:预测问题一,?0是条件均值 E(Y|X=X0)或个值 Y0的一个无偏估计二、总体条件均值与个值预测值的置信区间对于一元线性回归模型
ii XY 10
给定样本以外的解释变量的观测值 X0,可以得到被解释变量的预测值?0,可以此作为其 条件均值 E(Y|X=X0)或 个别值 Y0的一个近似估计。
注意:
严格地说,这只是被解释变量的预测值的估计值,而不是预测值。
原因,( 1)参数估计量不确定;
( 2)随机项的影响一,?0是条件均值 E(Y|X=X0)或个值 Y0
的一个无偏估计对 总体回归函数 E(Y|X=X0)=?0+?1X,X=X0时
E(Y|X=X0)=?0+?1X0
0100 XY
于是 0101000100 )?()?()()?( XEXEXEYE
可见,?0是条件均值 E(Y|X=X0)的无偏估计。
对 总体回归模型 Y=?0+?1X+?,当 X=X0时
0100 XY于是
0100100100 )()()( XEXXEYE
0101000100 )?()?()()?( XEXEXEYE
二、总体条件均值与个值预测值的置信区间
1、总体均值预测值的置信区间由于
0100 XY
),(~? 2211?
ix
N ),(~? 22
2
00
i
i
xn
XN
于是
0101000 )?()?()?( XEXEYE
)?()?,?(2)?()?( 12010000 Va rXC o vXVa rYVa r
可以证明
2210 /)?,?( ixXC ov
因此
2
22
0
2
2
0
2
22
0
2)?(
iii
i
x
X
x
XX
xn
XYV ar
2002
22
2
2
2 XXXXn XnXx i
i
))(( 20
2
2
2
XXn xx i
i
))(1( 2
2
02
ix
XX
n?
故
)))(1(,(~? 2 2020100
ix
XX
nXNY
)2(~)(?
0?
0100 nt
S
XYt
Y
))(1(? 2 202?
0?
i
Y x
XX
nS?
其中于是,在 1-?的置信度下,总体均值 E(Y|X0)的置信区间为
0202?00?0
)|(? YY StYXYEStY
2、总体个值预测值的预测区间由 Y0=?0+?1X0+? 知,
),(~ 20100 XNY?
于是 )))(11(,0(~?
2
2
02
00?
ix
XX
nNYY?
)2(~?
00?
00
ntS YYt
YY
式中,
))(11(? 2
2
02?
00?
i
YY x
XX
nS?
从而在 1-?的置信度下,Y0的置信区间 为
00202?000?0
YYYY StYYStY
在上述 收入 -消费支出 例中,得到的样本回归函数为
ii XY 7 7 7.01 7 2.1 0 3
则在 X0=1000处,?0 = –103.172+0.777× 1000=673.84
29.3 7 2 77 4 2 5 0 0 0 )2 1 5 01 0 0 0(1011 3 4 0 2)?( 20YV a r
而
05.61)?( 0?YS
因此,总体均值 E(Y|X=1000)的 95%的置信区间为:
673.84-2.306?61.05< E(Y|X=1000) <673.84+2.306?61.05
或 ( 533.05,814.62)
同样地,对于 Y在 X=1000的 个体值,其 95%的置信区间为:
673.84 - 2.306?61.05<Yx=1000 <673.84 + 2.306?61.05
或 (372.03,975.65)
总体回归函数的 置信带(域) ( confidence band)
个体的 置信带(域)
对于 Y的总体均值 E(Y|X)与个体值的预测区间 ( 置信区间 ),
( 1) 样本容量 n越大,预测精度越高,反之预测精度越低;
( 2) 样本容量一定时,置信带的宽度当在 X
均值处最小,其附近进行预测 ( 插值预测 )
精度越大; X越远离其均值,置信带越宽,
预测可信度下降 。
ii XY 10
给定样本以外的解释变量的观测值 X0,可以得到被解释变量的预测值?0,可以此作为其 条件均值 E(Y|X=X0)或 个别值 Y0的一个近似估计。
注意:
严格地说,这只是被解释变量的预测值的估计值,而不是预测值。
原因,( 1)参数估计量不确定;
( 2)随机项的影响一,?0是条件均值 E(Y|X=X0)或个值 Y0
的一个无偏估计对 总体回归函数 E(Y|X=X0)=?0+?1X,X=X0时
E(Y|X=X0)=?0+?1X0
0100 XY
于是 0101000100 )?()?()()?( XEXEXEYE
可见,?0是条件均值 E(Y|X=X0)的无偏估计。
对 总体回归模型 Y=?0+?1X+?,当 X=X0时
0100 XY于是
0100100100 )()()( XEXXEYE
0101000100 )?()?()()?( XEXEXEYE
二、总体条件均值与个值预测值的置信区间
1、总体均值预测值的置信区间由于
0100 XY
),(~? 2211?
ix
N ),(~? 22
2
00
i
i
xn
XN
于是
0101000 )?()?()?( XEXEYE
)?()?,?(2)?()?( 12010000 Va rXC o vXVa rYVa r
可以证明
2210 /)?,?( ixXC ov
因此
2
22
0
2
2
0
2
22
0
2)?(
iii
i
x
X
x
XX
xn
XYV ar
2002
22
2
2
2 XXXXn XnXx i
i
))(( 20
2
2
2
XXn xx i
i
))(1( 2
2
02
ix
XX
n?
故
)))(1(,(~? 2 2020100
ix
XX
nXNY
)2(~)(?
0?
0100 nt
S
XYt
Y
))(1(? 2 202?
0?
i
Y x
XX
nS?
其中于是,在 1-?的置信度下,总体均值 E(Y|X0)的置信区间为
0202?00?0
)|(? YY StYXYEStY
2、总体个值预测值的预测区间由 Y0=?0+?1X0+? 知,
),(~ 20100 XNY?
于是 )))(11(,0(~?
2
2
02
00?
ix
XX
nNYY?
)2(~?
00?
00
ntS YYt
YY
式中,
))(11(? 2
2
02?
00?
i
YY x
XX
nS?
从而在 1-?的置信度下,Y0的置信区间 为
00202?000?0
YYYY StYYStY
在上述 收入 -消费支出 例中,得到的样本回归函数为
ii XY 7 7 7.01 7 2.1 0 3
则在 X0=1000处,?0 = –103.172+0.777× 1000=673.84
29.3 7 2 77 4 2 5 0 0 0 )2 1 5 01 0 0 0(1011 3 4 0 2)?( 20YV a r
而
05.61)?( 0?YS
因此,总体均值 E(Y|X=1000)的 95%的置信区间为:
673.84-2.306?61.05< E(Y|X=1000) <673.84+2.306?61.05
或 ( 533.05,814.62)
同样地,对于 Y在 X=1000的 个体值,其 95%的置信区间为:
673.84 - 2.306?61.05<Yx=1000 <673.84 + 2.306?61.05
或 (372.03,975.65)
总体回归函数的 置信带(域) ( confidence band)
个体的 置信带(域)
对于 Y的总体均值 E(Y|X)与个体值的预测区间 ( 置信区间 ),
( 1) 样本容量 n越大,预测精度越高,反之预测精度越低;
( 2) 样本容量一定时,置信带的宽度当在 X
均值处最小,其附近进行预测 ( 插值预测 )
精度越大; X越远离其均值,置信带越宽,
预测可信度下降 。