§ 3.3 多元线性回归模型的统计检验一、拟合优度检验二、方程的显著性检验 (F检验 )
三、变量的显著性检验( t检验)
四、参数的置信区间一、拟合优度检验
1、可决系数与调整的可决系数则
22
2
2
)?()?)(?(2)?(
))?()?((
)(
YYYYYYYY
YYYY
YYT S S
iiiiii
iii
i
总离差平方和的分解由于 )?()?)(?( YYeYYYY
iiii
ikiikiii eYXeXee 110?
=0
所以有:
E SSR SSYYYYT SS iii 22 )?()?(
注意,一个有趣的现象
222
222
YYYYYY
YYYYYY
YYYYYY
iiii
iiii
iiii
可决系数
T S S
R S S
T S S
E S SR 12
该统计量越接近于 1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大( Why?)
这就给人 一个错觉,要使得模型拟合得好,只要增加解释变量即可 。
但是,现实情况往往是,由增加解释变量个数引起的 R2的增大与拟合好坏无关,R2需调整 。
调整的可决系数 ( adjusted coefficient of
determination)
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以 调整的思路是,将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响,
)1/(
)1/(12
nT S S
knR S SR
其中,n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
1
1)1(1 22
kn
nRR
*2、赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有,
赤池信息准则 ( Akaike information criterion,AIC)
n
k
nA I C
)1(2ln ee
施瓦茨准则 ( Schwarz criterion,SC)
nnknAC lnln ee
这两准则均要求 仅当所增加的解释变量能够减少
AIC值或 AC值时才在原模型中增加该解释变量 。
Eviews的估计结果显示:
中国居民消费一元例中:
AIC=6.68 AC=6.83
中国居民消费二元例中:
AIC=7.09 AC=7.19
从这点看,可以说前期人均居民消费 CONSP(-1)应包括在模型中。
二、方程的显著性检验 (F检验 )
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系 在总体上 是否显著成立作出推断。
1、方程显著性的 F检验即检验模型
Yi=?0+?1X1i+?2X2i+? +?kXki+?i i=1,2,?,n
中的参数?j是否显著不为 0。
可提出如下原假设与备择假设:
H0,?0=?1=?2=? =?k=0
H1,?j不全为 0
F检验的思想 来自于总离差平方和的分解式:
TSS=ESS+RSS
由于回归平方和
2?
iyE S S 是解释变量 X 的联合体对被解释变量 Y 的线性作用的结果,考虑比值
22?
/ ii eyR SSE SS
如果这个比值较大,则 X的联合体对 Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进行推断 。
根据数理统计学中的知识,在原假设 H0成立的条件下,统计量
)1/(
/
knR S S
kE S SF
服从自由度为 (k,n-k-1)的 F分布给定显著性水平?,可得到临界值 F?(k,n-k-1),
由样本求出统计量 F的数值,通过
F? F?(k,n-k-1) 或 F?F?(k,n-k-1)
来拒绝或接受原假设 H0,以判定原方程 总体上 的线性关系是否显著成立。
对于中国居民人均消费支出的例子:
一元模型,F=285.92
二元模型,F=2057.3
给定显著性水平? =0.05,查分布表,得到临界值:
一元例,F?(1,21)=4.32
二元例,F?(2,19)=3.52
显然有 F? F?(k,n-k-1)
即二个模型的线性关系在 95%的水平下显著成立。
2,关于拟合优度检验与方程显著性检验关系的讨论由
)1/(
)1/(12
nT S S
knR S SR )1/( / knR S S kE S SF
可推出:
kFkn
nR
1
112
与或
)1/()1(
/
2
2
knR
kRF
在 中国居民人均收入 -消费 一元模型 中,
在 中国居民人均收入 -消费 二元模型 中,
三、变量的显著性检验( t检验)
方程的 总体线性 关系显著?每个解释变量 对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,
以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的 t 检验完成的 。
1,t统计量由于
12 )()?( XXβ?C o v
以 cii表示矩阵 (X’X)-1 主对角线上的第 i个元素,
于是参数估计量的方差为:
iii cV a r 2)?(
其中?2为随机误差项的方差,在实际计算时,用它的估计量代替,
11?
2
2
knkn
e i ee?
),(~? 2 iiii cN
因此,可构造如下 t统计量
)1(~
1
knt
kn
c
S
t
ii
iiii
i
ee
2,t检验设计原假设与备择假设:
H1,?i?0
给定显著性水平?,可得到临界值 t?/2(n-k-1),
由样本求出统计量 t的数值,通过
|t|? t?/2(n-k-1) 或 |t|?t?/2(n-k-1)
来拒绝或接受原假设 H0,从而 判定对应的解释变量是否应包括在模型中。
H0,?i=0 ( i=1,2…k )
注意,一元线性回归中,t检验与 F检验一致一方面,t检验与 F检验都是对相同的原假设
H0,?1=0 进行 检验 ;
另一方面,两个统计量之间有如下关系:
2
2
2
2
1
2
22
1
22
2
1
2
22
1
2
2
1
2
)2(
)2(
)2(
)2(
t
xn
e
xne
xnene
x
ne
y
F
i
i
ii
iii
i
i
i
在 中国居民人均收入 -消费支出 二元模型 例中,
由应用软件计算出参数的 t值:
6 5 1.26 3 0.33 0 6.3 210 ttt
给定显著性水平?=0.05,查得相应临界值:
t0.025(19)=2.093。
可见,计算的所有 t值都大于该临界值,所以拒绝原假设 。 即,
包括常数项在内的 3个解释变量都在 95%的水平下显著,都通过了变量显著性检验 。
四、参数的置信区间参数的 置信区间 用来考察,在一次抽样中所估计的参数值离参数的真实值有多,近,。
在变量的显著性检验中已经知道:
)1(~
1
knt
kn
c
S
t
ii
iiii
i
ee
容易推出,在 (1-?)的置信水平下?i的置信区间是
(?,? )i it s t s
i i
2 2
其中,t?/2为显著性水平为?,自由度为 n-k-1的临界值。
在 中国居民人均收入 -消费支出 二元模型 例中,
给定?=0.05,查表得临界值,t0.025(19)=2.093
计算得参数的置信区间:
0,(44.284,197.116)
1,(0.0937,0.3489 )
2,(0.0951,0.8080)
1 7 0.04 5 1 5.0?
0 6 1.02 2 1 3.0?
51.3670.1 2 0?
2
1
0
2
1
0
s
s
s
从回归计算中已得到:
如何才能缩小置信区间?
增大样本容量 n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;
提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。
提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的 |X’X|的值越大,致使区间缩小。
三、变量的显著性检验( t检验)
四、参数的置信区间一、拟合优度检验
1、可决系数与调整的可决系数则
22
2
2
)?()?)(?(2)?(
))?()?((
)(
YYYYYYYY
YYYY
YYT S S
iiiiii
iii
i
总离差平方和的分解由于 )?()?)(?( YYeYYYY
iiii
ikiikiii eYXeXee 110?
=0
所以有:
E SSR SSYYYYT SS iii 22 )?()?(
注意,一个有趣的现象
222
222
YYYYYY
YYYYYY
YYYYYY
iiii
iiii
iiii
可决系数
T S S
R S S
T S S
E S SR 12
该统计量越接近于 1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大( Why?)
这就给人 一个错觉,要使得模型拟合得好,只要增加解释变量即可 。
但是,现实情况往往是,由增加解释变量个数引起的 R2的增大与拟合好坏无关,R2需调整 。
调整的可决系数 ( adjusted coefficient of
determination)
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以 调整的思路是,将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响,
)1/(
)1/(12
nT S S
knR S SR
其中,n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
1
1)1(1 22
kn
nRR
*2、赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有,
赤池信息准则 ( Akaike information criterion,AIC)
n
k
nA I C
)1(2ln ee
施瓦茨准则 ( Schwarz criterion,SC)
nnknAC lnln ee
这两准则均要求 仅当所增加的解释变量能够减少
AIC值或 AC值时才在原模型中增加该解释变量 。
Eviews的估计结果显示:
中国居民消费一元例中:
AIC=6.68 AC=6.83
中国居民消费二元例中:
AIC=7.09 AC=7.19
从这点看,可以说前期人均居民消费 CONSP(-1)应包括在模型中。
二、方程的显著性检验 (F检验 )
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系 在总体上 是否显著成立作出推断。
1、方程显著性的 F检验即检验模型
Yi=?0+?1X1i+?2X2i+? +?kXki+?i i=1,2,?,n
中的参数?j是否显著不为 0。
可提出如下原假设与备择假设:
H0,?0=?1=?2=? =?k=0
H1,?j不全为 0
F检验的思想 来自于总离差平方和的分解式:
TSS=ESS+RSS
由于回归平方和
2?
iyE S S 是解释变量 X 的联合体对被解释变量 Y 的线性作用的结果,考虑比值
22?
/ ii eyR SSE SS
如果这个比值较大,则 X的联合体对 Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进行推断 。
根据数理统计学中的知识,在原假设 H0成立的条件下,统计量
)1/(
/
knR S S
kE S SF
服从自由度为 (k,n-k-1)的 F分布给定显著性水平?,可得到临界值 F?(k,n-k-1),
由样本求出统计量 F的数值,通过
F? F?(k,n-k-1) 或 F?F?(k,n-k-1)
来拒绝或接受原假设 H0,以判定原方程 总体上 的线性关系是否显著成立。
对于中国居民人均消费支出的例子:
一元模型,F=285.92
二元模型,F=2057.3
给定显著性水平? =0.05,查分布表,得到临界值:
一元例,F?(1,21)=4.32
二元例,F?(2,19)=3.52
显然有 F? F?(k,n-k-1)
即二个模型的线性关系在 95%的水平下显著成立。
2,关于拟合优度检验与方程显著性检验关系的讨论由
)1/(
)1/(12
nT S S
knR S SR )1/( / knR S S kE S SF
可推出:
kFkn
nR
1
112
与或
)1/()1(
/
2
2
knR
kRF
在 中国居民人均收入 -消费 一元模型 中,
在 中国居民人均收入 -消费 二元模型 中,
三、变量的显著性检验( t检验)
方程的 总体线性 关系显著?每个解释变量 对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,
以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的 t 检验完成的 。
1,t统计量由于
12 )()?( XXβ?C o v
以 cii表示矩阵 (X’X)-1 主对角线上的第 i个元素,
于是参数估计量的方差为:
iii cV a r 2)?(
其中?2为随机误差项的方差,在实际计算时,用它的估计量代替,
11?
2
2
knkn
e i ee?
),(~? 2 iiii cN
因此,可构造如下 t统计量
)1(~
1
knt
kn
c
S
t
ii
iiii
i
ee
2,t检验设计原假设与备择假设:
H1,?i?0
给定显著性水平?,可得到临界值 t?/2(n-k-1),
由样本求出统计量 t的数值,通过
|t|? t?/2(n-k-1) 或 |t|?t?/2(n-k-1)
来拒绝或接受原假设 H0,从而 判定对应的解释变量是否应包括在模型中。
H0,?i=0 ( i=1,2…k )
注意,一元线性回归中,t检验与 F检验一致一方面,t检验与 F检验都是对相同的原假设
H0,?1=0 进行 检验 ;
另一方面,两个统计量之间有如下关系:
2
2
2
2
1
2
22
1
22
2
1
2
22
1
2
2
1
2
)2(
)2(
)2(
)2(
t
xn
e
xne
xnene
x
ne
y
F
i
i
ii
iii
i
i
i
在 中国居民人均收入 -消费支出 二元模型 例中,
由应用软件计算出参数的 t值:
6 5 1.26 3 0.33 0 6.3 210 ttt
给定显著性水平?=0.05,查得相应临界值:
t0.025(19)=2.093。
可见,计算的所有 t值都大于该临界值,所以拒绝原假设 。 即,
包括常数项在内的 3个解释变量都在 95%的水平下显著,都通过了变量显著性检验 。
四、参数的置信区间参数的 置信区间 用来考察,在一次抽样中所估计的参数值离参数的真实值有多,近,。
在变量的显著性检验中已经知道:
)1(~
1
knt
kn
c
S
t
ii
iiii
i
ee
容易推出,在 (1-?)的置信水平下?i的置信区间是
(?,? )i it s t s
i i
2 2
其中,t?/2为显著性水平为?,自由度为 n-k-1的临界值。
在 中国居民人均收入 -消费支出 二元模型 例中,
给定?=0.05,查表得临界值,t0.025(19)=2.093
计算得参数的置信区间:
0,(44.284,197.116)
1,(0.0937,0.3489 )
2,(0.0951,0.8080)
1 7 0.04 5 1 5.0?
0 6 1.02 2 1 3.0?
51.3670.1 2 0?
2
1
0
2
1
0
s
s
s
从回归计算中已得到:
如何才能缩小置信区间?
增大样本容量 n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;
提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。
提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的 |X’X|的值越大,致使区间缩小。