§ 3.3 多元线性回归模型的统计检验
一、拟合优度检验
二、方程的显著性检验 (F检验 )
三、变量的显著性检验( t检验)
四、参数的置信区间
一、拟合优度检验
1、可决系数与调整的可决系数

22
2
2
)?()?)(?(2)?(
))?()?((
)(
YYYYYYYY
YYYY
YYT S S
iiiiii
iii
i
??????????
?????
???
总离差平方和的分解
由于 ?? ???? )?()?)(?( YYeYYYY
iiii
? ? ?? ????? ikiikiii eYXeXee ??? ??? 110 ?
=0
所以有:
E S SR S SYYYYT S S iii ?????? ? ? 22 )?()?(
注意,一个有趣的现象
? ? ? ? ? ?
? ? ? ? ? ?
? ? ? ? ? ?
222
222
??
??
??
YYYYYY
YYYYYY
YYYYYY
iiii
iiii
iiii
?????
?????
?????
???
可决系数
T S S
R S S
T S S
E S SR ??? 12
该统计量越接近于 1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解
释变量,R2往往增大( Why?)
这就给人 一个错觉, 要使得模型拟合得好,只
要增加解释变量即可 。
但是,现实情况往往是,由增加解释变量个数
引起的 R2的增大与拟合好坏无关, R2需调整 。
调整的可决系数 ( adjusted coefficient of
determination)
在样本容量一定的情况下,增加解释变量必定
使得自由度减少,所以 调整的思路是,将残差平方
和与总离差平方和分别除以各自的自由度,以剔
除变量个数对拟合优度的影响,
)1/(
)1/(12
?
????
nT S S
knR S SR
其中,n-k-1为残差平方和的自由度,n-1为总体平
方和的自由度。
1
1)1(1 22
??
????
kn
nRR
*2、赤池信息准则和施瓦茨准则
为了比较所含解释变量个数不同的多元回归模型
的拟合优度,常用的标准还有,
赤池信息准则 ( Akaike information criterion,AIC)
n
k
nA I C
)1(2ln ???? ee
施瓦茨准则 ( Schwarz criterion,SC)
nnknAC lnln ??? ee
这两准则均要求 仅当所增加的解释变量能够减少
AIC值或 AC值时才在原模型中增加该解释变量 。
Eviews的估计结果显示:
中国居民消费一元例中:
AIC=6.68 AC=6.83
中国居民消费二元例中:
AIC=7.09 AC=7.19
从这点看,可以说前期人均居民消费 CONSP(-1)应
包括在模型中。
二、方程的显著性检验 (F检验 )
方程的显著性检验,旨在对模型中被解释变
量与解释变量之间的线性关系 在总体上 是否显著
成立作出推断。
1、方程显著性的 F检验
即检验模型
Yi=?0+?1X1i+?2X2i+ ? +?kXki+?i i=1,2,?,n
中的参数 ?j是否显著不为 0。
可提出如下原假设与备择假设:
H0,?0=?1=?2= ? =?k=0
H1,?j不全为 0
F检验的思想 来自于总离差平方和的分解式:
TSS=ESS+RSS
由于回归平方和 ??
2?
iyE S S 是解释变量 X 的联合体对被解
释变量 Y 的线性作用的结果,考虑比值
???
22?
/ ii eyR S SE S S
如果这个比值较大,则 X的联合体对 Y的解释程度
高,可认为总体存在线性关系,反之总体上可能不存
在线性关系。
因此,可通过该比值的大小对总体线性关系进行推
断 。
根据数理统计学中的知识,在原假设 H0成立
的条件下,统计量
)1/(
/
??? knR S S
kE S SF
服从自由度为 (k,n-k-1)的 F分布
给定显著性水平 ?,可得到临界值 F?(k,n-k-1),
由样本求出统计量 F的数值,通过
F? F?(k,n-k-1) 或 F?F?(k,n-k-1)
来拒绝或接受原假设 H0,以判定原方程 总体上 的
线性关系是否显著成立。
对于中国居民人均消费支出的例子:
一元模型,F=285.92
二元模型,F=2057.3
给定显著性水平 ? =0.05,查分布表, 得到临界
值:
一元例,F?(1,21)=4.32
二元例, F?(2,19)=3.52
显然有 F? F?(k,n-k-1)
即二个模型的线性关系在 95%的水平下显著成立。
2,关于拟合优度检验与方程显著性检
验关系的讨论

)1/(
)1/(12
?
????
nT S S
knR S SR )1/( / ??? knR S S kE S SF
可推出:
kFkn
nR
???
???
1
112


)1/()1(
/
2
2
???? knR
kRF
?在 中国居民人均收入 -消费 一元模型 中,
?在 中国居民人均收入 -消费 二元模型 中,
三、变量的显著性检验( t检验)
方程的 总体线性 关系显著 ?每个解释变量 对被
解释变量的影响都是显著的
因此,必须对每个解释变量进行显著性检验,
以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的 t 检验完成的 。
1,t统计量
由于
12 )()?( ??? XXβ ?C o v
以 cii表示矩阵 (X’X)-1 主对角线上的第 i个元素,
于是参数估计量的方差为:
iii cV a r 2)?( ?? ?
其中 ?2为随机误差项的方差,在实际计算
时,用它的估计量代替,
11?
2
2
??
??
???
?
knkn
e i ee?
),(~? 2 iiii cN ???
因此,可构造如下 t统计量
)1(~
1
??
?
??
??
?
??
? knt
kn
c
S
t
ii
iiii
i
ee
????
?
2,t检验
设计原假设与备择假设:
H1,?i?0
给定显著性水平 ?,可得到临界值 t?/2(n-k-1),
由样本求出统计量 t的数值,通过
|t|? t?/2(n-k-1) 或 |t|?t?/2(n-k-1)
来拒绝或接受原假设 H0,从而 判定对应的解释变
量是否应包括在模型中。
H0,?i=0 ( i=1,2…k )
注意,一元线性回归中,t检验与 F检验一致
一方面, t检验与 F检验都是对相同的原假设
H0,?1=0 进行 检验 ;
另一方面,两个统计量之间有如下关系:
2
2
2
2
1
2
22
1
22
2
1
2
22
1
2
2
1
2
?
)2(
?
)2(
?
)2(
?
)2(
?
t
xn
e
xne
xnene
x
ne
y
F
i
i
ii
iii
i
i
i
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
??
???
?
?
?
?
?
??
在 中国居民人均收入 -消费支出 二元模型 例中,
由应用软件计算出参数的 t值:
651.2630.3306.3 210 ??? ttt
给定显著性水平 ?=0.05,查得相应临界值:
t0.025(19) =2.093。
可见, 计算的所有 t值都大于该临界值, 所以
拒绝原假设 。 即,
包括常数项在内的 3个解释变量都在 95%的水
平下显著, 都通过了变量显著性检验 。
四、参数的置信区间
参数的 置信区间 用来考察,在一次抽样中所估
计的参数值离参数的真实值有多, 近, 。
在变量的显著性检验中已经知道:
)1(~
1
??
?
??
??
?
??
? knt
kn
c
S
t
ii
iiii
i
ee
????
?
容易推出,在 (1-?)的置信水平下 ?i的置信区间是
( ?,? )? ?? ?? ?? ?i it s t s
i i
? ? ? ?
2 2
其中,t?/2为显著性水平为 ?,自由度为 n-k-1的临界值。
在 中国居民人均收入 -消费支出 二元模型 例中,
给定 ?=0.05,查表得临界值,t0.025(19)=2.093
计算得参数的置信区间:
?0, (44.284,197.116)
?1, (0.0937,0.3489 )
?2, (0.0951,0.8080)
1 7 0.04 5 1 5.0?
0 6 1.02 2 1 3.0?
51.3670.1 2 0?
2
1
0
?2
?1
?0
??
??
??
?
?
?
?
?
?
s
s
s
从回归计算中已得到:
如何才能缩小置信区间?
?增大样本容量 n,因为在同样的样本容量下,n越
大,t分布表中的临界值越小,同时,增大样本容
量,还可使样本参数估计量的标准差减小;
?提高模型的拟合优度,因为样本参数估计量的标
准差与残差平方和呈正比,模型优度越高,残差
平方和应越小。
?提高样本观测值的分散度,一般情况下,样本观
测值越分散, (X’X)-1的分母的 |X’X|的值越大,致
使区间缩小。