§ 2.3 一元线性回归模型的统
计检验
一、拟合优度检验
二、变量的显著性检验
三、参数的置信区间
? 回归分析 是要通过样本所估计的参数来代替总
体的真实参数,或者说是用样本回归线代替总
体回归线。
? 尽管从 统计性质 上已知,如果有足够多的重
复 抽样,参数的估计值的期望(均值)就等
于其总体的参数真值,但在一次抽样中,估计
值不一定就等于该真值。
? 那么,在一次抽样中,参数的估计值与真值
的差异有多大,是否显著,这就需要进一步进
行 统计检验 。
? 主要包括 拟合优度检验,变量的 显著性检验
及参数的 区间估计 。
一、拟合优度检验
拟合优度检验, 对样本回归直线与样本
观测值之间拟合程度的检验。
度量拟合优度的指标, 判定系数 ( 可决
系数 ) R2
问题,采用普通最小二乘估计方法,已
经保证了模型最好地拟合了样本观测值,
为什么还要检验拟合程度?
1、总离差平方和的分解
已知由一组样本观测值( Xi,Yi),i=1,2…,n
得到如下样本回归直线
ii XY 10 ??? ?? ??
iiiiiii yeYYYYYYy ?)?()?( ????????
如果 Yi=?i 即实际观测值落在样本回归“线”上,则 拟合最好 。
可认为,“离差” 全部来自回归线,而与“残差”无关。
对于所有样本点,则需考虑这些点与样本均值离
差的平方和,可以证明,
记 ? ? ??? 22 )( YYyT S S
ii
总体平方和 ( Total Sum
of Squares)
? ? ??? 22 )?(? YYyE S S ii 回归平方和 ( Explained Sum of Squares)
? ? ??? 22 )?( iii YYeR S S 残差平方和 ( Residual
Sum of Squares )
TSS=ESS+RSS
Y的观测值围绕其均值的 总离差 (total variation)
可分解为两部分,一部分来自回归线 (ESS),另一部
分则来自随机势力 (RSS)。
在给定样本中,TSS不变,
如果实际观测点离样本回归线越近,则 ESS在
TSS中占的比重越大,因此
拟合优度,回归平方和 ESS/Y的总离差 TSS
T S S
R S S
T S S
E S SR ??? 1记 2
2、可决系数 R2统计量
称 R2 为 (样本) 可决系数 /判定系数 ( coefficient
of determination)。
可决系数 的 取值范围, [0,1]
R2越接近 1,说明实际观测点离样本线越近,拟
合优度越高 。
在实际计算可决系数时,在 1?? 已经估计出后,
???
?
???
?
? ?? 2
2
2
1
2 ?
i
i
y
x
R ?
在例 2.1.1的 收入 -消费支出 例中,
9 7 6 6.04 5 9 0 0 2 07 4 2 5 0 0 0)7 7 7.0(?
2
2
2
2
1
2 ????
?
?
i
i
y
xR ?
注:可决系数 是一个非负的统计量。它也是
随着抽样的不同而不同。为此,对可决系数的统
计可靠性也应进行检验,这将在第 3章中进行。
二、变量的显著性检验
回归分析 是要判断 解释变量 X是否是 被解释变
量 Y的一个显著性的影响因素。
在 一元线性模型 中,就是要判断 X是否对 Y具有
显著的线性性影响。这就需要进行 变量的显著性
检验。
变量的显著性检验所应用的方法是数理统计
学中的 假设检验 。
计量经计学中,主要是针对变量的参数真值是
否为零来进行显著性检验的。
1、假设检验
? 所谓 假设检验, 就是事先对总体参数或总体分
布形式作出一个假设,然后利用样本信息来判断
原假设是否合理,即判断样本信息与原假设是否
有显著差异,从而决定是否接受或否定原假设 。
? 假设检验采用的逻辑推理方法是反证法。
先假定原假设正确,然后根据样本信息,观察
由此假设而导致的结果是否合理,从而判断是否
接受原假设。
? 判断结果合理与否,是基于“小概率事件不易
发生”这一原理的
2、变量的显著性检验
),(~? 2
2
11 ?
ix
N ???
)2(~
?
?
?
1?
11
22
11 ?????
?
ntS
x
t
i ?
??
?
??
检验步骤:
( 1)对总体参数提出假设
H0,?1=0,H1,?1?0
( 2)以原假设 H0构造 t统计量,并由样本计算其值
1?
1
?
?
?
St ?
( 3)给定显著性水平 ?,查 t分布表,得临界值 t ?/2(n-2)
(4) 比较,判断
若 |t|> t ?/2(n-2),则拒绝 H0,接受 H1 ;
若 |t|? t ?/2(n-2),则拒绝 H1,接受 H0 ;
对于一元线性回归方程中的 ?0,可构造如下 t
统计量进行显著性检验:
)2(~
?
?
?
0?
0
222
00 ????
?? ntSxnXt ii ?
?
?
??
在上述 收入 -消费支出 例中,首先计算 ?2的估计值
1 3 4 0 2210 7 4 2 5 0 0 07 7 7.04 5 9 0 0 2 02?2? 2
22
1
22
2 ?
?
???
?
??
??
? ??
n
xy
n
e iii ??
0 4 2 5.00 0 1 8.07 4 2 5 0 0 0/1 3 4 0 2? 22? 1 ???? ? ixS ??
41.98742500010/5365000013402? 222? 0 ????? ?? ii xnXS ??
t统计量的计算结果分别为:
29.180425.0777.0? 1?11 ??? ?? St
048.141.9817.103? 0?00 ????? ?? St
给定显著性水平 ?=0.05,查 t分布表得临界值
t 0.05/2(8)=2.306
|t1|>2.306,说明 家庭可支配收入在 95%的置信
度下显著,即是消费支出的主要解释变量;
|t2|<2.306,表明在 95%的置信度下, 无法拒绝
截距项为零的假设 。
假设检验 可以通过一次抽样的结果检验总体参
数可能的假设值的范围(如是否为零),但它并
没有指出在一次抽样中样本参数值到底离总体参
数的真值有多, 近, 。
要判断样本参数的估计值在多大程度上可以
,近似, 地替代总体参数的真值,往往需要通过
构造一个以样本参数的估计值为中心的, 区间,,
来考察它以多大的可能性(概率)包含着真实的
参数值。这种方法就是参数检验的 置信区间估计 。
三、参数的置信区间
?????? ?????? 1)??(P
如 果 存 在 这 样 一 个 区 间, 称之为 置信区间
( confidence interval) ; 1-?称为 置信系数 ( 置信度 )
( confidence coefficient), ?称为 显著性水平 ( level
of significance ) ; 置 信 区 间 的 端 点 称 为 置 信 限
( confidence limit) 或 临界值 ( critical values) 。
一元线性模型中, ?i (i=1,2) 的置信区间,
在变量的显著性检验中已经知道:
)2(~
?
?
??? ntst
i
ii
?
??
意味着,如果给定置信度( 1-?),从分布
表中查得自由度为 (n-2)的临界值,那么 t值处在
(-t?/2,t?/2)的概率是 (1-? )。表示为:
P t t t( )? ? ? ? ?? ? ?2 2 1

P t s ti i
i
(
?
)
?
? ? ? ? ? ?? ?? ? ?
?2 2
1
P t s t si i i
i i
( ? ? )? ?? ? ? ?? ?? ?? ? ? ? ? ? ? ?
2 2
1
于是得到,(1-?)的置信度下,?i的置信区间是
( ?,? )? ?? ?? ?? ?i it s t s
i i
? ? ? ?
2 2
在上述 收入 -消费支出 例中,如果给定 ? =0.01,
查表得:
355.3)8()2( 005.0
2
??? tnt ?
由于
042.01? ??S 41.980? ??S
于是,?1,?0的置信区间分别为:
( 0.6345,0.9195)
( -433.32,226.98)
由于置信区间一定程度地给出了样本参数估计
值与总体参数真值的, 接近, 程度,因此置信区间
越小越好。
要缩小置信区间,需
( 1)增大样本容量 n,因为在同样的置信水平
下,n越大,t分布表中的临界值越小;同时,增大
样本容量,还可使样本参数估计量的标准差减小;
( 2)提高模型的拟合优度,因为样本参数估计
量的标准差与残差平方和呈正比,模型拟合优度越
高,残差平方和应越小。