§ 5.3 模型设定偏误问题
一、模型设定偏误的类型
二、模型设定偏误的后果
三、模型设定偏误的检验
一、模型设定偏误的类型
? 模型设定偏误主要有两大类,
(1)关于解释变量选取的偏误,主要包括 漏
选相关变量 和 多选无关变量,
(2)关于模型函数形式选取的偏误 。
1、相关变量的遗漏
( omitting relevant variables)
? 例如,如果, 正确, 的模型为
???? ???? 22110 XXY
而我们将模型设定为
vXY ??? 110 ??
即设定模型时漏掉了一个相关的解释变量。
这类错误称为 遗漏相关变量 。
? 动态设定偏误 ( dynamic mis-specification),遗
漏相关变量表现为对 Y或 X滞后项的遗漏 。
2、无关变量的误选
(including irrevelant variables)
? 例如, 如果
Y=?0+?1X1+?2X2+?
仍为, 真,, 但我们将模型设定为
Y=?0+ ?1X1+ ?2X2+ ?3X3 +?
即设定模型时,多选了一个无关解释变量。
3、错误的函数形式
(wrong functional form)
? 例如,如果, 真实, 的回归函数为
??? eXAXY 21 21?
但却将模型设定为
vXXY ???? 22110 ???
二、模型设定偏误的后果
? 当模型设定出现偏误时,模型估计结果也会与
,实际, 有偏差。这种 偏差的性质与程度与模
型设定偏误的类型密切相关 。
1,遗漏相关变量偏误
采用遗漏相关变量的模型进行估计而带来的
偏误称为 遗漏相关变量偏误 ( omitting relevant
variable bias)。
设正确的模型为
Y=?0+?1X1+?2X2+?
却对
Y=?0+ ?1X1+v
进行回归,得
?
??
2
1
1
1?
i
ii
x
yx?
将正确模型 Y=?0+?1X1+?2X2+?的离差形式
???? ???? iiii xxy 2211
代入
?
??
2
1
1
1?
i
ii
x
yx? 得
?
?
?
?
?
?
?
?
?
???
???
??
2
1
1
2
1
21
21
2
1
22111
2
1
1
1
)(
)(
?
i
ii
i
ii
i
iiii
i
ii
x
x
x
xx
x
xxx
x
yx
??
??
????
?
(1)如果漏掉的 X2与 X1相关, 则上式中的第二项在小样本下
求期望与大样本下求概率极限都不会为零, 从而使得 OLS估
计量在小样本下有偏, 在大样本下非一致 。
(2)如果 X2与 X1不相关,则 ?1的估计满足无偏性
与一致性;但这时 ?0的估计却是有偏的。
由 Y=?0+ ?1X1+v 得
?? 21
2
1 )?(
ix
Va r ??
由 Y=?0+?1X1+?2X2+?得
?? ? ?
?
???? )1()()
?(
22
1
2
2
21
2
2
2
1
2
22
1
21 xxiiiii
i
rxxxxx
xV a r ???
如果 X2与 X1相关,显然有 )?()?( 11 ?? V a rV a r ?
如果 X2与 X1不相关,也有 )?()?( 11 ?? V a rV a r ? Why?
2、包含无关变量偏误
采用包含无关解释变量的模型进行估计带来的
偏误,称为 包含无关变量偏误 ( including
irrelevant variable bias)。
设 Y=?0+ ?1X1+v (*)
为正确模型,但却估计了
Y=?0+?1X1+?2X2+? (**)
如果 ?2=0,则 (**)与 (*)相同,因此,可将 (**)
式视为以 ?2=0为约束的 (*)式的特殊形式。
由于所有的经典假设都满足,因此对
Y=?0+?1X1+?2X2+? (**)
式进行 OLS估计,可得到 无偏 且 一致 的估计量。
但是,OLS估计量却不具有最小方差性。
Y=?0+ ?1X1+v 中 X1的方差, ?? 2
1
2
1 )?(
ix
Va r ??
Y=?0+?1X1+?2X2+?中 X1的方差,
? ?? )1()?( 221
2
1
21 xxi rx
V a r ??
当 X1与 X2完全线性无关时, )?()?( 11 ?? V a rV a r ?
否则,)?()?( 11 ?? V a rV a r ?
注意:
3、错误函数形式的偏误
当选取了错误函数形式并对其进行估计时,
带来的偏误称 错误函数形式偏误 ( wrong
functional form bias)。
容易判断,这种 偏误是全方位的 。
例如,如果, 真实, 的回归函数为
??? eXAXY 21 21?
vXXY ???? 22110 ???
却估计线性式
显然,两者的参数具有完全不同的经济含义,
且估计结果一般也是不相同的。
三、模型设定偏误的检验
1、检验是否含有无关变量
可用 t 检验与 F检验完成。
检验的基本思想,如果模型中误选了无关变量,
则其系数的真值应为零。因此,只须对无关变量
系数的显著性进行检验。
t检验,检验某 1个变量是否应包括在模型中;
F检验,检验若干个变量是否应同时包括在模
型中
2、检验是否有相关变量的遗漏或函数
形式设定偏误
( 1)残差图示法
? 残差序列变化图
( a)趋势变化,
模型设定时可能遗
漏了一随着时间的
推移而持续上升的
变量
( b)循环变化:
模型设定时可能遗
漏了一随着时间的
推移而呈现循环变
化的变量
? 模型函数形式设定偏误时残差序列呈现正负
交替变化
图示,一元回归模型中,真实模型呈幂函数形
式,但却选取了线性函数进行回归。
( 2)一般性设定偏误检验
但更准确更常用的判定方法是拉姆齐 (Ramsey)
于 1969年提出的所谓 RESET 检验 ( regression error
specification test)。
基本思想:
如果事先知道遗漏了哪个变量,只需将此变量
引入模型,估计并检验其参数是否显著不为零即
可;
问题是不知道遗漏了哪个变量,需寻找一个替
代变量 Z,来进行上述检验。
RESET检验中,采用所设定模型中被解释变量
Y的估计值 ?的若干次幂来充当该, 替代, 变量。
例如,先估计 Y=?0+ ?1X1+v 得
110 ??? XY ?? ??
????? ????? 3221110 ?? YYXY
再根据第三章第五节介绍的 增加解释变量的 F检
验 来判断是否增加这些, 替代, 变量。
若仅增加一个, 替代, 变量,也可通过 t检验 来
判断。
例如,在一元回归中,假设真实的函数形式是
非线性的,用泰勒定理将其近似地表示为多项式:
RESET检验也可用来检验函数形式设定偏误的
问题。
????? ?????? ?313212110 XXXY
因此,如果设定了线性模型,就意味着遗漏了
相关变量 X12,X13,等等。
因此, 在一元回归中, 可通过检验 (*)式中的
各高次幂参数的显著性来判断是否将非线性模
型误设成了线性模型 。
( *)
对 多元回归,非线性函数可能是关于若干个
或全部解释变量的非线性,这时可 按遗漏变量的
程序进行检验 。
例如,估计 Y=?0+?1X1+?2X2+?
但却怀疑真实的函数形式是非线性的。
?????? ?????? 322122110 ?? YYXXY
这时,只需以估计出的 ?的若干次幂为, 替代,
变量,进行类似于如下模型的估计
再判断各, 替代, 变量的参数是否显著地不为零
即可。
例 5.3.1,在 § 4.3商品进口的例中,估计了中国
商品进口 M与 GDP的关系,并发现具有强烈的一
阶自相关性。
然而,由于仅用 GDP来解释商品进口的变化,
明显地遗漏了诸如商品进口价格、汇率等其他影
响因素。因此,序列相关性的主要原因可能就是
建模时遗漏了重要的相关变量造成的。
下面进行 RESET检验。
用原回归模型估计出商品进口序列
tt GDPM 0 2 0.091.1 5 2? ??
R2=0.9484
( -0.085) ( 8.274) ( -6.457) ( 6.692)
R2=0.9842
32 ?0759.8?0 0 2 8.00 7 2.08 6 0.3~ ttt MEMGDPM ??????
))1(/()1(
/)(
2
22
????
??
qknR
qRRF
U
RU 5.22
)424/()984.01(
2/)948.0984.0( ?
??
??
在 ?=5%下,查得临界值 F0.05(2,20)=3.49
判断,拒绝原模型与引入新变量的模型可决系数
无显著差异的假设,表明 原模型确实存在遗漏相
关变量的设定偏误 。
*( 3)同期相关性的豪斯蔓( Hausman)
检验
由于在遗漏相关变量的情况下,往往导致解
释变量与随机扰动项出现同期相关性,从而使得
OLS估计量有偏且非一致。
因此,对模型遗漏相关变量的检验可以用模
型是否出现解释变量与随机扰动项同期相关性的
检验来替代。这就是 豪斯蔓检验( 1978)的主要
思想。
当解释变量与随机扰动项同期相关时,通过工
具变量法可得到参数的一致估计量。
而当解释变量与随机扰动项同期无关时,OLS
估计量就可得到参数的一致估计量。
因此,只须检验 IV估计量与 OLS估计量是否有
显著差异来检验解释变量与随机扰动项是否同期
无关。
对一元线性回归模型
Y=?0+?1X+?
所检验的假设是 H0,X与 ?无同期相关。
设一元样本回归模型为
iii eXY ??? 10 ?? ??
以 Z为工具变量,则 IV估计量为:
?
??
ii
ii
xz
yz?~
???? ??
??
ii
ii
ii
iii
xz
ez
xz
exz
1
1 ?)?( ?? (*)
(*)式表明,IV估计量与 OLS估计量无差异当且
仅当 ?ziei=0,即工具变量与 OLS估计的残差项无
关。
检验时,求 Y关于 X与 Z的 OLS回归式:
iii ZXY ??? ???? 10 ???
在实际检验中,豪斯蔓检验主要针对多元
回归进行,而且也不是直接对工具变量回归,
而是对以各工具变量为自变量、分别以各解释
变量为因变量进行回归。
如对二元回归模型
iiii XXY ???? ???? 22110
iiiii XXXXY 221122110 ?? ????? ?????
通过 增加解释变量的 F检验,检验联合假设:
H0,?1=?2=0 。
拒绝原假设,就意味着( *)式中的解释变量
与随机扰动项相关。
(*)
( 4)线性模型与双对数线性模型的选择
无法通过判定系数的大小来辅助决策,因为
在两类模型中被解释变量是不同的。
为了在两类模型中比较,可用 Box-Cox变换,
第一步,计算 Y的样本几何均值。
??? )ln1e x p ()(~ /121 inn YnYYYY ?
第二步,用得到的样本几何均值去除原被解
释变量 Y,得到被解释变量的新序列 Y*。
YYY ii ~/* ?
第三步,用 Y*替代 Y,分别估计双对数线性
模型与线性模型。并通过比较它们的残差平方和
是否有显著差异来进行判断。
)ln (21
1
2
R S S
R S Sn
其中,RSS1与 RSS2分别为对应的较大的残差平方
和与较小的残差平方和,n为样本容量。
可以证明,该统计量在两个回归的残差平方
和无差异的假设下服从自由度为 1 的 ?2分布。
因此,拒绝原假设时,就应选择 RSS2的模型。
Zarembka( 1968)提出的检验统计量为:
例 5.3.2 在 § 4.3中国商品进口的例中,
采用线性模型, R2=0.948;
采用双对数线性模型, R2=0.973,
但不能就此简单地判断双对数线性模型优于线
性模型。下面进行 Box-Cox变换。
计算原商品进口样本的几何平均值为:
12.5 8 3)l n (e x p (~ 1 ?? ? tn MM
计算出新的商品进口序列:
MMM tt ~./* ?
以 Mt*替代 Mt,分别进行双对数线性模型与线
性模型的回归,得:
tt G D PM ln7 8 3 6.03 5 6 5.1)?l n ( * ??? RSS1=0.5044
tt G D PM 0 0 0 0 3 5.02 6 2 2.0? * ??
RSS2=1.5536
于是,49.13)1 2 4 9.1l n (24
2
1)l n (
2
1
1
2 ???
R S S
R S Sn
在 ?=5%下,查得临界值 ?20.05(1)=3.841
判断,拒绝原假设,表明 双对数线性模型确
实“优于”线性模型。
一、模型设定偏误的类型
二、模型设定偏误的后果
三、模型设定偏误的检验
一、模型设定偏误的类型
? 模型设定偏误主要有两大类,
(1)关于解释变量选取的偏误,主要包括 漏
选相关变量 和 多选无关变量,
(2)关于模型函数形式选取的偏误 。
1、相关变量的遗漏
( omitting relevant variables)
? 例如,如果, 正确, 的模型为
???? ???? 22110 XXY
而我们将模型设定为
vXY ??? 110 ??
即设定模型时漏掉了一个相关的解释变量。
这类错误称为 遗漏相关变量 。
? 动态设定偏误 ( dynamic mis-specification),遗
漏相关变量表现为对 Y或 X滞后项的遗漏 。
2、无关变量的误选
(including irrevelant variables)
? 例如, 如果
Y=?0+?1X1+?2X2+?
仍为, 真,, 但我们将模型设定为
Y=?0+ ?1X1+ ?2X2+ ?3X3 +?
即设定模型时,多选了一个无关解释变量。
3、错误的函数形式
(wrong functional form)
? 例如,如果, 真实, 的回归函数为
??? eXAXY 21 21?
但却将模型设定为
vXXY ???? 22110 ???
二、模型设定偏误的后果
? 当模型设定出现偏误时,模型估计结果也会与
,实际, 有偏差。这种 偏差的性质与程度与模
型设定偏误的类型密切相关 。
1,遗漏相关变量偏误
采用遗漏相关变量的模型进行估计而带来的
偏误称为 遗漏相关变量偏误 ( omitting relevant
variable bias)。
设正确的模型为
Y=?0+?1X1+?2X2+?
却对
Y=?0+ ?1X1+v
进行回归,得
?
??
2
1
1
1?
i
ii
x
yx?
将正确模型 Y=?0+?1X1+?2X2+?的离差形式
???? ???? iiii xxy 2211
代入
?
??
2
1
1
1?
i
ii
x
yx? 得
?
?
?
?
?
?
?
?
?
???
???
??
2
1
1
2
1
21
21
2
1
22111
2
1
1
1
)(
)(
?
i
ii
i
ii
i
iiii
i
ii
x
x
x
xx
x
xxx
x
yx
??
??
????
?
(1)如果漏掉的 X2与 X1相关, 则上式中的第二项在小样本下
求期望与大样本下求概率极限都不会为零, 从而使得 OLS估
计量在小样本下有偏, 在大样本下非一致 。
(2)如果 X2与 X1不相关,则 ?1的估计满足无偏性
与一致性;但这时 ?0的估计却是有偏的。
由 Y=?0+ ?1X1+v 得
?? 21
2
1 )?(
ix
Va r ??
由 Y=?0+?1X1+?2X2+?得
?? ? ?
?
???? )1()()
?(
22
1
2
2
21
2
2
2
1
2
22
1
21 xxiiiii
i
rxxxxx
xV a r ???
如果 X2与 X1相关,显然有 )?()?( 11 ?? V a rV a r ?
如果 X2与 X1不相关,也有 )?()?( 11 ?? V a rV a r ? Why?
2、包含无关变量偏误
采用包含无关解释变量的模型进行估计带来的
偏误,称为 包含无关变量偏误 ( including
irrelevant variable bias)。
设 Y=?0+ ?1X1+v (*)
为正确模型,但却估计了
Y=?0+?1X1+?2X2+? (**)
如果 ?2=0,则 (**)与 (*)相同,因此,可将 (**)
式视为以 ?2=0为约束的 (*)式的特殊形式。
由于所有的经典假设都满足,因此对
Y=?0+?1X1+?2X2+? (**)
式进行 OLS估计,可得到 无偏 且 一致 的估计量。
但是,OLS估计量却不具有最小方差性。
Y=?0+ ?1X1+v 中 X1的方差, ?? 2
1
2
1 )?(
ix
Va r ??
Y=?0+?1X1+?2X2+?中 X1的方差,
? ?? )1()?( 221
2
1
21 xxi rx
V a r ??
当 X1与 X2完全线性无关时, )?()?( 11 ?? V a rV a r ?
否则,)?()?( 11 ?? V a rV a r ?
注意:
3、错误函数形式的偏误
当选取了错误函数形式并对其进行估计时,
带来的偏误称 错误函数形式偏误 ( wrong
functional form bias)。
容易判断,这种 偏误是全方位的 。
例如,如果, 真实, 的回归函数为
??? eXAXY 21 21?
vXXY ???? 22110 ???
却估计线性式
显然,两者的参数具有完全不同的经济含义,
且估计结果一般也是不相同的。
三、模型设定偏误的检验
1、检验是否含有无关变量
可用 t 检验与 F检验完成。
检验的基本思想,如果模型中误选了无关变量,
则其系数的真值应为零。因此,只须对无关变量
系数的显著性进行检验。
t检验,检验某 1个变量是否应包括在模型中;
F检验,检验若干个变量是否应同时包括在模
型中
2、检验是否有相关变量的遗漏或函数
形式设定偏误
( 1)残差图示法
? 残差序列变化图
( a)趋势变化,
模型设定时可能遗
漏了一随着时间的
推移而持续上升的
变量
( b)循环变化:
模型设定时可能遗
漏了一随着时间的
推移而呈现循环变
化的变量
? 模型函数形式设定偏误时残差序列呈现正负
交替变化
图示,一元回归模型中,真实模型呈幂函数形
式,但却选取了线性函数进行回归。
( 2)一般性设定偏误检验
但更准确更常用的判定方法是拉姆齐 (Ramsey)
于 1969年提出的所谓 RESET 检验 ( regression error
specification test)。
基本思想:
如果事先知道遗漏了哪个变量,只需将此变量
引入模型,估计并检验其参数是否显著不为零即
可;
问题是不知道遗漏了哪个变量,需寻找一个替
代变量 Z,来进行上述检验。
RESET检验中,采用所设定模型中被解释变量
Y的估计值 ?的若干次幂来充当该, 替代, 变量。
例如,先估计 Y=?0+ ?1X1+v 得
110 ??? XY ?? ??
????? ????? 3221110 ?? YYXY
再根据第三章第五节介绍的 增加解释变量的 F检
验 来判断是否增加这些, 替代, 变量。
若仅增加一个, 替代, 变量,也可通过 t检验 来
判断。
例如,在一元回归中,假设真实的函数形式是
非线性的,用泰勒定理将其近似地表示为多项式:
RESET检验也可用来检验函数形式设定偏误的
问题。
????? ?????? ?313212110 XXXY
因此,如果设定了线性模型,就意味着遗漏了
相关变量 X12,X13,等等。
因此, 在一元回归中, 可通过检验 (*)式中的
各高次幂参数的显著性来判断是否将非线性模
型误设成了线性模型 。
( *)
对 多元回归,非线性函数可能是关于若干个
或全部解释变量的非线性,这时可 按遗漏变量的
程序进行检验 。
例如,估计 Y=?0+?1X1+?2X2+?
但却怀疑真实的函数形式是非线性的。
?????? ?????? 322122110 ?? YYXXY
这时,只需以估计出的 ?的若干次幂为, 替代,
变量,进行类似于如下模型的估计
再判断各, 替代, 变量的参数是否显著地不为零
即可。
例 5.3.1,在 § 4.3商品进口的例中,估计了中国
商品进口 M与 GDP的关系,并发现具有强烈的一
阶自相关性。
然而,由于仅用 GDP来解释商品进口的变化,
明显地遗漏了诸如商品进口价格、汇率等其他影
响因素。因此,序列相关性的主要原因可能就是
建模时遗漏了重要的相关变量造成的。
下面进行 RESET检验。
用原回归模型估计出商品进口序列
tt GDPM 0 2 0.091.1 5 2? ??
R2=0.9484
( -0.085) ( 8.274) ( -6.457) ( 6.692)
R2=0.9842
32 ?0759.8?0 0 2 8.00 7 2.08 6 0.3~ ttt MEMGDPM ??????
))1(/()1(
/)(
2
22
????
??
qknR
qRRF
U
RU 5.22
)424/()984.01(
2/)948.0984.0( ?
??
??
在 ?=5%下,查得临界值 F0.05(2,20)=3.49
判断,拒绝原模型与引入新变量的模型可决系数
无显著差异的假设,表明 原模型确实存在遗漏相
关变量的设定偏误 。
*( 3)同期相关性的豪斯蔓( Hausman)
检验
由于在遗漏相关变量的情况下,往往导致解
释变量与随机扰动项出现同期相关性,从而使得
OLS估计量有偏且非一致。
因此,对模型遗漏相关变量的检验可以用模
型是否出现解释变量与随机扰动项同期相关性的
检验来替代。这就是 豪斯蔓检验( 1978)的主要
思想。
当解释变量与随机扰动项同期相关时,通过工
具变量法可得到参数的一致估计量。
而当解释变量与随机扰动项同期无关时,OLS
估计量就可得到参数的一致估计量。
因此,只须检验 IV估计量与 OLS估计量是否有
显著差异来检验解释变量与随机扰动项是否同期
无关。
对一元线性回归模型
Y=?0+?1X+?
所检验的假设是 H0,X与 ?无同期相关。
设一元样本回归模型为
iii eXY ??? 10 ?? ??
以 Z为工具变量,则 IV估计量为:
?
??
ii
ii
xz
yz?~
???? ??
??
ii
ii
ii
iii
xz
ez
xz
exz
1
1 ?)?( ?? (*)
(*)式表明,IV估计量与 OLS估计量无差异当且
仅当 ?ziei=0,即工具变量与 OLS估计的残差项无
关。
检验时,求 Y关于 X与 Z的 OLS回归式:
iii ZXY ??? ???? 10 ???
在实际检验中,豪斯蔓检验主要针对多元
回归进行,而且也不是直接对工具变量回归,
而是对以各工具变量为自变量、分别以各解释
变量为因变量进行回归。
如对二元回归模型
iiii XXY ???? ???? 22110
iiiii XXXXY 221122110 ?? ????? ?????
通过 增加解释变量的 F检验,检验联合假设:
H0,?1=?2=0 。
拒绝原假设,就意味着( *)式中的解释变量
与随机扰动项相关。
(*)
( 4)线性模型与双对数线性模型的选择
无法通过判定系数的大小来辅助决策,因为
在两类模型中被解释变量是不同的。
为了在两类模型中比较,可用 Box-Cox变换,
第一步,计算 Y的样本几何均值。
??? )ln1e x p ()(~ /121 inn YnYYYY ?
第二步,用得到的样本几何均值去除原被解
释变量 Y,得到被解释变量的新序列 Y*。
YYY ii ~/* ?
第三步,用 Y*替代 Y,分别估计双对数线性
模型与线性模型。并通过比较它们的残差平方和
是否有显著差异来进行判断。
)ln (21
1
2
R S S
R S Sn
其中,RSS1与 RSS2分别为对应的较大的残差平方
和与较小的残差平方和,n为样本容量。
可以证明,该统计量在两个回归的残差平方
和无差异的假设下服从自由度为 1 的 ?2分布。
因此,拒绝原假设时,就应选择 RSS2的模型。
Zarembka( 1968)提出的检验统计量为:
例 5.3.2 在 § 4.3中国商品进口的例中,
采用线性模型, R2=0.948;
采用双对数线性模型, R2=0.973,
但不能就此简单地判断双对数线性模型优于线
性模型。下面进行 Box-Cox变换。
计算原商品进口样本的几何平均值为:
12.5 8 3)l n (e x p (~ 1 ?? ? tn MM
计算出新的商品进口序列:
MMM tt ~./* ?
以 Mt*替代 Mt,分别进行双对数线性模型与线
性模型的回归,得:
tt G D PM ln7 8 3 6.03 5 6 5.1)?l n ( * ??? RSS1=0.5044
tt G D PM 0 0 0 0 3 5.02 6 2 2.0? * ??
RSS2=1.5536
于是,49.13)1 2 4 9.1l n (24
2
1)l n (
2
1
1
2 ???
R S S
R S Sn
在 ?=5%下,查得临界值 ?20.05(1)=3.841
判断,拒绝原假设,表明 双对数线性模型确
实“优于”线性模型。