§ 5.3 模型设定偏误问题一、模型设定偏误的类型二、模型设定偏误的后果三、模型设定偏误的检验一、模型设定偏误的类型
模型设定偏误主要有两大类,
(1)关于解释变量选取的偏误,主要包括 漏选相关变量 和 多选无关变量,
(2)关于模型函数形式选取的偏误 。
1、相关变量的遗漏
( omitting relevant variables)
例如,如果,正确,的模型为
22110 XXY
而我们将模型设定为
vXY 110
即设定模型时漏掉了一个相关的解释变量。
这类错误称为 遗漏相关变量 。
动态设定偏误 ( dynamic mis-specification),遗漏相关变量表现为对 Y或 X滞后项的遗漏 。
2、无关变量的误选
(including irrevelant variables)
例如,如果
Y=?0+?1X1+?2X2+?
仍为,真,,但我们将模型设定为
Y=?0+?1X1+?2X2+?3X3 +?
即设定模型时,多选了一个无关解释变量。
3、错误的函数形式
(wrong functional form)
例如,如果,真实,的回归函数为
eXAXY 21 21?
但却将模型设定为
vXXY 22110
二、模型设定偏误的后果
当模型设定出现偏误时,模型估计结果也会与
,实际,有偏差。这种 偏差的性质与程度与模型设定偏误的类型密切相关 。
1,遗漏相关变量偏误采用遗漏相关变量的模型进行估计而带来的偏误称为 遗漏相关变量偏误 ( omitting relevant
variable bias)。
设正确的模型为
Y=?0+?1X1+?2X2+?
却对
Y=?0+?1X1+v
进行回归,得
2
1
1
1?
i
ii
x
yx?
将正确模型 Y=?0+?1X1+?2X2+?的离差形式
iiii xxy 2211
代入
2
1
1
1?
i
ii
x
yx? 得
2
1
1
2
1
21
21
2
1
22111
2
1
1
1
)(
)(
i
ii
i
ii
i
iiii
i
ii
x
x
x
xx
x
xxx
x
yx
(1)如果漏掉的 X2与 X1相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得 OLS估计量在小样本下有偏,在大样本下非一致 。
(2)如果 X2与 X1不相关,则?1的估计满足无偏性与一致性;但这时?0的估计却是有偏的。
由 Y=?0+?1X1+v 得
21
2
1 )?(
ix
Va r
由 Y=?0+?1X1+?2X2+?得
)1()()
(
22
1
2
2
21
2
2
2
1
2
22
1
21 xxiiiii
i
rxxxxx
xV a r
如果 X2与 X1相关,显然有 )?()?(
11 V a rV a r?
如果 X2与 X1不相关,也有 )?()?(
11 V a rV a r? Why?
2、包含无关变量偏误采用包含无关解释变量的模型进行估计带来的偏误,称为 包含无关变量偏误 ( including
irrelevant variable bias)。
设 Y=?0+?1X1+v (*)
为正确模型,但却估计了
Y=?0+?1X1+?2X2+? (**)
如果?2=0,则 (**)与 (*)相同,因此,可将 (**)
式视为以?2=0为约束的 (*)式的特殊形式。
由于所有的经典假设都满足,因此对
Y=?0+?1X1+?2X2+? (**)
式进行 OLS估计,可得到 无偏 且 一致 的估计量。
但是,OLS估计量却不具有最小方差性。
Y=?0+?1X1+v 中 X1的方差, 2
1
2
1 )?(
ix
Va r
Y=?0+?1X1+?2X2+?中 X1的方差,
)1()?( 221
2
1
21 xxi rx
V a r
当 X1与 X2完全线性无关时,)?()?( 11 V a rV a r?
否则,)?()?( 11 V a rV a r?
注意:
3、错误函数形式的偏误当选取了错误函数形式并对其进行估计时,
带来的偏误称 错误函数形式偏误 ( wrong
functional form bias)。
容易判断,这种 偏误是全方位的 。
例如,如果,真实,的回归函数为
eXAXY 21 21?
vXXY 22110
却估计线性式显然,两者的参数具有完全不同的经济含义,
且估计结果一般也是不相同的。
三、模型设定偏误的检验
1、检验是否含有无关变量可用 t 检验与 F检验完成。
检验的基本思想,如果模型中误选了无关变量,
则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。
t检验,检验某 1个变量是否应包括在模型中;
F检验,检验若干个变量是否应同时包括在模型中
2、检验是否有相关变量的遗漏或函数形式设定偏误
( 1)残差图示法
残差序列变化图
( a)趋势变化,
模型设定时可能遗漏了一随着时间的推移而持续上升的变量
( b)循环变化:
模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量
模型函数形式设定偏误时残差序列呈现正负交替变化图示,一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。
( 2)一般性设定偏误检验但更准确更常用的判定方法是拉姆齐 (Ramsey)
于 1969年提出的所谓 RESET 检验 ( regression error
specification test)。
基本思想:
如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可;
问题是不知道遗漏了哪个变量,需寻找一个替代变量 Z,来进行上述检验。
RESET检验中,采用所设定模型中被解释变量
Y的估计值?的若干次幂来充当该,替代,变量。
例如,先估计 Y=?0+?1X1+v 得
110 XY
3221110 YYXY
再根据第三章第五节介绍的 增加解释变量的 F检验 来判断是否增加这些,替代,变量。
若仅增加一个,替代,变量,也可通过 t检验 来判断。
例如,在一元回归中,假设真实的函数形式是非线性的,用泰勒定理将其近似地表示为多项式:
RESET检验也可用来检验函数形式设定偏误的问题。
313212110 XXXY
因此,如果设定了线性模型,就意味着遗漏了相关变量 X12,X13,等等。
因此,在一元回归中,可通过检验 (*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型 。
( *)
对 多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可 按遗漏变量的程序进行检验 。
例如,估计 Y=?0+?1X1+?2X2+?
但却怀疑真实的函数形式是非线性的。
322122110 YYXXY
这时,只需以估计出的?的若干次幂为,替代,
变量,进行类似于如下模型的估计再判断各,替代,变量的参数是否显著地不为零即可。
例 5.3.1,在 § 4.3商品进口的例中,估计了中国商品进口 M与 GDP的关系,并发现具有强烈的一阶自相关性。
然而,由于仅用 GDP来解释商品进口的变化,
明显地遗漏了诸如商品进口价格、汇率等其他影响因素。因此,序列相关性的主要原因可能就是建模时遗漏了重要的相关变量造成的。
下面进行 RESET检验。
用原回归模型估计出商品进口序列
tt G D PM 020.091.152
R2=0.9484
( -0.085) ( 8.274) ( -6.457) ( 6.692)
R2=0.9842
32?0759.8?0 0 2 8.0072.0860.3~ ttt MEMG D PM
))1(/()1(
/)(
2
22
qknR
qRRF
U
RU 5.22
)424/()9 8 4.01(
2/)9 4 8.09 8 4.0(?
在?=5%下,查得临界值 F0.05(2,20)=3.49
判断,拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明 原模型确实存在遗漏相关变量的设定偏误 。
*( 3)同期相关性的豪斯蔓( Hausman)
检验由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得
OLS估计量有偏且非一致。
因此,对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是 豪斯蔓检验( 1978)的主要思想。
当解释变量与随机扰动项同期相关时,通过工具变量法可得到参数的一致估计量。
而当解释变量与随机扰动项同期无关时,OLS
估计量就可得到参数的一致估计量。
因此,只须检验 IV估计量与 OLS估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。
对一元线性回归模型
Y=?0+?1X+?
所检验的假设是 H0,X与?无同期相关。
设一元样本回归模型为
iii eXY 10
以 Z为工具变量,则 IV估计量为:
ii
ii
xz
yz?~
ii
ii
ii
iii
xz
ez
xz
exz
1
1?)?( (*)
(*)式表明,IV估计量与 OLS估计量无差异当且仅当?ziei=0,即工具变量与 OLS估计的残差项无关。
检验时,求 Y关于 X与 Z的 OLS回归式:
iii ZXY 10
在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,
而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。
如对二元回归模型
iiii XXY 22110
iiiii XXXXY 221122110
通过 增加解释变量的 F检验,检验联合假设:
H0,?1=?2=0 。
拒绝原假设,就意味着( *)式中的解释变量与随机扰动项相关。
(*)
( 4)线性模型与双对数线性模型的选择无法通过判定系数的大小来辅助决策,因为在两类模型中被解释变量是不同的。
为了在两类模型中比较,可用 Box-Cox变换,
第一步,计算 Y的样本几何均值。
)ln1e x p()(~ /121 inn YnYYYY?
第二步,用得到的样本几何均值去除原被解释变量 Y,得到被解释变量的新序列 Y*。
YYY ii ~/*?
第三步,用 Y*替代 Y,分别估计双对数线性模型与线性模型。并通过比较它们的残差平方和是否有显著差异来进行判断。
)ln (21
1
2
RSS
RSSn
其中,RSS1与 RSS2分别为对应的较大的残差平方和与较小的残差平方和,n为样本容量。
可以证明,该统计量在两个回归的残差平方和无差异的假设下服从自由度为 1 的?2分布。
因此,拒绝原假设时,就应选择 RSS2的模型。
Zarembka( 1968)提出的检验统计量为:
例 5.3.2 在 § 4.3中国商品进口的例中,
采用线性模型,R2=0.948;
采用双对数线性模型,R2=0.973,
但不能就此简单地判断双对数线性模型优于线性模型。下面进行 Box-Cox变换。
计算原商品进口样本的几何平均值为:
12.5 8 3)ln (e x p (~ 1 tn MM
计算出新的商品进口序列:
MMM tt ~./*?
以 Mt*替代 Mt,分别进行双对数线性模型与线性模型的回归,得:
tt G D PM ln7 8 3 6.03 5 6 5.1)?ln ( * RSS1=0.5044
tt G D PM 0 0 0 0 3 5.02 6 2 2.0? *
RSS2=1.5536
于是,49.13)1249.1ln (24
2
1)ln (
2
1
1
2
R S S
R S Sn
在?=5%下,查得临界值?20.05(1)=3.841
判断,拒绝原假设,表明 双对数线性模型确实“优于”线性模型。
模型设定偏误主要有两大类,
(1)关于解释变量选取的偏误,主要包括 漏选相关变量 和 多选无关变量,
(2)关于模型函数形式选取的偏误 。
1、相关变量的遗漏
( omitting relevant variables)
例如,如果,正确,的模型为
22110 XXY
而我们将模型设定为
vXY 110
即设定模型时漏掉了一个相关的解释变量。
这类错误称为 遗漏相关变量 。
动态设定偏误 ( dynamic mis-specification),遗漏相关变量表现为对 Y或 X滞后项的遗漏 。
2、无关变量的误选
(including irrevelant variables)
例如,如果
Y=?0+?1X1+?2X2+?
仍为,真,,但我们将模型设定为
Y=?0+?1X1+?2X2+?3X3 +?
即设定模型时,多选了一个无关解释变量。
3、错误的函数形式
(wrong functional form)
例如,如果,真实,的回归函数为
eXAXY 21 21?
但却将模型设定为
vXXY 22110
二、模型设定偏误的后果
当模型设定出现偏误时,模型估计结果也会与
,实际,有偏差。这种 偏差的性质与程度与模型设定偏误的类型密切相关 。
1,遗漏相关变量偏误采用遗漏相关变量的模型进行估计而带来的偏误称为 遗漏相关变量偏误 ( omitting relevant
variable bias)。
设正确的模型为
Y=?0+?1X1+?2X2+?
却对
Y=?0+?1X1+v
进行回归,得
2
1
1
1?
i
ii
x
yx?
将正确模型 Y=?0+?1X1+?2X2+?的离差形式
iiii xxy 2211
代入
2
1
1
1?
i
ii
x
yx? 得
2
1
1
2
1
21
21
2
1
22111
2
1
1
1
)(
)(
i
ii
i
ii
i
iiii
i
ii
x
x
x
xx
x
xxx
x
yx
(1)如果漏掉的 X2与 X1相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得 OLS估计量在小样本下有偏,在大样本下非一致 。
(2)如果 X2与 X1不相关,则?1的估计满足无偏性与一致性;但这时?0的估计却是有偏的。
由 Y=?0+?1X1+v 得
21
2
1 )?(
ix
Va r
由 Y=?0+?1X1+?2X2+?得
)1()()
(
22
1
2
2
21
2
2
2
1
2
22
1
21 xxiiiii
i
rxxxxx
xV a r
如果 X2与 X1相关,显然有 )?()?(
11 V a rV a r?
如果 X2与 X1不相关,也有 )?()?(
11 V a rV a r? Why?
2、包含无关变量偏误采用包含无关解释变量的模型进行估计带来的偏误,称为 包含无关变量偏误 ( including
irrelevant variable bias)。
设 Y=?0+?1X1+v (*)
为正确模型,但却估计了
Y=?0+?1X1+?2X2+? (**)
如果?2=0,则 (**)与 (*)相同,因此,可将 (**)
式视为以?2=0为约束的 (*)式的特殊形式。
由于所有的经典假设都满足,因此对
Y=?0+?1X1+?2X2+? (**)
式进行 OLS估计,可得到 无偏 且 一致 的估计量。
但是,OLS估计量却不具有最小方差性。
Y=?0+?1X1+v 中 X1的方差, 2
1
2
1 )?(
ix
Va r
Y=?0+?1X1+?2X2+?中 X1的方差,
)1()?( 221
2
1
21 xxi rx
V a r
当 X1与 X2完全线性无关时,)?()?( 11 V a rV a r?
否则,)?()?( 11 V a rV a r?
注意:
3、错误函数形式的偏误当选取了错误函数形式并对其进行估计时,
带来的偏误称 错误函数形式偏误 ( wrong
functional form bias)。
容易判断,这种 偏误是全方位的 。
例如,如果,真实,的回归函数为
eXAXY 21 21?
vXXY 22110
却估计线性式显然,两者的参数具有完全不同的经济含义,
且估计结果一般也是不相同的。
三、模型设定偏误的检验
1、检验是否含有无关变量可用 t 检验与 F检验完成。
检验的基本思想,如果模型中误选了无关变量,
则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。
t检验,检验某 1个变量是否应包括在模型中;
F检验,检验若干个变量是否应同时包括在模型中
2、检验是否有相关变量的遗漏或函数形式设定偏误
( 1)残差图示法
残差序列变化图
( a)趋势变化,
模型设定时可能遗漏了一随着时间的推移而持续上升的变量
( b)循环变化:
模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量
模型函数形式设定偏误时残差序列呈现正负交替变化图示,一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。
( 2)一般性设定偏误检验但更准确更常用的判定方法是拉姆齐 (Ramsey)
于 1969年提出的所谓 RESET 检验 ( regression error
specification test)。
基本思想:
如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可;
问题是不知道遗漏了哪个变量,需寻找一个替代变量 Z,来进行上述检验。
RESET检验中,采用所设定模型中被解释变量
Y的估计值?的若干次幂来充当该,替代,变量。
例如,先估计 Y=?0+?1X1+v 得
110 XY
3221110 YYXY
再根据第三章第五节介绍的 增加解释变量的 F检验 来判断是否增加这些,替代,变量。
若仅增加一个,替代,变量,也可通过 t检验 来判断。
例如,在一元回归中,假设真实的函数形式是非线性的,用泰勒定理将其近似地表示为多项式:
RESET检验也可用来检验函数形式设定偏误的问题。
313212110 XXXY
因此,如果设定了线性模型,就意味着遗漏了相关变量 X12,X13,等等。
因此,在一元回归中,可通过检验 (*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型 。
( *)
对 多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可 按遗漏变量的程序进行检验 。
例如,估计 Y=?0+?1X1+?2X2+?
但却怀疑真实的函数形式是非线性的。
322122110 YYXXY
这时,只需以估计出的?的若干次幂为,替代,
变量,进行类似于如下模型的估计再判断各,替代,变量的参数是否显著地不为零即可。
例 5.3.1,在 § 4.3商品进口的例中,估计了中国商品进口 M与 GDP的关系,并发现具有强烈的一阶自相关性。
然而,由于仅用 GDP来解释商品进口的变化,
明显地遗漏了诸如商品进口价格、汇率等其他影响因素。因此,序列相关性的主要原因可能就是建模时遗漏了重要的相关变量造成的。
下面进行 RESET检验。
用原回归模型估计出商品进口序列
tt G D PM 020.091.152
R2=0.9484
( -0.085) ( 8.274) ( -6.457) ( 6.692)
R2=0.9842
32?0759.8?0 0 2 8.0072.0860.3~ ttt MEMG D PM
))1(/()1(
/)(
2
22
qknR
qRRF
U
RU 5.22
)424/()9 8 4.01(
2/)9 4 8.09 8 4.0(?
在?=5%下,查得临界值 F0.05(2,20)=3.49
判断,拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明 原模型确实存在遗漏相关变量的设定偏误 。
*( 3)同期相关性的豪斯蔓( Hausman)
检验由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得
OLS估计量有偏且非一致。
因此,对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是 豪斯蔓检验( 1978)的主要思想。
当解释变量与随机扰动项同期相关时,通过工具变量法可得到参数的一致估计量。
而当解释变量与随机扰动项同期无关时,OLS
估计量就可得到参数的一致估计量。
因此,只须检验 IV估计量与 OLS估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。
对一元线性回归模型
Y=?0+?1X+?
所检验的假设是 H0,X与?无同期相关。
设一元样本回归模型为
iii eXY 10
以 Z为工具变量,则 IV估计量为:
ii
ii
xz
yz?~
ii
ii
ii
iii
xz
ez
xz
exz
1
1?)?( (*)
(*)式表明,IV估计量与 OLS估计量无差异当且仅当?ziei=0,即工具变量与 OLS估计的残差项无关。
检验时,求 Y关于 X与 Z的 OLS回归式:
iii ZXY 10
在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,
而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。
如对二元回归模型
iiii XXY 22110
iiiii XXXXY 221122110
通过 增加解释变量的 F检验,检验联合假设:
H0,?1=?2=0 。
拒绝原假设,就意味着( *)式中的解释变量与随机扰动项相关。
(*)
( 4)线性模型与双对数线性模型的选择无法通过判定系数的大小来辅助决策,因为在两类模型中被解释变量是不同的。
为了在两类模型中比较,可用 Box-Cox变换,
第一步,计算 Y的样本几何均值。
)ln1e x p()(~ /121 inn YnYYYY?
第二步,用得到的样本几何均值去除原被解释变量 Y,得到被解释变量的新序列 Y*。
YYY ii ~/*?
第三步,用 Y*替代 Y,分别估计双对数线性模型与线性模型。并通过比较它们的残差平方和是否有显著差异来进行判断。
)ln (21
1
2
RSS
RSSn
其中,RSS1与 RSS2分别为对应的较大的残差平方和与较小的残差平方和,n为样本容量。
可以证明,该统计量在两个回归的残差平方和无差异的假设下服从自由度为 1 的?2分布。
因此,拒绝原假设时,就应选择 RSS2的模型。
Zarembka( 1968)提出的检验统计量为:
例 5.3.2 在 § 4.3中国商品进口的例中,
采用线性模型,R2=0.948;
采用双对数线性模型,R2=0.973,
但不能就此简单地判断双对数线性模型优于线性模型。下面进行 Box-Cox变换。
计算原商品进口样本的几何平均值为:
12.5 8 3)ln (e x p (~ 1 tn MM
计算出新的商品进口序列:
MMM tt ~./*?
以 Mt*替代 Mt,分别进行双对数线性模型与线性模型的回归,得:
tt G D PM ln7 8 3 6.03 5 6 5.1)?ln ( * RSS1=0.5044
tt G D PM 0 0 0 0 3 5.02 6 2 2.0? *
RSS2=1.5536
于是,49.13)1249.1ln (24
2
1)ln (
2
1
1
2
R S S
R S Sn
在?=5%下,查得临界值?20.05(1)=3.841
判断,拒绝原假设,表明 双对数线性模型确实“优于”线性模型。