1
第 九 章设定误差与测量误差计量经济学
2
引子,简单一定胜于复杂吗?
西方国家盛行,Occam`s razor” 原则,意思是
“简单优于复杂”的节约性原则。经济模型永远无法完全把握现实,在建立模型中一定的抽象和简化是不可避免的。
在研究进口与国内生产总值的关系时,考虑到时间趋势,建立并估计了以下模型
I M G D P T T T23= - 1 7 2,4 2 + 0,2 7 1 - 9 4 9,1 2 + 1 6 0,7 3 - 1 0,1 8
( - 0,1 7 7 ) ( 5,6 7 ) ( - 2,2 2 ) ( 2,2 0 ) ( - 2,7 4)t
DWRF0,9 9 1 2 7 2,9 5 1,9 7 2
3
有人根据“简单优于复杂”原则,得到以下方程:
(2)
进行比较:
两个方程的检验结果都较理想;
方程( 2) GDP的 t检验值似乎优于方程( 1);
方程( 2)函数形式也更为简单;
然而,能否根据,Occam’s razor”原则,判断方程( 2)比方程( 1)好?
I M G D P-217.186 0.173
( - 0,5 ) ( 1 6,9 4 )t
DWRF2 0,9 6 0 2 8 6,9 5 0,7 3 5
4
对模型的设定是计量经济研究的重要环节。
前面各章除了对随机扰动项 分布的基本假定以外,还强调,
假定设定的模型对变量和函数形式的设定是正确地描述被解释变量与解释变量之间的真实关系,假定模型中的变量没有测量误差。
但是在实际的建模实践中,对模型的设定不一定能够完全满足这样的要求,从而会使模型出现设定误差。
iu
5
第九章 设定误差与测量误差本章主要讨论,
● 设定误差
●设定误差的检验
●测量误差
6
第一节 设定误差本节基本内容,
● 设定误差及类型
●变量设定误差的后果
7
一、设定误差及类型计量经济模型是对变量间经济关系因果性的设想,
若所设定的回归模型是,正确,的,主要任务是所选模型参数的估计和假设检验。但是如果对计量模型的各种诊断或检验总不能令人满意,这时应把注意力集中到模型的设定方面:
考虑所建模型是否遗漏了重要的变量?
是否包含了多余的变量?
所选模型的函数形式是否正确?
随机扰动项的设定是否合理?
变量的数据收集是否有误差?
所有这些,计量经济学中被统称为设定误差。
8
从误差来源看,设定误差主要包括:
( 1)变量的设定误差,包括相关变量的遗漏
(欠拟合)、无关变量的误选(过拟合);
( 2)变量数据的测量误差;
( 3)模型函数形式的设定误差;
( 4)随机扰动项设定误差。
本章主要讨论的两类变量设定误差,
( 1)相关变量的遗漏(欠拟合);
( 2)无关变量的误选(过拟合)。
设定误差的类型
9
1,相关变量的遗漏
( Omitting Relevant Variables)
例如,如果,正确,的模型为而我们将模型设定为即设定模型时漏掉了一个相关的解释变量。
这类错误称为 遗漏相关变量(,欠拟合,)。
1 2 2 3 3i i i iY X X
1 2 2i i iYX
10
2,无关变量的误选
(Including Irrevelant Variables)
例如,如果,真实模型,为:
但我们却将模型设定为即设定模型时,多选了一个无关解释变量。这类错误称为无关变量的误选(,过拟合,)。
1 2 2 3 3i i i iY X X
1 2 2 3 3 4 4i i i i iY X X X
11
● 数据来源渠道可能不畅。例如,数据很难取得被迫将具有重要的经济意义变量排斥在模型之外。
●不知道变量应当以什么确切的函数形式出现在回归模型中。
●事先并不知道所研究的实证数据中所隐含的真实模型究竟是什么。
设定误差在建模中较容易出现。设定误差的存在可能会对模型形成不良的后果。
设定误差的原因
12
二、变量设定误差的后果当模型设定出现误差时,模型估计结果也会与
,实际,有偏误;
偏误的性质与程度与模型设定误差的类型密切相关。
从实质上看,变量设定误差的主要后果,是一个或多个解释变量与随机扰动项之间存在着相关性,
进而影响参数估计的统计特性。
13
1,遗漏相关变量(欠拟合)偏误采用遗漏了重要解释变量的模型进行估计而带来的偏误,称为遗漏相关变量偏误。
设正确的模型为:
正确模型离差形式为:
1 2 2 3 3i i i i iY X X u
2 2 2 3 ( - )i i i iy x x u u
14
却对方程进行回归,得:
取期望
2 3 22 2 3 22 ( - )?EE i i i i
ii
x x x u u
xx





1 2 2i i iYX
2 3 2
2 2 3 22
( - )? i i i i
ii
x x x u u
xx


15
遗漏变量设定误差的后果由此可以看出,的遗漏将产生如下后果。
两边取概率极限,有:




2 3 2
2 2 3
22
C o v,C o v,?l i m
V a r V a r
i i i i
n ii
X X X up
XX



X3
16
1,如果漏掉的 与 相关,则分别在小样本下求期望、在大样本下求概率极限,有:
2,如果 与 不相关,则 的估计满足无偏性与一致性;但这时 的估计却是有偏的。 即 OLS估计量在小样本下有偏,在大样本下非一致。
X3 X2
1 1 2 2
1 1 2 2
E ( ) E ( )
l i m ( ) l i m ( )
nn
pp





2?
2?
X3 X2
17
3,的方差是 方差的有偏估计:
由 得由 得
2 2
2
2 2
2
V a r ( )
ix

Y = + x + v1 2 2
Y= β + β X+ β X + u1 2 2 3 3
22
2 22
232 2 2 3
2 22
23
V a r ( )
( 1 - )
( 1 - )ii ii
ii
xx xr
x
xx




18
如果 与 相关,显然有如果 与 不相关,也有
4,遗漏变量,式中的随机扰动项 的方差估计量将是有偏的,即:
5,与方差相关的检验,包括假设检验、区间估计,
在关于参数的统计显著性方面,都容易导出错误的结论。
22?E vu
22V a r ( ) V a r ( )
22V a r ( ) V a r ( )
3X iv
2? RS S ( - 2 )vv n
3X 2X
3X 2X
19
(1) 若但实际情形并不完全如此。
可以注意到残差平方 和 RSS的计算因此,有可能:
23 2 23 0X X r?与 相 关,,显 然,22V a r V a r
22V a r V a r ;似 乎 有,
22R S S ( 2) R S S ( 3 ) ;v u unn
RSS ( 2) RSS ( 3 ) ;vunn
20
( 2) 若 不相关,有似乎分别有:
若这两个等式成立,意味着尽管变量,在理论上分析是有关的变量,但从所选模型中略去似乎也不会导致什么危害。这种认识实际也不正确。
32XX与
222 3 2 3 200i i ir x x x和 ;
2 2 2 2E V a r ( ) V a r ( ) ;
3X
21
因为的有偏估计,即使 不相关,也有致使假设检验程序很有可能是可疑的。
必须清楚,一旦根据相关理论把模型建立起来,
再从中遗漏变量需要充分地谨慎。
22
22 2 2 2 2
2 2 2 2
R S S - 2 R S S - 3V a r ( ) V a r ( )v v u u
i i i i
nn
x x x x


32XX与
2V a r ( ) V a r ( ),
22
2,包含无关变量偏误定义,模型中包括了不重要的解释变量,即采用误选了无关解释变量的模型进行估计而带来的偏误,
称为包含无关变量偏误设 正确模型但却估计了如果,则 (2)与 (1)相同,因此,可将 (1)式视为以 为约束的 (2)式 的特殊形式。
采用 OLS 法对 ( 2) 进行估计,有:
Y = β + β X+ μ1 2 2 (1)
α Y α X α Xv1 2 2 3 3 (2)
3 0
3 0
23
将( 1)式的离差形式 代入,
整理得:
期望和方差,
2
2 3 3 2 3
2 2 2 2
2 3 2 3
-
- ( )
i i i i i i i
i i i i
x y x x y x x
x x x x


22 ()i i iy x u u
2
3 2 2 3 3
22 2 2 2
2 3 2 3
( ) ( ( - )) - ( ) ( ( - ) )
- ( )
i i i i i i i
i i i i
x x u u x x x u u
x x x x


22?E ( )
2
2 22
2 2 3
V a r ( )
( 1 - )
v
ixr

24
无关变量的设定误差的后果
1,可以证明,( 2)式参数的 OLS估计量是无偏,
且为一致性的。即:
同理,可证明:
2 2 2 2E ( ) l i mnp
1 1 3 3E ( ),E ( ) 0
1 1 3 3l i m l i m 0nnpp
25
2
2
2
232
V ar ( ) 1
( 1 - )V ar ( ) r
1
2,不是有效估计量:
此结论对 也成立。
3,随机误差项的方差的估计仍为无偏估计。
4,通常的区间估计和假设检验程序依然有效,但方差增大,接受错误假设的概率会较高。
26
( 1)遗漏相关变量将导致参数估计量和假设检验有偏且不一致;
( 2)误选无关变量虽参数估计量具无偏性、一致性,又会损失有效性。
( 3)注重检验的无偏性、一致性宁愿误选无关变量也不愿遗漏相关变量;
( 4)注重估计量的有效性,宁愿删除相关变量。
通常误选无关变量不如遗漏相关变量的后果严重。
因此,模型的设定实际是对偏误与有效进行权衡,偏爱哪一方取决于模型的研究目的。
遗漏相关变量和误选无关变量的比较
27
第二节 设定误差的检验本节基本内容,
● DW检验
●拉各朗日乘数检验
●一般性检验
28
对变量设定误差进行检验必须在经济理论指导下进行,
不可抛弃经济理论而进行假设检验。
对于是否 误选无关变量 的检验,只要针对无关变量系数的期望值为零的假设,用 t检验或 F检验,对无关变量系数作显著性检验即可。
对于 遗漏变量 设定误差的检验有多种方法,例如 DW
检验、拉格朗日乘数检验、豪斯曼检验,RESET 一般性检验等。
这里只讨论设定误差的一些最常用的检验方法。
29
基本思想:
遗漏的相关变量应包含在随机扰动项中,那么回归所得的残差序列就会呈现单侧的正(负)相关性,因此可从自相关性的角度检验相关变量的遗漏。
从遗漏变量的模型看,可以认为遗漏变量模型是无遗漏变量模型的一个特例:被遗漏变量的系数为 0。
一,DW检验
30

DW检验的具体步骤
1,对回归模型运用 OLS法得残差序列
2,设定按遗漏解释变量的递增次序对残差序列,进行排序,对排序后的残差序列,计算 d统计量,
ie
22
-1
21
( - )
nn
i i i
ii
d e e e


0H,,受 约 束 回 归 模 型 1H,无 约 束 回 归 模 型 。
31
3.查 Durbin-Watson表,若 为显著,则拒绝原假设,受约束回归模型不成立,存在模型设定误差,否则接受原假设,受约束回归模型成立,模型无设定误差。
d
32
对下表的数据设定总生产成本函数,准备 使用如下三个备选模型:
有( 1)为真实模型,试用 DW法检验模型设定误差。
231 2 3 41 i i i i iY X X X u
21 2 32 i i iY X X
123 iiYX
举例
33
总成本( ) 产出( )
1 193 1
2 226 2
3 240 3
4 244 4
5 257 5
6 260 6
7 274 7
8 297 8
9 350 9
10 420 10
Y X
34
三个模型分别代入数据回归
(1) 23
22
14 1,76 7 63,4 87 - 12,9 62 0,93 9
se ( 6,37 5 ) ( 4,77 8 ) ( 0,98 56 ) ( 0,05 92 )
( 22,2 38 ) ( 13,2 85 ) ( - 13,1 51 ) ( 15,8 61 )
0,99 83 0,99 75 D W 2,70
i i i i
Y X X X
t
RR


2
22
2 2 2,3 8 3 - 8,0 2 5 0 2,5 4 2
se ( 2 3,4 8 8 ) ( 9,8 0 9 ) ( 0,8 6 9 )
( 9,4 6 8 ) ( - 0,8 1 8 ) ( 2,9 2 5 )
0,9 2 8 4 0,9 0 7 9 D W = 1,0 3 8
i i i
Y X X
t
RR


(2)
35
本例中遗漏变量已按递增次序排列,此时的值等于 值,无需重新计算 d统计量。
22
166.467 19.933
se ( 19.201 ) ( 3.066)
( 8.752) ( 6.502)
0.8409 0.82 DW = 0.716
ii
YX
t
RR


d
DW
(3)
36
对上述模型的 DW统计量的分析及查表情况如下:
1,模型 (1),有 =2.70,当 时 =0.525,
=2.016,不能表明存在显著的正相关关系,接受 H0,表示没有遗漏的变量。
2,模型 (2):有 =1.038,当 时 =0.697,
=1.641。 显然有 0.697<1.038<1.641,属于无法确定的区域。
采用修正的 DW 检验法进行检验即扩大拒绝区域,宁可判别残差中存在正的自相关,认为也存在遗漏变量。
Ld
Ud
Ud
Ld
nk1 0,3,5 %
DW nk1 0,2,5 %
DW
37
3,模型 (3),
有 =0.716,当 时,
=0.879,=1.320,显然存在正的自相关,拒绝,表明存在遗漏变量;
LdUd
nk1 0,1,5 %DW
0H
38
二、拉格朗日乘数( LM)检验基本思想:
● 模型中遗漏的相关变量包含在随机扰动项中,因此随机扰动项或回归所得的残差序列应与遗漏的相关变量呈现出某种依存关系。
●可以进行残差序列与相关变量的回归,在一定显著水平下若相关变量具有统计显著性,则认为存在遗漏变量形成的设定偏误,若相关变量不具有统计显著性,则认为没有遗漏变量形成的设定误差。
39
具体步骤
1,对存在遗漏变量设定偏误的模型(受约束回归模型)进行回归,得残差序列 ;
2,用残差序列 对全部的解释变量(包括遗漏变量)进行回归,得可决系数 ;
3,设定,受约束回归模型,无约束回归模型。
在大样本情况下,构造检验统计量,渐近地遵从
( 约束个数)
4,进行显著性检验的判断:若 (约束个数 ),则拒绝,认为受约束模型不成立,存在遗漏变量;否则,接受,认为受约束模型成立,无遗漏变量。
nR22
R2
H1
nR2 χ2nR2
H0
ie
H0
H0
ie
40
第四节 案例分析问题:
以引子中所提出的问题为例,分析影响中国进口量的主要因素(数据见教材第 255~ 256页)。
设定模型 ( 1)
其中,是进口总额,是国内生产总值。
分析模型是否有变量设定误差,进行变量设定误差检验。
I M G D Pt t t = α + α +u12
IMt GDPt
41
有人认为,货物与服务的进口量受到一国的生产规模、
货物与服务的进口价格、汇率等其他影响因素,而不能只仅用 GDP来解释商品进口的变化。因此,设定的回归模型应该为:
其中,GDP 为国内生产总值,为 GDP 的线性函数; Exchange 为美元兑换人民币的汇率,
为 Exchange 的线性函数。
如果是这样,回归模型( 1)的设定式中可能遗漏了变量 GDP,Exchange以及两者的线性组合。那么两者的线性组合是否被遗漏的重要变量呢?
1 2 3I M ( G D P ) ( E x c h a n g e )t t t t= β + β f+ β g + u (2)
(G D P) f
E x c h a n g eg()
42
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
2 5 0 0 0
3 0 0 0 0
3 5 0 0 0
0 2 0 0 0 0 4 0 0 0 0 6 0 0 0 0 8 0 0 0 0 1 0 0 0 0 0 1 2 0 0 0 0
G D P
I
M
基本关系图
I M G D Pf? ( )
43
对模型 (1)进行回归,有回归结果:
I M - 1 0 6 7,3 3 7 0,2 3 0 7 G D Pi i ie
220,9 2 3 0 0,9 1 9 5
D W 0,5 3 5 7 2 6 3,6 6 5 7
RR
F


se?
( 7 9 2,2 6 2 0 ) ( 0,0 1 4 2 )
( - 2,0 2 8 8 ) ( 1 6,2 3 7 8 )t
44
- 6 0 0 0
- 4 0 0 0
- 2 0 0 0
0
2 0 0 0
4 0 0 0
6 0 0 0
8 0 0 0
1 0 0 0 0
80 82 84 86 88 90 92 94 96 98 00 02
I M R e s i d u a l s
显然,存在自相关现象,其主要原因可能是建模时遗漏了重要的相关变量造成的。
作模型 (1)回归的残差图
45
1,DW检验模型( 1)的 =0.5357,表明存在正的自相关。
由于遗漏变量 Exchange或 GDP 已经按从小到大顺序排列,因此,无需重新计算 d统计量。对 =24,
=1,5%的德宾 -沃森 d统计量的临界值为
=1.273和 =1.466,表明存在显著的遗漏变量现象。
k? Ld
Ud

DW
n
46
Dependent Variable,IM
Method,Least Squares
Date,08/06/05 Time,23:41
Sample (adjusted),1981 2003
Included observations,23 after adjustments
Variable Coefficient Std,Error t-Statistic Prob.
C -224.3632 1892.132 -0.118577 0.9069
GDP 1.148259 0.151433 7.582606 0.0000
GDP(-1) -0.822444 0.147359 -5.581213 0.0000
EXCHANGE -4.290746 8.348744 -0.513939 0.6135
EXCHANGE^2 -0.018637 0.008353 -2.231162 0.0386
R-squared 0.978691 Mean dependent var 8434.222
Adjusted R-squared 0.973956 S.D,dependent var 9025.326
S.E,of regression 1456.525 Akaike info criterion 17.59515
Sum squared resid 38186370 Schwarz criterion 17.84200
Log likelihood -197.3443 F-statistic 206.6799
Durbin-Watson stat 1.962659 Prob(F-statistic) 0.000000
其中,Exchange系数的统计意义不显著,剔除。再次回归,结果见下页表。
47
Dependent Variable,IM
Method,Least Squares
Date,08/06/05 Time,23:53
Sample (adjusted),1981 2003
Included observations,23 after adjustments
Variable Coefficient Std,Error t-Statistic Prob.
C -1159.179 511.0396 -2.268276 0.0352
GDP 1.142897 0.148119 7.716070 0.0000
GDP(-1) -0.815842 0.143928 -5.668420 0.0000
EXCHANGE^2 -0.022569 0.003291 -6.857844 0.0000
R-squared 0.978378 Mean dependent var 8434.222
Adjusted R-squared 0.974965 S.D,dependent var 9025.326
S.E,of regression 1428.041 Akaike info criterion 17.52277
Sum squared resid 38746720 Schwarz criterion 17.72024
Log likelihood -197.5118 F-statistic 286.5846
Durbin-Watson stat 2.047965 Prob(F-statistic) 0.000000
可以认为,这时模型设定无变量设定误差。
48
2,LM检验按照 LM 检验步骤,首先生成残差序列(用 EE表示),用 EE对全部解释变量(包括遗漏变量)进行回归,有,
49
再计算查表,
显然,,接受无约束回归模型 的假设,
即确实存在遗漏变量。
因此,在本章的引子中,不能判断虽然简单但遗漏了重要变量的方程( 1)比复杂的方程( 2)更好。
2 2 3 0,7 2 7 3 6 1 6,7 2 9 2 8nR
20,0 2 5 2 7,3 7 7 7 6
1 6,7 2 9 2 8 7,3 7 7 7 6?
结 论
50
第九章 小 结
1,计量经济学模型中的古典假设不是无条件的假设,而是有条件的假设。一是所设定的条件期望方程没有方程设定误差;二是所设定的回归模型没有模型设定误差。
2,方程设定误差主要指:
( 1)真实变量的遗漏;
( 2)无关变量的引入;
( 3)解释变量、被解释变量中存在观测误差。
此外还有错误函数形式的误设和随机扰动项的非正确设定等。
51
3,当模型中遗漏了真实的变量时,模型的参数估计是有偏且不一致;参数估计的方差估计不正确,随机扰动项方差的估计也是不正确的,将使得假设检验、区间估计失效。
4,当模型包含无关变量,后果不如遗漏变量那么严重,模型的参数估计仍然是无偏且一致的,随机扰动项的方差将被正确估计,但所估计的方差将趋之于过大,从而使得参数估计的有效性降低,参数估计较为不准确,区间估计的精度下降。
52
5,检验方程设定误差的常用方法有:
( 1) DW检验;
( 2) LM检验;
( 3) Husman检验;
( 4) RESET检验。
6,测 量误差分为被解释变量测量误差和解释变量测量误差。测量误差使参数的 OLS估计有偏且不一致,
常常低估真正的回归参数。
53
主要公式表
* * 2M SE ( ) E ( - )
* * * 2 * 2M SE ( ) E { - E ( ) } { E ( ) - }
22
-1
21
( - )
nn
i i i
ii
d e e e


拉格朗日乘数检验
DW检验均方误差与方差的关系均方误差(简记作 MSE)
22~a y snR? 约 束 个 数
54
第 九 章 结 束