第五章 经典单方程计量经济学模型:专门问题
§ 5.1 虚拟变量
§ 5.2 滞后变量
§ 5.3 设定误差
§ 5.4 建模理论
§ 5.1 虚拟变量模型一、虚拟变量的基本含义二、虚拟变量的引入三、虚拟变量的设置原则一、虚拟变量的基本含义
许多经济变量是 可以定量度量 的,如,商品需求量、价格、收入、产量等
但也有一些影响经济变量的因素 无法定量度量,
如,职业、性别对收入的影响,战争、自然灾害对 GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取,0”
或,1”的人工变量,通常称为 虚拟变量 ( dummy
variables),记为 D。
例如,反映文程度的虚拟变量可取为,
1,本科学历
D=
0,非本科学历一般地,在虚拟变量的设置中:
基础类型、肯定类型取值为 1;
比较类型,否定类型取值为 0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟变 量 模 型 或 者 方 差 分 析 ( analysis-of variance:
ANOVA) 模型 。
一个以性别为虚拟变量考察企业职工薪金的模型:
iiii DXY 210
其中,Yi为企业职工的薪金,Xi为工龄,
Di=1,若是男性,Di=0,若是女性 。
二、虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基本方式:
加法方式 和 乘法方式 。
iiii XDXYE 10)0,|(
企业男职工的平均薪金为:
iiii XDXYE 120 )()1,|(
上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。
在该模型中,如果仍假定 E(?i)=0,则企业女职工的平均薪金为:
1、加法方式几何意义:
假定?2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差?2。
可以通过传统的回归检验,对?2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。
年薪 Y 男职工女职工工龄 X?0
2
又例,在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下,
高中,
大学及其以上

0
1
1D 其他高中

0
1
2D 其他大学及其以上模型可设定如下:
iii DDXY 231210
这时需要引入两个虚拟变量:
在 E(?i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:
高中以下:
iii XDDXYE 1021 )0,0,|(
高中,iii XDDXYE 12021 )()0,1,|(
大学及其以上:
iii XDDXYE 13021 )()1,0,|(
假定?3>?2,其几何意义:
大学教育保健 高中教育支出低于中学教育收入
还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
如 在上述职工薪金的例中,再引入代表学历的虚拟变量 D2:
iii DDXY 231210


0
1
2D
本科及以上学历本科以下学历职工薪金的回归模型可设计为:
女职工本科以下学历的平均薪金:
iii XDDXYE 13021 )()1,0,|(
女职工本科以上学历的平均薪金:
iii XDDXYE 132021 )()1,1,|(
iii XDDXYE 1021 )0,0,|(
iii XDDXYE 12021 )()0,1,|(
于是,不同性别、不同学历职工的平均薪金分别为:
男职工本科以下学历的平均薪金:
男职工本科以上学历的平均薪金:
2、乘法方式
加法方式引入虚拟变量,考察,截距的不同,
许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化 。
斜率的变化可通过以乘法的方式引入虚拟变量来测度 。
例,根据消费理论,消费水平 C主要取决于收入水平 Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
ttttt XDXC 210
这里,虚拟变量 D以与 X相乘的方式引入了模型中,
从而可用来考察消费倾向的变化。
假定 E(?i)= 0,上述模型所表示的函数可化为:
正常年份:
tttt XDXCE )()1,|( 210
反常年份:
tttt XDXCE 10)0,|(
如,设

0
1
tD 反常年份正常年份消费模型可建立如下:
当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量 。
例 5.1.1,考察 1990年前后的中国居民的总储蓄 -收入关系是否已发生变化 。
表 5.1.1中给出了中国 1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以 GNP代表的居民收入的数据 。
表 5,1,1 1 9 7 9 ~2 0 0 1 年中国居民储蓄与收入数据 (亿元)
90 年前 储蓄 GNP 90 年后 储蓄 GNP
1979 281 4038.2 1991 9107 2 1 6 6 2,5
1980 399.5 4517.8 1992 1 1 5 4 5,4 2 6 6 5 1,9
1981 523.7 4860.3 1993 1 4 7 6 2,4 3 4 5 6 0,5
1982 675.4 5301.8 1994 2 1 5 1 8,8 4 6 6 7 0,0
1983 892.5 5957.4 1995 2 9 6 6 2,3 5 7 4 9 4,9
1984 1214.7 7206.7 1996 3 8 5 2 0,8 6 6 8 5 0,5
1985 1622.6 8989.1 1997 4 6 2 7 9,8 7 3 1 4 2,7
1986 2237.6 1 0 2 0 1,4 1998 5 3 4 0 7,5 7 6 9 6 7,2
1987 3073.3 1 1 9 5 4,5 1999 5 9 6 2 1,8 8 0 5 7 9,4
1988 3801.5 1 4 9 2 2,3 2000 6 4 3 3 2,4 8 8 2 2 8,1
1989 5146.9 1 6 9 1 7,8 2001 7 3 7 6 2,4 9 4 3 4 6,4
1990 7034.2 1 8 5 9 8,4
以 Y为储蓄,X为收入,可令:
1990年前,Yi=?1+?2Xi+?1i i=1,2…,n1
1990年后,Yi=?1+?2Xi+?2i i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1)?1=?1,且?2=?2,即两个回归相同,称为 重合回归 ( Coincident Regressions) ;
(2)?11,但?2=?2,即两个回归的差异仅在其截距,
称为 平行回归 ( Parallel Regressions) ;
(3)?1=?1,但?22,即两个回归的差异仅在其斜率,
称为 汇合回归 (Concurrent Regressions);
(4)?11,且?22,即两个回归完全不同,称为 相异回归 ( Dissimilar Regressions) 。
可以运用 邹氏结构变化的检验 。这一问题也可通过引入乘法形式的虚拟变量来解决。
将 n1与 n2次观察值合并,并用以估计以下回归:
iiiiii XDDXY )(4310
Di为引入的虚拟变量:


0
1
iD
于是有:
iiii XXDYE 10),0|(
iiii XXDYE )()(),1|( 4130
可分别表示 1990年 后期 与 前期 的储蓄函数。
年后年前
90
90
在统计检验中,如果?4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。
具体的回归结果为:
(-6.11) (22.89) (4.33) (-2.55)
由?3与?4的 t检验可知:参数显著地不等于 0,强烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前:
1990年后:
iiiii XDDXY 4 7 6 5.03.1 3 8 0 28 8 8 1.01 5 4 5 2
2R =0.9836
ii XY 4 1 1 6.07.1 6 4 9
ii XY 8 8 8 1.01 5 4 5 2
3、临界指标的虚拟变量的引入在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映 。
例如,进口消费品数量 Y主要取决于国民收入 X
的多少,中国在改革开放前后,Y对 X的回归关系明显不同 。
这时,可以 t*=1979年为转折期,以 1979年的国民收入 Xt*为临界值,设如下虚拟变量:


0
1
tD *
*
tt
tt
则进口消费品的回归模型可建立如下:
tttttt DXXXY )( *210
OLS法得到该模型的回归方程为则两时期进口消费品函数分别为:
ttttt DXXXY )( *210
当 t<t*=1979年,tt XY 10
当 t?t*=1979年,tit XXY )()(? 21*20
三、虚拟变量的设置原则虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变量的类别数少 1,即如果有 m个定性变量,只在模型中引入 m-1个虚拟变量。
例 。 已知冷饮的销售量 Y除受 k种定量变量 Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:


0
1
1tD 其他春季


0
1
2tD 其他夏季


0
1
3tD
其他秋季则冷饮销售量的模型为:
在上述模型中,若再引入第四个虚拟变量
ttttktktt DDDXXY 332211110?


0
1
4tD 其他冬季则冷饮销售模型变量为:
tttttktktt DDDDXXY 44332211110?
其矩阵形式为:
μαβD)( X,Y


如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:
显然,(X,D)中的第 1列可表示成后 4列的线性组合,
从而 (X,D)不满秩,参数无法唯一求出。
这就是所谓的,虚拟变量陷井,,应避免。
00011
00101
10001
01001
00101
00011
)(
616
515
414
313
212
111
k
k
k
k
k
k
XX
XX
XX
XX
XX
XX
DX,
k
1
0
β
4
3
2
1
α