第五章 经典单方程计量经济学
模型:专门问题
§ 5.1 虚拟变量
§ 5.2 滞后变量
§ 5.3 设定误差
§ 5.4 建模理论
§ 5.1 虚拟变量模型
一、虚拟变量的基本含义
二、虚拟变量的引入
三、虚拟变量的设置原则
一、虚拟变量的基本含义
? 许多经济变量是 可以定量度量 的,如,商品需求
量、价格、收入、产量等
? 但也有一些影响经济变量的因素 无法定量度量,
如,职业、性别对收入的影响,战争、自然灾害
对 GDP的影响,季节对某些产品(如冷饮)销售
的影响等等。
? 为了在模型中能够反映这些因素的影响,并提高
模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来
完成的。根据这些因素的属性类型,构造只取,0”
或,1”的人工变量,通常称为 虚拟变量 ( dummy
variables),记为 D。
? 例如,反映文程度的虚拟变量可取为,
1,本科学历
D=
0,非本科学历
一般地,在虚拟变量的设置中:
? 基础类型、肯定类型取值为 1;
? 比较类型,否定类型取值为 0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟
变 量 模 型 或 者 方 差 分 析 ( analysis-of variance:
ANOVA) 模型 。
一个以性别为虚拟变量考察企业职工薪金的模型:
iiii DXY ???? ???? 210
其中,Yi为企业职工的薪金, Xi为工龄,
Di=1,若是男性, Di=0,若是女性 。
二、虚拟变量的引入
? 虚拟变量做为解释变量引入模型有两种基本方式:
加法方式 和 乘法方式 。
iiii XDXYE 10)0,|( ?? ???
企业男职工的平均薪金为:
iiii XDXYE 120 )()1,|( ??? ????
上述企业职工薪金模型中性别虚拟变量的引入采
取了加法方式。
在该模型中,如果仍假定 E(?i)=0,则
企业女职工的平均薪金为:
1、加法方式
几何意义:
? 假定 ?2>0,则两个函数有相同的斜率,但有不同
的截距。意即,男女职工平均薪金对教龄的变化
率是一样的,但两者的平均薪金水平相差 ?2。
? 可以通过传统的回归检验,对 ?2的统计显著性进
行检验,以判断企业男女职工的平均薪金水平是
否有显著差异。
年薪 Y 男职工
女职工
工龄 X?0
?2
又例,在横截面数据基础上,考虑个人保健支出
对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下,
高中,
大学及其以上
?
?
??
0
1
1D 其他
高中
?
?
??
0
1
2D 其他
大学及其以上
模型可设定如下:
iii DDXY ????? ????? 231210
这时需要引入两个虚拟变量:
在 E(?i)=0 的初始假定下,高中以下、高中、大学
及其以上教育水平下个人保健支出的函数:
? 高中以下:
iii XDDXYE 1021 )0,0,|( ?? ????
? 高中,iii XDDXYE 12021 )()0,1,|( ??? ?????
? 大学及其以上:
iii XDDXYE 13021 )()1,0,|( ??? ?????
假定 ?3>?2,其几何意义:
大学教育
保健 高中教育
支出
低于中学教育
收入
? 还可将多个虚拟变量引入模型中以考察多种“定
性”因素的影响。
如 在上述职工薪金的例中, 再引入代表学历的虚拟
变量 D2:
iii DDXY ????? ????? 231210
??
??
0
1
2D
本科及以上学历
本科以下学历
职工薪金的回归模型可设计为:
?女职工本科以下学历的平均薪金:
iii XDDXYE 13021 )()1,0,|( ??? ?????
?女职工本科以上学历的平均薪金:
iii XDDXYE 132021 )()1,1,|( ???? ??????
iii XDDXYE 1021 )0,0,|( ?? ????
iii XDDXYE 12021 )()0,1,|( ??? ?????
于是,不同性别、不同学历职工的平均薪金分别为:
?男职工本科以下学历的平均薪金:
?男职工本科以上学历的平均薪金:
2、乘法方式
? 加法方式引入虚拟变量,考察,截距的不同,
? 许多情况下:往往是斜率就有变化,或斜率、截
距同时发生变化 。
? 斜率的变化可通过以乘法的方式引入虚拟变量来
测度 。
例, 根据消费理论,消费水平 C主要取决于收入水
平 Y,但在一个较长的时期,人们的消费倾向会发生
变化,尤其是在自然灾害、战争等反常年份,消费
倾向往往出现变化。这种消费倾向的变化可通过在
收入的系数中引入虚拟变量来考察。
ttttt XDXC ???? ???? 210
? 这里,虚拟变量 D以与 X相乘的方式引入了模型中,
从而可用来考察消费倾向的变化。
? 假定 E(?i)= 0,上述模型所表示的函数可化为:
正常年份:
tttt XDXCE )()1,|( 210 ??? ????
反常年份:
tttt XDXCE 10)0,|( ?? ???
如,设
?
?
??
0
1
tD 反常年份
正常年份 消费模型可建立如下:
当截距与斜率发生变化时,则需要同时引入加
法与乘法形式的虚拟变量 。
? 例 5.1.1,考察 1990年前后的中国居民的总储蓄 -收
入关系是否已发生变化 。
表 5.1.1中给出了中国 1979~2001年以城乡储蓄存
款余额代表的居民储蓄以及以 GNP代表的居民收入
的数据 。
表 5,1,1 197 9~ 2 001 年中国居民储蓄与收入数据 (亿元)
90 年前 储蓄 GNP 90 年后 储蓄 GNP
1979 281 4038.2 1991 9107 216 62,5
1980 399.5 4517.8 1992 115 45,4 266 51,9
1981 523.7 4860.3 1993 147 62,4 345 60,5
1982 675.4 5301.8 1994 215 18,8 466 70,0
1983 892.5 5957.4 1995 296 62,3 574 94,9
1984 1214.7 7206.7 1996 385 20,8 668 50,5
1985 1622.6 8989.1 1997 462 79,8 731 42,7
1986 2237.6 102 01,4 1998 534 07,5 769 67,2
1987 3073.3 119 54,5 1999 596 21,8 805 79,4
1988 3801.5 149 22,3 2000 643 32,4 882 28,1
1989 5146.9 169 17,8 2001 737 62,4 943 46,4
1990 7034.2 185 98,4
以 Y为储蓄,X为收入,可令:
? 1990年前,Yi=?1+?2Xi+?1i i=1,2…,n1
? 1990年后,Yi=?1+?2Xi+?2i i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) ?1=?1, 且 ?2=?2, 即两个回归相同, 称为 重合回
归 ( Coincident Regressions) ;
(2) ?1??1,但 ?2=?2, 即两个回归的差异仅在其截距,
称为 平行回归 ( Parallel Regressions) ;
(3) ?1=?1, 但 ?2??2, 即两个回归的差异仅在其斜率,
称为 汇合回归 (Concurrent Regressions);
(4) ?1??1,且 ?2??2, 即两个回归完全不同, 称为 相
异回归 ( Dissimilar Regressions) 。
可以运用 邹氏结构变化的检验 。这一问题也可通过
引入乘法形式的虚拟变量来解决。
将 n1与 n2次观察值合并,并用以估计以下回归:
iiiiii XDDXY ????? ????? )(4310
Di为引入的虚拟变量:
??
??
0
1
iD
于是有:
iiii XXDYE 10),0|( ?? ???
iiii XXDYE )()(),1|( 4130 ???? ?????
可分别表示 1990年 后期 与 前期 的储蓄函数。
年后
年前
90
90
在统计检验中,如果 ?4=0的假设被拒绝,则说
明两个时期中储蓄函数的斜率不同。
? 具体的回归结果为:
(-6.11) (22.89) (4.33) (-2.55)
由 ?3与 ?4的 t检验可知:参数显著地不等于 0,强
烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前:
1990年后:
iiiii XDDXY 4 7 6 5.03.1 3 8 0 28 8 8 1.01 5 4 5 2? ?????
2R =0.9836
ii XY 4116.07.1649? ???
ii XY 8881.015452? ???
3、临界指标的虚拟变量的引入
在经济发生转折时期, 可通过建立临界指标的虚
拟变量模型来反映 。
例如, 进口消费品数量 Y主要取决于国民收入 X
的多少, 中国在改革开放前后, Y对 X的回归关系明
显不同 。
这时, 可以 t*=1979年为转折期, 以 1979年的国
民收入 Xt*为临界值, 设如下虚拟变量:
??
??
0
1
tD *
*
tt
tt
?
? 则进口消费品的回归模型可建立如下:
tttttt DXXXY ???? ????? )( *210
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
ttttt DXXXY )(???? *210 ???? ???
当 t<t*=1979年,tt XY 10 ??? ?? ??
当 t?t*=1979年,tit XXY )??()??(? 21*20 ???? ????
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变
量的类别数少 1,即如果有 m个定性变量,只在模型
中引入 m-1个虚拟变量。
例 。 已知冷饮的销售量 Y除受 k种定量变量 Xk的影
响外,还受春、夏、秋、冬四季变化的影响,要考察
该四季的影响,只需引入三个虚拟变量即可:
??
??
0
1
1tD 其他
春季
??
??
0
1
2tD 其他
夏季
??
??
0
1
3tD
其他
秋季
则冷饮销售量的模型为:
? 在上述模型中,若再引入第四个虚拟变量
ttttktktt DDDXXY ??????? ??????? 332211110 ?
??
??
0
1
4tD 其他
冬季
则冷饮销售模型变量为:
tttttktktt DDDDXXY ???????? ???????? 44332211110 ?
其矩阵形式为:
μαβD)( X,Y ???
?
?
???
??
如果只取六个观测值,其中春季与夏季取了
两次,秋、冬各取到一次观测值,则式中的:
显然,(X,D)中的第 1列可表示成后 4列的线性组合,
从而 (X,D)不满秩,参数无法唯一求出。
这就是所谓的,虚拟变量陷井,,应避免。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
00011
00101
10001
01001
00101
00011
)(
616
515
414
313
212
111
k
k
k
k
k
k
XX
XX
XX
XX
XX
XX
?
?
?
?
?
?
DX,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
k
?
?
?
?
1
0
β
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
4
3
2
1
?
?
?
?
α
模型:专门问题
§ 5.1 虚拟变量
§ 5.2 滞后变量
§ 5.3 设定误差
§ 5.4 建模理论
§ 5.1 虚拟变量模型
一、虚拟变量的基本含义
二、虚拟变量的引入
三、虚拟变量的设置原则
一、虚拟变量的基本含义
? 许多经济变量是 可以定量度量 的,如,商品需求
量、价格、收入、产量等
? 但也有一些影响经济变量的因素 无法定量度量,
如,职业、性别对收入的影响,战争、自然灾害
对 GDP的影响,季节对某些产品(如冷饮)销售
的影响等等。
? 为了在模型中能够反映这些因素的影响,并提高
模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来
完成的。根据这些因素的属性类型,构造只取,0”
或,1”的人工变量,通常称为 虚拟变量 ( dummy
variables),记为 D。
? 例如,反映文程度的虚拟变量可取为,
1,本科学历
D=
0,非本科学历
一般地,在虚拟变量的设置中:
? 基础类型、肯定类型取值为 1;
? 比较类型,否定类型取值为 0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟
变 量 模 型 或 者 方 差 分 析 ( analysis-of variance:
ANOVA) 模型 。
一个以性别为虚拟变量考察企业职工薪金的模型:
iiii DXY ???? ???? 210
其中,Yi为企业职工的薪金, Xi为工龄,
Di=1,若是男性, Di=0,若是女性 。
二、虚拟变量的引入
? 虚拟变量做为解释变量引入模型有两种基本方式:
加法方式 和 乘法方式 。
iiii XDXYE 10)0,|( ?? ???
企业男职工的平均薪金为:
iiii XDXYE 120 )()1,|( ??? ????
上述企业职工薪金模型中性别虚拟变量的引入采
取了加法方式。
在该模型中,如果仍假定 E(?i)=0,则
企业女职工的平均薪金为:
1、加法方式
几何意义:
? 假定 ?2>0,则两个函数有相同的斜率,但有不同
的截距。意即,男女职工平均薪金对教龄的变化
率是一样的,但两者的平均薪金水平相差 ?2。
? 可以通过传统的回归检验,对 ?2的统计显著性进
行检验,以判断企业男女职工的平均薪金水平是
否有显著差异。
年薪 Y 男职工
女职工
工龄 X?0
?2
又例,在横截面数据基础上,考虑个人保健支出
对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下,
高中,
大学及其以上
?
?
??
0
1
1D 其他
高中
?
?
??
0
1
2D 其他
大学及其以上
模型可设定如下:
iii DDXY ????? ????? 231210
这时需要引入两个虚拟变量:
在 E(?i)=0 的初始假定下,高中以下、高中、大学
及其以上教育水平下个人保健支出的函数:
? 高中以下:
iii XDDXYE 1021 )0,0,|( ?? ????
? 高中,iii XDDXYE 12021 )()0,1,|( ??? ?????
? 大学及其以上:
iii XDDXYE 13021 )()1,0,|( ??? ?????
假定 ?3>?2,其几何意义:
大学教育
保健 高中教育
支出
低于中学教育
收入
? 还可将多个虚拟变量引入模型中以考察多种“定
性”因素的影响。
如 在上述职工薪金的例中, 再引入代表学历的虚拟
变量 D2:
iii DDXY ????? ????? 231210
??
??
0
1
2D
本科及以上学历
本科以下学历
职工薪金的回归模型可设计为:
?女职工本科以下学历的平均薪金:
iii XDDXYE 13021 )()1,0,|( ??? ?????
?女职工本科以上学历的平均薪金:
iii XDDXYE 132021 )()1,1,|( ???? ??????
iii XDDXYE 1021 )0,0,|( ?? ????
iii XDDXYE 12021 )()0,1,|( ??? ?????
于是,不同性别、不同学历职工的平均薪金分别为:
?男职工本科以下学历的平均薪金:
?男职工本科以上学历的平均薪金:
2、乘法方式
? 加法方式引入虚拟变量,考察,截距的不同,
? 许多情况下:往往是斜率就有变化,或斜率、截
距同时发生变化 。
? 斜率的变化可通过以乘法的方式引入虚拟变量来
测度 。
例, 根据消费理论,消费水平 C主要取决于收入水
平 Y,但在一个较长的时期,人们的消费倾向会发生
变化,尤其是在自然灾害、战争等反常年份,消费
倾向往往出现变化。这种消费倾向的变化可通过在
收入的系数中引入虚拟变量来考察。
ttttt XDXC ???? ???? 210
? 这里,虚拟变量 D以与 X相乘的方式引入了模型中,
从而可用来考察消费倾向的变化。
? 假定 E(?i)= 0,上述模型所表示的函数可化为:
正常年份:
tttt XDXCE )()1,|( 210 ??? ????
反常年份:
tttt XDXCE 10)0,|( ?? ???
如,设
?
?
??
0
1
tD 反常年份
正常年份 消费模型可建立如下:
当截距与斜率发生变化时,则需要同时引入加
法与乘法形式的虚拟变量 。
? 例 5.1.1,考察 1990年前后的中国居民的总储蓄 -收
入关系是否已发生变化 。
表 5.1.1中给出了中国 1979~2001年以城乡储蓄存
款余额代表的居民储蓄以及以 GNP代表的居民收入
的数据 。
表 5,1,1 197 9~ 2 001 年中国居民储蓄与收入数据 (亿元)
90 年前 储蓄 GNP 90 年后 储蓄 GNP
1979 281 4038.2 1991 9107 216 62,5
1980 399.5 4517.8 1992 115 45,4 266 51,9
1981 523.7 4860.3 1993 147 62,4 345 60,5
1982 675.4 5301.8 1994 215 18,8 466 70,0
1983 892.5 5957.4 1995 296 62,3 574 94,9
1984 1214.7 7206.7 1996 385 20,8 668 50,5
1985 1622.6 8989.1 1997 462 79,8 731 42,7
1986 2237.6 102 01,4 1998 534 07,5 769 67,2
1987 3073.3 119 54,5 1999 596 21,8 805 79,4
1988 3801.5 149 22,3 2000 643 32,4 882 28,1
1989 5146.9 169 17,8 2001 737 62,4 943 46,4
1990 7034.2 185 98,4
以 Y为储蓄,X为收入,可令:
? 1990年前,Yi=?1+?2Xi+?1i i=1,2…,n1
? 1990年后,Yi=?1+?2Xi+?2i i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) ?1=?1, 且 ?2=?2, 即两个回归相同, 称为 重合回
归 ( Coincident Regressions) ;
(2) ?1??1,但 ?2=?2, 即两个回归的差异仅在其截距,
称为 平行回归 ( Parallel Regressions) ;
(3) ?1=?1, 但 ?2??2, 即两个回归的差异仅在其斜率,
称为 汇合回归 (Concurrent Regressions);
(4) ?1??1,且 ?2??2, 即两个回归完全不同, 称为 相
异回归 ( Dissimilar Regressions) 。
可以运用 邹氏结构变化的检验 。这一问题也可通过
引入乘法形式的虚拟变量来解决。
将 n1与 n2次观察值合并,并用以估计以下回归:
iiiiii XDDXY ????? ????? )(4310
Di为引入的虚拟变量:
??
??
0
1
iD
于是有:
iiii XXDYE 10),0|( ?? ???
iiii XXDYE )()(),1|( 4130 ???? ?????
可分别表示 1990年 后期 与 前期 的储蓄函数。
年后
年前
90
90
在统计检验中,如果 ?4=0的假设被拒绝,则说
明两个时期中储蓄函数的斜率不同。
? 具体的回归结果为:
(-6.11) (22.89) (4.33) (-2.55)
由 ?3与 ?4的 t检验可知:参数显著地不等于 0,强
烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前:
1990年后:
iiiii XDDXY 4 7 6 5.03.1 3 8 0 28 8 8 1.01 5 4 5 2? ?????
2R =0.9836
ii XY 4116.07.1649? ???
ii XY 8881.015452? ???
3、临界指标的虚拟变量的引入
在经济发生转折时期, 可通过建立临界指标的虚
拟变量模型来反映 。
例如, 进口消费品数量 Y主要取决于国民收入 X
的多少, 中国在改革开放前后, Y对 X的回归关系明
显不同 。
这时, 可以 t*=1979年为转折期, 以 1979年的国
民收入 Xt*为临界值, 设如下虚拟变量:
??
??
0
1
tD *
*
tt
tt
?
? 则进口消费品的回归模型可建立如下:
tttttt DXXXY ???? ????? )( *210
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
ttttt DXXXY )(???? *210 ???? ???
当 t<t*=1979年,tt XY 10 ??? ?? ??
当 t?t*=1979年,tit XXY )??()??(? 21*20 ???? ????
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变
量的类别数少 1,即如果有 m个定性变量,只在模型
中引入 m-1个虚拟变量。
例 。 已知冷饮的销售量 Y除受 k种定量变量 Xk的影
响外,还受春、夏、秋、冬四季变化的影响,要考察
该四季的影响,只需引入三个虚拟变量即可:
??
??
0
1
1tD 其他
春季
??
??
0
1
2tD 其他
夏季
??
??
0
1
3tD
其他
秋季
则冷饮销售量的模型为:
? 在上述模型中,若再引入第四个虚拟变量
ttttktktt DDDXXY ??????? ??????? 332211110 ?
??
??
0
1
4tD 其他
冬季
则冷饮销售模型变量为:
tttttktktt DDDDXXY ???????? ???????? 44332211110 ?
其矩阵形式为:
μαβD)( X,Y ???
?
?
???
??
如果只取六个观测值,其中春季与夏季取了
两次,秋、冬各取到一次观测值,则式中的:
显然,(X,D)中的第 1列可表示成后 4列的线性组合,
从而 (X,D)不满秩,参数无法唯一求出。
这就是所谓的,虚拟变量陷井,,应避免。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
00011
00101
10001
01001
00101
00011
)(
616
515
414
313
212
111
k
k
k
k
k
k
XX
XX
XX
XX
XX
XX
?
?
?
?
?
?
DX,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
k
?
?
?
?
1
0
β
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
4
3
2
1
?
?
?
?
α