1
第八章虚拟变量回归计量经济学
2
在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、
手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、
学习用品类消费不突显。
显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?
面临的问题,如何把男女生这样的非数量变量引入方程?
引子,男女大学生消费真有差异吗?
3
问题的一般性描述在实际建模中,一些定性变量具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业属性
(制造业、零售业)、所有制(私营、非私营)、
地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。
如何对非定量因素进行回归分析?
采用“虚拟变量”对定性变量进行量化一种思路。
4
第八章 虚拟变量回归本章主要讨论,
● 虚拟变量
●虚拟解释变量的回归
●虚拟被解释变量的回归 (选讲,不包括 )
5
第一节 虚拟变量本节基本内容,
● 基本概念
●虚拟变量设置规则
6
一、基本概念定量因素:可直接测度、数值性的因素。
定性因素:属性因素,表征某种属性存在与否的非数值性的因素。
基本思想:
直接在回归模型中加入定性因素存在诸多的困难
(那些困难?),是否可将这些定性因素进行量化,以达到定性因素能与定量因素有着相同作用之目的。
7
计量经济学中,将取值为 0和 1的人工变量称为虚拟变量。虚拟变量也称:哑元变量、定性变量等等。通常用字母 D或 DUM加以表示(英文中虚拟或者哑元 Dummy的缩写)。
对定性变量的量化可采用虚拟变量的方式实现。
虚拟变量的定义
8
虚拟变量的设置规则涉及三个方面,
1.“0” 和,1” 选取原则
2.属性(状态、水平)因素与设置虚拟变量数量的关系
3.虚拟变量在回归分析中的角色以及作用等方面的问题二,虚拟变量 设置规则
9
,0” 和,1” 选取原则
虚拟变量取,1” 或,0” 的原则,应从分析问题的目的出发予以界定。
从理论上讲,虚拟变量取,0” 值通常代表比较的基础类型;而虚拟变量取,1” 值通常代表被比较的类型。
,0” 代表基期(比较的基础,参照物);
,1” 代表报告期(被比较的效应)。
10
例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为,1”,女性为,0” 。
例 1
问题,
为何只选 0,1,选 2,3,4行吗?为什么?
D
1 男( 1 ) =
0 女
D
( ) 1 改 革 开 放 以 后2 = 0 改 革 开 放 以 前
1D
天 气 阴( )
其 他
13=
0 2D
( ) 1 天 气 雨4= 0 其 他
11
定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节( 4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。
属性的状态(水平)数与虚拟变量数量的关系
( 0,1 )
( 0,0)
DD
12
(1,0) 天 气 阴如,(,) = 天 气 雨其 他
12
1.若定性因素具有 个 相互排斥属性 (或几个水平 ),当回归模型有截距项时,只能引入个虚拟变量;
2.当回归模型无截距项时,则可引入 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (为什么?)
虚拟变量数量的设置规则
()m? 2
-1m
m
m
13
研究居民住房消费支出 和居民可支配收入 之间的数量关系。回归模型的设定为:
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对,城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 上的差异,设 为城镇 ;
为农村,则模型为
(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态( ),故只设定一个虚拟变量。 )
一个例子 (虚拟变量陷阱 )
iXiY
01 1i i iY = + X + u ( )
0 1 1 1 2i i iY = + X + D + u ( )
1 =1iDiY
1 =0iD
2m?
14
若对两个相互排斥的属性,居民属性”,仍然引入 个虚拟变量,则有则模型( 1)为则对任一家庭都有:,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是,完全多重共线性 。
2
1=
0iD
农 村 居 民城 镇 居 民
0 1 1 1 2 2 3i i iY X D D u ( )
12 1D + D =
1
1=
0iD
城 镇 居 民农 村 居 民
12 10D + D - =
2m?
15
虚拟变量既可作为被解释变量,也可作为解释变量,分别称其为虚拟被解释变量和虚拟解释变量。
虚拟被解释变量的研究是当前计量经济学研究的前沿领域,如 MacFadden,Heckmen等人的微观计量经济学研究,大量涉及到虚拟被解释变量的分析。
本课程只是讨论虚拟解释变量的问题虚拟变量在回归模型中的角色
16
第二节 虚拟解释变量的回归本节基本内容,
● 加法类型
● 乘法类型
● 虚拟解释变量综合应用
17
在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即实质,加法方式引入虚拟变量改变的是截距;
乘法方式引入虚拟变量改变的是斜率。
0t t tY X u1 D
1t t tY X u2 tXD
01
12
i i i Y = + β X + u
= + D
= + D
原 模 型加 法 方 式 引 入乘 法 方 式 引 入
:
18
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。
分为四种情形讨论:
( 1)解释变量只有一个定性变量而无定量变量,
而且定性变量为两种相互排斥的属性;
( 2) 解释变量分别为一个定性变量 ( 两种属性 )
和一个定量解释变量;
一,加法类型
19
( 3)解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量;
( 4)解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量;
思考:
四种加法方式引入虚拟变量会产生什么效应?
20
( 1)一个两种属性定性解释变量而无定量变量的情形
01
0
ii
ii
Y
Y
城 市( )
01
01
()i i i i
i i i
Y f D D
YD
模 型 形 式,
例 如,
01
0
E = 1 = +
E = 0 =
ii
ii
Y | D
Y | D
那 么,( )
1
0iD
城 市其 中,= ( 比 较 的 基 础,农 村 )
农 村农村
21
( 2) 一个定性解释变量(两种属性)
和一个定量解释变量的情形 01
01
1
0
i i i i i
i i i i
i
Y = f( D X ) + μ D
Y = D + X + μ
Y X D
模 型 形 式,
例 如,
城 市其 中,- 支 出 ; - 收 入 ;
农 村
01
0
|,1
|,0
i i i i
i i i i
E Y X D X
E Y X D X
( )
( )
01
0
i i i
i i i
Y = + + X + μ
Y = + X + μ
( )城市农村
22
共同的特征:截距发生改变(?)
Y
X
23
( 3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形
12
0 1 1 2 2 3 3
12
3
()
56 4
11
00
1
0
i i i
i i i
Y = f X D D,.,+ μ
Y X D
Y D D D X
DD
D
模 型 形 式
( 如,民 族 有 种 特 性 ; 季 度 有 种 特 性 )
例 如,啤 酒 售 量,人 均 收 入,季 度 ;
一 季 度 二 季 度其 中,
其 它 其 它三 季 度其 它
,,,
24
1 1 2 3 0 1
1 2 1 3 0 2
1 3 1 2 0 3
1 1 2 3 0
E,1,0
E,1,0 ( )
E,1,0 ( )
E,0
ii
ii
ii
ii
Y | X D D D X
Y | X D D D X
Y | X D D D X
Y | X D D D X
一 季 度,
二 季 度,
三 季 度,
四 季 度,
基 准,四 季 度
( )
25
( 4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形
26
夏 季,城 市 居 民夏季、农村居民
1 2 0 1E = 1,= 0 = +i i iY | X,D D X( ) +
1 2 0E |,0,0i i iY X D D X
1 2 0 1 2E |,1,1i i iY X D D X( )
1 2 0 2E |,0,1 ( )i i iY X D D X
冬 季,城
+
市 居 民冬季、农村居民
27
上述图形的前提条件是什么?
DD121,1
DD120,1
0DD121,
00DD12,
Y
X
28
运用 OLS得到回归结果,再用 t检验讨论因素是否对模型有影响。
0 1 1 2 2,..t t t k k t t tY D D D X u
加法方式引入虚拟变量的一般表达式,
基本分析方法,条件期望。
1 2 0 1 1 2 2E ( /,,.,,,),,,t t t k t t t k k t tY D D D D D D X
29
加法方式引入虚拟变量的主要作用为:
1.在有定量解释变量的情形下,主要改变方程截距;
2.在没有定量解释变量的情形下,主要用于方差分析。
30
基本思想以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的 。 或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的 。
乘法引入方式,
( 1) 截距不变;
( 2) 截距和斜率均发生变化;
分析手段,仍然是条件期望 。
iX
二、乘法类型
31
模型形式:
例:研究消费支出 受收入,年份状况 的影响
( 1)截距不变的情形
Y X
12
12
1
()
1
0
E |,1 ( )
E |,0
t t t t t
t
t t t t
t t t t
Y X D X
Y X D
Y X D X
Y X D X
反 常 年 份其 中,消 费 支 出 ; 收 入 ;
正 常 年 份反 常 年 份正 常 年 份在 正 常 年 份 的 基 础 上 进 行 比 较,( 只 有 斜 率 系 数 发 生 改 变 ) 。
12,,t t t t tY = f X D X u D
D
32
( 2)截距和斜率均发生变化例,同样研究消费支出,收入,年份状况 间的影响关系。
0 1 1 2
0 1 1 2
1
()
1
0
E |,1 ( )
E |,0
t t t t t t
t
t t t t
t t t t
Y X D D X
Y X D
Y X D X
Y X D X
反 常 年 份其 中,消 费 支 出 ; 收 入 ;
正 常 年 份反 常 年 份正 常 年 份在 正 常 年 份 基 础 上 比 较,截 距 和 斜 率 系 数 都 改 变,为 什 么?
模型形式:
Y X
0 1 1 2,,,i t t t tY f X D D X D D
D
33
不同截距、斜率的组合图形重合回归:截距斜率均相同 平行回归:截距不同斜率相同共点回归:截距相同斜率不同 交叉(不同)回归:截距斜率均不同
34
三、虚拟解释变量综合应用所谓综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。
基本分析方式仍然是条件期望分析。
本课主要讨论
( 1)结构变化分析;
( 2)交互效应分析;
( 3)分段回归分析
35
( 1)结构变化分析结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、
不同的回归三个模型均不是同一模型。
平行回归模型的假定是斜率保持不变(加法类型,
包括方差分析);
共点回归模型的假定是截距保持不变(乘法类型,
又被称为协方差分析);
不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。
36
例:比较改革开放前、后我国居民(平均)“储蓄 — 收入”总量关系是否发生了变化?
模型的设定形式为,
1 2 1 2 ( ) 1
:
1
0
t t t t t t
tt
Y D X D X u
YX
D
其 中 为 储 蓄 总 额,为 收 入 总 额 。
改 革 开 放 后改 革 开 放 前
37
显然,只要,不同时为零,上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。
回归方程:
2?
1 2 1 2
11
E |,1 2
E |,0 ( 3 )
t t t
t t t
Y X D X
Y X D X
改 革 开 放 后 ( ) ( )
改 革 开 放 前
2?
38
问题:
1.本例中,平行、共点回归、不同的回归三模型的经济学背景解释是什么?
2.如何进行结构变化判断?
3.是否可对 (2),(3)分别进行 OLS 估计?为什么?
4.若分别对 (2),(3)进行 OLS 估计应注意什么?
39
( 2)交互效应分析交互作用,
一个解释变量的边际效应有时可能要依赖于另一个解释变量。为此,Klein和 Morgen(1951)提出了有关收入和财产在决定消费模式上相互作用的假设。他们认为消费的边际倾向不仅依赖于收入,
而且也依赖于财产的多少 —— 较富有的人可能会有不同的消费倾向。
40
为了捕获该影响,设 。假设边际消费倾向 依赖于财产 。一个简单的表示方法就是 。代入消费函数,有:
由于 捕获了收入和财产之间的相互作用而被称为交互作用项。
显然,刻画交互作用的方法,在变量为数量 (定量 )
变量时,是以乘法方式引入虚拟变量的。
C Y u
C Y Y Z u12
Z12
Z
YZ
41
例,是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。
模型设定为,
( 1)式中,以加法形式引入虚拟变量暗含何假设?
1 2 2 3 3
23
1
11
0 0
i i i i i
ii
Y D D X u
YX
DD
( )
其 中,( 农 副 产 品 收 益 ) ; ( 农 副 产 品 投 入 )
发 展 养 蜂 生 产发 展 油 菜 籽 生 产;
其 他 其 他
42
( 1)式以加法形式引入,暗含的假设为:
菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。
2iD 3iD
43
问题,如何刻画同时发展油菜籽生产和养蜂生产的交互作用?
基本思想,在模型中引入相关的两个变量的乘积。
区别之处 在于,上页定义中的交互效应是针对数量变量,而现在是定性变量,又应当如何处理?
44
为了反映 交互效应,将( 1)变为:
同时发展油菜籽和养蜂生产:
发展油菜籽生产:
发展养蜂生产:
基础类型,1i i iY X u
13i i iY X u( )
12i i iY X u( )
1 2 3 4i i iY X u( )
1 2 2 3 3 4 2 3i i i i i i iY D D D D X u
45
如何检验交互效应是否存在?
若拒绝原假设,即交互效应对 产生了影响(应该引入模型)。
2 3 4
04
14
H0
H0
iiD D t?
看 系 数 对 应 的 值,
:
即 检 验,
:
Y
46
作用,提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。
分段线性回归就是类似情形中常见的一种。
一个例子,研究不同时段我国居民的消费行为。
实际数据表明,1979年以前,我国居民的消费支出 呈缓慢上升的趋势;从 1979年开始,居民消费支出为快速上升趋势。
如何刻画我国居民在不同时段的消费行为?
( 3) 分段回归分析
tY
47
基本思路,采用乘法方式引入虚拟变量的手段。
显然,1979年是一个转折点,可考虑在这个转折点作为虚拟变量设定的依据。若设 = 1979,
当 时可引入虚拟变量。(为什么选择 1979
作为转折点?)
*X
*t < X
48
(t= 1955,1956,…,2004)
依据上述思路,有如下描述我国居民在不同时段消费行为模型:
居民消费趋势方程:
011979 ttY t u年 以 前,
*0 1 2 ()ttY t t X D u
1
0
t
t
tX
D
tX
其 中,
*0 2 1 21 9 7 9 ( )ttY X t u年 以 后,
49
1979年之前,回归模型的斜率为 ;
1979年之前,回归模型的斜率为 ;
若统计检验表明,显著不为零,则我国居民的消费行为在 1979年前后发生了明显改变。
■
1?
12
1?
2?
*X X
Y
2?
分析
50
第三节 案例分析为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄( ),以国民总收入 GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系,并建立相应的计量经济学模型 。
Y
51
表 8.1 国民总收入与居民储蓄存款 单位:亿元年份国民总收入
( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额( )
年份国民总收入 ( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增额
( )
1978 3624.1 210.6 NA 1991 21662.5 9241.6 2121.8
1979 4038.2 281 70.4 1992 26651.9 11759.4 2517.8
1980 4517.8 399.5 118.5 1993 34560.5 15203.5 3444.1
1981 4860.3 532.7 124.2 1994 46670 21518.8 6315.3
1982 5301.8 675.4 151.7 1995 57494.9 29662.3 8143.5
1983 5957.4 892.5 217.1 1996 66850.5 38520.8 8858.5
数据来源:,中国统计年鉴 2004》,中国统计出版社。表中,城乡居民人民币储蓄存款年增加额,为年鉴数值,与用年底余额计算的数值有差异。
Y YY
Y
YY
52
表 8.1 国民总收入与居民储蓄存款 (续) 单位:亿元年份国民总收入 ( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额
( )
年份国民总收入
( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额
( )
1984 7206.7 1214.7 322.2 1997 73142.7 46279.8 7759
1985 8989.1 1622.6 407.9 1998 76967.2 53407.5 7615.4
1986 10201.4 2237.6 615 1999 80579.4 59621.8 6253
1987 11954.5 3073.3 835.7 2000 88254 64332.4 4976.7
1988 14922.3 3801.5 728.2 2001 95727.9 73762.4 9457.6
1989 16917.8 5146.9 1374.2 2002 103935.3 86910.6 13233.2
1990 18598.4 7119.8 1923.4 2003 116603.2 103617.7 16631.9
Y YY
YYY
53
为了研究 1978— 2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示:
54
从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量( ),并作时序图(见左下图),
YY
55
从居民储蓄增量图 (上页左图 )可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在
1996年和 2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图看(见上页右图),也呈现出了相同的阶段性特征。
56
为了分析居民储蓄行为在 1996年前后和 2000年前后三个阶段的数量关系,引入虚拟变量 和 。
和 的选择,是以 1996,2000年两个转折点作为依据,
并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型:
其中:
1 2 3 1 4 2Y Y G N I G N I 6 6 8 5 0,5 0 G N I 8 8 2 5 4,0 0t t t t t t t D D u
1
1 1 9 9 6
0 1 9 9 6t
tD
t
年 以 后年 及 以 前2
1 2 0 0 0
0 2 0 0 0t
tD
t
年 以 后年 及 以 前
D1 D2
D1 D2
57
对上式进行回归后,有:
58
即有:
由于各个系数的 t检验均大于 2,表明各解释变量的系数显著地不等于 0,居民人民币储蓄存款年增加额的回归模型分别为:
1
Y Y - 83 0,40 45 0,14 45 G N I - 0,29 14 G N I - 66 8 50,5 0
se 17 2,16 26 0,00 57 0.02 72
- 4,82 34 25,1 70 0 - 10.7 192
t t t t
D
t
2
0.56 02 G N I - 882 54.0 0
se 0,04 01
13,9 58 1
tt
D
t
59
1
2
3
Y Y - 8 3 0,4 0 4 5 0,1 4 4 5 G N I 1 9 9 6
Y Y Y Y 1 8 6 4 9,8 3 1 2 - 0,1 4 6 9 G N I 1 9 9 6 2 0 0 0
Y Y - 3 0 7 9 0,0 5 9 6 0,4 1 3 3 G N I 2 0 0 0
t t t
t t t t
t t t
t?
这表明三个时期居民储蓄增加额的回归方程在统计意义上确实是不相同的。 1996年以前收入每增加 1
亿元,居民储蓄存款的平均增加 0.1445亿元;在
2000年以后,则为 0.4133亿元,已发生了很大变化。
60
上述模型与城乡居民储蓄存款与国民总收入之间的散布图是吻合的,与当时中国的实际经济运行状况也是相符的。
需要指出的是,在上述建模过程中,主要是从教学的目的出发运用虚拟变量法则,没有考虑通货膨胀因素。而在实证分析中,储蓄函数还应当考虑通货膨胀因素。
61
1.虚拟变量是人工构造的取值为 0和 1的作为属性变量代表的变量。
2.虚拟变量个数的设置有一定规则:在有截距项的模型中,若定性因素有 个相互排斥的类型,
只能引入 个虚拟变量,否则会陷入所谓
“虚拟变量陷阱”,产生完全的多重共线性。
第八章 小 结
m -1
m
62
3.在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。以加法方式引入虚拟变量改变的是模型的截距;以乘法方式引入虚拟变量改变的是模型的斜率。
4.解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归,称为方差分析模型。
63
5.解释变量包含一个分为两种类型定性变量的回归时,只使用了一个虚拟变量;解释变量包含一个两种以上类型的定性变量的回归时,定性变量有 种类型,依据虚拟变量设置规则引入了 个虚拟变量。
6.解释变量包含两个(或 个)定性变量的回归中,可选用了两个(或 个)虚拟变量去表示,
这并不会出现“虚拟变量陷阱”。
1m?
m
k
k
64
7.以乘法形式引入虚拟解释变量的主要作用在于:
对回归模型结构变化的检验;定性因素间交互作用的影响分析;分段线性回归等。
65
第八章 结 束
第八章虚拟变量回归计量经济学
2
在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、
手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、
学习用品类消费不突显。
显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?
面临的问题,如何把男女生这样的非数量变量引入方程?
引子,男女大学生消费真有差异吗?
3
问题的一般性描述在实际建模中,一些定性变量具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业属性
(制造业、零售业)、所有制(私营、非私营)、
地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。
如何对非定量因素进行回归分析?
采用“虚拟变量”对定性变量进行量化一种思路。
4
第八章 虚拟变量回归本章主要讨论,
● 虚拟变量
●虚拟解释变量的回归
●虚拟被解释变量的回归 (选讲,不包括 )
5
第一节 虚拟变量本节基本内容,
● 基本概念
●虚拟变量设置规则
6
一、基本概念定量因素:可直接测度、数值性的因素。
定性因素:属性因素,表征某种属性存在与否的非数值性的因素。
基本思想:
直接在回归模型中加入定性因素存在诸多的困难
(那些困难?),是否可将这些定性因素进行量化,以达到定性因素能与定量因素有着相同作用之目的。
7
计量经济学中,将取值为 0和 1的人工变量称为虚拟变量。虚拟变量也称:哑元变量、定性变量等等。通常用字母 D或 DUM加以表示(英文中虚拟或者哑元 Dummy的缩写)。
对定性变量的量化可采用虚拟变量的方式实现。
虚拟变量的定义
8
虚拟变量的设置规则涉及三个方面,
1.“0” 和,1” 选取原则
2.属性(状态、水平)因素与设置虚拟变量数量的关系
3.虚拟变量在回归分析中的角色以及作用等方面的问题二,虚拟变量 设置规则
9
,0” 和,1” 选取原则
虚拟变量取,1” 或,0” 的原则,应从分析问题的目的出发予以界定。
从理论上讲,虚拟变量取,0” 值通常代表比较的基础类型;而虚拟变量取,1” 值通常代表被比较的类型。
,0” 代表基期(比较的基础,参照物);
,1” 代表报告期(被比较的效应)。
10
例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为,1”,女性为,0” 。
例 1
问题,
为何只选 0,1,选 2,3,4行吗?为什么?
D
1 男( 1 ) =
0 女
D
( ) 1 改 革 开 放 以 后2 = 0 改 革 开 放 以 前
1D
天 气 阴( )
其 他
13=
0 2D
( ) 1 天 气 雨4= 0 其 他
11
定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节( 4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。
属性的状态(水平)数与虚拟变量数量的关系
( 0,1 )
( 0,0)
DD
12
(1,0) 天 气 阴如,(,) = 天 气 雨其 他
12
1.若定性因素具有 个 相互排斥属性 (或几个水平 ),当回归模型有截距项时,只能引入个虚拟变量;
2.当回归模型无截距项时,则可引入 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (为什么?)
虚拟变量数量的设置规则
()m? 2
-1m
m
m
13
研究居民住房消费支出 和居民可支配收入 之间的数量关系。回归模型的设定为:
现在要考虑城镇居民和农村居民之间的差异,如何办?
为了对,城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 上的差异,设 为城镇 ;
为农村,则模型为
(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态( ),故只设定一个虚拟变量。 )
一个例子 (虚拟变量陷阱 )
iXiY
01 1i i iY = + X + u ( )
0 1 1 1 2i i iY = + X + D + u ( )
1 =1iDiY
1 =0iD
2m?
14
若对两个相互排斥的属性,居民属性”,仍然引入 个虚拟变量,则有则模型( 1)为则对任一家庭都有:,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是,完全多重共线性 。
2
1=
0iD
农 村 居 民城 镇 居 民
0 1 1 1 2 2 3i i iY X D D u ( )
12 1D + D =
1
1=
0iD
城 镇 居 民农 村 居 民
12 10D + D - =
2m?
15
虚拟变量既可作为被解释变量,也可作为解释变量,分别称其为虚拟被解释变量和虚拟解释变量。
虚拟被解释变量的研究是当前计量经济学研究的前沿领域,如 MacFadden,Heckmen等人的微观计量经济学研究,大量涉及到虚拟被解释变量的分析。
本课程只是讨论虚拟解释变量的问题虚拟变量在回归模型中的角色
16
第二节 虚拟解释变量的回归本节基本内容,
● 加法类型
● 乘法类型
● 虚拟解释变量综合应用
17
在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即实质,加法方式引入虚拟变量改变的是截距;
乘法方式引入虚拟变量改变的是斜率。
0t t tY X u1 D
1t t tY X u2 tXD
01
12
i i i Y = + β X + u
= + D
= + D
原 模 型加 法 方 式 引 入乘 法 方 式 引 入
:
18
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。
分为四种情形讨论:
( 1)解释变量只有一个定性变量而无定量变量,
而且定性变量为两种相互排斥的属性;
( 2) 解释变量分别为一个定性变量 ( 两种属性 )
和一个定量解释变量;
一,加法类型
19
( 3)解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量;
( 4)解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量;
思考:
四种加法方式引入虚拟变量会产生什么效应?
20
( 1)一个两种属性定性解释变量而无定量变量的情形
01
0
ii
ii
Y
Y
城 市( )
01
01
()i i i i
i i i
Y f D D
YD
模 型 形 式,
例 如,
01
0
E = 1 = +
E = 0 =
ii
ii
Y | D
Y | D
那 么,( )
1
0iD
城 市其 中,= ( 比 较 的 基 础,农 村 )
农 村农村
21
( 2) 一个定性解释变量(两种属性)
和一个定量解释变量的情形 01
01
1
0
i i i i i
i i i i
i
Y = f( D X ) + μ D
Y = D + X + μ
Y X D
模 型 形 式,
例 如,
城 市其 中,- 支 出 ; - 收 入 ;
农 村
01
0
|,1
|,0
i i i i
i i i i
E Y X D X
E Y X D X
( )
( )
01
0
i i i
i i i
Y = + + X + μ
Y = + X + μ
( )城市农村
22
共同的特征:截距发生改变(?)
Y
X
23
( 3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形
12
0 1 1 2 2 3 3
12
3
()
56 4
11
00
1
0
i i i
i i i
Y = f X D D,.,+ μ
Y X D
Y D D D X
DD
D
模 型 形 式
( 如,民 族 有 种 特 性 ; 季 度 有 种 特 性 )
例 如,啤 酒 售 量,人 均 收 入,季 度 ;
一 季 度 二 季 度其 中,
其 它 其 它三 季 度其 它
,,,
24
1 1 2 3 0 1
1 2 1 3 0 2
1 3 1 2 0 3
1 1 2 3 0
E,1,0
E,1,0 ( )
E,1,0 ( )
E,0
ii
ii
ii
ii
Y | X D D D X
Y | X D D D X
Y | X D D D X
Y | X D D D X
一 季 度,
二 季 度,
三 季 度,
四 季 度,
基 准,四 季 度
( )
25
( 4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形
26
夏 季,城 市 居 民夏季、农村居民
1 2 0 1E = 1,= 0 = +i i iY | X,D D X( ) +
1 2 0E |,0,0i i iY X D D X
1 2 0 1 2E |,1,1i i iY X D D X( )
1 2 0 2E |,0,1 ( )i i iY X D D X
冬 季,城
+
市 居 民冬季、农村居民
27
上述图形的前提条件是什么?
DD121,1
DD120,1
0DD121,
00DD12,
Y
X
28
运用 OLS得到回归结果,再用 t检验讨论因素是否对模型有影响。
0 1 1 2 2,..t t t k k t t tY D D D X u
加法方式引入虚拟变量的一般表达式,
基本分析方法,条件期望。
1 2 0 1 1 2 2E ( /,,.,,,),,,t t t k t t t k k t tY D D D D D D X
29
加法方式引入虚拟变量的主要作用为:
1.在有定量解释变量的情形下,主要改变方程截距;
2.在没有定量解释变量的情形下,主要用于方差分析。
30
基本思想以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的 。 或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的 。
乘法引入方式,
( 1) 截距不变;
( 2) 截距和斜率均发生变化;
分析手段,仍然是条件期望 。
iX
二、乘法类型
31
模型形式:
例:研究消费支出 受收入,年份状况 的影响
( 1)截距不变的情形
Y X
12
12
1
()
1
0
E |,1 ( )
E |,0
t t t t t
t
t t t t
t t t t
Y X D X
Y X D
Y X D X
Y X D X
反 常 年 份其 中,消 费 支 出 ; 收 入 ;
正 常 年 份反 常 年 份正 常 年 份在 正 常 年 份 的 基 础 上 进 行 比 较,( 只 有 斜 率 系 数 发 生 改 变 ) 。
12,,t t t t tY = f X D X u D
D
32
( 2)截距和斜率均发生变化例,同样研究消费支出,收入,年份状况 间的影响关系。
0 1 1 2
0 1 1 2
1
()
1
0
E |,1 ( )
E |,0
t t t t t t
t
t t t t
t t t t
Y X D D X
Y X D
Y X D X
Y X D X
反 常 年 份其 中,消 费 支 出 ; 收 入 ;
正 常 年 份反 常 年 份正 常 年 份在 正 常 年 份 基 础 上 比 较,截 距 和 斜 率 系 数 都 改 变,为 什 么?
模型形式:
Y X
0 1 1 2,,,i t t t tY f X D D X D D
D
33
不同截距、斜率的组合图形重合回归:截距斜率均相同 平行回归:截距不同斜率相同共点回归:截距相同斜率不同 交叉(不同)回归:截距斜率均不同
34
三、虚拟解释变量综合应用所谓综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。
基本分析方式仍然是条件期望分析。
本课主要讨论
( 1)结构变化分析;
( 2)交互效应分析;
( 3)分段回归分析
35
( 1)结构变化分析结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、
不同的回归三个模型均不是同一模型。
平行回归模型的假定是斜率保持不变(加法类型,
包括方差分析);
共点回归模型的假定是截距保持不变(乘法类型,
又被称为协方差分析);
不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。
36
例:比较改革开放前、后我国居民(平均)“储蓄 — 收入”总量关系是否发生了变化?
模型的设定形式为,
1 2 1 2 ( ) 1
:
1
0
t t t t t t
tt
Y D X D X u
YX
D
其 中 为 储 蓄 总 额,为 收 入 总 额 。
改 革 开 放 后改 革 开 放 前
37
显然,只要,不同时为零,上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。
回归方程:
2?
1 2 1 2
11
E |,1 2
E |,0 ( 3 )
t t t
t t t
Y X D X
Y X D X
改 革 开 放 后 ( ) ( )
改 革 开 放 前
2?
38
问题:
1.本例中,平行、共点回归、不同的回归三模型的经济学背景解释是什么?
2.如何进行结构变化判断?
3.是否可对 (2),(3)分别进行 OLS 估计?为什么?
4.若分别对 (2),(3)进行 OLS 估计应注意什么?
39
( 2)交互效应分析交互作用,
一个解释变量的边际效应有时可能要依赖于另一个解释变量。为此,Klein和 Morgen(1951)提出了有关收入和财产在决定消费模式上相互作用的假设。他们认为消费的边际倾向不仅依赖于收入,
而且也依赖于财产的多少 —— 较富有的人可能会有不同的消费倾向。
40
为了捕获该影响,设 。假设边际消费倾向 依赖于财产 。一个简单的表示方法就是 。代入消费函数,有:
由于 捕获了收入和财产之间的相互作用而被称为交互作用项。
显然,刻画交互作用的方法,在变量为数量 (定量 )
变量时,是以乘法方式引入虚拟变量的。
C Y u
C Y Y Z u12
Z12
Z
YZ
41
例,是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。
模型设定为,
( 1)式中,以加法形式引入虚拟变量暗含何假设?
1 2 2 3 3
23
1
11
0 0
i i i i i
ii
Y D D X u
YX
DD
( )
其 中,( 农 副 产 品 收 益 ) ; ( 农 副 产 品 投 入 )
发 展 养 蜂 生 产发 展 油 菜 籽 生 产;
其 他 其 他
42
( 1)式以加法形式引入,暗含的假设为:
菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。
2iD 3iD
43
问题,如何刻画同时发展油菜籽生产和养蜂生产的交互作用?
基本思想,在模型中引入相关的两个变量的乘积。
区别之处 在于,上页定义中的交互效应是针对数量变量,而现在是定性变量,又应当如何处理?
44
为了反映 交互效应,将( 1)变为:
同时发展油菜籽和养蜂生产:
发展油菜籽生产:
发展养蜂生产:
基础类型,1i i iY X u
13i i iY X u( )
12i i iY X u( )
1 2 3 4i i iY X u( )
1 2 2 3 3 4 2 3i i i i i i iY D D D D X u
45
如何检验交互效应是否存在?
若拒绝原假设,即交互效应对 产生了影响(应该引入模型)。
2 3 4
04
14
H0
H0
iiD D t?
看 系 数 对 应 的 值,
:
即 检 验,
:
Y
46
作用,提高模型的描述精度。
虚拟变量也可以用来代表数量因素的不同阶段。
分段线性回归就是类似情形中常见的一种。
一个例子,研究不同时段我国居民的消费行为。
实际数据表明,1979年以前,我国居民的消费支出 呈缓慢上升的趋势;从 1979年开始,居民消费支出为快速上升趋势。
如何刻画我国居民在不同时段的消费行为?
( 3) 分段回归分析
tY
47
基本思路,采用乘法方式引入虚拟变量的手段。
显然,1979年是一个转折点,可考虑在这个转折点作为虚拟变量设定的依据。若设 = 1979,
当 时可引入虚拟变量。(为什么选择 1979
作为转折点?)
*X
*t < X
48
(t= 1955,1956,…,2004)
依据上述思路,有如下描述我国居民在不同时段消费行为模型:
居民消费趋势方程:
011979 ttY t u年 以 前,
*0 1 2 ()ttY t t X D u
1
0
t
t
tX
D
tX
其 中,
*0 2 1 21 9 7 9 ( )ttY X t u年 以 后,
49
1979年之前,回归模型的斜率为 ;
1979年之前,回归模型的斜率为 ;
若统计检验表明,显著不为零,则我国居民的消费行为在 1979年前后发生了明显改变。
■
1?
12
1?
2?
*X X
Y
2?
分析
50
第三节 案例分析为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄( ),以国民总收入 GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系,并建立相应的计量经济学模型 。
Y
51
表 8.1 国民总收入与居民储蓄存款 单位:亿元年份国民总收入
( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额( )
年份国民总收入 ( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增额
( )
1978 3624.1 210.6 NA 1991 21662.5 9241.6 2121.8
1979 4038.2 281 70.4 1992 26651.9 11759.4 2517.8
1980 4517.8 399.5 118.5 1993 34560.5 15203.5 3444.1
1981 4860.3 532.7 124.2 1994 46670 21518.8 6315.3
1982 5301.8 675.4 151.7 1995 57494.9 29662.3 8143.5
1983 5957.4 892.5 217.1 1996 66850.5 38520.8 8858.5
数据来源:,中国统计年鉴 2004》,中国统计出版社。表中,城乡居民人民币储蓄存款年增加额,为年鉴数值,与用年底余额计算的数值有差异。
Y YY
Y
YY
52
表 8.1 国民总收入与居民储蓄存款 (续) 单位:亿元年份国民总收入 ( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额
( )
年份国民总收入
( GNI)
城乡居民人民币储蓄存款年底余额
( )
城乡居民人民币储蓄存款增加额
( )
1984 7206.7 1214.7 322.2 1997 73142.7 46279.8 7759
1985 8989.1 1622.6 407.9 1998 76967.2 53407.5 7615.4
1986 10201.4 2237.6 615 1999 80579.4 59621.8 6253
1987 11954.5 3073.3 835.7 2000 88254 64332.4 4976.7
1988 14922.3 3801.5 728.2 2001 95727.9 73762.4 9457.6
1989 16917.8 5146.9 1374.2 2002 103935.3 86910.6 13233.2
1990 18598.4 7119.8 1923.4 2003 116603.2 103617.7 16631.9
Y YY
YYY
53
为了研究 1978— 2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示:
54
从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量( ),并作时序图(见左下图),
YY
55
从居民储蓄增量图 (上页左图 )可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在
1996年和 2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图看(见上页右图),也呈现出了相同的阶段性特征。
56
为了分析居民储蓄行为在 1996年前后和 2000年前后三个阶段的数量关系,引入虚拟变量 和 。
和 的选择,是以 1996,2000年两个转折点作为依据,
并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型:
其中:
1 2 3 1 4 2Y Y G N I G N I 6 6 8 5 0,5 0 G N I 8 8 2 5 4,0 0t t t t t t t D D u
1
1 1 9 9 6
0 1 9 9 6t
tD
t
年 以 后年 及 以 前2
1 2 0 0 0
0 2 0 0 0t
tD
t
年 以 后年 及 以 前
D1 D2
D1 D2
57
对上式进行回归后,有:
58
即有:
由于各个系数的 t检验均大于 2,表明各解释变量的系数显著地不等于 0,居民人民币储蓄存款年增加额的回归模型分别为:
1
Y Y - 83 0,40 45 0,14 45 G N I - 0,29 14 G N I - 66 8 50,5 0
se 17 2,16 26 0,00 57 0.02 72
- 4,82 34 25,1 70 0 - 10.7 192
t t t t
D
t
2
0.56 02 G N I - 882 54.0 0
se 0,04 01
13,9 58 1
tt
D
t
59
1
2
3
Y Y - 8 3 0,4 0 4 5 0,1 4 4 5 G N I 1 9 9 6
Y Y Y Y 1 8 6 4 9,8 3 1 2 - 0,1 4 6 9 G N I 1 9 9 6 2 0 0 0
Y Y - 3 0 7 9 0,0 5 9 6 0,4 1 3 3 G N I 2 0 0 0
t t t
t t t t
t t t
t?
这表明三个时期居民储蓄增加额的回归方程在统计意义上确实是不相同的。 1996年以前收入每增加 1
亿元,居民储蓄存款的平均增加 0.1445亿元;在
2000年以后,则为 0.4133亿元,已发生了很大变化。
60
上述模型与城乡居民储蓄存款与国民总收入之间的散布图是吻合的,与当时中国的实际经济运行状况也是相符的。
需要指出的是,在上述建模过程中,主要是从教学的目的出发运用虚拟变量法则,没有考虑通货膨胀因素。而在实证分析中,储蓄函数还应当考虑通货膨胀因素。
61
1.虚拟变量是人工构造的取值为 0和 1的作为属性变量代表的变量。
2.虚拟变量个数的设置有一定规则:在有截距项的模型中,若定性因素有 个相互排斥的类型,
只能引入 个虚拟变量,否则会陷入所谓
“虚拟变量陷阱”,产生完全的多重共线性。
第八章 小 结
m -1
m
62
3.在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。以加法方式引入虚拟变量改变的是模型的截距;以乘法方式引入虚拟变量改变的是模型的斜率。
4.解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归,称为方差分析模型。
63
5.解释变量包含一个分为两种类型定性变量的回归时,只使用了一个虚拟变量;解释变量包含一个两种以上类型的定性变量的回归时,定性变量有 种类型,依据虚拟变量设置规则引入了 个虚拟变量。
6.解释变量包含两个(或 个)定性变量的回归中,可选用了两个(或 个)虚拟变量去表示,
这并不会出现“虚拟变量陷阱”。
1m?
m
k
k
64
7.以乘法形式引入虚拟解释变量的主要作用在于:
对回归模型结构变化的检验;定性因素间交互作用的影响分析;分段线性回归等。
65
第八章 结 束