§ 9.1 离散被解释变量数据计量经济学
模型(一) — 二元选择模型
Models with Discrete Dependent
Variables— Binary Choice Model
一、二元离散选择模型的经济背景
二、二元离散选择模型
三、二元 Probit离散选择模型及其参数估计
四、二元 Logit离散选择模型及其参数估计
五、二元离散选择模型的变量显著性检验
说明
? 在经典计量经济学模型中,被解释变量通常被假
定为连续变量。
? 离散被解释变量数据计量经济学模型( Models
with Discrete Dependent Variables)和离散
选择模型 (DCM,Discrete Choice Model)。
? 二元选择模型 (Binary Choice Model)和多元选择
模型 (Multiple Choice Model)。
? 本节只介绍二元选择模型。
? 离散选择模型起源于 Fechner于 1860年进行的动物
条件二元反射研究。
? 1962年,Warner首次将它应用于经济研究领域,
用以研究公共交通工具和私人交通工具的选择问
题。
? 70,80年代,离散选择模型被普遍应用于经济布
局、企业定点、交通问题、就业问题、购买决策
等经济决策领域的研究。
? 模型的估计方法主要发展于 80年代初期。
一、二元离散选择模型的经济背景
实际经济生活中的二元选择问题
? 研究选择结果与影响因素之间的关系。
? 影响因素包括两部分,决策者的属性 和 备选方案
的属性 。
? 对于单个方案的取舍。例如,购买者对某种商品
的购买决策问题,求职者对某种职业的选择问题,
投票人对某候选人的投票决策,银行对某客户的
贷款决策。由 决策者的属性决定。
? 对于两个方案的选择。例如,两种出行方式的选
择,两种商品的选择。由 决策者的属性 和 备选方
案的属性共同决定。
二、二元离散选择模型
1、原始模型
? 对于二元选择问题,可以建立如下计量经济学模
型。其中 Y为观测值为 1和 0的决策被解释变量; X
为解释变量,包括选择对象所具有的属性和选择
主体所具有的属性。
Y X? ?? ? y i ? ?X i i? ?
0)( ?iE ? ?? iX)( iyE
iiii pyPyPyE ??????? )0(0)1(1)(
E y P yi i( ) ( )? ? ?1 X i ?
)0(1)1( ????? iiii yPpyPp
左右端矛盾
? 由于存在这两方面的问题,所以原始模型不能作
为实际研究二元选择问题的模型。
? 需要将原始模型变换为效用模型。
? 这是离散选择模型的关键。
? i i
i
y
y?
? ?
? ? ?
?
?
?
1 1
0 1
X X
X X
i i
i i
? ?
? ?
当,其概率为
当,其概率为
具有异
方差性
2、效用模型
作为研究对象的二元选择模型
U i i i1 1? ?X 1? ?
U i i i0 0 0? ?X ? ?
U Ui i i i i1 0 1 0? ? ? ? ?X 1 0( ) ( )? ? ? ?
y i i* *? ?X i ? ?
第 i个个体 选择 1的效用
第 i个个体 选择 0的效用
P y P y Pi i i( ) ( ) ( )* *? ? ? ? ? ?1 0 ? X i ?
? 注意,在模型中,效用是不可观测的,人们能够
得到的观测值仍然是选择结果,即 1和 0。
? 很显然,如果不可观测的 U1>U0,即对应于观测
值为 1,因为该个体选择公共交通工具的效用大于
选择私人交通工具的效用,他当然要选择公共交
通工具;
? 相反,如果不可观测的 U1≤U0,即对应于观测值
为 0,因为该个体选择公共交通工具的效用小于选
择私人交通工具的效用,他当然要选择私人交通
工具。
3,最大似然估计
? 欲使得效用模型可以估计,就必须为随机误差项
选择一种特定的概率分布。
? 两种最常用的分布是标准正态分布和逻辑
( logistic)分布,于是形成了两种最常用的二元
选择模型 — Probit模型 和 Logit模型 。
? 最大似然函数及其估计过程如下:
F t F t( ) ( )? ? ?1
P y P y P
P
F F
i i i
i
( ) ( ) ( )
( )
( ) ( )
* *
*
? ? ? ? ? ?
? ? ? ?
? ? ? ?
1 0
1
1
?
?
X
X
X X
i
i
i i
?
?
? ?
P y y y F Fn
y yi i
(,,,) ( ( )) ( )1 2
0 1
1? ? ?
? ?
? ?X Xi i? ?
L F F
i
n
? ? ?
?
? ( ( )) ( ( ))X Xi y i 1 yi i? ?1
1
标准正态分布或逻
辑分布的对称性
似然函数
ln ( ln ( ) ( ) l n ( ( )))L y F y Fi i
i
n
? ? ? ?
?
? X Xi i? ?1 1
1
?
?
ln
( ) ( )
L y f
F y
f
F
i i
i
i
i
ii
n
? ? ? ?
?
?
?
?
?
?
?
? ?
?
? 1 1
1
X 0i
? 在样本数据的支持下,如果知道概率分布函数
和概率密度函数,求解该方程组,可以得到模
型参数估计量。
1阶极值条件
三、二元 Probit离散选择模型及其参数
估计
1、标准正态分布的概率分布函数
F t x dx
t
( ) ( ) e x p ( )? ??
? ?
? 2 2
1
2 2?
f x x( ) ( ) e x p ( )? ??2 21 2 2?
2、重复观测值不可以得到情况下二元 Probit
离散选择模型的参数估计
?
?
?
ln
( )
( )
L f
F
f
F
q f q
F q
i
i
y
i
i
i
y
i i i
i i
i
n
i
i
n
i i
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
?
?
? ?
?
?
1
0 1
1
1
X X
X
X
X
X
0
i
i
i
q yi i? ?2 1
? 关于参数的非线性函数,不能直接求解,需采用
完全信息最大似然法中所采用的迭代方法。
? 应用计量经济学软件。
? 这里所谓“重复观测值不可以得到”,是指对每
个决策者只有一个观测值。如果有多个观测值,
也将其看成为多个不同的决策者。
例 贷款决策模型
? 分析与建模,某商业银行从历史贷款客户中随机
抽取 78个样本,根据设计的指标体系分别计算它
们的“商业信用支持度”( CC)和“市场竞争地
位等级”( CM),对它们贷款的结果( JG)采
用二元离散变量,1表示贷款成功,0表示贷款失
败。目的是研究 JG与 CC,CM之间的关系,并为
正确贷款决策提供支持。
? 样




JG XY SC JGF JG XY SC JGF JG XY SC JGF
0 1 2 5, 0 - 2 0, 0 0 0 0 0 1 5 0 0 - 2 0, 0 0 0 0 0 5 4, 0 0 - 1 0, 0 0 0 0
0 5 9 9, 0 - 2 0, 0 0 0 0 0 9 6, 0 0 0 0, 0 0 0 0 1 4 2, 0 0 2 1, 0 0 0 0
0 1 0 0, 0 - 2 0, 0 0 0 0 1 - 8, 0 0 0 0 1, 0 0 0 0 0 4 2, 0 0 0 0, 0 2 0 9
0 1 6 0, 0 - 2 0, 0 0 0 0 0 3 7 5, 0 - 2 0, 0 0 0 0 1 1 8, 0 0 2 1, 0 0 0 0
0 4 6, 0 0 - 2 0, 0 0 0 0 0 4 2, 0 0 - 1 6,5 E - 13 0 8 0, 0 0 1 6,4 E - 12
0 8 0, 0 0 - 2 0, 0 0 0 0 1 5, 0 0 0 2 1, 0 0 0 0 1 - 5, 0 0 0 0 1, 0 0 0 0
0 1 3 3, 0 - 2 0, 0 0 0 0 0 1 7 2, 0 - 2 0, 0 0 0 0 0 3 2 6, 0 2 0, 0 0 0 0
0 3 5 0, 0 - 1 0, 0 0 0 0 1 - 8, 0 0 0 0 1, 0 0 0 0 0 2 6 1, 0 1 0, 0 0 0 0
1 2 3, 0 0 0 0, 9 9 7 9 0 8 9, 0 0 - 2 0, 0 0 0 0 1 - 2, 0 0 0 - 1 0, 9 9 9 9
0 6 0, 0 0 - 2 0, 0 0 0 0 0 1 2 8, 0 - 2 0, 0 0 0 0 0 1 4, 0 0 - 2 3, 9 E - 07
0 7 0, 0 0 - 1 0, 0 0 0 0 1 6, 0 0 0 0 1, 0 0 0 0 1 2 2, 0 0 0 0, 9 9 9 1
1 - 8, 0 0 0 0 1, 0 0 0 0 0 1 5 0, 0 - 1 0, 0 0 0 0 0 1 1 3, 0 1 0, 0 0 0 0
0 4 0 0, 0 - 2 0, 0 0 0 0 1 5 4, 0 0 2 1, 0 0 0 0 1 4 2, 0 0 1 0, 9 9 8 7
0 7 2, 0 0 0 0, 0 0 0 0 0 2 8, 0 0 - 2 0, 0 0 0 0 1 5 7, 0 0 2 0, 9 9 9 9
0 1 2 0, 0 - 1 0, 0 0 0 0 1 2 5, 0 0 0 0, 9 9 0 6 0 1 4 6, 0 0 0, 0 0 0 0
1 4 0, 0 0 1 0, 9 9 9 8 1 2 3, 0 0 0 0, 9 9 7 9 1 1 5, 0 0 0 1, 0 0 0 0
1 3 5, 0 0 1 0, 9 9 9 9 1 1 4, 0 0 0 1, 0 0 0 0 0 2 6, 0 0 - 2 4, 4 E - 16
1 2 6, 0 0 1 1, 0 0 0 0 0 4 9, 0 0 - 1 0, 0 0 0 0 0 8 9, 0 0 - 2 0, 0 0 0 0
1 1 5, 0 0 - 1 0, 4 4 7 2 0 1 4, 0 0 - 1 0, 5 4 9 8 1 5, 0 0 0 1 1, 0 0 0 0
0 6 9, 0 0 - 1 0, 0 0 0 0 0 6 1, 0 0 0 2,1 E - 12 1 - 9, 0 0 0 - 1 1, 0 0 0 0
0 1 0 7, 0 1 0, 0 0 0 0 1 4 0, 0 0 2 1, 0 0 0 0 1 4, 0 0 0 1 1, 0 0 0 0
1 2 9, 0 0 1 1, 0 0 0 0 0 3 0, 0 0 - 2 0, 0 0 0 0 0 5 4, 0 0 - 2 0, 0 0 0 0
1 2, 0 0 0 1 1, 0 0 0 0 0 1 1 2, 0 - 1 0, 0 0 0 0 1 3 2, 0 0 1 1, 0 0 0 0
1 3 7, 0 0 1 0, 9 9 9 9 0 7 8, 0 0 - 2 0, 0 0 0 0 0 5 4, 0 0 0 1, 4 E - 07
0 5 3, 0 0 - 1 0, 0 0 0 0 1 0, 0 0 0 0 1, 0 0 0 0 0 1 3 1, 0 - 2 0, 0 0 0 0
0 1 9 4, 0 0 0, 0 0 0 0 0 1 3 1, 0 - 2 0, 0 0 0 0 1 1 5, 0 0 0 1, 0 0 0 0
CC=XY
CM=SC
?该方程表示,当 CC和 CM已知时,代入方程,可以计算贷款成
功的概率 JGF。例如,将表中第 19个样本观测值 CC=15,CM=
- 1代入方程右边,计算括号内的值为 0.1326552;查标准正态
分布表,对应于 0.1326552的累积正态分布为 0.5517;于是,
JG的预测值 JGF=1- 0.5517=0.4483,即对应于该客户,贷款
成功的概率为 0.4483。
输出的估计结果
模拟预测
? 预测,如果有一个新客户,根据客户资料,计算
的“商业信用支持度”( XY)和“市场竞争地位
等级”( SC),代入模型,就可以得到贷款成功
的概率,以此决定是否给予贷款。
3、重复观测值可以得到情况下二元 Probit离
散选择模型的参数估计
? 对每个决策者有多个重复(例如 10次左右)观测
值。
? 对第 i个决策者重复观测 ni次,选择 yi=1的次数比
例为 pi,那么可以将 pi作为真实概率 Pi的一个估计
量。
? 建立,概率单位模型”,采用广义最小二乘法估
计 。
? 实际中并不常用。
? 详见教科书。
四、二元 Logit离散选择模型及其参数
估计
1、逻辑分布的概率分布函数
F t
e t
( ) ?
? ?
1
1
f t e
e
t
t( ) ( )? ?
?
?1 2
F t e
e
t
t
t( ) ( )? ? ?1 ?
f t e
e
t t
t
t( ) ( ) ( )( ( ))? ? ? ?1 12 ? ?
,0 0
,0 5
,1 0
,1 5
,2 0
,2 5
,3 0
5 10 15 20 25 30 35 40
F
0, 0
0, 2
0, 4
0, 6
0, 8
1, 0
5 10 15 20 25 30 35 40
D F
B?rsch-Supan于 1987年指出,
? 如果选择是按照效用最大化而进行的,具有极限
值的逻辑分布是较好的选择,这种情况下的二元
选择模型应该采用 Logit模型。
2、重复观测值不可以得到情况下二元 logit
离散选择模型的参数估计
? 关于参数的非线性函数,不能直接求解,需采用
完全信息最大似然法中所采用的迭代方法。
? 应用计量经济学软件。
?
?
ln
( )
( )
( ( ) )
L y f
F
y
f
F
y
i i
i
i
i
ii
n
i
i
n
?
? ?
? ? ?
?
?
?
?
?
?
?
?
? ? ?
?
?
?
?
1
1
1
1
X
X X 0
i
i i
Probit
0.999999
1.000000
0.447233
0.000000
3、重复观测值可以得到情况下二元 logit离
散选择模型的参数估计
? 对每个决策者有多个重复(例如 10次左右)观测
值。
? 对第 i个决策者重复观测 ni次,选择 yi=1的次数比
例为 pi,那么可以将 pi作为真实概率 Pi的一个估计
量。
? 建立“对数成败比例模型”,采用广义最小二乘
法估计 。
? 实际中并不常用。
? 详见教科书。
五、二元离散选择模型的变量显著性
检验
1、检验假设
? 经典模型中采用的变量显著性 t检验仍然是有效的。
? 如果省略的变量与保留的变量不是正交的,那么
对参数估计量将产生影响,需要进一步检验这种
省略是否恰当。
零假设为:
*
11
*
0, ???? XYH
备择假设为:
*
2211
*
1, ?????? XXYH
2、统计量
用于检验的统计量为 Wa l d 统计量,LR 统计量 和 LM 统计 量,具体
计算方法如下,
2
1
22
??
?? ??
?
VW
其中 )
?
(
22
?? AsyVarV 。
)
??
( ln2
10
LLnLLR ???
其中
0
?
L,
1
?
L 分别为
0
H 情形和
1
H 情形下的似然函数值的估计量。
0
1
00
gVgLM
?
??
其中
0
g 是
1
H 情形下的对数似然函数对参数估计量的一阶导数向量,

0
H 情形下 的最大似然参数估计量代入计算;
0
V 是
1
H 情形下参数
最大似然估计量的方差矩阵估计量。
如果 X2中的变量省略后对参数估计量
没有影响,那么 H1和 H0情况下的对数
最大似然函数值应该相差不大,此时
LR统计量的值很小,自然会小于临界
值,不拒绝 H0。