§ 10.1 受限被解释变量数据模型
—— 选择性样本
Model with Limited Dependent Variable
——Selective Samples Model
一、经济生活中的受限被解释变量问题
二,,截断, 问题的计量经济学模型
三,,归并, 问题的计量经济学模型
一、经济生活中的受限被解释变量问题
1,,截断, ( truncation)问题
? 由于条件限制,样本不能随机抽取,即不能从全
部个体,而只能从一部分个体中随机抽取被解释
变量的样本观测值,而这部分个体的观测值都大
于或者小于某个确定值。,掐头”或者“去尾”。
? 消费函数例题:被解释变量最底 200元、最高
10000元。原因:抽样。
? 离散选择模型的例题:银行贷款,实际上是选择
性样本,通常表现为“截断样本”。原因:问题
的局限。
能够获得贷款的企业是全部有贷款需
求的企业中表现良好的一部分类似的实际 问题很多
2,,归并, (censoring)问题
? 将被解释变量的处于某一范围的样本观测值都用
一个相同的值代替。
? 经常出现在“检查”、“调查”活动中,因此也
称为“检查” (censoring) 问题。
? 需求函数模型中用实际消费量作为需求量的观测
值,如果存在供给限制,就出现“归并”问题。
? 被解释变量观测值存在最高和最低的限制。例如
考试成绩,最高 100,最低 0,出现“归并”问题。
二,,截断, 问题的计量经济学模型
1、思路
? 如果一个单方程计量经济学模型,只能从“掐头”
或者“去尾”的连续区间随机抽取被解释变量的
样本观测值,那么很显然,抽取每一个样本观测
值的概率以及抽取一组样本观测值的联合概率,
与被解释变量的样本观测值不受限制的情况是不
同的。
? 如果能够知道在这种情况下抽取一组样本观测值
的联合概率函数,那么就可以通过该函数极大化
求得模型的参数估计量。
2、截断分布
f a fP a( ) ( )( )? ? ??? ? ?
f c
f
P c
b a
b a
d
b c
c
b
( )
( )
( )
( )
? ?
?
?
?
? ?
?
?
?
?
?
?
?
1
1
1
如果 ξ服从均匀分布 U(a,b),但是它只能在 (c,
b)内取得样本观测值,那么取得每一个样本
观测值的概率
α为随机变量 ξ分布范围内的
一个常数
f a
f
P a
e
( )
( )
( )
( )
( )
( )
( )
( ) / ( )
? ?
?
?
? ?
?
?
?
? ?
?
?
? ? ?
? ?
?
?
?
?
?
?
? ? ?
2
1
1
1
2 1 2 2
2 2
?
?
P a a( ) ( ) ( )? ??? ? ? ? ? ? ?1 1? ?
ξ服从正态
分布
Φ是标准
正态分
布条件
概率函

3、截断被解释变量数据模型的最大似然估计
y i i? ? ?? X i ? ? ?i N~ (,)0 2
y Ni X Xi i~ (,)?? ? 2
f y
y
ai
i
( )
(( ) / )
(( ) / )
?
? ?
? ? ?
1
1
?
? ?
?
?
? ?
X
X
i
i
ln ( l n ( ) ln ) ( )
ln
L
n
y
a
i
i
n
i
n
? ? ? ? ? ?
? ?
? ??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2
2
1
2
1
2
2
1
2
1
? ?
?
?
?
?
?
X
X
i
i
?
?
?
?
?
?
? ?
? ?
?
ln
( )
L
y
y
i i
i i ii
n
i
n
?
?
?
2
i
i
2
i
i
X
X
2
X
g 0
?
?
?
?
?
?
?
? ?
?
?
?
?
?
?
?
? ?
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
? ?
? ?
2
2
4 2
1 1
1
2 2
? ?i a? ? ?( )? X i ? ? ? ?i i i? ?( ) ( ( ))1 ?
? 求解该 1阶极值条件,即可以得到模型的参数估计
量。
? 由于这是一个复杂的非线性问题,需要采用迭代
方法求解,例如牛顿法。
4、例题 — 城镇居民消费模型
--截断样本数据
cons i ncom cons i ncom cons i ncom
11 12 3,84 13 88 2.6 2 50 64, 34 0 67 78,03 57 59, 21 0 70 41,87
78 67, 53 0 10 31 2.9 1 73 56, 26 0 99 99,54 49 48, 98 0 65 69,23
54 39, 77 0 72 39,06 49 14, 55 0 69 01,42 60 23, 56 0 76 43,57
51 05, 38 0 70 05,03 60 69, 35 0 83 99,91 80 45, 34 0 87 65,45
54 19, 14 0 70 12,9 49 41, 60 0 69 26,12 56 66, 54 0 68 06,35
60 77, 92 0 72 40,58 59 63, 25 0 732 1,98 52 98, 91 0 66 57,24
54 92, 10 0 70 05,17 60 82, 62 0 76 74,2 54 00, 24 0 67 45,32
50 15, 19 0 66 78,9 96 36, 27 0 12 38 0.4 3 53 30, 34 0 65 30,48
11 04 0,34 14 86 7.4 9 57 63, 50 0 77 85,04 55 40, 61 0 71 73,54
67 08, 58 0 92 62,46 55 02, 43 0 72 59,25
97 12, 89 0 13 17 9.5 3 71 18, 06 0 80 93,67
将这组样本看成是在 ≥4500的条件下随机抽取得到
将这组样本看成是在 ≥4000的条件下随机抽取得到
参数由 0,750072变
化为
似然函数值由-
228.6718减小为
似然函数值为
什么变小?
将这组样本看成是在 ≤11500,≥4500条件下随机抽取得到
参数由 0,750072变化为
似然函数值由-
228.6718增大为
似然函数值为
什么增大?
将这组样本看成是在 ≥0条件下随机抽取得到
结果与 OLS相同
似然函数值减小
似然函数值
最小
5、为什么截断被解释变量数据模型不能采用
普通最小二乘估计
? 对于截断被解释变量数据计量经济学模型,如果
仍然把它看作为经典的线性模型,采用 OLS估计,
会产生什么样的结果?
? 因为 yi只能在大于 a的范围内取得观测值,那么 yi
的条件均值为:
E y y a y y y a dy
a
a
i i i i i
a
i( ) ( )
(( ) / )
(( ) / )
? ? ?
? ? ?
? ?
? ? ?
?
? ?
?
? ?
?
?
?
? ?
X
X
X
i
i
i1
E y y ai i i( ) ( )? ? ? ?? X i ?? ?
y y a E y y a u ui i i i i i i? ? ? ? ? ? ? ?( ) ( )? X i ?? ?
?
?? i
i
X? ???
?
?
?
?
?
? ?
?
? ? ? ?
?
? ? ?
? ?
E y y a d
d
i i i
i
i
i i i
i i
( )
( )
( )
( ( ))
?
? ?
?
?
?
?
?
?
? ? ?
??
?
?
?
?
?
? ? ?
? ?
X X
i i
i
2
i
?
?
?
?
?
2
1
1
V a r u i i i i i( ) ( ) ( )? ? ? ? ?? ? ? ? ? ?2 2 21 1
? 由于被解释变量数据的截断问题,使得原模型变
换为包含一个非线性项模型。
? 如果采用 OLS直接估计原模型:
– 实际上忽略了一个非线性项;
– 忽略了随机误差项实际上的异方差性。
– 这就造成参数估计量的偏误,而且如果不了解解释变
量的分布,要估计该偏误的严重性也是很困难的。
6,Heckman两步修正法
? Sample Selection Bias as a Specification Error,
Econometrica 47(1),1979,P153-161
)1(111 iii xw ?? ??
)2(222* iii xe ?? ??
市场工
资方程
工作倾
向方程
正相关2,121,0)(,0)( ???? ?? EE
)()0( 2221*1 ???? iiiii xEeE ????
)()0,( 222111*1 ???? iiiiiii xExexwE ?????
iiiii xexwE ???? 111*1 )0,( ???
iiii xw ????? ??? 111
其中 ? 为
21,??
的相关系数,
1?

i1?
的标准差,
2?

i2?
的标准差。
)(
)(
2
22
2
22
?
?
?
?
?
?
i
i
i x
x
?
?
如何估计该模型?
– 第一步,用 probit模型估计⑵,利用全部样本;利用
估计结果,计算 λi。
– 第二步,利用选择性样本,将 (ρσ1)作为一个待估计参
数,估计模型,得到 β1的估计。
iiii xw ????? ??? 111
三,,归并, 问题的计量经济学模型
1、思路
? 以一种简单的情况为例,讨论“归并”问题的计
量经济学模型。即假设被解释变量服从正态分布,
其样本观测值以 0为界,凡小于 0的都归并为 0,
大于 0的则取实际值。如果 y*以表示原始被解释变
量,y以表示归并后的被解释变量,那么则有:
y y
y y y
? ?
? ?
0 0
0


*
* *
y N* ~ (,)? ? 2
? 单方程线性“归并”问题的计量经济学模型为:
y i i? ? ?? X i ? ? ?i N~ (,)0 2
?如果能够得到 yi的概率密度函数,那么就可以方便
地采用最大似然法估计模型,这就是研究这类问题
的思路。
?由于该模型是由 Tobin于 1958年最早提出的,所以
也称为 Tobin模型。
2,,归并, 变量的正态分布
? 由于原始被解释变量 y*服从正态分布,有
P y P y( ) ( )*? ? ? ? ??
??
?
??
? ? ?
??
?
??
0 0 1? ?
?
?
?
?
P y P y y( ) ( )* *? ?当 0
3、归并被解释变量数据模型的最大似然估计
? 该似然函数由两部分组成,一部分对应于没有限
制的观测值,是经典回归部分;一部分对应于受
到限制的观测值。
? 这是一个非标准的似然函数,它实际上是离散分
布与连续分布的混合。
? 如何理解后一部分?
ln l n ( ) ln
( )
lnL
y i
y yi i
? ? ? ?
? ??
?
??
?
?
?? ? ? ??
??
?
??
?
?
?
?
?
?
? ?
? ?12 2 12
2
2
0 0
? ?
? ?
?
?
?X Xi i
为什么要求和?
? 如果样本观测值不是以 0为界,而是以某一个数值
a为界,则有
y a y a
y y y a
? ?
? ?


*
* *
y N* ~ (,)? ? 2
估计原理与方法相同。
4、例题 — 城镇居民消费模型
--归并样本数据
cons i ncom cons i ncom cons i ncom
11 000,00 13 88 2.6 2 50 64, 34 0 67 78,03 57 59, 21 0 70 41,87
78 67, 53 0 10 31 2.9 1 73 56, 26 0 99 99,54 49 48, 98 0 65 69,23
54 39, 77 0 72 39,06 49 14, 55 0 69 01,42 60 23, 56 0 76 43,57
51 05, 38 0 70 05,03 60 69, 35 0 83 99,91 80 45, 34 0 87 65,45
54 19, 14 0 70 12,9 49 41, 60 0 69 26,12 56 66, 54 0 68 06,35
60 77, 92 0 72 40,58 59 63, 25 0 732 1,98 52 98, 91 0 66 57,24
54 92, 10 0 70 05,17 60 82, 62 0 76 74,2 54 00, 24 0 67 45,32
50 15, 19 0 66 78,9 96 36, 27 0 12 38 0.4 3 53 30, 34 0 65 30,48
110 00, 00 1 48 6 7, 49 57 63, 50 0 77 85,04 55 40, 61 0 71 73,54
67 08, 58 0 92 62,46 55 02, 43 0 72 59,25
97 12, 89 0 13 17 9.5 3 71 18, 06 0 80 93,67
11123.84
11040.34
Censored(11000) 估计
Depe nd e nt V aria bl e,CO N S
Me th od, ML - C en s ored No r m al ( T O B I T )
Date, 11 / 29 /0 4 T i m e,17,25
S am pl e,1 31
Inc l ud ed ob s erv ati on s, 3 1
Ri gh t c en s ori ng ( v a l ue ) s eri es, 11 0 00
Con v erge nc e a c h i e v ed af te r 8 i ter ati on s
Cov aria nc e m atri x c o m pu ted us i n g s ec on d d er i v ati v es
Coef f i c i en t S td,E r r or z - S t ati s t i c P r ob,
C 25,6 29 3 3 30 6,66 6 1 0.0 8 35 7 4 0.9 3 34
INCO M 0.7 7 52 1 2 0.0 3 68 9 1 21,0 13 4 8 0.0 0 00
E r r or Dis tr i bu t i on
S CA LE, C( 3) 39 6,75 3 9 52,2 29 1 8 7.5 9 64 0 3 0.0 0 00
R - s qu ared 0.9 4 99 6 8 Me an de p en d en t v ar 64 27,88 6
A dj us ted R - s qu are d 0.9 4 63 9 4 S,D,d ep e nd e nt v ar 17 46,95 9
S,E, of r eg r es s i on 40 4,47 2 5 A k ai k e i nf o c r i teri on 14,1 14 2 5
S um s qu ared res i d 45 80 74 5, S c hw ar z c r i t erio n 14,2 53 0 2
Lo g l i k el i ho o d - 21 5.7 70 8 Hann an - Q ui n n c r i ter,14,1 59 4 8
A v g,l og l i k el i ho o d - 6.9 60 34 8
Le f t c en s ored ob s 0 Ri gh t c en s or ed o bs 2
Unc en s ored ob s 29 T ota l ob s 31
参数估计结果、似然函数值都
与 OLS估计差异较大。 为什么
似然函数值大于 OLS估计?
Censored(12000) 估计 — 与 OLS相同
Depe nd e nt V aria bl e,CO N S
Me th od, ML - C en s ored No r m al ( T O B I T )
Date, 11 / 30 /0 4 T i m e,09,05
S am pl e,1 31
Inc l ud ed ob s erv ati on s, 3 1
Ri gh t c en s ori ng ( v a l ue ) s eri es, 12 0 00
Con v erge nc e a c h i e v ed af te r 4 i ter ati on s
Cov aria nc e m atri x c o m pu ted us i n g s ec on d d er i v ati v es
Coef f i c i en t S td,E r r or z - S t ati s t i c P r ob,
C 28 3,30 2 5 26 4,27 5 4 1.0 7 19 9 8 0.2 8 37
INCO M 0.7 4 07 7 4 0.0 3 07 3 9 24,0 98 5 2 0.0 0 00
E r r or Dis tr i bu t i on
S CA LE, C( 3) 38 6,86 3 6 49,1 32 4 4 7.8 7 38 9 3 0.0 0 00
R - s qu ared 0.9 4 93 5 9 Me an de p en d en t v ar 64 27,88 6
A dj us ted R - s qu are d 0.9 4 57 4 2 S,D,d ep e nd e nt v ar 17 46,95 9
S,E, of r eg r es s i on 40 6,92 5 3 A k ai k e i nf o c r i teri on 14,9 47 5 7
S um s qu ared res i d 46 36 46 9, S c hw ar z c r i t erio n 15,0 86 3 4
Lo g l i k el i ho o d - 22 8.6 87 3 Hann an - Q ui n n c r i ter,14,9 92 8 1
A v g,l og l i k el i ho o d - 7.3 77 01 1
Le f t c en s ored ob s 0 Ri gh t c en s or ed o bs 0
Unc en s ored ob s 31 T ota l ob s 31
5、实际模型中的 Truncation与 Censored
? 时间序列样本,不考虑。
? 截面上的全部个体作为样本,不考虑 Truncation。
? 按照抽样理论选取截面上的部分个体作为样本,不
考虑 Truncation。
? 按照特定的规则选取截面上的部分个体作为样本,
必须考虑 Truncation。
? 截面数据作样本,根据样本观测值的经济背景,决
定是否考虑 Censored。