§ 9.3 离散计数数据模型
( Models For Count Data)
一、问题的提出
二、泊松回归模型
三、泊松回归模型的扩展
一、问题的提出
1、经济、社会活动中的计数数据问题
? 发生事故次数的影响因素分析
? 更换工作次数的影响因素分析
? 婚姻问题研究
2、计量模型中的计数数据问题
? 通常计数数据模型的形式可以表示如下:
? ?,...2,1,0,),( ??? NRXXfN k
其中 N代表被解释变量,通常为正整数,N和 X之
间的关系由经济理论决定。
? 该模型假定,通过调查能够得到一组代表被解释
变量的数字(如 0,1,2,3… )以及相应的解释
变量的观察值。
? 建立模型的目的主要有两点:
– 检验从数据中可以观察到的行为模式是否与理论预期
相符;
– 将 N和 X之间的内在联系用数量化的方式表现出来。
? 从理论上讲,多元线性方程的参数估计方法也可
以被应用来分析计数数据模型问题。
? 但是很容易发现,计数数据中零元素和绝对值较
小的数据出现得较为频繁,而且离散特征十分明
显,利用这些特点,可以找到更合适的估计方法。
? 七十年代末以来,许多学者在计数数据模型的处
理方法方面作出了较大贡献,包括:
– Gilbert( 1979)提出了 泊松回归模型,
– Hausman,Hall和 Griliches( 1984)提出了负二项回
归模型和 Panel方法,
– Gourier,Monfort和 Trogonon( 1984)提出了仿最
大似然法。
? 其中,最先提出的泊松方法在研究计数数据模型
问题中应用得非常广泛。
二、泊松回归模型
1、泊松回归模型
? 泊松回归模型假定,被解释变量 yi服从参数为 ?i的
泊松分布,其中 ?i同解释变量 xi存在某种关系。该
模型的初始方程为:
,.,,,2,1,0,!)(Pr ???
?
i
i
y
i
ii yy
eyYob ii ??
假设 1,
nixxY iii,,2,1)e x p ()E( ??? ?
y 的 条件 均值 的 对 数是 x 和 ? 的 线 性 函数 。 意味 着
y 的 条件 均值 增加 1 单位 只 需要 ?x 的 较 小 的 增加 ;
y 的 条件 均值 的 给 定 百分比 变化 所要求 的 ?x 的 变
化 是 恒定 的 。
假设 2,
)(~ iii PoxY ?
)e x p ()E( ?? iiii xxY ??
? 最常用的关于 ?i的方程是对数线性模型,即
.'ln ii x?? ?
? ? ? ? ixiiiii exyV a rxyE '?? ???
根据泊松分布的性质
? ?
.?? i
i
ii
x
xyE
?
?
?
2、泊松回归模型的 ML估计
? 是一个非线性模型,最简单的方法是最大似然估
计法。对数似然函数为:
? ??
?
????
n
i
iiii yxyL
1
.!ln'ln ??
?
?
?????
n
i
iii xy
L
1
0)(ln ??
? 可以利用 Newton迭代法迅速地得到方程的参数估
计值。
? 由于对数似然函数的 Hessian矩阵对任何 x和 ?的
取值是负定的。即 LnL在稳定点有极大值,稳定
点指满足一阶条件的 ?。
?
?
??????
n
i
iii xx
LxyH
1
2
''ln),;( ????
? Newton-Raphson迭代,
)?())?((?? 11 tttt gH ???? ?? ??
??
?? Lg ln(, )
3、拟合优度
? 由于泊松模型的条件均值非线性,且回归方程存
在异方差,所以它不能产生类似于线性方程中的
R2统计量。学者提出了若干个替代性的统计量,
用以衡量该模型的拟合优度。
.
?
1
1
2
2
1
2
?
?
?
?
?
?
?
?
?
?
?
? ?
?
?
?
?
?
?
?
?
?
??
n
i
i
n
i
i
ii
p
y
yy
y
R
?
?
该统计量通过把泊松模型
同只有一种观察值的模型
相比较的方法,考察该模
型的拟合优度。但是这个
统计量有时为负,而且会
随变量的减少而变小。
? ?
? ?
??
n
i
n
i
iiii yydG
1 1
2 )?/ln (2 ?
该统计量为各样本观察
值的偏差之和。如果拟
合达到完美状态,则该
统计量为零。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
??
n
i
i
i
n
i
ii
i
i
i
d
y
y
y
y
y
y
R
1
12
)l o g (
)?()
?
l o g (
1
?
?
.
),(),(
),(),?(2
iii
ii
d yylyyl
yylylR
?
?? ?
该 统计量具有较好的性质。如果 用 ),(
ii yl ?
表示对数似然函数,其中
i?

iy
的估计值,则
泊松模型得出的对数似然函数为 ),(
ii yl ??
,只有一种观察值的模型的函数为 ),(
iyyl
,理
想模型的函数为 ),(
ii yyl
。于是有
分子和分母都衡量了模型在
只有一种观察值的模型基础
上的改进,分母为改进的最
大空间。所以该统计量的数
值在 0到 1之间。
.
),(
),?(
12
i
ii
L R I yyl
yl
R
?
??
“仿 R2”统计量
4、假设检验
? 检验解释变量的约束。
? 可以用三种标准的检验方法来检验泊松回归模型
的假设。
.' 2122 ?? ?? VW
Wald统计量 。其中为 β2受到
限制的解释变量的参数,
)'v a r ( 212 ?a s yV ??
?
?
?
?
?
?
?
?
?
?
?
n
i ir e s t r i c t e d
i
P
P
LR
1,
?
?
ln2
LR统计量 。分母描述受
到限制后的方程的解释
变量的似然概率。
? 三个统计量都服从 χ2分布,自由度为受限变量的
个数。如果统计值大于临界值,则拒绝原假设。
iGGGGi
yxyxxyxLM
n
i
iii
n
i
iiiiii
n
i
i
')'('
)?()?(')?('
1
1
1
1
2
1
?
?
?
??
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?? ??? ???
LM 统计量 。 G 的每一行等于 X 的每一行同相应的 )( iii ye ???? 的乘积,
i 为每项为 1 的列向量。
5、例题
? 轮船事故次数( accidents)与轮船型号( typea、
b,c,d,e)、制造年份( year60,65,70、
75)、投入使用年份( yearop60,75)和实际
服务时间( servmonth)的关系研究。
? 样本,34
注意入
选的解
释变量
部分参数
的经济意
义缺乏合
理解释。
只作为试
例。
ACCIDENTS = @EXP(1.645572184*TYPEA +
2.353413299*TYPEB + 0.4488787812*TYPEC +
0.8131627072*TYPED + 1.401045748*TYPEE -
0.6726004217*YEAR60 + 0.3731874354*YEAR65 +
0.7675535312*YEAR70 - 0.6994767419*YEAROP60 +
6.388715642e-05*SERVMONTH)
用 LR统
计量进
行假设
检验
0假设为:
制造年份
对事故次
数无影响
拒绝 0假设
0
10
20
30
40
50
60
5 10 15 20 25 30
A C C I D E N T S A C C I D E N T S F
预测结果与观测值的比较
? OLS估计与计数数据估计拟合值的比较
- 2 0
0
20
40
60
5 10 15 20 25 30
A C C I D E N T S A C C I D E N T S F A C C I D E N T S F L S
三、泊松回归模型的扩展
1、不平均分布检验( Overdispersion)
? 泊松模型假定被解释变量的均值等于方差,这是
一个非常强的假设,许多学者对此提出质疑,并
且发展了一些新的方法放松这一假设。
? 首先介绍该假设条件是否成立的检验。
? 基于回归的检验方法
– Cameron和 Trivedi在 1990年提出
])[(][][:1 iii yEgyEyV a rH ???
][][:0 ii yEyV a rH ?
2
)( 2
i
iii
i
yy
z
?
? ??
?
λi是由泊松
模型得出
的被解释
变量的预
测值
? 拉格朗日乘子检验法
– 基本思想也是放松泊松模型中均值等于方程的假设。
– 泊松分布是负二项分布的一种特殊情况,当对负二项
分布的某个参数加以一定的限制条件后,就能够得到
泊松分布。
– 在一般情况下,如果一个模型是在对另一个替代模型
的参数加以限制的条件下得到的,那么就可以得到 LM
统计量。
?
?
?
?
??
?
n
i
ii
n
i
iiii
w
yyw
LM
1
22
1
2
??2
])?[(?
?
?
wi的值取决于替代模
型的分布函数。对负
二项分布模型来说,
这个权重为 1。
2/1)'2/()'( ??yeenLM ??
2、负二项分布模型( Negative Binomial
Regression Model)
? 由于泊松模型假定被解释变量的均值等于方差,
人们提出了许多替代该模型的方法。其中应用得
较多的是负二项分布模型。
? Cameron和 Trivedi在 1986年提出负二项分布的
一种形式。
,l o gl o g'l o g iiiii uxy ???? ???
引入无法观察的
随机影响来使泊
松模型一般化
.'ln ii x?? ?
.! )()(
i
y
ii
u
ii y
ueuyf iii ????
.)(! )()(
0 ii
i
y
ii
u
ii duugy
uexyf iii? ? ?? ??
被解释变量的条
件分布
被解释变量
的分布
.)()( 1???? ??
?
?
?
i
u
i ueug
i
?? ~)ex p ( iiu ?
1)][ e x p ( ?iE ?
? 该分布是负二项分布的一种形式。
? 其条件均值为 λi,条件方差为 λi( 1+1/θ) λi) 。
? 由概率密度可以求得最大似然函数,再通过迭代法求出参
数估计。
? 对于负二项分布假设可以用 Wald或者 LR统计量进行检验。
ii
u
i
y
ii
u
ii duuey
uexyf
i
iii
1
0 )(!
)()( ??? ?
?
? ? ??
??
?
??
,,)1()()1( )( ?? ??? ? ?????? ???
i
i
ii
y
i
i
i rw h e r err
y
y
i
负二项分布回归模型
ACCIDENTS = @EXP(1.520444133*TYPEA +
2.270100317*TYPEB + 0.4581374106*TYPEC +
0.6449816375*TYPED + 1.358883951*TYPEE -
0.8616385402*YEAR60 + 0.2032389361*YEAR65 +
0.9661619692*YEAR70 - 0.7020010667*YEAROP60 +
7.402025976e-05*SERVMONTH)
0
20
40
60
80
5 10 15 20 25 30
A C C I D E N T S A C C I D E N T S F N
0
20
40
60
80
5 10 15 20 25 30
A C C I D E N T S A C C I D E N T S F A C C I D E N T S F N
拟合效果没有明
显改善
3、零变换泊松模型( Hurdle and Zero-
Altered Possion Models)
? 在某些情况下,被解释变量为零值的产生过程与
它取正值的过程差异很大。于是就有人提出了零
变换泊松模型来描述这个事实。
? Mullahey(1986)最先提出了一个 Hurdle模型,用
白努利分布来描述被解释变量分别为零值和正值
的概率。
???? eyob i )0(Pr
,...2,1)1(! )1()(Pr ????? ?
??
jej eejyob
i
i j
i
i ?
?? ?
改变了被解释变量取零值
的概率,但是所有取值的
概率之和保持为一
? Mullahey(1986),Lambert(1992)等人还分析了
在 hurdle模型的一种扩展情况,即假定被解释变
量的零值产生于两个区域( regime)中的一个。
在一个区域里,被解释变量总是零,而另一个区
域里,被解释变量的取值符合泊松过程,既可能
产生零,也可能产生其他数值。
? 如 Lambert对给定时间段内生产的次品数量建立
的模型,在生产过程得到控制的情形下,次品产
出为零,而生产过程不受控制时,产生的次品数
量服从泊松分布,既可能为零,也可能不为零。
? 模型形式如下:
如果用 z表示白努利分布的两种情况,事件发生在区域 1时令
z=0,发生在区域 2时令 z=1,并用 y*表示区域 2内被解释变
量服从的泊松过程,则所有观察值都可以表示为 z× y* 。
于是这个分离模型可表示为(式中 F为设定的分布函数):
],2[Pr]20[Pr]1[Pr]0[Pr r e g i m eobr e g i m eyobr e g i m eobyob ii ????
.,,,2,1],2[Pr]2[Pr][Pr ???? jr e g i m eobr e g i m ejyobjyob ii
),,(]0[Pr ?ii wFzob ??
!)1(Pr j
ezjyob ji
ii
i ???
???
]0[)1(0][ ?????? ?? iii yyEFFyE,
1)1( ieF
i
?
?
?????
? Lambert( 1992)和 Greene( 1994)考虑了许
多方法,其中包括应用 logit和 probit模型描述两
个区域各自的发生概率。
? 这些修正的方法都改变了泊松过程,即均值和方
差不再相等。
? 关于分离模型的进一步探讨比较复杂,请同学们
自行参考 Greene的教科书和相关文献。