§ 10.2 持续时间数据模型
Duration Data Model
一、计量经济学中持续时间分析问题的提出
二,Hazard比率与 Hazard比率模型
一、计量经济学中持续时间分析问题的
提出
⒈ 经济生活中的持续时间问题
? 以某项活动的持续时间作为研究对象的经济问题。
? 失业问题
? 罢工问题
? 设备运行时间问题
⒉ 持续时间被解释变量的计量经济学问题
? 以失业的持续时间分析为例,看看这类计量经济
学问题的特征。
? 以失业的持续时间 t 作为被解释变量,以年龄、
受教育程度、家庭状况、工作经历、健康状况等
作为解释变量,建立如下失业模型:
T i ni i i? ? ? ?? X ? 1 2,,,?
? 模型的3个特点:
– 失业已经持续的时间并不是失业持续时间的真实反映,
不能作为失业持续时间的观测值。
– 取得部分解释变量的样本观测值存在困难,因为它们
在持续时间内是变化的。
– 失业者关心的不是如何解释失业已经持续的时间,而
是希望知道在观测值 t时刻之后的最短时间内能够重新
就业的可能性为多大。
? 首先从上述持续时间被解释变量计量经济学模型
的第 3个特征入手;
? 并假设解释变量的样本观测值在失业持续的时间
内是不变化的,即忽略上述第 2个问题;
? 然后再扩展到两类样本数据,即第1个问题。
二,Hazard比率与 Hazard比率模型
⒈ Hazard比率
? 随机变量 T具有连续的概率密度函数 f(t),t是 T的
一个观测值,即事件已经持续的时间。应该有,
P T t F t f z dz
t
( ) ( ) ( )? ? ? ?
0
S t F t P T t( ) ( ) ( )? ? ? ?1
定义为 生存函数
P t T t T t( )? ? ? ??
事件在 t之后的一个短时间 Δ
内结束的概率
? 称为 Hazard
比率 。事件
以该比率在
已经持续 t时
间后结束。
? ( ) lim
( )
lim
( ) ( )
( )
( )
( )
t
P t T t T t
F t F t
S t
f t
S t
?
? ? ? ?
?
? ?
?
?
?
?
?
?
?
?
?
0
0
? ( ) ln ( )t d S tdt? ?
f t S t t( ) ( ) ( )? ?
ln ( ) ( ) ( )S t z dz t
t
? ? ? ?? ?

0
?S t e t( ) ( )? ? ?
Hazard比率与 t的概
率密度函数 f、条件分
布函数 F和生存函数 S
之间的关系
⒉ 不考虑外生变量的 Hazard比率模型
? 既然人们更关心事件在 t之后的一个短时间 Δ内结
束的可能性,而该可能性又可以通过 Hazard比率
来描述,那么可以直接建立 Hazard比率模型,估
计 Hazard比率的参数,然后再通过积分得到生存
函数和条件分布函数。这就是持续时间被解释变
量计量经济学模型的总的研究思路。
? 如何构造和求解 Hazard比率模型,首先通过两个
简单的例子来说明。
⑴ Hazard比率为一个常数
? 假设 Hazard比率为一个常数 λ,即假设事件在 t之
后的一个短时间内结束的概率是相同的,与已经
持续的时间无关。这种事件在实际中也是存在的,
被称为“无记忆”的过程。
? 那么即有:
? ?d S t
dt
ln ( ) ? ln ( )S t k t? ? ?
S t Ke t( ) ? ? ?S t e t( ) ? ? ?
微分方程的解
因为,得到 K=1S P T( ) ( )0 0 1? ? ?
这就是说 t的生存函数 S服从指数分布。
如何估计常数 λ?
因为对于指数分布,有, E t( ) ? 1 ?
?? ? 1 t
即为 λ的最大似然估计量 。其中的 f由样本观测值计
算得到,于是得到 Hazard比率的估计量。
⑵ Hazard比率为一个线性函数
由 t的密度函数和样本观测值,利用最大似然法,
可以得到参数 α,β的估计量,进而得到 Hazard
比率的估计量,使该持续时间计量经济学问题得
到解决。
? ? ?( )t t? ?
? ( ) ( )t z dz t t
t
? ? ?? ? ? ?
0
1
2
2
f t S t t t e t( ) ( ) ( ) ( ) ( )? ? ?? ? ?
如果得到参数 β的估计
量为正,表示 Hazard
比率随着持续时间的
增长而增大,也表示
在 t之后的一个短时间
Δ内结束事件的概率随
着持续时间的增长而
增大;如果得到参数
的估计量为负,则反
之。
⒊ 几种常用的 Hazard比率模型
? 在上面的描述中,首先对 Hazard比率作出假设,
导出生存函数和密度函数,然后利用最大似然法
估计参数。
? 如果人们并不首先对 Hazard比率作出假设,而是
直接对生存函数所服从的分布作出假设,然后直
接估计该分布的参数,结果是相同的。
? 这就是实际中通常采用的思路。其过程如下:
比率参数估计量 H a z a r dtfttS ? ??? ??? ??? ?? )()()( ?
? 下列分布经常被作为生存函数 S(t)的分布
S t e t p( ) ( )? ? ?
S t p t( ) ( ln( ))? ?? ?
S t t p( ) ( ( ) )? ?1 1 ?
韦伯分布
对数正态分布
对数逻辑分布
? 对于生存函数的每种分布,都有对应的 Hazard比
率函数。
⒋ 考虑两类样本数据的最大似然估计
? 必须将持续时间样本观测值分为两类,一类是对
已经结束的事件进行的调查,一类是对仍处于持
续过程中的事件进行的调查。对于前者,持续时
间的观测值是真实的;而对于后者,样本观测值
实际上是“归并”数据。
? Hazard比率模型的对数似然函数为:
ln ln ( (,) ) ln ( (,) )L f t p S t p? ?? ?? ?
非归并观测值 归并观测值
ln ln ( (,) ) ln ( (,) )L t p S t p? ?? ?? ? ?
非归并观测值 所有观测值
f t S t t( ) ( ) ( )? ?
⒌ 考虑外生变量的 Hazard比率模型
? 对事件持续进行因果分析,则要引入影响持续时
间的各种因素。
? 但是,人们并不建立以持续时间为被解释变量的
模型,而是以 Hazard比率为被解释变量,以影响
持续时间的各种因素为解释变量建立模型,而且
为了估计的方便,对模型的关系类型作出特定的
假设。
? 例如,对于生存函数服从韦伯分布的情况,建立
如下模型,并且假设在持续的时间内,Xi具有不
变的观测值。
? i e? ? ?? X i
w p t p ti i t i? ? ? ?l n ( ) ( l n )? ? X i
等价的线性模型
f w p w ei i w i( ) e x p ( )? ?
S w ei w i( ) exp ( )? ?
? 采用最大似然法估计等价的线性模型。
考虑到持续时间样本观测值分为两类,令
?
?
i
i
?
?
?
?
?
1
0
如果持续时间观测值取 自已经结束事件的个体
如果持续时间观测值取 自尚未结束事件的个体
ln ( ln ( ) ( ) ln ( ))L f w S wi i i i
i
n
? ? ?
?
? ? ?1
1
ln ( ( ln ) )L w ei i w
i
n
i? ? ?
?
? ? ?
1
? ? 1 p
利用 ? ? ? ?w w
i i? ? ? ? ?w i i? ? ? X
对简化的对数似然函数求极大,得到关于参数估
计量的方程组,采用牛顿迭代方法求解方程组,
即得到参数估计量。