生存分析介绍
To be or not to be is only a part of the question,
The question also includes how long to be.
引例对两组分别接受了 A处理和 B处理的小老鼠注射某种致癌物,
观察她们直至全部死亡。记录她们的存活天数并进行分析,数据如下:
A,143,164,188,188,190,192,206,209,213,216,220,227,230,234,
246,265,304,216+,244+
B,142,156,163,198,205,232,232,233,233,233,233,239,240,
261,280,280,296,296,353,204+,344+
何为生存分析
对生存 时间 进行分析的统计方法的总称。
描述生存时间分布
生存函数( survival function):到某时点为止事件仍未发生的概率分布。
风险函数( hazard function):在某时点的瞬间死亡率。
组间的生存时间分布的比较
考察可能与生存时间有关联的协变量
协变量调整( adjust for covariates):在协变量的同一水平上进行比较。
生存分析的历史与应用
17,18世纪:寿命表的提出及其应用。
1926年,Greenwood提出评价生存函数的误差的方法 —
Greenwood公式。
1958年:生存函数的计算方法 — Kaplan-Meier法(乘积极限法 product-limit)的提出。
1960年代中叶:生存时间的组间比较方法的开发 — 广义
Wilcoxon秩和检验( Gehan,1965年);对数秩检验( log-
rank test)又称时序检验( Mantel,1966年)。
1970年:将协变量的影响模型化 — 参数模型:假设生存时间服从 Weibull分布、对数正态分布等;半参数模型:
比例风险模型( Cox,1972年),又称 Cox回归模型。
生存分析的几个基本概念
生存时间:从某一基准时点开始到某种期待结局发生所持续的时间。
期待结局 — 事件:死亡、疾病复发、故障、再就业、中奖,
等。
基准时点:保证可比性的时点。例如:随机化分组时点、
机器启用。
删失( censor):又称截尾。指期待结局发生的正确时间未知。
右删失:期待结局发生的时间未知,只知道发生在某一时点之后。
左删失:期待结局发生的时间未知,只知道发生在某一时点之前。
期间删失:期待结局发生的时间未知,只知道发生在某两时点之间。
删失必须调整,否则导致偏倚。
生存时间的分布:右偏、非负。
关于删失删失的模式图随访开始 事件失访失访研究截止时仍存活研究截止时点患者进入期间描述生存时间分布对两组分别接受了 A处理和 B处理的小老鼠注射某种致癌物,
观察她们直至全部死亡。记录她们的存活天数并进行分析,数据如下:
A,143,164,188,188,190,192,206,209,213,216,220,227,230,234,
246,265,304,216+,244+
B,142,156,163,198,205,232,232,233,233,233,233,239,240,
261,280,280,296,296,353,204+,344+
The LIFETEST Procedure
Stratum 1,Group = 0
Product-Limit Survival Estimates
Survival
Standard Number Number
Days Survival Failure Error Failed Left
0.000 1.0000 0 0 0 19
143.000 0.9474 0.0526 0.0512 1 18
164.000 0.8947 0.1053 0.0704 2 17
188.000,,,3 16
188.000 0.7895 0.2105 0.0935 4 15
190.000 0.7368 0.2632 0.1010 5 14
192.000 0.6842 0.3158 0.1066 6 13
206.000 0.6316 0.3684 0.1107 7 12
209.000 0.5789 0.4211 0.1133 8 11
213.000 0.5263 0.4737 0.1145 9 10
216.000 0.4737 0.5263 0.1145 10 9
216.000*,,,10 8
220.000 0.4145 0.5855 0.1145 11 7
227.000 0.3553 0.6447 0.1124 12 6
230.000 0.2961 0.7039 0.1082 13 5
234.000 0.2368 0.7632 0.1015 14 4
244.000*,,,14 3
246.000 0.1579 0.8421 0.0934 15 2
265.000 0.0789 0.9211 0.0728 16 1
304.000 0 1.0000 0 17 0
NOTE,The marked survival times are censored observations.
生存函数的乘积 -极限估计法
:删失
0 t1 t2 t3 t4 t
死亡数 d1 d2 d3 d4
基数 n1(7) n2(6) n3(4) n4(1)
时间 t
0
1
S
(1-d1/n1)
(6/7) (1-d1/n1)?(1-d2/n2)
(6/7)?(5/6) (1-d1/n1)?(1-d2/n2)?(1-d3/n3)
(6/7)?(5/6)?(3/4)
生存函数和风险函数
描述生存时间分布的两种数学工具。严格地说,生存函数应被称为生存时间分布函数。
)(P r ob)(
,
tTtS
T
生存函数:
的非负随机变量表示生存时间
tHtS
tSduthtH
tSdt
tdS
tSt
ttStS
t
tTttTt
th
t
t
t
e x p
l og
1
l i m
|P r ob
l i m)(
0
0
0
累积风险函数:
生存函数、风险函数和累积风险函数
三种函数在数学上虽然等价,但在进行分析时却不等价。由于风险函数的估计容易受随机误差的影响,
而生存函数的估计则相对稳定。
生存函数的估计可以用人年法和 Kaplan-Meier法。
风险函数非负累积风险函数单调增加 生存函数1? 0 单调递减风险函数与生存函数的关系风险越大、死亡越快。
风险函数
h
h(t) 大
h(t) 小
0 t
生存函数
S
h(t) 大
h(t) 小
0 t
aaa tStSthath
Gehan白血病数据
Gehan的白血病数据(缓解时间,单位:周)
分析内容
作生存时间分布图(全体、分组)。
检验 6-MP组与对照组之间生存时间的分布是否一致。
检验不同处理对生存时间分布是否有影响。
对照组 (n=21)
1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23
6-MP组 (n=21)(#,删失 )
6# 6 6 6 7 9# 10# 10 11# 13 16 17# 19# 20# 22 23 25# 32# 32# 34# 35#
比较的两组之间生存函数是否不同的非参数检验方法
没有删失的例子
1 2 3
4 5 6
4 5 6
9 10 11
组别 j
1
2
时点 i
实际时间
>
>
具体计算方法比较的两组之间生存函数是否不同的非参数检验方法(续)
有删失的例子
1 2 3
4 5 6 7
4 5 6
9 10 11 13
组别 j
1
2
时点 i
实际时间
>
>
+
+
:删失
Logrank Test and Wilcoxon Test
由于权重不同,由两种方法得到差别有统计学意义的难易度随生存函数的不同而不同。
A
Logrank检验容易得到有意差时间0
1
生存率
B
Wilcoxon检验容易得到有意差时间0
1
生存率
C
两种检验方法都不容易得到有意差时间0
1
生存率协变量的效应与其模型化
协变量 =回归分析中的解释变量
,解释,的含义为反应结果的变化是由这些变量的变化造成的。
分组变量:用药不同、处理不同
预后因子(危险因子、混杂因子)
个体水平变量:癌大小、有无淋巴结转移、性别、年龄等等
环境因素:辅助疗法、中心、气温、气压、花粉量
时间依存性协变量
纵向数据( longitudinal data)
心脏移植的例子
固定效果( fixed effect)还是随机效果( random
effect)
例如:性别和中心
Cox回归介绍
Cox回归又称比例风险模型( Proportional Hazard Model),
是在比例风险性(两个体之间的风险之比不随时间的改变而改变)的前提下,在所关心的风险与可能的影响因子之间所建立的一种关联的表达式。通过这一表达式,
我们可以考察影响因子对所关心的风险是否有作用以及作用的大小。
基于模型进行统计分析的意义与不足
模型是对实际数据的一种概括
这种概括有可能是错的,至少是不全面的
G.E.P.Box:所有的模型都是不正确的,但其中某些模型可以为我们提供有用的信息。
要建立一个尽量接近正确的模型绝不是一件容易的事。
应避免不负责任的建模工作。
Cox回归模型(比例风险模型)
模型结构当某个癌症病人其协变量的值 =X时,其在时点 t突然死亡的风险可以用下式表示。
比例风险性当 A病人的协变量值 =XA,B病人的协变量值 =XB时,两个病人在时点 t突然死亡的风险之比为:
pp xxthXthtXh1100 e x pe x p,
pp xxth
tXh
11
0
e x p,
BABABA X
X
Xth
Xth
tXh
tXh
e x p
e x p
e x p
e x p
,
,
0
0
参数 的含义
研究癌细胞是否有转移( x1:x1=0 无转移,x1=1 有转移)和是否手术
( x2:x2=0 无手术,x2=1 有手术)这两个协变量对癌症患者生存时间的影响,建立了如下 Cox回归模型:
现有甲、乙、丙、丁四个病人,他们的协变量的值列于下表,根据上述模型求他们在时点 t的突然死亡风险。
x1 x2 时点 t的突然死亡风险甲 1 1
乙 1 0
丙 0 1
丁 0 0
根据这四个风险模型,可以实现四个病人之间的任何比较。例如:乙病人相对于丙病人的突然死亡风险为:
2211021 e x p,,xxthtxxh
th
th
th
th
0
20
10
210
e xp
e xp
e xp
21
20
10 e x pe x pe x pth th
可以发现我们在做任何比较时,都不用关心 的具体形式。?th0
To be or not to be is only a part of the question,
The question also includes how long to be.
引例对两组分别接受了 A处理和 B处理的小老鼠注射某种致癌物,
观察她们直至全部死亡。记录她们的存活天数并进行分析,数据如下:
A,143,164,188,188,190,192,206,209,213,216,220,227,230,234,
246,265,304,216+,244+
B,142,156,163,198,205,232,232,233,233,233,233,239,240,
261,280,280,296,296,353,204+,344+
何为生存分析
对生存 时间 进行分析的统计方法的总称。
描述生存时间分布
生存函数( survival function):到某时点为止事件仍未发生的概率分布。
风险函数( hazard function):在某时点的瞬间死亡率。
组间的生存时间分布的比较
考察可能与生存时间有关联的协变量
协变量调整( adjust for covariates):在协变量的同一水平上进行比较。
生存分析的历史与应用
17,18世纪:寿命表的提出及其应用。
1926年,Greenwood提出评价生存函数的误差的方法 —
Greenwood公式。
1958年:生存函数的计算方法 — Kaplan-Meier法(乘积极限法 product-limit)的提出。
1960年代中叶:生存时间的组间比较方法的开发 — 广义
Wilcoxon秩和检验( Gehan,1965年);对数秩检验( log-
rank test)又称时序检验( Mantel,1966年)。
1970年:将协变量的影响模型化 — 参数模型:假设生存时间服从 Weibull分布、对数正态分布等;半参数模型:
比例风险模型( Cox,1972年),又称 Cox回归模型。
生存分析的几个基本概念
生存时间:从某一基准时点开始到某种期待结局发生所持续的时间。
期待结局 — 事件:死亡、疾病复发、故障、再就业、中奖,
等。
基准时点:保证可比性的时点。例如:随机化分组时点、
机器启用。
删失( censor):又称截尾。指期待结局发生的正确时间未知。
右删失:期待结局发生的时间未知,只知道发生在某一时点之后。
左删失:期待结局发生的时间未知,只知道发生在某一时点之前。
期间删失:期待结局发生的时间未知,只知道发生在某两时点之间。
删失必须调整,否则导致偏倚。
生存时间的分布:右偏、非负。
关于删失删失的模式图随访开始 事件失访失访研究截止时仍存活研究截止时点患者进入期间描述生存时间分布对两组分别接受了 A处理和 B处理的小老鼠注射某种致癌物,
观察她们直至全部死亡。记录她们的存活天数并进行分析,数据如下:
A,143,164,188,188,190,192,206,209,213,216,220,227,230,234,
246,265,304,216+,244+
B,142,156,163,198,205,232,232,233,233,233,233,239,240,
261,280,280,296,296,353,204+,344+
The LIFETEST Procedure
Stratum 1,Group = 0
Product-Limit Survival Estimates
Survival
Standard Number Number
Days Survival Failure Error Failed Left
0.000 1.0000 0 0 0 19
143.000 0.9474 0.0526 0.0512 1 18
164.000 0.8947 0.1053 0.0704 2 17
188.000,,,3 16
188.000 0.7895 0.2105 0.0935 4 15
190.000 0.7368 0.2632 0.1010 5 14
192.000 0.6842 0.3158 0.1066 6 13
206.000 0.6316 0.3684 0.1107 7 12
209.000 0.5789 0.4211 0.1133 8 11
213.000 0.5263 0.4737 0.1145 9 10
216.000 0.4737 0.5263 0.1145 10 9
216.000*,,,10 8
220.000 0.4145 0.5855 0.1145 11 7
227.000 0.3553 0.6447 0.1124 12 6
230.000 0.2961 0.7039 0.1082 13 5
234.000 0.2368 0.7632 0.1015 14 4
244.000*,,,14 3
246.000 0.1579 0.8421 0.0934 15 2
265.000 0.0789 0.9211 0.0728 16 1
304.000 0 1.0000 0 17 0
NOTE,The marked survival times are censored observations.
生存函数的乘积 -极限估计法
:删失
0 t1 t2 t3 t4 t
死亡数 d1 d2 d3 d4
基数 n1(7) n2(6) n3(4) n4(1)
时间 t
0
1
S
(1-d1/n1)
(6/7) (1-d1/n1)?(1-d2/n2)
(6/7)?(5/6) (1-d1/n1)?(1-d2/n2)?(1-d3/n3)
(6/7)?(5/6)?(3/4)
生存函数和风险函数
描述生存时间分布的两种数学工具。严格地说,生存函数应被称为生存时间分布函数。
)(P r ob)(
,
tTtS
T
生存函数:
的非负随机变量表示生存时间
tHtS
tSduthtH
tSdt
tdS
tSt
ttStS
t
tTttTt
th
t
t
t
e x p
l og
1
l i m
|P r ob
l i m)(
0
0
0
累积风险函数:
生存函数、风险函数和累积风险函数
三种函数在数学上虽然等价,但在进行分析时却不等价。由于风险函数的估计容易受随机误差的影响,
而生存函数的估计则相对稳定。
生存函数的估计可以用人年法和 Kaplan-Meier法。
风险函数非负累积风险函数单调增加 生存函数1? 0 单调递减风险函数与生存函数的关系风险越大、死亡越快。
风险函数
h
h(t) 大
h(t) 小
0 t
生存函数
S
h(t) 大
h(t) 小
0 t
aaa tStSthath
Gehan白血病数据
Gehan的白血病数据(缓解时间,单位:周)
分析内容
作生存时间分布图(全体、分组)。
检验 6-MP组与对照组之间生存时间的分布是否一致。
检验不同处理对生存时间分布是否有影响。
对照组 (n=21)
1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23
6-MP组 (n=21)(#,删失 )
6# 6 6 6 7 9# 10# 10 11# 13 16 17# 19# 20# 22 23 25# 32# 32# 34# 35#
比较的两组之间生存函数是否不同的非参数检验方法
没有删失的例子
1 2 3
4 5 6
4 5 6
9 10 11
组别 j
1
2
时点 i
实际时间
>
>
具体计算方法比较的两组之间生存函数是否不同的非参数检验方法(续)
有删失的例子
1 2 3
4 5 6 7
4 5 6
9 10 11 13
组别 j
1
2
时点 i
实际时间
>
>
+
+
:删失
Logrank Test and Wilcoxon Test
由于权重不同,由两种方法得到差别有统计学意义的难易度随生存函数的不同而不同。
A
Logrank检验容易得到有意差时间0
1
生存率
B
Wilcoxon检验容易得到有意差时间0
1
生存率
C
两种检验方法都不容易得到有意差时间0
1
生存率协变量的效应与其模型化
协变量 =回归分析中的解释变量
,解释,的含义为反应结果的变化是由这些变量的变化造成的。
分组变量:用药不同、处理不同
预后因子(危险因子、混杂因子)
个体水平变量:癌大小、有无淋巴结转移、性别、年龄等等
环境因素:辅助疗法、中心、气温、气压、花粉量
时间依存性协变量
纵向数据( longitudinal data)
心脏移植的例子
固定效果( fixed effect)还是随机效果( random
effect)
例如:性别和中心
Cox回归介绍
Cox回归又称比例风险模型( Proportional Hazard Model),
是在比例风险性(两个体之间的风险之比不随时间的改变而改变)的前提下,在所关心的风险与可能的影响因子之间所建立的一种关联的表达式。通过这一表达式,
我们可以考察影响因子对所关心的风险是否有作用以及作用的大小。
基于模型进行统计分析的意义与不足
模型是对实际数据的一种概括
这种概括有可能是错的,至少是不全面的
G.E.P.Box:所有的模型都是不正确的,但其中某些模型可以为我们提供有用的信息。
要建立一个尽量接近正确的模型绝不是一件容易的事。
应避免不负责任的建模工作。
Cox回归模型(比例风险模型)
模型结构当某个癌症病人其协变量的值 =X时,其在时点 t突然死亡的风险可以用下式表示。
比例风险性当 A病人的协变量值 =XA,B病人的协变量值 =XB时,两个病人在时点 t突然死亡的风险之比为:
pp xxthXthtXh1100 e x pe x p,
pp xxth
tXh
11
0
e x p,
BABABA X
X
Xth
Xth
tXh
tXh
e x p
e x p
e x p
e x p
,
,
0
0
参数 的含义
研究癌细胞是否有转移( x1:x1=0 无转移,x1=1 有转移)和是否手术
( x2:x2=0 无手术,x2=1 有手术)这两个协变量对癌症患者生存时间的影响,建立了如下 Cox回归模型:
现有甲、乙、丙、丁四个病人,他们的协变量的值列于下表,根据上述模型求他们在时点 t的突然死亡风险。
x1 x2 时点 t的突然死亡风险甲 1 1
乙 1 0
丙 0 1
丁 0 0
根据这四个风险模型,可以实现四个病人之间的任何比较。例如:乙病人相对于丙病人的突然死亡风险为:
2211021 e x p,,xxthtxxh
th
th
th
th
0
20
10
210
e xp
e xp
e xp
21
20
10 e x pe x pe x pth th
可以发现我们在做任何比较时,都不用关心 的具体形式。?th0