第十七章 生存分析
(Survival Analysis)
概 述
? 问题的提出,
? 临床上疗效, 预后的评价常用疾病
的结局指标:如有效率, 治愈率,
死亡率指标比较, 对于在短期内能
明确治疗效果的疾病是适用的 。 但
对于通过随访后的远期疗效, 其指
标的评价不全面 。
? 例
? 某病的疗效比较
? 治愈率 平均治愈时间
? 甲药 80% 20天
? 乙药 81% 12天
? 疗效除了应评价, 结局, 的好坏, 结
局所经历的时间长短也是评价疗效重
要的指标 。
? 例, 收集生存数据和影响预后的因素 。
?
? 某病用不同药后随访记录(天)
预后因素 随访记录
? 病例 性别 处理 开始 终止 是否 生存
? 号 组 日期 日期 死亡 时间
? 1 1 A药 98/07/12 98/11/29 Y 140
? 2 2 B药 98/07/01 98/12/29 Y 160
? 3 1 A 药 98/08/22 98/11/29 失访 99
? 4 2 B药 98/10/20 98/11/25车祸死亡 36
?
随访研究资料
? 随访资料,
? 随访观察某事件出现, 某结局, 和, 结局
出现的时间, 的资料统称为随访资料, 评价
该资料的统计学方法为生存分析 。
? 生存分析是将, 结局, 与, 时间, 两个因素
结合一起研究的统计分析方法
起始事件 (事
件的特征)
结局事件 (结
局出现的特征)
如诊断、用
药、手术等
如疾病 的死
亡、复发等
一、基本概念
时间( t)
1,生存时间 ( t) =结局事件日期 -起始事件日期。
t的单位:可用年、月、周表示。
第一节 生存分析的基本概念
2.截尾数据:
? 观察过程因其他原因未观察到明确
的结局称为截尾( censored )数据。原
因有:①失访,②退出研究,如其他原
因死亡。③研究时间结束,未出现结局
事件。
? 截尾值 ( censored value),其生存时间
=截尾事件日期 -起始事件日期, 记为 t+。
( 例,10+月 )
3.生存数据的特点
1.完全观察的随访数据:研究对象在规定的研究
期间提供确切的, 时间, 。 其生存时间记为
,t”。
2.截尾数据:截尾数据 (t+)虽然提供的信息不完
全,但提供了部分信息,如 t=10+年> 9年。
3.生存数据的结果变量( Y )有两个:
1)“时间( t)值”,( t)> 0
2)结局状态 =,如死亡或截尾值”。
? 其他统计方法不能处理该资料
二,资料的收集
? (一)随访内容
? 1.明确起始事件的特征和时间,如手
术日期等。
? 2.明确随访结局:结局的特征事件,
如死亡或截尾事件。
? 3.明确研究结束时间。
? 4.记录影响“时间”的其他自变量。
? 例,收集生存数据和影响预后的因素 。
?
? 某病用不同药后随访记录(天)
预后因素 随访记录
? 病例 性别 处理 开始 终止 是否 生存
? 号 组 日期 日期 死亡 时间
? 1 1 A药 98/07/12 98/11/29 Y 140
? 2 2 B药 98/07/01 98/12/29 Y 160
? 3 1 A 药 98/08/22 98/11/29 仍活 99
? 4 2 B药 98/10/20 98/11/25车祸死亡 36
?
(二)随访的方式
? 1.全体观察对象同时接受某处理
? 随访方式:多见于动物实验(见图
17-1,a)
? 2.观察对象在不同时间接受处理因素
? 随访方式:多见于临床试验研究
(见图 17-1,b)
起始事件时间
如给药
0
研究结
束时间
t
×
O
×
×
O
× 为死亡
O 为截尾
90年 91年 92年 93年
(研究结束)
死亡
失访
死亡
一批病人不同时间进入研究的随访资料
起点
存活
起点
起点
起点
起点
存活
(三)生存分析主要研究的内容
? 1.统计描述,用统计指标描述生存过程,
计算不同时间点( t)的生存率
? 2.统计推断,统计检验不同处理方式的生
存过程有无差别
? 3.自变量( x)与时间( t)的关系,影响
生存时间的危险因素分析
三、生存分析中的基本方法
? 1.非参数法 *:
? 特点:不考虑变量的分布,采用秩次统计量。
是生存资料常采用的方法。主要是单变量的统
计描述和比较。
? 2.半参数法 *:如 Cox模型,主要是生存时间的
影响因素分析。
? 3.参数法:
? 特点:假定资料服从某分布。常采用指数分布
和 Weibull分布等。(不常用)
讲义例,17-1
? 某人研究手术方法治疗 23位肾上腺肿瘤病人的
生存时间(月)如下:
? 1,3,5( 3),6( 3),7,8,10( 2),14+,
17,,19+,20+,22+,26+,31+,34,34+,44,
59
? 注, ( )括号内的数为相同时间点的人数
? 数据特点,
? 1.生存时间的分布为偏态分布,
? 2.有截尾值
? 3.每个值包含两个含义,即,t”和状态“死亡
与否”
第二节 生存率的估计与生存曲线
? (一)描述生存资料的几个指标
(见讲义 275-278页)
? 1.生存率,记为 p( X≥t)
? 2.生存曲线
? 3.平均生存时间(中位生存时间)
? 反映不同时间( t)的结局(生存)
出现(生存)率
生存率的概念和计算公式
? 1.生存率 记为 S( t)或 P( X≥t)。
? P( X≥t),指某观察对象从起始事件(如
手术时间为 0点)开始,经历了 t=1,2..n
(年或月)个单位时间后仍存活的概率。
? 1)直接法
观察的病人总数
的病人数生存时间 tX
tXp
?
?? )(
? 2.概率乘法原理计算( 275页)
? S( t)也称累计生存概率,t 时刻存活是 t
之前一直生存的累积。
? 例:
12() jjS t p p p p? ? ? ?
Pj 为条件生存概率,有截尾数据,采用该法。
(公式 17-2)
12( 2 ) 0,9 0,8 9 0,8S p p? ? ? ? ?
? 条件死亡概率、条件生存概率( 275页)
? 条件死亡概率( F):某时间段开始存活的个体
到该时间段结束时,死于某时段内的可能性。
? 生存概率( S=1-F):
? 指某时间段开始存活的个体到该时间段结
束时仍存活的概率。
?
dF
n
??某时间段内的死亡数
某时间段初的观察数
( 17-1)
例,某病病人生存率
? 生存 期初 死亡 生存 死亡 生存 生存率
? (年 ) 人数 人数 人数 概率 概率
? 0-1 100 10 90 0.1 0.9 0.90
? 2 90 10 80 0.11 0.89 0.80
? 3 80 20 60 0.25 0.75 0.60
? 条件死亡概率 F(t=1)=0.1,在 1年内死亡的概率,
?
)( tXp ?
8.089.09.0)2( ????Xp
8.01 0 0/80)2( ???Xp 直接法
概率乘积法
生存时间数据分析时整理示意图
?
?
? 死亡
? 0 2 4 6 8 10 12 14 16 18 20 年
“t”表示从研究起点到结局出现时间
t
失访
失访
死亡
死亡
死亡
? 2.生存曲线,( survival curve)
? 指各时点( t)为横轴,生存率 S(t)为
纵轴,连接一起的曲线图。描述该组病人
各时点的生存过程。( 277页)
? 3.半数生存期 (中位数生存时间)
? 生存率为 0.5时对应的时间( t),表示
50%的个体可生存的时间,常作为生存
数据的平均指标。( 278页)
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
(二)生存率估计的统计方法
(非参数方法)
? 1.小样本数据生存率计算。
? 用 kaplan-Meier的乘积极限法
( product-limit method,PL法)
? 2.大样本数据生存率计算
? 用寿命表法( Life Table,LT法)
两法特点:
? 1.均可计算有截尾的生存资料。
? 2.生存率 S( t)计算采用概率乘法
原理。
? SPSS,SAS统计软件用 PL法和
LT法计算生存率 S( t)、生存率的
标准误 Sp、中位数生存时间、绘制
生存曲线。
例 17-1:某手术方法治疗 23例肾上腺
肿瘤病人后生存情况(讲义 275)
? 生存时间( t,月),其中,+”者为截尾数据
? 1,3,5( 3),6( 3),7,8,10 ( 2)
?, 14+,17,19+,20+,22+,26+,
? 31+,34,34+,44,59
? 计算生存率 s( t)和生存曲线
表 17-1 甲种手术后病人生存率的计算方法
时间 (月 ) 死亡 期初 死亡 生存 生存率
? T 人数 人数 概率 概率
? 1 1 23 0.043 0.957 0.957
? 3 1 22 0.045 0.955 0.914
? 5 3 21 0.143 0.857 0.783
? 6 3 18 0.167 0.833 0.652
? 7 1 15 0.067 0.933 0,609
? 8 1 14 0.071 0.929 0.565
? 10 2 13 0.154 0.846 0.478
? 14+ 0 11 0.000 1.000 0.478
)( tXp ?
表 17-1资料甲手术描述指标 (SPSS 软件 )
Survival Standard 95% Confidence
Time error Interval
Mean,24.23 4.99 ( 14.44,34.01 )
Median,10.00 6.96 (.00,23.63 )
? 表 17-2资料乙手术描述指标
? Survival Standard 95% Confidenc
Time Err Interval
Mean 7.80 1.18 ( 5.50,10.10 )
Median 6.00 2.98 (,16,11.84 )
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
月
2.大样本资料的生存分析方法 —寿命
表法( Life-table method)
? 表 17-3 2418例男性心绞痛病人生存率情况
? 术后 死亡 截尾 期初 校正 生存 生存率
? 年数 人数 人数 人数 人数 概率 ( t+1)
? 0- 456 0 2418 2418 0.8114 0.8114
? 1- 226 39 1962 1942.5 0.8837 0.717
? 2- 152 22 1697 1686 0.9098 0.6524
? 校正人数 =1962-39/2=1942.5
例 17-3
寿命表法与 PL的区别
? 1.计算在 时间段的生存率。
? 如 0-1年,1-2年,时间段组距相等。
? 2.寿命表方法计算死亡(生存)概率,假定有
截尾事件的人在各时间组内平均生存为 1/2时间。
? 死亡概率 =某时间组内死亡人数 /校正观察人数
?校正观察人数 =期初观察人数-截尾人数 /2
1,()iitt?
第三节 生存曲线的统计检验
? 目的:将生存率为整体进行曲线与曲线的
比较
? 方法:时序检验( Log-Rank),为非参
数法检验,可对两组或多组做比较,
? 检验假设,H0:两总体的生存率相同
? H1:两总体的生存率不同
? 检验水准 α=0.05,如 P≤α,拒绝 H0
Log-rank检验
? 检验统计量
? 该 χ2服从的自由度 =(比较组数- 1)
? Ai为某组各时间点实际死亡数 (di)之和,
? Ti为某组各时间点的期望死亡数 (Ti)合计
? i 表示比较组,i=1,2,…k 组
2
2 ()ii
i
AT
T
?
?
??
Log-rank检验的基本思想
时间 甲法手术组 乙法手术组 合计
t
1 23 1 1.605 20 2 1.395 43 3
? 如 H0成立, χ2统计量的 P> 0.05
?
1in 1id
1iT
2in 2id
2iT
in id
11
3
2 3 1,6 0 5
43
i
ii
i
d
Tn
n
? ? ? ?
22
3
2 0 1,3 9 5
43
i
ii
i
d
Tn
n
? ? ? ?
表 17-4
按两组合计
死亡率计算
各组理论频
数
两生存率曲线的检验结果
? 表 17-4资料:
? ν=组数 -1=2-1,p< 0.01
? 结论,两生存曲线有差别,根据中位数生存
时间和生存曲线的比较,认为甲手术方法
生存时间长于乙法,
? 注意,两生存曲线有交叉,可能有混杂因素,应排
除后,再做结论,(讲义)
22
2 ( 1 6 2 3, 8 0 9 ) ( 2 0 1 2, 1 9 1 ) 7, 5 6
2 3, 8 0 9 1 2, 1 9 1
? ??? ? ?
63.656.7 2 1,01.02 ?? ?? ?
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
月
第四节,COX比例风险回归模型
? COX模型用于分析生存资料中与多个协变
量( x)的关系,以确定协变量的重要性。
? 方法的优点:
? 1.即考虑事件“发生,不发生”的结局,也
利用生存时间( t)的信息。
? 2.能处理截尾数据
? 3.排除混杂因子,评价疗效和预后
一,Cox模型的基本形式
? 假定有 n个病人,第 i病人的生存时间为 ti,并具有
p个预后因素 xi,则该病人生存到时间 ti 时的死亡
风险函数( hazard function),h( t,x)为;
0 1 1 2 2(,) ( ) e x p ( )mmh t h t X X X? ? ?? ? ? ?X
?h( t,x):风险函数。表示具有协变量 x的个体
?在 t 时刻的死亡的风险率。
公式 17-15
单个 X的 Cox模型及参数的意义
? h( t,x) =h0( t) exp( βx )
? 方程由两部分组成:
? 1,h0( t):为危险因素为 0时在 ti 时刻的基础风
险死亡率。 h0( t)是未知和无限制的。
? 2,exp( βx ):风险因子
? 假定 h0( t)与 h( t,x)之间的变化呈比例
0
(,)
e xp( )
()
h t x
PH x
ht
???
Exp( βX)与时
间 t 无关的风险比
例因子
h( t)
0
1.0
0.2
0.4
0.6
0.8
0 ()ht
0 ( ) e xp( )h t x?
1 2 3 4
时间 t
风
险
率
比例风险率函数示意图
假定在任何时刻 t风险的比值是不变的。
COX回归模型又称为比例风险率模型
( proportion hazard model,PH)
? 模型的另一表达方式
)...e x p (
)(
),(
2211
0
mm xxxth
xthPH ??? ?????
mm xxxth
xth ??? ????,..]
)(
),(l n [
2211
0
或
回归系数 β的意义
反映个体某预后因素存在 x=1,与不存在
x=0个体相比,死亡风险的相对危险度
? 例:某风险函数为
e x p ( ) RR? ?
回归系数 B表示,X改变一个单位,相对风
险率改变的对数值。
)e x p (
)(
)e x p ()(
)0e x p ()(
)1e x p ()(
)0,(
)1,(
1
0
10
10
10 ??
?
? ??
?
??
?
?
th
th
th
th
xth
xth
)e x p (),( 0 xhxth ??
? 例, 讲义 283页,探讨胃癌患者的预后,
每个患者测定 X1(手术 =1,否 =0),X2
(放射治疗 =1,否 =0)和生存时间 t及死
亡或截尾,对数据资料进行预后分析
? 得 COX比例风险模型
0(,) ( ) e x p ( 0,3 6 0 1 ( 0,3 3 3 2 )h t x h t x x? ? ? ?
? Β1的含义:不接受放射治疗,手术者的死亡
风险是不手术者的 69.7%。即相对危险度为
0.697。
0
0
( ) e xp ( 0,36 0 1 )(,1 1,2 0)
(,1 0,2 0) ( )
e xp ( 0,36 0)
h t xh t x x
h t x x h t
???
?
??
??
由模型可得到:不接受放射治疗,做手术与不
手术者相比,死亡的相对危险度。
697.0)360.0e x p (1 ???RR 7 1 6.0)3 3 3.0e x p (2 ??RR
? 如病人甲 X1=1,X2=1,
? 如病人乙的 X1=0,X2=0:
? 二者死亡的相对危险度:
0
0
(,1 1,2 1 ) ( ) e x p ( 0, 3 6 0 1 ( 0, 3 3 3 2 )
0, 5 ( )
h t x x h t x x
ht
? ? ? ? ? ?
?
0
0
0.5 ( )(,) / (,) 0.5
()ij
hth t x h t x
ht
??
)()0,0,( 021 thxxth ???
? 在多变量的 Cox回归模型中,βi 表示其他
因素固定(不变)后,某 Xi的两个水平
( X=1)与( X=0)相比死亡相对危险率
的倍数。
?
0 1 1 2 2(,) ( ) e x p ( )mmh t h t X X X? ? ?? ? ? ?X
多变量的 Cox回归模型
Β反映某 X与死亡风险的关系
? h( t,x) =h0( t) exp( βx )
? Β=0,表示某因素( X) 与死亡风险无关。
? Β> 0,某 X值越大,死亡的危险性越大。
? Β< 0,X值越大,死亡的危险性越小。
二,COX模型的参数估计与假设检验
( 283-286)
? 1.回归系数( b)的估计:
? 最大似然法估计( 17-19公式)
? 2.回归系数( βi)的检验:
? 有 Wald检验和似然比检验 ( 17-22,17-24)
? 3.可采用逐步回归法筛选有统计意义的变量。
? 以上计算在统计软件( SAS,SPSS等)均
可完成。
四,COX回归方程在生存分析中
的主要应用( P286)
h( t,x) =h0( t) exp( Σβ ixi)
? 1.估计协变量的回归系数( β),得到其相
对危险度( RR)。
? 2.筛选对死亡作用大的危险因素
? 3.计算预后指数( PI),对个体预后危险性
做评价。
五 应用实例:讲义
? 应用实例:例 17-5恶性肿瘤的预后
? 结果,表 17-7COX模型筛选危险因素
? 变量 β Sb p RR
? X4 1.7616 0.54791 0.0013 5.822
? X5 0.9313 0.44455 0.0362 2.538
? 95%的可信区间
? 上限 下限
? X4 1.989 17.039
? X5 1.062 6.066
X4:传统方法 =1
新方法 =0
X5,淋巴节转移 =1
未转移 =0
例 2、肺癌病人生存时间与有关因素的分析
? 记录 75例肺癌病人的生存时间(月)和 18个可
能与预后有关的因素
? 年龄、性别、得分、类型、分化、分期、淋巴
结侵犯,CEA,P53、,P16、放疗、化疗、
手术等
? 分析目的:
? 1.筛选出与预后有关的主要危险因子
? 2.对个体预后危险性进行评价
COX回归多因素模型结果(逐步回归法 )
? Variables in the Equation
? B SE Wald B’ Sig,Exp(B)
? 年龄,064,017 13.89 0.77,000 1.066
? 性别 -.833,425 3.839 -0.35,040,435
? 分期,266,141 3.585 0.51,005 1.305
? CEA,015,007 4.264 0.50,039 1.015
? NM -.360,260 1.920 -0.31,001,698
? 结论,
? 对生存率不利的因素,年龄、分期,CEA
? 有利因素,性别,NM
?
个体预后指数( PI)
? X’标准化变量值
? Β’为标准化回归系数
? PI= 0,表示个体危险度为平均水平。
? PI> 0,表示个体危险度大于平均水平。
? PI< 0,表示个体危险度小于平均水平。
1 1 2 2' ' ' ' ' 'mmP I X X X? ? ?? ? ?
11
1
1
' XXX
S
??
17-30
个体预后指数估计
12
1 2 3 4 5
' ' ' ',,,,, ' '
0, 7 7 ' 0, 3 5 ' 0, 5 1 ' 0, 5 ' 0, 3 1 '
j p pP I b x b x b x
x x x x x
? ? ?
? ? ? ? ?
肺癌病人生存预后指数方程( PI)
式中 b’为标准化回归系数,
x’为标准化变量值 =
s
xx ?
? 年龄 性别 分期 CEA NM 预后指数得分
? 72 1 7 80 1 2.23
? 46 1 3 15 2 -182
? 30 1 4 15 2 -2.58
? 50 2 5 20 2 -1.80
? 80 1 6 130 1 3.22
? 56 1 4 59 1 0.007
?,
?,
?,
75例肺癌病人预后的得分
六, Cox 模型应用的注意事项
(讲义 288页)
? Cox 模型要求
? 1.样本例数不能太小,样本例数为协变量
个数的 5-20倍。
? 2 生存资料的截尾数据不能超过 20%。要
有一定的死亡例数。
? 3.死亡风险 exp( βx)不随时间变化而变
化。满足比例风险的要求。
本章的要求
? 思考题:
? 1.什么数据资料应采用生存分析。
? 2.COX回归分析主要回答什么问题?回归
系数表示的含义?
? 3.单因素生存分析中常用哪几个统计指标,
各自表达的含义是什么?
(Survival Analysis)
概 述
? 问题的提出,
? 临床上疗效, 预后的评价常用疾病
的结局指标:如有效率, 治愈率,
死亡率指标比较, 对于在短期内能
明确治疗效果的疾病是适用的 。 但
对于通过随访后的远期疗效, 其指
标的评价不全面 。
? 例
? 某病的疗效比较
? 治愈率 平均治愈时间
? 甲药 80% 20天
? 乙药 81% 12天
? 疗效除了应评价, 结局, 的好坏, 结
局所经历的时间长短也是评价疗效重
要的指标 。
? 例, 收集生存数据和影响预后的因素 。
?
? 某病用不同药后随访记录(天)
预后因素 随访记录
? 病例 性别 处理 开始 终止 是否 生存
? 号 组 日期 日期 死亡 时间
? 1 1 A药 98/07/12 98/11/29 Y 140
? 2 2 B药 98/07/01 98/12/29 Y 160
? 3 1 A 药 98/08/22 98/11/29 失访 99
? 4 2 B药 98/10/20 98/11/25车祸死亡 36
?
随访研究资料
? 随访资料,
? 随访观察某事件出现, 某结局, 和, 结局
出现的时间, 的资料统称为随访资料, 评价
该资料的统计学方法为生存分析 。
? 生存分析是将, 结局, 与, 时间, 两个因素
结合一起研究的统计分析方法
起始事件 (事
件的特征)
结局事件 (结
局出现的特征)
如诊断、用
药、手术等
如疾病 的死
亡、复发等
一、基本概念
时间( t)
1,生存时间 ( t) =结局事件日期 -起始事件日期。
t的单位:可用年、月、周表示。
第一节 生存分析的基本概念
2.截尾数据:
? 观察过程因其他原因未观察到明确
的结局称为截尾( censored )数据。原
因有:①失访,②退出研究,如其他原
因死亡。③研究时间结束,未出现结局
事件。
? 截尾值 ( censored value),其生存时间
=截尾事件日期 -起始事件日期, 记为 t+。
( 例,10+月 )
3.生存数据的特点
1.完全观察的随访数据:研究对象在规定的研究
期间提供确切的, 时间, 。 其生存时间记为
,t”。
2.截尾数据:截尾数据 (t+)虽然提供的信息不完
全,但提供了部分信息,如 t=10+年> 9年。
3.生存数据的结果变量( Y )有两个:
1)“时间( t)值”,( t)> 0
2)结局状态 =,如死亡或截尾值”。
? 其他统计方法不能处理该资料
二,资料的收集
? (一)随访内容
? 1.明确起始事件的特征和时间,如手
术日期等。
? 2.明确随访结局:结局的特征事件,
如死亡或截尾事件。
? 3.明确研究结束时间。
? 4.记录影响“时间”的其他自变量。
? 例,收集生存数据和影响预后的因素 。
?
? 某病用不同药后随访记录(天)
预后因素 随访记录
? 病例 性别 处理 开始 终止 是否 生存
? 号 组 日期 日期 死亡 时间
? 1 1 A药 98/07/12 98/11/29 Y 140
? 2 2 B药 98/07/01 98/12/29 Y 160
? 3 1 A 药 98/08/22 98/11/29 仍活 99
? 4 2 B药 98/10/20 98/11/25车祸死亡 36
?
(二)随访的方式
? 1.全体观察对象同时接受某处理
? 随访方式:多见于动物实验(见图
17-1,a)
? 2.观察对象在不同时间接受处理因素
? 随访方式:多见于临床试验研究
(见图 17-1,b)
起始事件时间
如给药
0
研究结
束时间
t
×
O
×
×
O
× 为死亡
O 为截尾
90年 91年 92年 93年
(研究结束)
死亡
失访
死亡
一批病人不同时间进入研究的随访资料
起点
存活
起点
起点
起点
起点
存活
(三)生存分析主要研究的内容
? 1.统计描述,用统计指标描述生存过程,
计算不同时间点( t)的生存率
? 2.统计推断,统计检验不同处理方式的生
存过程有无差别
? 3.自变量( x)与时间( t)的关系,影响
生存时间的危险因素分析
三、生存分析中的基本方法
? 1.非参数法 *:
? 特点:不考虑变量的分布,采用秩次统计量。
是生存资料常采用的方法。主要是单变量的统
计描述和比较。
? 2.半参数法 *:如 Cox模型,主要是生存时间的
影响因素分析。
? 3.参数法:
? 特点:假定资料服从某分布。常采用指数分布
和 Weibull分布等。(不常用)
讲义例,17-1
? 某人研究手术方法治疗 23位肾上腺肿瘤病人的
生存时间(月)如下:
? 1,3,5( 3),6( 3),7,8,10( 2),14+,
17,,19+,20+,22+,26+,31+,34,34+,44,
59
? 注, ( )括号内的数为相同时间点的人数
? 数据特点,
? 1.生存时间的分布为偏态分布,
? 2.有截尾值
? 3.每个值包含两个含义,即,t”和状态“死亡
与否”
第二节 生存率的估计与生存曲线
? (一)描述生存资料的几个指标
(见讲义 275-278页)
? 1.生存率,记为 p( X≥t)
? 2.生存曲线
? 3.平均生存时间(中位生存时间)
? 反映不同时间( t)的结局(生存)
出现(生存)率
生存率的概念和计算公式
? 1.生存率 记为 S( t)或 P( X≥t)。
? P( X≥t),指某观察对象从起始事件(如
手术时间为 0点)开始,经历了 t=1,2..n
(年或月)个单位时间后仍存活的概率。
? 1)直接法
观察的病人总数
的病人数生存时间 tX
tXp
?
?? )(
? 2.概率乘法原理计算( 275页)
? S( t)也称累计生存概率,t 时刻存活是 t
之前一直生存的累积。
? 例:
12() jjS t p p p p? ? ? ?
Pj 为条件生存概率,有截尾数据,采用该法。
(公式 17-2)
12( 2 ) 0,9 0,8 9 0,8S p p? ? ? ? ?
? 条件死亡概率、条件生存概率( 275页)
? 条件死亡概率( F):某时间段开始存活的个体
到该时间段结束时,死于某时段内的可能性。
? 生存概率( S=1-F):
? 指某时间段开始存活的个体到该时间段结
束时仍存活的概率。
?
dF
n
??某时间段内的死亡数
某时间段初的观察数
( 17-1)
例,某病病人生存率
? 生存 期初 死亡 生存 死亡 生存 生存率
? (年 ) 人数 人数 人数 概率 概率
? 0-1 100 10 90 0.1 0.9 0.90
? 2 90 10 80 0.11 0.89 0.80
? 3 80 20 60 0.25 0.75 0.60
? 条件死亡概率 F(t=1)=0.1,在 1年内死亡的概率,
?
)( tXp ?
8.089.09.0)2( ????Xp
8.01 0 0/80)2( ???Xp 直接法
概率乘积法
生存时间数据分析时整理示意图
?
?
? 死亡
? 0 2 4 6 8 10 12 14 16 18 20 年
“t”表示从研究起点到结局出现时间
t
失访
失访
死亡
死亡
死亡
? 2.生存曲线,( survival curve)
? 指各时点( t)为横轴,生存率 S(t)为
纵轴,连接一起的曲线图。描述该组病人
各时点的生存过程。( 277页)
? 3.半数生存期 (中位数生存时间)
? 生存率为 0.5时对应的时间( t),表示
50%的个体可生存的时间,常作为生存
数据的平均指标。( 278页)
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
(二)生存率估计的统计方法
(非参数方法)
? 1.小样本数据生存率计算。
? 用 kaplan-Meier的乘积极限法
( product-limit method,PL法)
? 2.大样本数据生存率计算
? 用寿命表法( Life Table,LT法)
两法特点:
? 1.均可计算有截尾的生存资料。
? 2.生存率 S( t)计算采用概率乘法
原理。
? SPSS,SAS统计软件用 PL法和
LT法计算生存率 S( t)、生存率的
标准误 Sp、中位数生存时间、绘制
生存曲线。
例 17-1:某手术方法治疗 23例肾上腺
肿瘤病人后生存情况(讲义 275)
? 生存时间( t,月),其中,+”者为截尾数据
? 1,3,5( 3),6( 3),7,8,10 ( 2)
?, 14+,17,19+,20+,22+,26+,
? 31+,34,34+,44,59
? 计算生存率 s( t)和生存曲线
表 17-1 甲种手术后病人生存率的计算方法
时间 (月 ) 死亡 期初 死亡 生存 生存率
? T 人数 人数 概率 概率
? 1 1 23 0.043 0.957 0.957
? 3 1 22 0.045 0.955 0.914
? 5 3 21 0.143 0.857 0.783
? 6 3 18 0.167 0.833 0.652
? 7 1 15 0.067 0.933 0,609
? 8 1 14 0.071 0.929 0.565
? 10 2 13 0.154 0.846 0.478
? 14+ 0 11 0.000 1.000 0.478
)( tXp ?
表 17-1资料甲手术描述指标 (SPSS 软件 )
Survival Standard 95% Confidence
Time error Interval
Mean,24.23 4.99 ( 14.44,34.01 )
Median,10.00 6.96 (.00,23.63 )
? 表 17-2资料乙手术描述指标
? Survival Standard 95% Confidenc
Time Err Interval
Mean 7.80 1.18 ( 5.50,10.10 )
Median 6.00 2.98 (,16,11.84 )
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
月
2.大样本资料的生存分析方法 —寿命
表法( Life-table method)
? 表 17-3 2418例男性心绞痛病人生存率情况
? 术后 死亡 截尾 期初 校正 生存 生存率
? 年数 人数 人数 人数 人数 概率 ( t+1)
? 0- 456 0 2418 2418 0.8114 0.8114
? 1- 226 39 1962 1942.5 0.8837 0.717
? 2- 152 22 1697 1686 0.9098 0.6524
? 校正人数 =1962-39/2=1942.5
例 17-3
寿命表法与 PL的区别
? 1.计算在 时间段的生存率。
? 如 0-1年,1-2年,时间段组距相等。
? 2.寿命表方法计算死亡(生存)概率,假定有
截尾事件的人在各时间组内平均生存为 1/2时间。
? 死亡概率 =某时间组内死亡人数 /校正观察人数
?校正观察人数 =期初观察人数-截尾人数 /2
1,()iitt?
第三节 生存曲线的统计检验
? 目的:将生存率为整体进行曲线与曲线的
比较
? 方法:时序检验( Log-Rank),为非参
数法检验,可对两组或多组做比较,
? 检验假设,H0:两总体的生存率相同
? H1:两总体的生存率不同
? 检验水准 α=0.05,如 P≤α,拒绝 H0
Log-rank检验
? 检验统计量
? 该 χ2服从的自由度 =(比较组数- 1)
? Ai为某组各时间点实际死亡数 (di)之和,
? Ti为某组各时间点的期望死亡数 (Ti)合计
? i 表示比较组,i=1,2,…k 组
2
2 ()ii
i
AT
T
?
?
??
Log-rank检验的基本思想
时间 甲法手术组 乙法手术组 合计
t
1 23 1 1.605 20 2 1.395 43 3
? 如 H0成立, χ2统计量的 P> 0.05
?
1in 1id
1iT
2in 2id
2iT
in id
11
3
2 3 1,6 0 5
43
i
ii
i
d
Tn
n
? ? ? ?
22
3
2 0 1,3 9 5
43
i
ii
i
d
Tn
n
? ? ? ?
表 17-4
按两组合计
死亡率计算
各组理论频
数
两生存率曲线的检验结果
? 表 17-4资料:
? ν=组数 -1=2-1,p< 0.01
? 结论,两生存曲线有差别,根据中位数生存
时间和生存曲线的比较,认为甲手术方法
生存时间长于乙法,
? 注意,两生存曲线有交叉,可能有混杂因素,应排
除后,再做结论,(讲义)
22
2 ( 1 6 2 3, 8 0 9 ) ( 2 0 1 2, 1 9 1 ) 7, 5 6
2 3, 8 0 9 1 2, 1 9 1
? ??? ? ?
63.656.7 2 1,01.02 ?? ?? ?
S u r vi va l F u n c t i o n s
6050403020100
C
u
m
S
u
r
vi
va
l
(
%
)
1, 2
1, 0
.8
.6
.4
.2
0, 0
-, 2
甲手术
乙手术
图 17-2 两种手术治疗方式术后病人生存曲线的比较
月
第四节,COX比例风险回归模型
? COX模型用于分析生存资料中与多个协变
量( x)的关系,以确定协变量的重要性。
? 方法的优点:
? 1.即考虑事件“发生,不发生”的结局,也
利用生存时间( t)的信息。
? 2.能处理截尾数据
? 3.排除混杂因子,评价疗效和预后
一,Cox模型的基本形式
? 假定有 n个病人,第 i病人的生存时间为 ti,并具有
p个预后因素 xi,则该病人生存到时间 ti 时的死亡
风险函数( hazard function),h( t,x)为;
0 1 1 2 2(,) ( ) e x p ( )mmh t h t X X X? ? ?? ? ? ?X
?h( t,x):风险函数。表示具有协变量 x的个体
?在 t 时刻的死亡的风险率。
公式 17-15
单个 X的 Cox模型及参数的意义
? h( t,x) =h0( t) exp( βx )
? 方程由两部分组成:
? 1,h0( t):为危险因素为 0时在 ti 时刻的基础风
险死亡率。 h0( t)是未知和无限制的。
? 2,exp( βx ):风险因子
? 假定 h0( t)与 h( t,x)之间的变化呈比例
0
(,)
e xp( )
()
h t x
PH x
ht
???
Exp( βX)与时
间 t 无关的风险比
例因子
h( t)
0
1.0
0.2
0.4
0.6
0.8
0 ()ht
0 ( ) e xp( )h t x?
1 2 3 4
时间 t
风
险
率
比例风险率函数示意图
假定在任何时刻 t风险的比值是不变的。
COX回归模型又称为比例风险率模型
( proportion hazard model,PH)
? 模型的另一表达方式
)...e x p (
)(
),(
2211
0
mm xxxth
xthPH ??? ?????
mm xxxth
xth ??? ????,..]
)(
),(l n [
2211
0
或
回归系数 β的意义
反映个体某预后因素存在 x=1,与不存在
x=0个体相比,死亡风险的相对危险度
? 例:某风险函数为
e x p ( ) RR? ?
回归系数 B表示,X改变一个单位,相对风
险率改变的对数值。
)e x p (
)(
)e x p ()(
)0e x p ()(
)1e x p ()(
)0,(
)1,(
1
0
10
10
10 ??
?
? ??
?
??
?
?
th
th
th
th
xth
xth
)e x p (),( 0 xhxth ??
? 例, 讲义 283页,探讨胃癌患者的预后,
每个患者测定 X1(手术 =1,否 =0),X2
(放射治疗 =1,否 =0)和生存时间 t及死
亡或截尾,对数据资料进行预后分析
? 得 COX比例风险模型
0(,) ( ) e x p ( 0,3 6 0 1 ( 0,3 3 3 2 )h t x h t x x? ? ? ?
? Β1的含义:不接受放射治疗,手术者的死亡
风险是不手术者的 69.7%。即相对危险度为
0.697。
0
0
( ) e xp ( 0,36 0 1 )(,1 1,2 0)
(,1 0,2 0) ( )
e xp ( 0,36 0)
h t xh t x x
h t x x h t
???
?
??
??
由模型可得到:不接受放射治疗,做手术与不
手术者相比,死亡的相对危险度。
697.0)360.0e x p (1 ???RR 7 1 6.0)3 3 3.0e x p (2 ??RR
? 如病人甲 X1=1,X2=1,
? 如病人乙的 X1=0,X2=0:
? 二者死亡的相对危险度:
0
0
(,1 1,2 1 ) ( ) e x p ( 0, 3 6 0 1 ( 0, 3 3 3 2 )
0, 5 ( )
h t x x h t x x
ht
? ? ? ? ? ?
?
0
0
0.5 ( )(,) / (,) 0.5
()ij
hth t x h t x
ht
??
)()0,0,( 021 thxxth ???
? 在多变量的 Cox回归模型中,βi 表示其他
因素固定(不变)后,某 Xi的两个水平
( X=1)与( X=0)相比死亡相对危险率
的倍数。
?
0 1 1 2 2(,) ( ) e x p ( )mmh t h t X X X? ? ?? ? ? ?X
多变量的 Cox回归模型
Β反映某 X与死亡风险的关系
? h( t,x) =h0( t) exp( βx )
? Β=0,表示某因素( X) 与死亡风险无关。
? Β> 0,某 X值越大,死亡的危险性越大。
? Β< 0,X值越大,死亡的危险性越小。
二,COX模型的参数估计与假设检验
( 283-286)
? 1.回归系数( b)的估计:
? 最大似然法估计( 17-19公式)
? 2.回归系数( βi)的检验:
? 有 Wald检验和似然比检验 ( 17-22,17-24)
? 3.可采用逐步回归法筛选有统计意义的变量。
? 以上计算在统计软件( SAS,SPSS等)均
可完成。
四,COX回归方程在生存分析中
的主要应用( P286)
h( t,x) =h0( t) exp( Σβ ixi)
? 1.估计协变量的回归系数( β),得到其相
对危险度( RR)。
? 2.筛选对死亡作用大的危险因素
? 3.计算预后指数( PI),对个体预后危险性
做评价。
五 应用实例:讲义
? 应用实例:例 17-5恶性肿瘤的预后
? 结果,表 17-7COX模型筛选危险因素
? 变量 β Sb p RR
? X4 1.7616 0.54791 0.0013 5.822
? X5 0.9313 0.44455 0.0362 2.538
? 95%的可信区间
? 上限 下限
? X4 1.989 17.039
? X5 1.062 6.066
X4:传统方法 =1
新方法 =0
X5,淋巴节转移 =1
未转移 =0
例 2、肺癌病人生存时间与有关因素的分析
? 记录 75例肺癌病人的生存时间(月)和 18个可
能与预后有关的因素
? 年龄、性别、得分、类型、分化、分期、淋巴
结侵犯,CEA,P53、,P16、放疗、化疗、
手术等
? 分析目的:
? 1.筛选出与预后有关的主要危险因子
? 2.对个体预后危险性进行评价
COX回归多因素模型结果(逐步回归法 )
? Variables in the Equation
? B SE Wald B’ Sig,Exp(B)
? 年龄,064,017 13.89 0.77,000 1.066
? 性别 -.833,425 3.839 -0.35,040,435
? 分期,266,141 3.585 0.51,005 1.305
? CEA,015,007 4.264 0.50,039 1.015
? NM -.360,260 1.920 -0.31,001,698
? 结论,
? 对生存率不利的因素,年龄、分期,CEA
? 有利因素,性别,NM
?
个体预后指数( PI)
? X’标准化变量值
? Β’为标准化回归系数
? PI= 0,表示个体危险度为平均水平。
? PI> 0,表示个体危险度大于平均水平。
? PI< 0,表示个体危险度小于平均水平。
1 1 2 2' ' ' ' ' 'mmP I X X X? ? ?? ? ?
11
1
1
' XXX
S
??
17-30
个体预后指数估计
12
1 2 3 4 5
' ' ' ',,,,, ' '
0, 7 7 ' 0, 3 5 ' 0, 5 1 ' 0, 5 ' 0, 3 1 '
j p pP I b x b x b x
x x x x x
? ? ?
? ? ? ? ?
肺癌病人生存预后指数方程( PI)
式中 b’为标准化回归系数,
x’为标准化变量值 =
s
xx ?
? 年龄 性别 分期 CEA NM 预后指数得分
? 72 1 7 80 1 2.23
? 46 1 3 15 2 -182
? 30 1 4 15 2 -2.58
? 50 2 5 20 2 -1.80
? 80 1 6 130 1 3.22
? 56 1 4 59 1 0.007
?,
?,
?,
75例肺癌病人预后的得分
六, Cox 模型应用的注意事项
(讲义 288页)
? Cox 模型要求
? 1.样本例数不能太小,样本例数为协变量
个数的 5-20倍。
? 2 生存资料的截尾数据不能超过 20%。要
有一定的死亡例数。
? 3.死亡风险 exp( βx)不随时间变化而变
化。满足比例风险的要求。
本章的要求
? 思考题:
? 1.什么数据资料应采用生存分析。
? 2.COX回归分析主要回答什么问题?回归
系数表示的含义?
? 3.单因素生存分析中常用哪几个统计指标,
各自表达的含义是什么?