改错:
257页公式 (16-1), 264页公式 (16-15)
改为:
? ?
? ?mm22110
mm22110
XXXex p1
XXXex pP
?????????
?????????
?
?
? ? ? ?mm22110 XXXe x p1
1P
??????????
?
?
或
Logistic Regression Analysis
第十六章
Logistic 回归分析
实例
2003年 6月 17日处理无锡 101医院脑外科陈铮
立主任医师一份临床科研资料,1994年 1月~
2001年 12月 8年间,76例高血压脑出血患者术
后再出血的危险因素分析。
实例Y 手术后再出血
手术后未再出血
X1 性别
X2 年龄
X3 术前昏迷程度积分
X4 瞳孔是否扩大
X5 高血压病龄
X6 临床分级
X7 发病至手术时间
X8 出血部位
X9 出血量
X10 脑血管是否硬化
X11 有无活动性出血
X12 拔管时有无高血压
X13 手术后有无高血压
X14 是否右 (左 )手作右 (左 )脑
实例
单因素分析 (再出血组与未再出血组比较 )
X5,X7,X11,X12,X13有统计学意义。
Logistic回归分析,
( Y=1 手术后再出血 Y=0 手术后未再出血)
筛选出 X10,X14有统计学意义。
还可计算脑血管硬化比未硬化、右手作左脑
比右手作右脑的手术后再出血的相对危险度。
第一节 Logistic回归
一、基本概念
二,Logistic回归模型的参数估计
三,Logistic回归模型的假设检验
四、变量筛选
表 15 - 1 多元回归分析数据格式
例号 X
1
X
2
? X
m
Y
1 X
11
X
12
? X
1m
Y
1
2 X
21
X
22
? X
2m
Y
2
? ? ? ? ? ?
n X
n1
X
n2
? X
nm
Y
n
eXXXY mm22110 ?????????? ?
? ?2,0~ ?Ne
~
Logistic回归模型 (应变量是一个二值变量)
Y=
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
1Y0
XXXY mm22110
??
????????? ?
×
Logistic回归模型 (应变量是一个二值变量)
Y=
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
P=P( Y=1 | X1,X2,?,Xm)
?
?
?
?
?
?
? P1
P
ln ? ?Pitlo g?
Logistic回归模型 (概率型非线性回归)
? ? mm22110 XXXPitl o g ????????? ?
?
?
mm22110 XXXP1
Pln ?????????
?
?
??
?
?
?
?
1P0 P1 Pln ?????
?
??
?
?
????
Logistic回归模型 (概率型非线性回归)
? ?
? ?mm22110
XXX
XXXe x p
e
p1
P
mm22110
?????????
?
?
????????
?
?
e)eP ( 1 Peee)P1(P )()()()()( ????? ??????
? ?
? ?mm22110
mm22110
XXXe x p1
XXXe x pP
?????????
?????????
?
??
)]XXX(e x p [1
1P
mm22110 ??????????
?
?
Logistic回归模型 (概率型非线性回归)
1P0 X ???????
? ?
? ?mm22110
mm22110
XXXe x p1
XXXe x pP
?????????
?????????
?
?
模型参数的意义
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
基准风险
p1
P
ln 0????
?
?
??
?
?
?
有一对应关系。因素作用大小的优势比
危险的平均变化量。与衡量一个单位时
增加或减少变时:在其它自变量保持不
O R )(
i t Pl o g
X,jj??
模型参数的意义 (假定其它因素水平相同)
?jX
C1
C0
) r a t i o,o d d s(OR
P1/P
P1/P
00
11 优势比
)(
)( ?
?
?
)ri s k rel a t i v e(RR
P
P
P1/P
P1/POR
0
1
00
11 ??
?
??
)(
)(
某一危险因素两
个不同暴露水平
当 P较小时 (如恶性肿瘤发生率等 )
? ?
? ?
? ?
01j
m
jt
tt0j0
m
jt
tt1j0
01
00
11
j
CCXCXC
P itl o gP itl o g
P1/P
P1/P
lnORln
???
?
?
?
?
?
?
?
?
??????
?
?
?
?
?
?
?
?
??????
???
?
?
?
?
?
?
?
?
??
??
)]CC(ex p [OR 01jj ???
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
模型参数的意义 (假定其它因素水平相同)
X1OR 0
X1OR 0
X1OR 0
jjj
jjj
jjj
是一保护因素
是一危险因素
对疾病发生不起作用
???
???
???
?jX
C1=1 暴露
C0 =0 非暴露
jee x p)]CC(e x p [OR
j01jj
???????
模型参数的意义 (假定其它因素水平相同)
Logistic回归的优点:
得到某一因素回归系数估计值后,便可以得
到不同水平下相对危险度的近似估计值。
模型参数的意义
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
模型参数估计 (最大似然估计法 maximum likelihood estimate)
Yi =
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
? ? ? ? pYPpYP ii ????? 10 1
ii Y1Yi )p1(p}1,0Y{P ????
模型参数估计 (最大似然估计法 maximum likelihood estimate)
? ? ii YiYi
n
i
PPL ?
?
?? ? 1
1
1
一个样本的似然函数( L表示概率):
? ? ? ?? ??
?
????
n
i
iiii PYPYL
1
1ln1lnln
模型参数估计
最大似然原理:
在一次抽样中获得现有样本的概率 L应该最大。
建立似然函数 L;
用 Newton- Raphson迭代方法计算使 L最大 ;
m10 bbb
m210m210
S,S,S
b bbb
,得到极大似然估计值。同时
的,,,即,,,,此时
?
?? ????
优势比估计
? ?? ?01e xp CCb jjOR ??
?
)Sube x p (
jb2/j ?
?
可信区间:的 ??1jOR
吸烟、饮酒与食管癌关系的病例 - 对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g X
1
X
2
n
g
d
g
n
g
- d
g
1 0 0 199 63 136
2 0 1 170 63 107
3 1 0 101 44 57
4 1 1 416 265 151
X1
1 吸烟
0 不吸烟
X2
1 饮酒
0 不饮酒
Y
1 病例
0 对照
经 logistic回归计算:
? ?
? ? ? ?
25.3,81.11500.096.18856.0e x p
Sube x p
%95OR
42.28856.0e x pbe x pOR
1572.0S 5261.0b
1500.0S 8856.0b
1358.0S 9099.0b
1
2
1
0
b2/05.01
1
11
b2
b1
b0
????
?
???
??
??
???
?
可信区间:
吸烟与不吸烟优势比:
? ?
? ? ? ?
30.2,24.11572.096.15261.0e x p
Sube x p
%95OR
69.15261.0e x pbe x pOR
1572.0S 5261.0b
1500.0S 8856.0b
1358.0S 9099.0b
2
2
1
0
b2/05.02
2
22
b2
b1
b0
????
?
???
??
??
???
?
可信区间:
饮酒与不饮酒优势比:
模型的假设检验
0)m,,2,1j(:H
0:H
j1
m210
不全为?
?
??
???????
0:H 0:H j1j0 ????
似然比检验 (Likelihood ratio test),
含有不同自变量模型间的比较,适合多个
或单个自变量的假设检验。
模型的假设检验
? ?
。个自变量,含个自变量,含 lplLlnpLln
LlnLln2G
01
01
?
??
????
???
? P G
lpdG
2
d,
2 分布的近似服从自由度
模型的假设检验
? ? ? ?
? ?
? ? ? ?? ?
? ?? ?
,食管癌与吸烟有关。平衡了饮酒因素影响后
0, 0 5P 84.345.35G
45.354 3 6.5 9 77 1 1.5 7 92
XLlnX,XLln2G
7 1 1.5 7 9X,XLln
4 3 6.5 9 7XLln 3 2 6.5 8 5XLln
2
1,05.0
221
21
21
?????
?????
??
??
????
模型的假设检验
? ? ? ?
? ?
? ? ? ?? ?
? ?? ?
,食管癌与饮酒有关。平衡了吸烟因素影响后
0, 0 5P 84.323.11G
23.113 2 6.5 8 57 1 1.5 7 92
XLlnX,XLln2G
7 1 1.5 7 9X,XLln
4 3 6.5 9 7XLln 3 2 6.5 8 5XLln
2
1,05.0
121
21
21
?????
?????
??
??
????
模型的假设检验
0:H 0:H j1j0 ????
Wald检验 (Wald test):
各 bj与 0比较,适合单个自变量的假设检验。
1
S
b
2
b
j2
j
??
?
?
?
?
?
?
?
?
??
模型的假设检验
食管癌与饮酒有关。
食管癌与吸烟有关。
0, 0 5P 3, 8 4,2 011
0, 1 5 7 2
0, 5 2 6 1
S
b
0, 0 5P 3, 8 43 4, 8 6
0, 1 5 0 0
0, 8 8 5 6
S
b
2
0, 0 5,1
2
2
b
22
2
0, 0 5,1
2
2
b
12
2
1
?????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
变量筛选
用 Logistic逐步回归法
剔选变量过程与多元线性逐步回归相同
检验统计量为 Likelihood ratio,
? ? ? ?? ?l
0
l
1 LlnLln2G ??
进行到第 l步时,比较含有 Xj和不含 Xj的模型,
决定是否将 Xj引入模型或从模型中剔除。
26 例冠心病人和 28 例对照的冠心病危险因素病例对照调查研究资料
序号 X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
Y
1 3 1 0 1 0 0 1 1 0
2 2 0 1 1 0 0 1 0 0
3 2 1 0 1 0 0 1 0 0
? ? ? ? ? ? ? ? ? ?
53 2 1 0 1 0 0 1 1 1
54 3 1 1 0 1 0 3 1 1
变量筛选
冠心病 8 个可能的危险因素与赋值
因 素 变量名 赋 值 说 明
年龄(岁) X
1
< 4 5 = 1,4 5 ~ 5 4 = 2,5 5 ~ 6 4 = 3,6 5 ~ =4
高血压史 X
2
无 =0, 有 = 1
高血压家族史 X
3
无 =0, 有 = 1
吸烟 X
4
不吸 =0, 吸 = 1
高血酯史 X
5
无 =0, 有 = 1
动物脂肪摄入 X
6
低 =0, 高 = 1
体重指数( BMI ) X
7
< 24 = 1,24 ~ = 2,26 ~ =3
A 型性格 X
8
是 =0, 否 = 1
冠心病 Y 对照 =0, 病例 = 1
变量筛选
变量筛选
如何解释?
Log i s ti c 逐步回归计算结果( ? 入 = 0, 10, ? 出 = 0,1 5 )
入选变量
回归系数
b
标准误
S
b
W al d ?
2
P 值
标准回归
系数 b’
?
OR
常数项 - 4,7 0 5 1,5 4 3 9,3 0 0,0 0 2 3
X
1
0,9 2 4 0,4 7 7 3,7 6 0,0 5 2 5 0,4 0 1 2,5 2
X
5
1,4 9 6 0,7 4 4 4,0 4 0,0 4 4 3 0,4 0 6 4,4 6
X
6
3,1 3 6 1,2 4 9 6,3 0 0,0 1 2 1 0,7 0 3 2 3,0 0
X
8
1,947 0,8 4 7 5,2 9 0,0 2 1 5 0,5 2 3 7,0 1
第二节 条件 Logistic回归
一、条件 Logistic回归的原理
二,应用实例
条件 Logistic回归是针对配对资料分析
的一种方法。
配对是消除混杂因素的重要手段。
条件 Logistic回归原理
表 16 - 5 1, 2 条件 Logistic 回归数据的格式
匹配组号 组内编号 反应变量
危 险 因 素
i t Y X
1
X
2
? X
m
1 0 1 X
101
X
102
? X
10m
1 0 X
111
X
112
? X
11m
2 0 X
1 21
X
1 22
? X
1 2 m
? ? ? ? ? ? ?
n 0 1 X
n01
X
n02
? X
n0m
1 0 X
n11
X
n12
? X
n1m
2 0 X
n 21
X
n 22
? X
n 2 m
t = 0 为病例, 其它为对照
条件 logistic回归原理
条件 logistic回归模型:
? ?
? ?
匹配组n,1,2,i
XXXe x p1
XXXe x p
P
mm2211i0
mm2211i0
i
?
?
?
?
?????????
????????
?
?0i条表示各匹配组的效应,可以不同;
内在假定 ?1,?2,?,?m在不同匹配组中相同。
条件 logistic回归原理
由条件概率公式构造各层似然函数:
第一组危险因素属于病例而其它危险因素属于对照
与各种可能组合情况下的概率比值
? ? ? ?
? ? ? ?
? ?? ?
? ?
?
? ?
? ??
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
??
??
?
M
t
m
j
jii t jj
M
t
M
ttt
itit
M
t
iti
i
XX
XYPXYP
XYPXYP
L
1 1
0
0 0
1
0
ex p1
1
01
01
?
条件 logistic回归原理
条件似然函数:
? ?? ?
?
? ?
?
?
?
?
?
?
?
??
?
M
t
m
j
jii t jj
n
i
XX
L
1 1
0
1
e x p1
1
?
表示各匹配组效应的 ?0i 被自动取消,
只估计表示危险因素作用的 ?j 值。
应用实例
喉癌 1, 2 配对病例-对照调查资料整理表
配对
组号
应变量 危险因素
i Y X
1
X
2
X
3
X
4
X
5
X
6
1 1 3 5 1 1 1 0
0 1 1 1 3 3 0
0 1 1 1 3 3 0
2 1 1 3 1 1 3 0
0 1 1 1 3 2 0
0 1 2 1 3 2 0
? ? ? ? ? ? ? ?
25 1 1 4 1 1 1 1
0 1 1 1 3 2 0
0 1 1 1 3 3 0
应用实例
喉癌 6 个可能的危险因素与赋值
因 素 变量名 赋 值 说 明
咽炎 X
1
无 =1, 偶尔 =2, 经常 =3
吸烟量(支 / 日) X
2
0 =1,1 ~ 4 =2,5 ~ 9 =3,10 ~ 20 =4, 20 ~ = 5
声嘶史 X
3
无 =1, 偶尔 =2, 经常 =3
摄食新鲜蔬菜 X
4
少 =1, 经常 =2, 每天 =3
摄食水果 X
5
很少 =1, 少量 =2, 经常 =3
癌症家族史 X
6
无 =0, 有 =1
是否患喉癌 Y 对照 =0, 病例 =1
应用实例
条件 Lo g i s ti c 逐步回归计算结果
入选变量
回归系数
b
标准误
S
b
W al d ?
2
?
OR
P 值
X
2
1,4 8 6 9 0,5506 7,2 9 4,4 2 0,0 0 6 9
X
3
1,9 1 6 6 0,9444 4,12 6,8 0 0,0 4 2 4
X
4
- 3,7 6 4 1 1,8251 4,2 5 0,0 2 0,0 3 9 2
X
6
3,6 3 2 1 1,8 6 5 7 3,7 9 3 7,7 9 0,0 5 1 6
第三节
Logistic回归的应用及其注意事项
一,Logistic回归的应用
二,Logistic回归应用的注意事项
logistic回归应用
1.流行病学危险因素分析
某一因素回归系数 bj 是其它因素水平相同、
这一因素在不同水平下的优势比或相对危险
度估计。
相对危险度的估计
Cohort study
Case-control study
Cross-sectional study
logistic回归应用
2.临床试验数据分析
评价某种治疗方法效果。
非处理因素 Xi(如年龄、病情 )在试验组和对
照组分布不均匀且对结果有影响,称为混杂因素。
Logistic回归分析可以对非处理因素进行调
整,对治疗方法作出合理评价。
i t Pl o g
X,jj
的平均变化量。加或减少一个单位时
增持不变时意义:在其它自变量保?
logistic回归应用
3.分析药物或毒物的剂量反应
? ?? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?????
?
0
50
0
e x pED
Xlne x p1
1
P
YX
半数效量:
间关系:与动物阳性反应率剂量
logistic回归应用
4.预测与判别
概率型模型:进行预测
Logistic回归判别
Logistic回归应用注意事项
1.变量的取值形式
年龄:按原始数据 X计算
expb表示每增加一岁时的优势比。
年龄,<40=1,40~ 49=2,50~ 59=3,60~ =4
expb表示每增加 10岁时的优势比。
Logistic回归应用注意事项
将年龄化作哑变量的两种方法
方 法 一 方 法 二 年龄(岁)
X
水平
D
1
D
2
D
3
D
1
D
2
D
3
< 40 1 0 0 0 1 0 0
40 ~ 2 1 0 0 0 1 0
50 ~ 3 0 1 0 0 0 1
60 ~ 4 0 0 1 - 1 - 1 - 1
以水平 1为对照,水平 2相对于水平 1优势比为 exp(b1),
水平 3相对于水平 1优势比为 exp(b2),水平 4相对于水
平 2优势比为 exp(b3-b1),?。
Logistic回归应用注意事项
2.样本含量:
未配对:病例、对照人数各 30~ 50例。
配对资料,n≥20× 自变量个数
Logistic回归应用注意事项
3.模型评价:
对建立的回归方程的检验:
拟合优度检验模型与实际数据符合情况:
剩余差 (Deviance)
Pearson ?2
对模型中每一个回归系数的检验:
似然比检验,Wald检验、计分检验
吸烟、饮酒与食管癌关系病例 - 对照调查资料
配合 Lo g i s ti c 模型的拟合优度检验
分层 吸烟 饮酒
观察例
数
阳性
数
阴性数 估计概率 剩余差 P e ar son
g X
1
X
2
n
g
r
g
n
g
- r
g
g
P
?
D
g
?
2
1 0 0 199 63 136 0,2 8 7 0 0,8 3 4 1 0,8 5 0 4
2 0 1 170 63 107 0,4 0 5 2 0,8 5 3 7 0,8 4 5 2
3 1 0 101 44 57 0,4 9 3 9 1,3 7 6 2 1,3 7 1 8
4 1 1 41 6 265 151 0,6 2 2 9 0,3 5 6 2 0,3 5 4 4
合计 886 435 453 — 3,4 2 0 2 3,4 2 1 8
(D) ( ?
2
)
0, 1 0P0, 0 5 71.2D84.3
2
1,10.0
2
105.0
????????
,
Logistic回归应用的注意事项
4.多分类 logistic回归
Y,无、轻、中、重
无效、好转、显效、治愈
-,±, +,++,+++
257页公式 (16-1), 264页公式 (16-15)
改为:
? ?
? ?mm22110
mm22110
XXXex p1
XXXex pP
?????????
?????????
?
?
? ? ? ?mm22110 XXXe x p1
1P
??????????
?
?
或
Logistic Regression Analysis
第十六章
Logistic 回归分析
实例
2003年 6月 17日处理无锡 101医院脑外科陈铮
立主任医师一份临床科研资料,1994年 1月~
2001年 12月 8年间,76例高血压脑出血患者术
后再出血的危险因素分析。
实例Y 手术后再出血
手术后未再出血
X1 性别
X2 年龄
X3 术前昏迷程度积分
X4 瞳孔是否扩大
X5 高血压病龄
X6 临床分级
X7 发病至手术时间
X8 出血部位
X9 出血量
X10 脑血管是否硬化
X11 有无活动性出血
X12 拔管时有无高血压
X13 手术后有无高血压
X14 是否右 (左 )手作右 (左 )脑
实例
单因素分析 (再出血组与未再出血组比较 )
X5,X7,X11,X12,X13有统计学意义。
Logistic回归分析,
( Y=1 手术后再出血 Y=0 手术后未再出血)
筛选出 X10,X14有统计学意义。
还可计算脑血管硬化比未硬化、右手作左脑
比右手作右脑的手术后再出血的相对危险度。
第一节 Logistic回归
一、基本概念
二,Logistic回归模型的参数估计
三,Logistic回归模型的假设检验
四、变量筛选
表 15 - 1 多元回归分析数据格式
例号 X
1
X
2
? X
m
Y
1 X
11
X
12
? X
1m
Y
1
2 X
21
X
22
? X
2m
Y
2
? ? ? ? ? ?
n X
n1
X
n2
? X
nm
Y
n
eXXXY mm22110 ?????????? ?
? ?2,0~ ?Ne
~
Logistic回归模型 (应变量是一个二值变量)
Y=
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
1Y0
XXXY mm22110
??
????????? ?
×
Logistic回归模型 (应变量是一个二值变量)
Y=
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
P=P( Y=1 | X1,X2,?,Xm)
?
?
?
?
?
?
? P1
P
ln ? ?Pitlo g?
Logistic回归模型 (概率型非线性回归)
? ? mm22110 XXXPitl o g ????????? ?
?
?
mm22110 XXXP1
Pln ?????????
?
?
??
?
?
?
?
1P0 P1 Pln ?????
?
??
?
?
????
Logistic回归模型 (概率型非线性回归)
? ?
? ?mm22110
XXX
XXXe x p
e
p1
P
mm22110
?????????
?
?
????????
?
?
e)eP ( 1 Peee)P1(P )()()()()( ????? ??????
? ?
? ?mm22110
mm22110
XXXe x p1
XXXe x pP
?????????
?????????
?
??
)]XXX(e x p [1
1P
mm22110 ??????????
?
?
Logistic回归模型 (概率型非线性回归)
1P0 X ???????
? ?
? ?mm22110
mm22110
XXXe x p1
XXXe x pP
?????????
?????????
?
?
模型参数的意义
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
基准风险
p1
P
ln 0????
?
?
??
?
?
?
有一对应关系。因素作用大小的优势比
危险的平均变化量。与衡量一个单位时
增加或减少变时:在其它自变量保持不
O R )(
i t Pl o g
X,jj??
模型参数的意义 (假定其它因素水平相同)
?jX
C1
C0
) r a t i o,o d d s(OR
P1/P
P1/P
00
11 优势比
)(
)( ?
?
?
)ri s k rel a t i v e(RR
P
P
P1/P
P1/POR
0
1
00
11 ??
?
??
)(
)(
某一危险因素两
个不同暴露水平
当 P较小时 (如恶性肿瘤发生率等 )
? ?
? ?
? ?
01j
m
jt
tt0j0
m
jt
tt1j0
01
00
11
j
CCXCXC
P itl o gP itl o g
P1/P
P1/P
lnORln
???
?
?
?
?
?
?
?
?
??????
?
?
?
?
?
?
?
?
??????
???
?
?
?
?
?
?
?
?
??
??
)]CC(ex p [OR 01jj ???
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
模型参数的意义 (假定其它因素水平相同)
X1OR 0
X1OR 0
X1OR 0
jjj
jjj
jjj
是一保护因素
是一危险因素
对疾病发生不起作用
???
???
???
?jX
C1=1 暴露
C0 =0 非暴露
jee x p)]CC(e x p [OR
j01jj
???????
模型参数的意义 (假定其它因素水平相同)
Logistic回归的优点:
得到某一因素回归系数估计值后,便可以得
到不同水平下相对危险度的近似估计值。
模型参数的意义
mm22110 XXXp1
P
ln ???????????
?
?
??
?
?
?
?
模型参数估计 (最大似然估计法 maximum likelihood estimate)
Yi =
1 阳性(发病、有效、死亡等)
0 阴性(未发病、无效、存活等)
? ? ? ? pYPpYP ii ????? 10 1
ii Y1Yi )p1(p}1,0Y{P ????
模型参数估计 (最大似然估计法 maximum likelihood estimate)
? ? ii YiYi
n
i
PPL ?
?
?? ? 1
1
1
一个样本的似然函数( L表示概率):
? ? ? ?? ??
?
????
n
i
iiii PYPYL
1
1ln1lnln
模型参数估计
最大似然原理:
在一次抽样中获得现有样本的概率 L应该最大。
建立似然函数 L;
用 Newton- Raphson迭代方法计算使 L最大 ;
m10 bbb
m210m210
S,S,S
b bbb
,得到极大似然估计值。同时
的,,,即,,,,此时
?
?? ????
优势比估计
? ?? ?01e xp CCb jjOR ??
?
)Sube x p (
jb2/j ?
?
可信区间:的 ??1jOR
吸烟、饮酒与食管癌关系的病例 - 对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g X
1
X
2
n
g
d
g
n
g
- d
g
1 0 0 199 63 136
2 0 1 170 63 107
3 1 0 101 44 57
4 1 1 416 265 151
X1
1 吸烟
0 不吸烟
X2
1 饮酒
0 不饮酒
Y
1 病例
0 对照
经 logistic回归计算:
? ?
? ? ? ?
25.3,81.11500.096.18856.0e x p
Sube x p
%95OR
42.28856.0e x pbe x pOR
1572.0S 5261.0b
1500.0S 8856.0b
1358.0S 9099.0b
1
2
1
0
b2/05.01
1
11
b2
b1
b0
????
?
???
??
??
???
?
可信区间:
吸烟与不吸烟优势比:
? ?
? ? ? ?
30.2,24.11572.096.15261.0e x p
Sube x p
%95OR
69.15261.0e x pbe x pOR
1572.0S 5261.0b
1500.0S 8856.0b
1358.0S 9099.0b
2
2
1
0
b2/05.02
2
22
b2
b1
b0
????
?
???
??
??
???
?
可信区间:
饮酒与不饮酒优势比:
模型的假设检验
0)m,,2,1j(:H
0:H
j1
m210
不全为?
?
??
???????
0:H 0:H j1j0 ????
似然比检验 (Likelihood ratio test),
含有不同自变量模型间的比较,适合多个
或单个自变量的假设检验。
模型的假设检验
? ?
。个自变量,含个自变量,含 lplLlnpLln
LlnLln2G
01
01
?
??
????
???
? P G
lpdG
2
d,
2 分布的近似服从自由度
模型的假设检验
? ? ? ?
? ?
? ? ? ?? ?
? ?? ?
,食管癌与吸烟有关。平衡了饮酒因素影响后
0, 0 5P 84.345.35G
45.354 3 6.5 9 77 1 1.5 7 92
XLlnX,XLln2G
7 1 1.5 7 9X,XLln
4 3 6.5 9 7XLln 3 2 6.5 8 5XLln
2
1,05.0
221
21
21
?????
?????
??
??
????
模型的假设检验
? ? ? ?
? ?
? ? ? ?? ?
? ?? ?
,食管癌与饮酒有关。平衡了吸烟因素影响后
0, 0 5P 84.323.11G
23.113 2 6.5 8 57 1 1.5 7 92
XLlnX,XLln2G
7 1 1.5 7 9X,XLln
4 3 6.5 9 7XLln 3 2 6.5 8 5XLln
2
1,05.0
121
21
21
?????
?????
??
??
????
模型的假设检验
0:H 0:H j1j0 ????
Wald检验 (Wald test):
各 bj与 0比较,适合单个自变量的假设检验。
1
S
b
2
b
j2
j
??
?
?
?
?
?
?
?
?
??
模型的假设检验
食管癌与饮酒有关。
食管癌与吸烟有关。
0, 0 5P 3, 8 4,2 011
0, 1 5 7 2
0, 5 2 6 1
S
b
0, 0 5P 3, 8 43 4, 8 6
0, 1 5 0 0
0, 8 8 5 6
S
b
2
0, 0 5,1
2
2
b
22
2
0, 0 5,1
2
2
b
12
2
1
?????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
变量筛选
用 Logistic逐步回归法
剔选变量过程与多元线性逐步回归相同
检验统计量为 Likelihood ratio,
? ? ? ?? ?l
0
l
1 LlnLln2G ??
进行到第 l步时,比较含有 Xj和不含 Xj的模型,
决定是否将 Xj引入模型或从模型中剔除。
26 例冠心病人和 28 例对照的冠心病危险因素病例对照调查研究资料
序号 X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
Y
1 3 1 0 1 0 0 1 1 0
2 2 0 1 1 0 0 1 0 0
3 2 1 0 1 0 0 1 0 0
? ? ? ? ? ? ? ? ? ?
53 2 1 0 1 0 0 1 1 1
54 3 1 1 0 1 0 3 1 1
变量筛选
冠心病 8 个可能的危险因素与赋值
因 素 变量名 赋 值 说 明
年龄(岁) X
1
< 4 5 = 1,4 5 ~ 5 4 = 2,5 5 ~ 6 4 = 3,6 5 ~ =4
高血压史 X
2
无 =0, 有 = 1
高血压家族史 X
3
无 =0, 有 = 1
吸烟 X
4
不吸 =0, 吸 = 1
高血酯史 X
5
无 =0, 有 = 1
动物脂肪摄入 X
6
低 =0, 高 = 1
体重指数( BMI ) X
7
< 24 = 1,24 ~ = 2,26 ~ =3
A 型性格 X
8
是 =0, 否 = 1
冠心病 Y 对照 =0, 病例 = 1
变量筛选
变量筛选
如何解释?
Log i s ti c 逐步回归计算结果( ? 入 = 0, 10, ? 出 = 0,1 5 )
入选变量
回归系数
b
标准误
S
b
W al d ?
2
P 值
标准回归
系数 b’
?
OR
常数项 - 4,7 0 5 1,5 4 3 9,3 0 0,0 0 2 3
X
1
0,9 2 4 0,4 7 7 3,7 6 0,0 5 2 5 0,4 0 1 2,5 2
X
5
1,4 9 6 0,7 4 4 4,0 4 0,0 4 4 3 0,4 0 6 4,4 6
X
6
3,1 3 6 1,2 4 9 6,3 0 0,0 1 2 1 0,7 0 3 2 3,0 0
X
8
1,947 0,8 4 7 5,2 9 0,0 2 1 5 0,5 2 3 7,0 1
第二节 条件 Logistic回归
一、条件 Logistic回归的原理
二,应用实例
条件 Logistic回归是针对配对资料分析
的一种方法。
配对是消除混杂因素的重要手段。
条件 Logistic回归原理
表 16 - 5 1, 2 条件 Logistic 回归数据的格式
匹配组号 组内编号 反应变量
危 险 因 素
i t Y X
1
X
2
? X
m
1 0 1 X
101
X
102
? X
10m
1 0 X
111
X
112
? X
11m
2 0 X
1 21
X
1 22
? X
1 2 m
? ? ? ? ? ? ?
n 0 1 X
n01
X
n02
? X
n0m
1 0 X
n11
X
n12
? X
n1m
2 0 X
n 21
X
n 22
? X
n 2 m
t = 0 为病例, 其它为对照
条件 logistic回归原理
条件 logistic回归模型:
? ?
? ?
匹配组n,1,2,i
XXXe x p1
XXXe x p
P
mm2211i0
mm2211i0
i
?
?
?
?
?????????
????????
?
?0i条表示各匹配组的效应,可以不同;
内在假定 ?1,?2,?,?m在不同匹配组中相同。
条件 logistic回归原理
由条件概率公式构造各层似然函数:
第一组危险因素属于病例而其它危险因素属于对照
与各种可能组合情况下的概率比值
? ? ? ?
? ? ? ?
? ?? ?
? ?
?
? ?
? ??
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
??
??
?
M
t
m
j
jii t jj
M
t
M
ttt
itit
M
t
iti
i
XX
XYPXYP
XYPXYP
L
1 1
0
0 0
1
0
ex p1
1
01
01
?
条件 logistic回归原理
条件似然函数:
? ?? ?
?
? ?
?
?
?
?
?
?
?
??
?
M
t
m
j
jii t jj
n
i
XX
L
1 1
0
1
e x p1
1
?
表示各匹配组效应的 ?0i 被自动取消,
只估计表示危险因素作用的 ?j 值。
应用实例
喉癌 1, 2 配对病例-对照调查资料整理表
配对
组号
应变量 危险因素
i Y X
1
X
2
X
3
X
4
X
5
X
6
1 1 3 5 1 1 1 0
0 1 1 1 3 3 0
0 1 1 1 3 3 0
2 1 1 3 1 1 3 0
0 1 1 1 3 2 0
0 1 2 1 3 2 0
? ? ? ? ? ? ? ?
25 1 1 4 1 1 1 1
0 1 1 1 3 2 0
0 1 1 1 3 3 0
应用实例
喉癌 6 个可能的危险因素与赋值
因 素 变量名 赋 值 说 明
咽炎 X
1
无 =1, 偶尔 =2, 经常 =3
吸烟量(支 / 日) X
2
0 =1,1 ~ 4 =2,5 ~ 9 =3,10 ~ 20 =4, 20 ~ = 5
声嘶史 X
3
无 =1, 偶尔 =2, 经常 =3
摄食新鲜蔬菜 X
4
少 =1, 经常 =2, 每天 =3
摄食水果 X
5
很少 =1, 少量 =2, 经常 =3
癌症家族史 X
6
无 =0, 有 =1
是否患喉癌 Y 对照 =0, 病例 =1
应用实例
条件 Lo g i s ti c 逐步回归计算结果
入选变量
回归系数
b
标准误
S
b
W al d ?
2
?
OR
P 值
X
2
1,4 8 6 9 0,5506 7,2 9 4,4 2 0,0 0 6 9
X
3
1,9 1 6 6 0,9444 4,12 6,8 0 0,0 4 2 4
X
4
- 3,7 6 4 1 1,8251 4,2 5 0,0 2 0,0 3 9 2
X
6
3,6 3 2 1 1,8 6 5 7 3,7 9 3 7,7 9 0,0 5 1 6
第三节
Logistic回归的应用及其注意事项
一,Logistic回归的应用
二,Logistic回归应用的注意事项
logistic回归应用
1.流行病学危险因素分析
某一因素回归系数 bj 是其它因素水平相同、
这一因素在不同水平下的优势比或相对危险
度估计。
相对危险度的估计
Cohort study
Case-control study
Cross-sectional study
logistic回归应用
2.临床试验数据分析
评价某种治疗方法效果。
非处理因素 Xi(如年龄、病情 )在试验组和对
照组分布不均匀且对结果有影响,称为混杂因素。
Logistic回归分析可以对非处理因素进行调
整,对治疗方法作出合理评价。
i t Pl o g
X,jj
的平均变化量。加或减少一个单位时
增持不变时意义:在其它自变量保?
logistic回归应用
3.分析药物或毒物的剂量反应
? ?? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?????
?
0
50
0
e x pED
Xlne x p1
1
P
YX
半数效量:
间关系:与动物阳性反应率剂量
logistic回归应用
4.预测与判别
概率型模型:进行预测
Logistic回归判别
Logistic回归应用注意事项
1.变量的取值形式
年龄:按原始数据 X计算
expb表示每增加一岁时的优势比。
年龄,<40=1,40~ 49=2,50~ 59=3,60~ =4
expb表示每增加 10岁时的优势比。
Logistic回归应用注意事项
将年龄化作哑变量的两种方法
方 法 一 方 法 二 年龄(岁)
X
水平
D
1
D
2
D
3
D
1
D
2
D
3
< 40 1 0 0 0 1 0 0
40 ~ 2 1 0 0 0 1 0
50 ~ 3 0 1 0 0 0 1
60 ~ 4 0 0 1 - 1 - 1 - 1
以水平 1为对照,水平 2相对于水平 1优势比为 exp(b1),
水平 3相对于水平 1优势比为 exp(b2),水平 4相对于水
平 2优势比为 exp(b3-b1),?。
Logistic回归应用注意事项
2.样本含量:
未配对:病例、对照人数各 30~ 50例。
配对资料,n≥20× 自变量个数
Logistic回归应用注意事项
3.模型评价:
对建立的回归方程的检验:
拟合优度检验模型与实际数据符合情况:
剩余差 (Deviance)
Pearson ?2
对模型中每一个回归系数的检验:
似然比检验,Wald检验、计分检验
吸烟、饮酒与食管癌关系病例 - 对照调查资料
配合 Lo g i s ti c 模型的拟合优度检验
分层 吸烟 饮酒
观察例
数
阳性
数
阴性数 估计概率 剩余差 P e ar son
g X
1
X
2
n
g
r
g
n
g
- r
g
g
P
?
D
g
?
2
1 0 0 199 63 136 0,2 8 7 0 0,8 3 4 1 0,8 5 0 4
2 0 1 170 63 107 0,4 0 5 2 0,8 5 3 7 0,8 4 5 2
3 1 0 101 44 57 0,4 9 3 9 1,3 7 6 2 1,3 7 1 8
4 1 1 41 6 265 151 0,6 2 2 9 0,3 5 6 2 0,3 5 4 4
合计 886 435 453 — 3,4 2 0 2 3,4 2 1 8
(D) ( ?
2
)
0, 1 0P0, 0 5 71.2D84.3
2
1,10.0
2
105.0
????????
,
Logistic回归应用的注意事项
4.多分类 logistic回归
Y,无、轻、中、重
无效、好转、显效、治愈
-,±, +,++,+++