第十六章 logistic回归分析
logistic回归为概率型非线性回归模型,
是研究分类观察结果 (y)与一些影响因素
(x)之间关系的一种多变量分析方法。
问题提出:
医学研究中常研究某因素存在条件下某结果
是否发生? 以及之间的关系如何?
因素 ( X) 疾病结果 ( Y)
x1,x2,x3…X K 发生 Y=1
不发生 Y=0
例:暴露因素 冠心病结果
高血压史 (x1),有 或无 有 或 无
高血脂史 (x2),有 或 无
吸烟 (x3),有或无
研究问题可否用多元线性回归方法?
1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。
2.多元线性回归方程要求 Y与 X间关系为线
性关系。
3.多元线性回归结果 不能回答“发生与
否”
logistic回归方法补充多元线性回归的不足
Y?
1 1 2 2? mmy a b x b x b x? ? ?
Logistic回归方法
该法研究是
当 y 取某值(如 y=1) 发生的概率( p) 与某
暴露因素( x) 的关系。
P( 概率)的取值波动 0~ 1范围。
基本原理,用一组观察数据拟合 Logistic模型,
揭示若干个 x与一个因变量取值的关系,反映 y
对 x的依存关系。
( 1 / ) ( ),( )p y x f x f x? ? ?即p
第一节 logistic回归
一、基本概念
1.变量的取值
logistic回归要求应变量( Y) 取值为分类变
量(两分类或多个分类)
自变量( Xi) 称为危险因素或暴露因素, 可为
连续变量、等级变量、分类变量。
可有 m个自变量 X1,X2,… X m
?
?
??
)未发病、无效、存活等出现阴性结果
发病、有效、死亡等)出现阳性结果
( 0
( 1Y
2.两值因变量的 logistic回归模型方程
? 一个自变量与 Y关系的回归模型
如,y,发生 =1,未发生 =0 x, 有 =1,无 =0,
记为 p( y=1/x) 表示某暴露因素状态下,结
果 y=1的概率( P) 模型。
)](e x p [1
1)/1(
0 x
xyp
?? ???
??
x
x
e
e
xyP ??
??
?
?
?
??
0
0
1
)/1(

模型描述了应变量 p与 x的关系
P概率
1
0.5
Z值
0 1 2 3-1-2-3
图 16-1 Logistic回归函数的几何图形
)](e x p [1
1)1(
0 x
yp ?? ?????
xz 10 ?? ?? Β为正值,x越
大,结果 y=1发
生的可能性( p)
越大。
几个 logistic回归模型方程
0
01
( 1 / 1 )
1
x
x
ep P y x
e
??
??
?
?? ? ? ? ?
0
0 1
( 0 / 1 ) 1 1
1
x
x
e
P y x p
e
??
??
?
?? ? ? ? ? ??
0
00
( 1 / 0 )
1
e
p P y x
e
?
?? ? ? ? ?
0
0 0
( 0 / 0 ) 1 1
1
e
P y x p
e
?
?? ? ? ? ? ??
logistic回归模型方程的线性表达
对 logistic回归模型的概率( p) 做 logit变换,
l o g ( ) l n ( )
1
pit p
p
?
?
110)(lo g xpity ?? ???
截距(常数) 回归系数
Y~ ( -∞至 +∞)线形
关系
方程如下:
在有多个危险因素( Xi) 时
? 多个变量 的 logistic回归模型方程的线性表达:
mm XXXP
P ???? ????
?
?
??
?
?
?
? ?22110=
1
lnl o g i t ( p )
0112 (,,,, )
1
( 1 /,)
1 k k kk xx
p y x x x
e ? ? ?? ? ?
??
?

公式 16-2
2.模型中参数的意义
110=1ln XP
P ?? ?
?
?
??
?
?
?
Β0( 常数项),暴露因素 Xi=0时,个体发病
概率与不发病概率之比的自然对数比值。
0=)0/0(1
)0/1(ln ?
???
?
???
?
???
??
xyP
xyP
的含义,某危险因素,暴露水平变化时,即
Xi=1与 Xi=0相比,发生某结果(如发病)优势比
的对数值。
11
00
10
0 1 1 0 0 1 1
/( 1 )
l n l n
/( 1 )
l o g l o g
( ) ( )
PP
OR
PP
it P it P
x x x? ? ? ? ?
?? ?
? ??
???
??
? ? ? ? ?
i?
P1( y=1/x=1) 的概率
P0( y=1/x=0) 的概率
0
1
00
11
)1/(
)1/(
o dd s
o dd s
PP
PPOR ?
?
??
?eOR ?
危险因素
Y x= 1 x= 0
发病 =1 30( a) 10( b)
不发病 =0 70( c) 90( d)
a+c b+d
危险因素
Y x= 1 x= 0
发病 =1 p1 p0
不发病 =0 1-p1 1-p0
1
ap
ac? ?
有暴露因素人群中发病的比例
反映了在其他变量固定后,X=1与 x=0相比发
生 Y事件的对数优势比。
回归系数 β与 OR X与 Y的关联
? β=0,OR=1,无关
β> 0,OR> 1, 有关,危险因素
β< 0,OR< 1,有关,保护因子
事件发生率很小,OR≈RR。
多元回归模型的的 概念
i?
i?
i?
0 1 1l o g it( p ) l n =1 mm
P XX
P
? ? ???? ? ? ???
???
二,logistic回归模型的参数估计
1,模型中的参数( βi) 估计
通常用最大似然函数 (maximum likelihood
estimate,MLE)估计 β,由统计软件
包完成。 (讲义 259页)
mm XXXP
P ???? ????
?
?
??
?
?
?
?22110=
1
ln,,
2,优势比 (OR)及可信区间的估计
? 如 X=1,0两分类,则 OR的 1-α可信区间估
计公式
O R e ??
/2()jb jb u Se ??
jb
S
为回归系数
的标准误
(公式 16-10)
例:讲义表 16-1资料
一个研究吸烟, 饮酒与食道癌关系的病例-对
照资料 ( 886例 ), 试作 logistic回归分析 。
? 变量的赋值
1
0
Y
?
? ?
?
食管癌患者
对照:非食管癌
?
?
?
?
0
1
1 不吸烟
吸烟
X
?
?
?
?
0
1
2 不饮酒
饮酒
X
? 经 logistic回归计算后得
? b0 =-0.9099,b1 =0.8856,b2 =0.5261,
OR?)e x p ( ?
4244.2)8856.0e x p ( ?? OR
6923.1)5261.0e x p ( ?? OR
方程表达,
控制饮酒因素后,
吸烟与不吸烟相比
患食管癌的优势比
为 2.4倍
l n( ) 0,90 99 0,88 56 1 0,52 61 2
1
p xx
p
? ? ? ?
?
OR的可信区间估计
11 / 2
e x p ( ) e x p (0, 8 8 5 6 1, 9 6 0, 1 5 )
( 1, 8 1,3, 2 5 )
bb u S?? ? ? ?
?
吸烟与不吸烟患食管癌 OR的 95%可信区间:
2 / 2 2e x p ( ) e x p (0, 5 2 6 1 1, 9 6 0, 1 5 7 2 )
( 1, 2 4,2, 3 0 )
bb u S?? ? ? ?
?
饮酒与不饮酒 OR的 95%可信区间:
三,Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对 Y的作用是否有统计意义。
检验方法( 讲义 260-261页)
1) 似然比检验 (likelihood ratio test)
2) Wald检验
3) 计分检验 (score test)
0,210 ???? mH ??? ?
1, 1 2 ) 0jH j m? ? ???各 (,,, 不全为
mm XXXP
P ???? ????
?
?
??
?
?
?
?22110=
1
ln
例表 16-1吸烟、饮酒与食管癌资料
( SAS软件计算)
1.对建立的整个模型做检验。
Testing Global Null Hypothesis,BETA=0
Test Chi-Square DF Pr
似然比 68.5457 2 <.0001
计分检验 67.0712 2 <.0001
Wald检验 64.2784 2 <.0001
l n( ) 0,90 99 0,88 56 1 0,52 61 2
1
p xx
p
? ? ? ?
?
2.检验二:
检验模型中某 β是否对 Y有作用。
检验假设:
检验统计量:主要为 Wald检验( SAS软件)
? 例;
? 在大样本时,三方法结果一致。
0:0 ?jH ? 1,0jH ? ?
22 )(
jb
j
S
b
?? 公式 16-13
220,8 8 5 6( ) 3 3,8 6
0,1 5
? ??
ν=1的 χ2
例表 16-1资料,对各 x的 β做检验( wald检验)
参数 β估计值 标准误 Chi-Squa Pr
常数 -0.9099 0.1358 44.8699,0001
吸烟 0.8856 0.1500 34.8625,0001
饮酒 0.5261 0.1572 11.2069,0008
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
吸烟 x1 2.424 1.807 3.253
饮酒 x2 1.692 1.244 2.303
似然比检验(讲义)
? 对某个 β做检验,检验统计量( G)
102 ( l n l n )G L L??
1ln L
包括 p个自变量的对
数似然函数
0ln L
包括 l 个自变量的
对数似然函数
G服从自由度( d) =p-l的 χ2分布
似然比检验对 β做检验
1 1 2l n (,) 57 9,71 1L X X ??
01l n ( ) 585.326LX ??
例,X1为吸烟,X2为饮酒,检验饮酒与食
管癌关系,H0,β2=0,H1,β2≠0
1 2 12 [ l n (,) l n ( )
2 ( 5 7 9, 7 1 1 ( 5 8 5, 3 2 6 ) ] 1 1, 2 3
G L X X L X??
? ? ? ? ?
G > 3.84,p< 0.05,说明调整吸烟因素
后,饮酒与食管癌有关系。
0 1 1 2 2l o g ( )it p x x? ? ?? ? ?
0 1 1l og ( )it p x????
四、变量筛选
目的;将回归系数有显著意义的自变量选入
模型中,作用不显著的自变量则排除在外。
? 变量筛选算法有:前进法、后退法和
逐步法( stepwise)。
例:讲义例 16-2,用逐步法
选入变量的显著水准为 0.10,变量保留在方
程的水准为 0.15
例,16-2讲义 261-263页
表 16-4 进入方程的自变量及参数估计
变量 β Sb Waldχ2 P 标准 β’ OR
常数 -4.705 1.54 9.30 0.0023
年龄 0.924 0.477 3.76 0.0525 0.401 2.52
X5 1.496 0.744 4.04 0.0443 0.406 4.46
X6 3.136 1.249 6.30 0.0121 0.703 23.06
X8 1.947 0.847 5.29 0.0215 0.523 7.01
标准回归系数( b’) 比较各自变量对 Y 的相对贡献
' / ( / 3 )j j jb b s ???
第二节 条件 Logistic回归
概念:
用配对设计获得病例对照研究资料,计算的
Logistic回归模型为 条件 Logistic回归 。
成组(未配对)设计的病例对照研究资料,
计算的 Logistic回归模型为 非条件 Logistic
回归。
例:见 265页
区别:
条件 Logistic回归的参数估计无常数项( β0),
主要用于危险因素的分析。
第三节 logistic回归的应用及注意事项
一, logistic回归的应用
1.疾病 ( 某结果 ) 的危险因素分析和筛选
用回归模型中的回归系数( β i) 和 OR说明
危险因素与疾病的关系。例:讲义例 16-1,
16-2,16-3
适用的资料:
前瞻性研究设计, 病例对照研究设计,
横断面研究设计的资料 。
三类研究计算的 logistic 回归模型的 β意义是一致。仅常
数项不同。(证明略)
Logistic回归的应用
2.校正混杂因素,对疗效做评价
在临床研究和疗效的评价,组间某些因素构
成不一致干扰疗效分析,通过该法可控制
非处理因素,正确评价疗效。
3.预测与判别
预测个体在某因素存在条件下,发生某事件
(发病)的概率,为进一步治疗提供依据。
表 5-4甲乙两疗法某病治愈率 %比较
病型 甲疗法 乙疗法
病人 治愈 治愈 病人 治愈 治愈
数 数 率 数 数 率
普通型 300 180 60.0 100 65 65.0
重型 100 35 35.0 300 125 41.7
合计 400 215 53.8 400 190 47.5
例:
例 1
表 5-5直接法计算标准化治愈率
病型 标准 甲疗法 乙疗法
治疗 原治 预期 原治 预期
人数 愈率 治愈数 愈率 治愈数
普通型 400 60.0 240 65.0 260
重型 400 35.0 140 41.7 167
合计 800 380 427
调整率(标准化率):
%5.47
8 0 0
3 8 0' ??
?
??
i
ii
N
PNP
甲 %4.53800
427' ??
乙P
X1疗法(甲 =0,乙 =1) X2病情(轻 =1,重 =0)
Y疗效( Y=1有效,Y=0无效)
? LOGISTIC回归计算
Standard Wald Parameter
Estimate Error Chi-Squa Pr
Intercept -0.6453 0.1653
15.24 <.0001
疗法 0.2482 0.1699
2.13 0.1442 病情
0.9900 0.1699 33.93
<.0001
Odds Ratio
Estimate
例 2 性别、两种药物对某病疗效的研究
不考虑性别的影响,疗效与药物的 logistic回归
χ2=10.23,p=0.0014,OR=4.46
性别 治疗方法 疗效
有效
( y=1)
无效
( y=0)
合计

X1=1
新药( x2=1) 21 6 27
对照( x2=0) 13 19 32

X1=0
新药( x2=1) 7 7 14
对照( x2=0) 1 10 11
考虑性别、药物对疗效的作用
? Standard Wald
Parame Estimate Error Chi-Square Pr
常数 -1.9037 0.5982 10.127 0.0015
性别 1.4685 0.575 6.508 0.0107
药物 1.7816 0.518 11.794 0.0006
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
x1 性别 4.343 1.405 13.421
x2 药物 5.939 2.149 16.417
结论:性别和药物的回归系数都均有统计意义。
说明女性或用新药的疗效较优。
用 Logistic模型方程对个体的疗效做预测,
( 1, 9 0 3 7 1, 4 6 8 5 1 1, 7 8 1 6 2 )
1
( 1 / )
1 xx
p y x
e ? ? ? ?
??
?
设如女性病人,x1=1,用新药 x2=1,有效的概率 p=0.79
如男性病人 x1=0,用新药 x2=1,有效的概率 p=0.4695
二,Logistic回归应用的注意事项
1.模型中自变量的取值
自变量( X) 可为计量数据、分类数据和
等级数据。
计量数据常重新划为有序组段,OR的实际
意义较大。
例:年龄(岁,x1)
1l n ( ) 0, 0 41
p ax
p
??
?
e x p (0, 0 4 ) 1, 0 4 0 8OR ??
数据的几种赋值形式
1)两分类变量,赋值为:有 =1,无 =0
2)有序变量,赋值;无 =0,少 =1,中 =2,多 =3
例;年龄 < 45=1 45-54=2 55-64=3 ≥65=4
3.)多分类无序变量:
赋值为:哑变量( dummy variable) 形式
见例:
注:变量取值不同,方程的系数和符号将发生变
化。
表 16-2 冠心病 8个可能的危险因素与赋值
(讲义 262页)
因素 变量名 赋值说明
年龄 (岁 ) X1 <45=1,45?54=2,
55?64=3,65?=4
高血压史 X2 无 =0,有 =1
高血压家族史 X3 无 =0,有 =1
吸烟 X4 不吸 =0,吸 =1
表 16-9 年龄( X) 化为哑变量的赋值
年龄(岁 ) 有序变量 哑变量(方法一)
X 水平 D1 D2 D3
<40 1 0 0 0
40~ 2 1 0 0
50~ 3 0 1 0
60~ 4 0 0 1
110)(lo g xpit ?? ??
方程 1:有序变量方程
Β含义,x每增加 1个单位( 10岁),发病的
lnOR平均增加 β1
方程 2:哑变量方程(哑变量个数 =分类数- 1)
方程系数的解释:
表示 40-岁 /< 40岁相比的对数优势比
表示 50-岁 /< 40岁相比的对数优势比
表示 60-岁 /< 40岁相比的对数优势比
0 1 1 2 2 3 3l o g ( )i t p D D D? ? ? ?? ? ? ?
1?
2?
3?
哑变量的赋值方法
? 例 2:研究某结果与血型的关系
血型
( X)
哑变量
X1 X2 X3
A 0 0 0
B 1 0 0
O 0 1 0
AB 0 0 1
变量规定某个
分类为对照,
对照组在哑变
量的赋值均为
0
3322110)(l o g xxxpit ???? ????
式中回归系数表示各对比组与对照组( A型)相
比的变化值。
270页分析题 2
变量 X4的哑变量的赋值方法
规定治疗 11周 =X4-1,是 =1,否 =0
规定治疗 21周 =X4-2,是 =1,否 =0
规定治疗 1周为对照组。
哑变量的赋值
周 X4-1 X4-2
1~ 0 0
11~ 1 0
21~ 0 1
2.样本含量:
1)病例和对照组的例数可相等或不等。
2)样本例数的估计
原则:自变量个数越多,例数越多。各
组样本例数(对照组和病例组)至少
为自变量个数的 5-20倍。
3.模型的评价 ( 讲义 269页)
对所建立的回归方程做拟合优度检
验。检查模型估计与实际数据的符合情况。
检验统计量,
1.剩余差( deviance,记为 D)
( 16-25)
2.Pearson χ 2
( 16-26)
统计量的概率值 P> 0.05,认为模型拟合较好
例:表 16-10 (讲义表 16-10)
表 16-1资料吸烟、饮酒与食管癌的关
系( SAS软件结果)
剩余差( D) 与 Pearson χ 2 拟合优度检验
Deviance and Pearson Goodness-of-Fit
Statistics
Criterion DF Value
Pr > ChiSq
Deviance 1 3.4202
0.0644
Pearson 1 3.4218
4.多分类的 Logistic回归
Logistic回归可处理:
1) 应变量( Y) 为有序的多分类资料
如结果为:治愈、显效、好转、无效
2) 应变量( Y) 为无序的多分类资料
例,研究阑尾炎类型与危险因素关系
阑尾炎类型有:卡他型、坏疽型、腹膜炎型
多分类 Logistic回归方法(略)
结果的表达
一般 logistic 回归分析报告内容:
1.危险因素的回归系数及标准误,p值
2.标准化的回归系数。
3.危险因素对应的 OR和可信区间
4.Logistic回归方程
? ?3//' ?jjj Sbb ?? 讲义 264页
本节重点掌握内容和作业
一、问答题
1.Logistic回归与线性回归有什么不同?
2,Logistic回归可解决哪些问题?
3.自变量可以有哪些类型,应用时应如何
赋值?
4,Logistic回归中 β的含义和方程的表达。
二、计算分析题的第 2题的第( 1)题 。