Logistic回归分析
公共卫生学院
一、前言
? 应变量为分类指标的资料
? 线性回归分析,
应变量为连续计量资料
二,Logistic回归模型
? Logistic回归的分类
二分类
多分类
条件 Logistic回归
非条件 Logistic回归
? Logit变换
也称对数单位转换
logit P=
ln
1
P
P
??
?????
流行病学概念,
设 P表示暴露因素 X时个体发病的概率,
则发病的概率 P与未发病的概率 1-P 之
比为优势 ( odds), logit P就是 odds
的对数值。
? Logistic回归模型
Logistic回归的 logit模型
Logistic回归模型
0 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ??? ?
0 1 1 2 2
0 1 1 2 2
()
()1
kk
kk
b b x b x b x
b b x b x b x
eP
e
? ? ? ????
? ? ? ????? ?
三、参数估计
? 最大似然估计法
( Maximum likehood estimate)
似然函数,L=∏Pi
对数似然函数,
lnL=∑(ln P)=ln P1+ln P2+…+ln P n
非线性迭代方法 ——
Newton-Raphson法
四、参数检验
? 似然比检验 ( likehood ratio test)
通过比较包含与不包含某一个或
几个待检验观察因素的两个模型的对
数似然函数变化来进行,其统计量为 G
(又称 Deviance)。
G=-2(ln Lp-ln Lk)
样本量较大时,G近似服从自由
度为待检验因素个数的 ?2 分布。
? 比分检验 ( score test)
以未包含某个或几个变量的模型为基础,
保留模型中参数的估计值,并假设新增加
的参数为零,计算似然函数的一价偏导数
(又称有效比分)及信息距阵,两者相乘
便得比分检验的统计量 S 。 样本量较大时,
S近似服从自由度为待检验因素个数的
?2 分布。
? Wald检验 ( wald test)
即广义的 t检验,统计量为 u
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
i
i
b
b
u=
s
ibi
Sub ?? ?
上述三种方法中,似然比检验
最可靠,比分检验一般与它相一致,
但两者均要求较大的计算量;而
Wald检验未考虑各因素间的综合
作用,在因素间有共线性时结果不
如其它两者可靠。
五、回归系数的意义
单纯从数学上讲,与多元线性
回归分析中回归系数的解释并无不
同,亦即 bi表示 xi改变一个单位时,
logit P的平均变化量。
流行病学中的一些基本概念,
相对危险度 ( relative risk), RR=P1/P2
比数 Odds=P/(1-P)
比数比 OR=[P1 /(1-P1 )]/[P2 /(1-P2 )]
在患病率较小情况下,OR≈RR
? Logistic回归中的常数项( b0)表示,
在不接触任何潜在危险/保护因素条
件下,效应指标发生与不发生事件的
概率之比的对数值。
? Logistic回归中的回归系数 ( bi ) 表示,
某一因素改变一个单位时,效应指标
发生与不发生事件的概率之比的对数
变化值,即 OR的对数值。
Logistic回归系数的意义
? 分析因素 xi为二分类变量时,存在(暴
露) xi =1,不存在(未暴露) xi =0,
则 Logistic回归中 xi的系数 bi就是暴露与
非暴露优势比的对数值.即
OR=exp(bi)=e (bi)
? 分析因素 xi为多分类变量时,为方便起
见,常用 1,2,…, k分别表示 k个不
同的类别。进行 Logistic回归分析前需
将该变量转换成 k-1个指示变量或哑变
量 ( design/dummy variable),这样指
示变量都是一个二分变量,每一个指
示变量均有一个估计系数,即回归系
数,其解释同前。
? 分析因素 xi为等级变量时,如果每个等级的
作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,… 。此时,e(bi) 表示 xi增加一个等
级时的优势比,e(k* bi)表示 xi增加 k个等级时
的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
? 分析因素 xi为连续性变量时,e(bi)表示 xi增加
一个计量单位时的优势比。
多因素 Logistic回归分析时,
对回归系数的解释都是指在其它
所有自变量固定的情况下的优势
比。存在因素间交互作用时,
Logistic回归系数的解释变得更
为复杂,应特别小心。
根据 Wald检验,可知 Logistic回归
系数 bi服从 u分布。因此其可信区间为
进而,优势比 e(bi)的可信区间为
ibi
Sub ?? ?
)(
ibi
Sub
e
?? ?
六,Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、
后退法和逐步法。在这些方法中,筛选变量
的过程与线性回归过程的完全一样。但其中
所用的统计量不再是线性回归分析中的 F统计
量,而是以上介绍的参数检验方法中的三种
统计量之一。
为计算方便,通常向前选取
变量用似然比或比分检验,而向
后剔除变量常用 Wald检验。
七、条件 Logistic回归
? 对配对 /比调查资料,应该用条件
Logistic回归分析。
对于配比资料,第 i个配比组
可以建立一个 Logistic回归,
i 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ? ? ? ?
? 假设自变量在各配比组中对结果变量
的作用是相同的,即自变量的回归系
数与配比组无关。
? 配比设计的 Logistic回归模型
其中不含常数项。
1 1 2 2l o g i t P = b kkx b x b x? ? ? ? ? ?
? 可以看出此回归模型与非条件 Logistic
回归模型十分相似,只不过这里的参
数估计是根据条件概率得到的,因此
称为条件 Logistic回归模型。
? 条件 Logistic回归的回归系数检验与分
析,和非条件 Logistic回归完全相同。
八,Logistic回归的应用
? 危险 /保健因素的筛选,并确定其作用
大小。
? 预测:预测某种情况下或者某个病例,
某特定事件发生的概率。
九,Logistic回归应用实例
十、注意事项
? 应用条件
1,各观察对象间相互独立;
2,logit P与自变量呈线性关系。
? 异常值
? 计量资料间的共线性问题
? 暴露率
? 样本量
谢谢!
公共卫生学院
一、前言
? 应变量为分类指标的资料
? 线性回归分析,
应变量为连续计量资料
二,Logistic回归模型
? Logistic回归的分类
二分类
多分类
条件 Logistic回归
非条件 Logistic回归
? Logit变换
也称对数单位转换
logit P=
ln
1
P
P
??
?????
流行病学概念,
设 P表示暴露因素 X时个体发病的概率,
则发病的概率 P与未发病的概率 1-P 之
比为优势 ( odds), logit P就是 odds
的对数值。
? Logistic回归模型
Logistic回归的 logit模型
Logistic回归模型
0 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ??? ?
0 1 1 2 2
0 1 1 2 2
()
()1
kk
kk
b b x b x b x
b b x b x b x
eP
e
? ? ? ????
? ? ? ????? ?
三、参数估计
? 最大似然估计法
( Maximum likehood estimate)
似然函数,L=∏Pi
对数似然函数,
lnL=∑(ln P)=ln P1+ln P2+…+ln P n
非线性迭代方法 ——
Newton-Raphson法
四、参数检验
? 似然比检验 ( likehood ratio test)
通过比较包含与不包含某一个或
几个待检验观察因素的两个模型的对
数似然函数变化来进行,其统计量为 G
(又称 Deviance)。
G=-2(ln Lp-ln Lk)
样本量较大时,G近似服从自由
度为待检验因素个数的 ?2 分布。
? 比分检验 ( score test)
以未包含某个或几个变量的模型为基础,
保留模型中参数的估计值,并假设新增加
的参数为零,计算似然函数的一价偏导数
(又称有效比分)及信息距阵,两者相乘
便得比分检验的统计量 S 。 样本量较大时,
S近似服从自由度为待检验因素个数的
?2 分布。
? Wald检验 ( wald test)
即广义的 t检验,统计量为 u
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
i
i
b
b
u=
s
ibi
Sub ?? ?
上述三种方法中,似然比检验
最可靠,比分检验一般与它相一致,
但两者均要求较大的计算量;而
Wald检验未考虑各因素间的综合
作用,在因素间有共线性时结果不
如其它两者可靠。
五、回归系数的意义
单纯从数学上讲,与多元线性
回归分析中回归系数的解释并无不
同,亦即 bi表示 xi改变一个单位时,
logit P的平均变化量。
流行病学中的一些基本概念,
相对危险度 ( relative risk), RR=P1/P2
比数 Odds=P/(1-P)
比数比 OR=[P1 /(1-P1 )]/[P2 /(1-P2 )]
在患病率较小情况下,OR≈RR
? Logistic回归中的常数项( b0)表示,
在不接触任何潜在危险/保护因素条
件下,效应指标发生与不发生事件的
概率之比的对数值。
? Logistic回归中的回归系数 ( bi ) 表示,
某一因素改变一个单位时,效应指标
发生与不发生事件的概率之比的对数
变化值,即 OR的对数值。
Logistic回归系数的意义
? 分析因素 xi为二分类变量时,存在(暴
露) xi =1,不存在(未暴露) xi =0,
则 Logistic回归中 xi的系数 bi就是暴露与
非暴露优势比的对数值.即
OR=exp(bi)=e (bi)
? 分析因素 xi为多分类变量时,为方便起
见,常用 1,2,…, k分别表示 k个不
同的类别。进行 Logistic回归分析前需
将该变量转换成 k-1个指示变量或哑变
量 ( design/dummy variable),这样指
示变量都是一个二分变量,每一个指
示变量均有一个估计系数,即回归系
数,其解释同前。
? 分析因素 xi为等级变量时,如果每个等级的
作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,… 。此时,e(bi) 表示 xi增加一个等
级时的优势比,e(k* bi)表示 xi增加 k个等级时
的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
? 分析因素 xi为连续性变量时,e(bi)表示 xi增加
一个计量单位时的优势比。
多因素 Logistic回归分析时,
对回归系数的解释都是指在其它
所有自变量固定的情况下的优势
比。存在因素间交互作用时,
Logistic回归系数的解释变得更
为复杂,应特别小心。
根据 Wald检验,可知 Logistic回归
系数 bi服从 u分布。因此其可信区间为
进而,优势比 e(bi)的可信区间为
ibi
Sub ?? ?
)(
ibi
Sub
e
?? ?
六,Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、
后退法和逐步法。在这些方法中,筛选变量
的过程与线性回归过程的完全一样。但其中
所用的统计量不再是线性回归分析中的 F统计
量,而是以上介绍的参数检验方法中的三种
统计量之一。
为计算方便,通常向前选取
变量用似然比或比分检验,而向
后剔除变量常用 Wald检验。
七、条件 Logistic回归
? 对配对 /比调查资料,应该用条件
Logistic回归分析。
对于配比资料,第 i个配比组
可以建立一个 Logistic回归,
i 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ? ? ? ?
? 假设自变量在各配比组中对结果变量
的作用是相同的,即自变量的回归系
数与配比组无关。
? 配比设计的 Logistic回归模型
其中不含常数项。
1 1 2 2l o g i t P = b kkx b x b x? ? ? ? ? ?
? 可以看出此回归模型与非条件 Logistic
回归模型十分相似,只不过这里的参
数估计是根据条件概率得到的,因此
称为条件 Logistic回归模型。
? 条件 Logistic回归的回归系数检验与分
析,和非条件 Logistic回归完全相同。
八,Logistic回归的应用
? 危险 /保健因素的筛选,并确定其作用
大小。
? 预测:预测某种情况下或者某个病例,
某特定事件发生的概率。
九,Logistic回归应用实例
十、注意事项
? 应用条件
1,各观察对象间相互独立;
2,logit P与自变量呈线性关系。
? 异常值
? 计量资料间的共线性问题
? 暴露率
? 样本量
谢谢!