北京大学：医学统计学：8

分类：基础医学格式：ppt 日期：2007年03月22日

Logistic回归分析
公共卫生学院
一、前言
? 应变量为分类指标的资料
? 线性回归分析,
应变量为连续计量资料
二,Logistic回归模型
? Logistic回归的分类
二分类
多分类
条件 Logistic回归
非条件 Logistic回归
? Logit变换
也称对数单位转换
logit P=
ln
1
P
P
??
?????
流行病学概念,
设 P表示暴露因素 X时个体发病的概率，
则发病的概率 P与未发病的概率 1-P 之
比为优势（ odds）, logit P就是 odds
的对数值。
? Logistic回归模型
Logistic回归的 logit模型
Logistic回归模型
0 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ??? ?
0 1 1 2 2
0 1 1 2 2
()
()1
kk
kk
b b x b x b x
b b x b x b x
eP
e
? ? ? ????
? ? ? ????? ?
三、参数估计
? 最大似然估计法
（ Maximum likehood estimate）
似然函数,L=∏Pi
对数似然函数,
lnL=∑(ln P)=ln P1+ln P2+…+ln P n
非线性迭代方法 ——
Newton-Raphson法
四、参数检验
? 似然比检验（ likehood ratio test）
通过比较包含与不包含某一个或
几个待检验观察因素的两个模型的对
数似然函数变化来进行，其统计量为 G
（又称 Deviance）。
G=-2(ln Lp-ln Lk)
样本量较大时,G近似服从自由
度为待检验因素个数的 ?２分布。
? 比分检验（ score test）
以未包含某个或几个变量的模型为基础，
保留模型中参数的估计值，并假设新增加
的参数为零，计算似然函数的一价偏导数
（又称有效比分）及信息距阵，两者相乘
便得比分检验的统计量 S 。样本量较大时,
S近似服从自由度为待检验因素个数的
?２分布。
? Wald检验（ wald test）
即广义的 t检验，统计量为 u
u服从正态分布，即为标准正态离差。
Logistic回归系数的区间估计
i
i
b
b
u=
s
ibi
Sub ?? ?
上述三种方法中，似然比检验
最可靠，比分检验一般与它相一致，
但两者均要求较大的计算量；而
Wald检验未考虑各因素间的综合
作用，在因素间有共线性时结果不
如其它两者可靠。
五、回归系数的意义
单纯从数学上讲，与多元线性
回归分析中回归系数的解释并无不
同，亦即 bi表示 xi改变一个单位时,
logit P的平均变化量。
流行病学中的一些基本概念,
相对危险度（ relative risk）, RR=P1/P2
比数 Odds=P/(1-P)
比数比 OR=[P１ /(1-P１ )]/[P２ /(1-P２ )]
在患病率较小情况下,OR≈RR
? Logistic回归中的常数项（ b0）表示，
在不接触任何潜在危险／保护因素条
件下，效应指标发生与不发生事件的
概率之比的对数值。
? Logistic回归中的回归系数（ bi ）表示，
某一因素改变一个单位时，效应指标
发生与不发生事件的概率之比的对数
变化值，即 OR的对数值。
Logistic回归系数的意义
? 分析因素 xi为二分类变量时，存在（暴
露） xi ＝１，不存在（未暴露） xi ＝０，
则 Logistic回归中 xi的系数 bi就是暴露与
非暴露优势比的对数值．即
OR=exp(bi)=e (bi)
? 分析因素 xi为多分类变量时，为方便起
见，常用 1,2,…, k分别表示 k个不
同的类别。进行 Logistic回归分析前需
将该变量转换成 k-1个指示变量或哑变
量（ design/dummy variable）,这样指
示变量都是一个二分变量，每一个指
示变量均有一个估计系数，即回归系
数，其解释同前。
? 分析因素 xi为等级变量时，如果每个等级的
作用相同，可按计量资料处理：如以最小或
最大等级作参考组，并按等级顺序依次取为
0,1,2,… 。此时,e(bi) 表示 xi增加一个等
级时的优势比,e(k* bi)表示 xi增加 k个等级时
的优势比。如果每个等级的作用不相同，则
应按多分类资料处理。
? 分析因素 xi为连续性变量时,e(bi)表示 xi增加
一个计量单位时的优势比。
多因素 Logistic回归分析时，
对回归系数的解释都是指在其它
所有自变量固定的情况下的优势
比。存在因素间交互作用时,
Logistic回归系数的解释变得更
为复杂，应特别小心。
根据 Wald检验，可知 Logistic回归
系数 bi服从 u分布。因此其可信区间为
进而，优势比 e(bi)的可信区间为
ibi
Sub ?? ?
)(
ibi
Sub
e
?? ?
六,Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看，有强迫法、前进法、
后退法和逐步法。在这些方法中，筛选变量
的过程与线性回归过程的完全一样。但其中
所用的统计量不再是线性回归分析中的 F统计
量，而是以上介绍的参数检验方法中的三种
统计量之一。
为计算方便，通常向前选取
变量用似然比或比分检验，而向
后剔除变量常用 Wald检验。
七、条件 Logistic回归
? 对配对 /比调查资料，应该用条件
Logistic回归分析。
对于配比资料，第 i个配比组
可以建立一个 Logistic回归,
i 1 1 2 2l o g i t P = b kkb x b x b x? ? ? ? ? ? ?
? 假设自变量在各配比组中对结果变量
的作用是相同的，即自变量的回归系
数与配比组无关。
? 配比设计的 Logistic回归模型
其中不含常数项。
1 1 2 2l o g i t P = b kkx b x b x? ? ? ? ? ?
? 可以看出此回归模型与非条件 Logistic
回归模型十分相似，只不过这里的参
数估计是根据条件概率得到的，因此
称为条件 Logistic回归模型。
? 条件 Logistic回归的回归系数检验与分
析，和非条件 Logistic回归完全相同。
八,Logistic回归的应用
? 危险 /保健因素的筛选，并确定其作用
大小。
? 预测：预测某种情况下或者某个病例，
某特定事件发生的概率。
九,Logistic回归应用实例
十、注意事项
? 应用条件
1,各观察对象间相互独立；
2,logit P与自变量呈线性关系。
? 异常值
? 计量资料间的共线性问题
? 暴露率
? 样本量
谢谢！

课件简介

课件名称：	北京大学：医学统计学
课件分类：	基础医学
课件类型：	电子教案
文件大小：	1.81MB
下载次数：	8
评论次数：	7
用户评分：	8.7

用户列表