定性数据的建模列联表及列联表分析对数线性模型的基本理论和方法对数线性模型的 SPSS实现
Logistic回归基本理论和方法
Logistic回归步骤以及 SPSS实现
1
2
3
4
5
列联表及列联表分析
研究两个属性变量之间是否有联系
研究步骤:
通过问卷调查或统计资料获得属性变量的信息
整理问卷或统计资料获得列联表数据
通过统计假设检验 两个属性变量是否具有独立性频数列联表
1A
A B
合计合计
2A
3A
1B 2B
11n 12n
22n21n
32n31n
2n
1n
2?n1?n
3n
n
女性人口学研究教育婚姻合计合计大学大学以下结婚一次 结婚多次
550 61
681 144
611
825
1231 205 1436
事件 发生的概率
A事件 与 同时发生的概率频率列联表
1A 1B
1A
1A
B
合计合计
2A
3A
1B 2B
11p 12p
22p21p
32p31p
2p
1p
2?p1?p
3p
1
事件 发生的概率
1B
统计假设与检验
零假设,属性变量 A与 B相互独立
检验统计量及其分布,n足够大
~
决策规则,
对给定的显著性水平,若则拒绝零假设,
I
i
J
j ji
jiij
pp
pppn
1 1
2
2 )(? )]1)(1[(2 JI?
)]1)(1[(22 JI
)]1)(1[(2 JI
检验统计量的计算
I
i
J
j ji
jiij
I
i
J
j ji
jiij
nnn
nnnn
pp
ppp
n
1 1
2
1 1
2
2 )()(?
1 4 3 68 2 52 0 5
)1 4 3 68 2 52 0 51 4 4(
1 4 3 68 2 51 2 3 1
)1 4 3 68 2 51 2 3 16 8 1(
1 4 3 66 1 12 0 5
)1 4 3 66 1 12 0 561(
1 4 3 66 1 11 2 3 1
)1 4 3 66 1 11 2 3 15 5 0(
22
22
零假设,婚姻状态与教育水平没有关系
检验统计量及其分布,n足够大
决策规则,对给定的显著性水平 0.05
则拒绝零假设,即婚姻状态与教育水平有关联,
84.3)1(01.16 2 05.02
01.16
)(2
1
2
1
2
2
i j ji
jiij
nnn
nnnn
对数线性模型的基本理论和方法
研究两个属性变量之间的关联方式
研究方法:双因素方差分析频率的分解
A
1A
B
均值均值
2A
3A
1B 2B
11? 12?
22?21?
32?31?
2?
1?
21
3?
频率对数表 )ln( ijij p
频率对数分解式
)()()( jiijjiij
ijji
属性 A的效应属性 B的效应
A与 B的交互效应
0
j
ij
i
ijji
=0 属性 A与 B相互独立
ij?
jiijpln
jiep
ij
jiij ppp
I
i
J
j
I
i
J
j
ij
jieep
1 11 1
1
ji,所有属性间的关联度分析
ij?
正效应独立负效应某个 在统计意义上是否为零需要进行假设检验 ij
的估计
ij?
I
i
J
j
ij
I
i
ij
J
j
ijij
I
i
J
j
ij
I
i
ij
J
j
ijij
jiijij
n
IJ
n
I
n
J
n
p
IJ
p
I
p
J
p
1 111
1 111
ln
1
ln
1
ln
1
ln
ln
1
ln
1
ln
1
ln
对数线性模型的 SPSS实现
1A
A B
合计合计
2A
3A
1B 2B
11n 12n
22n21n
32n31n
2n
1n
2?n1?n
3n
n
频数列联表
SPSS中的数据输入
21n
12n
22n
频数 A水平 B水平
1
2
3
1
2
3
1
1
1
2
2
232n
11n
31n
对数线性模型的 SPSS实现过程
激活频数
Data Weight Cases Weight
Cases by
Frequency Variable OK频数变量点击点击 1
点击 2
点击
进入分析过程
Analyze Loglinear Model
Selection Model Selection Loglinear
Analysis
点击 1 点击 2
点击填写 点击点击 1
点击 2
点击点击点击 1
点击 2
例题
某企业想了解顾客对其产品是否满意,
同时还想了解不同收入的人群对其产品的满意程度是否相同,在随机发放的 1000份问卷中收回有效问卷 792份,
根据收入高低和满意回答的交叉分组数据如下,
列联表与对数线性模型的估计结果满意 不满意高中低合计合计
53 38
434 108
111 48
598 194
91
542
159
792
Logistic回归基本理论和方法
研究某一事件发生的概率 P=P(y=1)与若干因素之间的关系
qq xxp110
在 0和 1之间任意范围之间的数量若干个状态的标量
logistic变换
logistic变换
Logistic回归 模型
),(1ln pp
qq xxp
p
1101ln
优势比概率 p的预测
P与多因素之间的关系预测
qq
qq
xx
xx
e
e
p
110
110
1
)( 1101
1
qq xxe
p
P与单因素之间的关系图
p
x
1
x
x
e
ep
10
10
1
01
最可能成功范围最不可能成功范围回归系数的含义
优势比 (Odds Ratio)— 比较事件发生与不发生的概率比
优势比与单变量系数之间的关系
qq xxe
p
pOR
110
1
),,,,,(),,1,,,( 2121 qiqi xxxxORexxxxOR i
优势比减小优势比增加
0
0
i
i
Logistic回归 系数的估计 (分组数据 )
n组观测数据结构:
iN
序号 x
参加调查总数 事件出现次数
im
事件出现频率
ii Nm
Logistic
变换
1
2
n
i
1x
2x
ix
nx
iN
1N
2N
nN
1m
2m
im
nm
1p
2p
np
ip
])1(ln[ ii pp?
1p?
2p?
ip?
np?
拟合模型其中 近似服从
iii xp 10
i? ))1(
1,0( 2?
iii ppN
N?
ni,,2,1
权 (weight)
转换成经典回归模型 (加权最小二乘 )
其中 近似服从
iiiiiiiiiiiiiii ppNxppNppNpppN )1())1(()1()1( 10
iiii uXXz 1100
iu
),0( 2?N
例题在一次住房展销会上,与房地产商签订初步购房意向书的共有 n=325名顾客,在随后的三个月里,只有一部分顾客确实购买了房屋,以顾客的年家庭收入 x(万元 )为自变量,建立 Logistic回归模型,
点击选取
Logistic回归 系数的估计 (未分组数据 )
n组观测数据:
~
与 的关系
);,,,( 21 iiqii yxxx?
iy iqii xxx,,,21?
qq
qq
xx
xx
ii e
epyE
110
110
1
)(
),1( ipBiy
的分布函数
的似然函数
iy
ii yiyii ppyp 1)1()(
nyyy,,21?
n
i
n
i
y
i
y
ii
ii ppypL
1 1
1)1()(
似然函数的对数表达
利用 迭代法 求解似然函数对数的最大值点就是参数的极大似然估计,记为:
n
i
iiii pypyL
1
)]1ln ()1(ln[ln
n
i
xx
iqqii
iqqiexxy
1
110 )]1ln ()([
110
q,,?,? 10?
拟合的优良性
2
1
2
)(
i
i
D
回归模型的优良性拟合优度回归系数的显著性
-2log(L) Wald=
2R?
Logistic回归步骤以及 SPSS实现点击 1
点击 2
点击 1
点击 2
点击点击 1
点击 2
可选可选例题 (估计金融机构正常运转的概率 )
Detecting ailing financial and business
establishments is an important function
of audit and control,Table 1 gives some
of the operating financial ratios of 33
firms that went bankrupt after 2 years
and 33 that remained solvent during the
same period,Three financial ratios were
available for each firm:
Independents and Dependent
a s s e tsto ta l
e a r n in gr e ta in e dX?
1
a s s e tst o t a l
t a x e sandi n t e r e s tb e f o r ee a r n i n gX?
2
a s s e tsto ta l
s a le sX?
3
y e a r sa f t e rs o l v e n tif
y e a r sa f t e rb a n k r u p tifY
21
20
Response Variable
变量的选择
21?
第二步第三步第一步分别计算 p个变量和 p-1个变量模型的
-2LL(P)和
-2LL(p-1)
计算
2[LL(p)-LL(p-1)]
服从如果
2[LL(p)-LL(p-1)]
不应删除变量
84.3)05.0(21
科研教案庞素林,Logistic回归模型在信用风险中的应用,
数学的实践与认识,2006,36(9):129~137
判别模型建立的基本步骤样本分组将样本分成训练样本组和测试样本组建模过程利用训练样本建立分类模型评价过程利用测试样本评价模型的精度第二步 第三步第一步摘要通过运行 SPSS,建立 Logistic 回归信用评价模型 (credit evaluation model),用来对中国 2000 年 106家上市公司进行两类模式分类,这两类模式是指按照公司的经营状况分为,差,和,正常,两个小组,对每一家上市公司,考虑其经营状况的 4 个主要财务指标,每股收益,每股净资产,净资产收益率和每股现金流量,
仿真 结果表明,Logistic 回归信用评价模型对总体 106 个样本,判别准确率达到 99,06%.
此外,本文的研究结果还发现,当利用 SPSS
的 Discriminant 给出的模型系数建立的线性判别分析模型和利用 SPSS 的 Multinomial
Logistic 给出的模型参数建立的 Logistic 回归模型,Logistic 回归模型的判别结果不如线性判别模型,但如果剔除不合格的样本,或是将样本数据规格化,则可以提高 Logistic 回归模型的分类准确率,
引言中提及的一些研究结果
Martin(1977)用 Logistic模型预测公司破产及违约的概率
Ohlson(1980)将 Logistic模型应用于信用风险分析
Madalla(1983)采用 Logistic模型区别违约与非违约贷款申请人
David West(2000)利用 5种神经网络和 5种统计分类模型 (线性判别分析,
Logistic回归分析,K最近邻法,核密度分类法,分类树法 )分别对德国和澳大利亚两组财务数据进行两类模式分类,
研究结果表明,Logistic模型的判别准确率最高,分别为 76.3%和 87.25%.
一个一般结论数据满足正态分布
Logistic 回归模型与判别分析模型具有相同的判别准确率
yes
No
Logistic 回归模型的判别准确率高于 判别分析模型的判别准确率本研究结论
当 Logistic 回归模型和判别分析模型都通过运行 SPSS 软件来估计模型参数并建立相应模型时,线性判别分析模型优于 Logistic 回归模型,
Logistic模型
)](e x p [1
1)(
443322110 xcxcxcxcc
pyE
每股净收益每股净资产净资产收益率每股现金流量
财务状况正常公司陷入财务危机公司
i
iy
i 1
S T )(0
106,,2,1i
判别法则
财务状况正常公司陷入财务危机公司
i
ip
i 1
0
)](e x p [1
1
443322110 iiii
i xcxcxcxccp
公司 i财务状况正常的概率,
Logistic回归基本理论和方法
Logistic回归步骤以及 SPSS实现
1
2
3
4
5
列联表及列联表分析
研究两个属性变量之间是否有联系
研究步骤:
通过问卷调查或统计资料获得属性变量的信息
整理问卷或统计资料获得列联表数据
通过统计假设检验 两个属性变量是否具有独立性频数列联表
1A
A B
合计合计
2A
3A
1B 2B
11n 12n
22n21n
32n31n
2n
1n
2?n1?n
3n
n
女性人口学研究教育婚姻合计合计大学大学以下结婚一次 结婚多次
550 61
681 144
611
825
1231 205 1436
事件 发生的概率
A事件 与 同时发生的概率频率列联表
1A 1B
1A
1A
B
合计合计
2A
3A
1B 2B
11p 12p
22p21p
32p31p
2p
1p
2?p1?p
3p
1
事件 发生的概率
1B
统计假设与检验
零假设,属性变量 A与 B相互独立
检验统计量及其分布,n足够大
~
决策规则,
对给定的显著性水平,若则拒绝零假设,
I
i
J
j ji
jiij
pp
pppn
1 1
2
2 )(? )]1)(1[(2 JI?
)]1)(1[(22 JI
)]1)(1[(2 JI
检验统计量的计算
I
i
J
j ji
jiij
I
i
J
j ji
jiij
nnn
nnnn
pp
ppp
n
1 1
2
1 1
2
2 )()(?
1 4 3 68 2 52 0 5
)1 4 3 68 2 52 0 51 4 4(
1 4 3 68 2 51 2 3 1
)1 4 3 68 2 51 2 3 16 8 1(
1 4 3 66 1 12 0 5
)1 4 3 66 1 12 0 561(
1 4 3 66 1 11 2 3 1
)1 4 3 66 1 11 2 3 15 5 0(
22
22
零假设,婚姻状态与教育水平没有关系
检验统计量及其分布,n足够大
决策规则,对给定的显著性水平 0.05
则拒绝零假设,即婚姻状态与教育水平有关联,
84.3)1(01.16 2 05.02
01.16
)(2
1
2
1
2
2
i j ji
jiij
nnn
nnnn
对数线性模型的基本理论和方法
研究两个属性变量之间的关联方式
研究方法:双因素方差分析频率的分解
A
1A
B
均值均值
2A
3A
1B 2B
11? 12?
22?21?
32?31?
2?
1?
21
3?
频率对数表 )ln( ijij p
频率对数分解式
)()()( jiijjiij
ijji
属性 A的效应属性 B的效应
A与 B的交互效应
0
j
ij
i
ijji
=0 属性 A与 B相互独立
ij?
jiijpln
jiep
ij
jiij ppp
I
i
J
j
I
i
J
j
ij
jieep
1 11 1
1
ji,所有属性间的关联度分析
ij?
正效应独立负效应某个 在统计意义上是否为零需要进行假设检验 ij
的估计
ij?
I
i
J
j
ij
I
i
ij
J
j
ijij
I
i
J
j
ij
I
i
ij
J
j
ijij
jiijij
n
IJ
n
I
n
J
n
p
IJ
p
I
p
J
p
1 111
1 111
ln
1
ln
1
ln
1
ln
ln
1
ln
1
ln
1
ln
对数线性模型的 SPSS实现
1A
A B
合计合计
2A
3A
1B 2B
11n 12n
22n21n
32n31n
2n
1n
2?n1?n
3n
n
频数列联表
SPSS中的数据输入
21n
12n
22n
频数 A水平 B水平
1
2
3
1
2
3
1
1
1
2
2
232n
11n
31n
对数线性模型的 SPSS实现过程
激活频数
Data Weight Cases Weight
Cases by
Frequency Variable OK频数变量点击点击 1
点击 2
点击
进入分析过程
Analyze Loglinear Model
Selection Model Selection Loglinear
Analysis
点击 1 点击 2
点击填写 点击点击 1
点击 2
点击点击点击 1
点击 2
例题
某企业想了解顾客对其产品是否满意,
同时还想了解不同收入的人群对其产品的满意程度是否相同,在随机发放的 1000份问卷中收回有效问卷 792份,
根据收入高低和满意回答的交叉分组数据如下,
列联表与对数线性模型的估计结果满意 不满意高中低合计合计
53 38
434 108
111 48
598 194
91
542
159
792
Logistic回归基本理论和方法
研究某一事件发生的概率 P=P(y=1)与若干因素之间的关系
qq xxp110
在 0和 1之间任意范围之间的数量若干个状态的标量
logistic变换
logistic变换
Logistic回归 模型
),(1ln pp
qq xxp
p
1101ln
优势比概率 p的预测
P与多因素之间的关系预测
xx
xx
e
e
p
110
110
1
)( 1101
1
qq xxe
p
P与单因素之间的关系图
p
x
1
x
x
e
ep
10
10
1
01
最可能成功范围最不可能成功范围回归系数的含义
优势比 (Odds Ratio)— 比较事件发生与不发生的概率比
优势比与单变量系数之间的关系
qq xxe
p
pOR
110
1
),,,,,(),,1,,,( 2121 qiqi xxxxORexxxxOR i
优势比减小优势比增加
0
0
i
i
Logistic回归 系数的估计 (分组数据 )
n组观测数据结构:
iN
序号 x
参加调查总数 事件出现次数
im
事件出现频率
ii Nm
Logistic
变换
1
2
n
i
1x
2x
ix
nx
iN
1N
2N
nN
1m
2m
im
nm
1p
2p
np
ip
])1(ln[ ii pp?
1p?
2p?
ip?
np?
拟合模型其中 近似服从
iii xp 10
i? ))1(
1,0( 2?
iii ppN
N?
ni,,2,1
权 (weight)
转换成经典回归模型 (加权最小二乘 )
其中 近似服从
iiiiiiiiiiiiiii ppNxppNppNpppN )1())1(()1()1( 10
iiii uXXz 1100
iu
),0( 2?N
例题在一次住房展销会上,与房地产商签订初步购房意向书的共有 n=325名顾客,在随后的三个月里,只有一部分顾客确实购买了房屋,以顾客的年家庭收入 x(万元 )为自变量,建立 Logistic回归模型,
点击选取
Logistic回归 系数的估计 (未分组数据 )
n组观测数据:
~
与 的关系
);,,,( 21 iiqii yxxx?
iy iqii xxx,,,21?
xx
xx
ii e
epyE
110
110
1
)(
),1( ipBiy
的分布函数
的似然函数
iy
ii yiyii ppyp 1)1()(
nyyy,,21?
n
i
n
i
y
i
y
ii
ii ppypL
1 1
1)1()(
似然函数的对数表达
利用 迭代法 求解似然函数对数的最大值点就是参数的极大似然估计,记为:
n
i
iiii pypyL
1
)]1ln ()1(ln[ln
n
i
xx
iqqii
iqqiexxy
1
110 )]1ln ()([
110
q,,?,? 10?
拟合的优良性
2
1
2
)(
i
i
D
回归模型的优良性拟合优度回归系数的显著性
-2log(L) Wald=
2R?
Logistic回归步骤以及 SPSS实现点击 1
点击 2
点击 1
点击 2
点击点击 1
点击 2
可选可选例题 (估计金融机构正常运转的概率 )
Detecting ailing financial and business
establishments is an important function
of audit and control,Table 1 gives some
of the operating financial ratios of 33
firms that went bankrupt after 2 years
and 33 that remained solvent during the
same period,Three financial ratios were
available for each firm:
Independents and Dependent
a s s e tsto ta l
e a r n in gr e ta in e dX?
1
a s s e tst o t a l
t a x e sandi n t e r e s tb e f o r ee a r n i n gX?
2
a s s e tsto ta l
s a le sX?
3
y e a r sa f t e rs o l v e n tif
y e a r sa f t e rb a n k r u p tifY
21
20
Response Variable
变量的选择
21?
第二步第三步第一步分别计算 p个变量和 p-1个变量模型的
-2LL(P)和
-2LL(p-1)
计算
2[LL(p)-LL(p-1)]
服从如果
2[LL(p)-LL(p-1)]
不应删除变量
84.3)05.0(21
科研教案庞素林,Logistic回归模型在信用风险中的应用,
数学的实践与认识,2006,36(9):129~137
判别模型建立的基本步骤样本分组将样本分成训练样本组和测试样本组建模过程利用训练样本建立分类模型评价过程利用测试样本评价模型的精度第二步 第三步第一步摘要通过运行 SPSS,建立 Logistic 回归信用评价模型 (credit evaluation model),用来对中国 2000 年 106家上市公司进行两类模式分类,这两类模式是指按照公司的经营状况分为,差,和,正常,两个小组,对每一家上市公司,考虑其经营状况的 4 个主要财务指标,每股收益,每股净资产,净资产收益率和每股现金流量,
仿真 结果表明,Logistic 回归信用评价模型对总体 106 个样本,判别准确率达到 99,06%.
此外,本文的研究结果还发现,当利用 SPSS
的 Discriminant 给出的模型系数建立的线性判别分析模型和利用 SPSS 的 Multinomial
Logistic 给出的模型参数建立的 Logistic 回归模型,Logistic 回归模型的判别结果不如线性判别模型,但如果剔除不合格的样本,或是将样本数据规格化,则可以提高 Logistic 回归模型的分类准确率,
引言中提及的一些研究结果
Martin(1977)用 Logistic模型预测公司破产及违约的概率
Ohlson(1980)将 Logistic模型应用于信用风险分析
Madalla(1983)采用 Logistic模型区别违约与非违约贷款申请人
David West(2000)利用 5种神经网络和 5种统计分类模型 (线性判别分析,
Logistic回归分析,K最近邻法,核密度分类法,分类树法 )分别对德国和澳大利亚两组财务数据进行两类模式分类,
研究结果表明,Logistic模型的判别准确率最高,分别为 76.3%和 87.25%.
一个一般结论数据满足正态分布
Logistic 回归模型与判别分析模型具有相同的判别准确率
yes
No
Logistic 回归模型的判别准确率高于 判别分析模型的判别准确率本研究结论
当 Logistic 回归模型和判别分析模型都通过运行 SPSS 软件来估计模型参数并建立相应模型时,线性判别分析模型优于 Logistic 回归模型,
Logistic模型
)](e x p [1
1)(
443322110 xcxcxcxcc
pyE
每股净收益每股净资产净资产收益率每股现金流量
财务状况正常公司陷入财务危机公司
i
iy
i 1
S T )(0
106,,2,1i
判别法则
财务状况正常公司陷入财务危机公司
i
ip
i 1
0
)](e x p [1
1
443322110 iiii
i xcxcxcxccp
公司 i财务状况正常的概率,