判 别 分 析距离判别贝叶斯判别费歇判别逐步判别例 中小企业的破产模型为了研究中小企业的破产模型,选定 4个经济指标:
X1总负债率(现金收益 /总负债)
X2收益性指标(纯收入 /总财产)
X3短期支付能力(流动资产 /流动负债)
X4生产效率性指标(流动资产 /纯销售额)
对 17个破产企业( 1类)和 21个正常运行企业
( 2类)进行了调查,得如下资料:
§ 1 什么是判别分析总负债率 收益性指标 短期支付能力 生产效率指标 类别
-.45 -.41 1.09,45 1
-.56 -.31 1.51,16 1
.06,02 1.01,40 1
-.07 -.09 1.45,26 1
-.10 -.09 1.56,67 1
-.14 -.07,71,28 1
-.23 -.30,22,18 1
.07,02 1.31,25 1
.01,00 2.15,70 1
-.28 -.23 1.19,66 1
.15,05 1.88,27 1
.37,11 1.99,38 1
-.08 -.08 1.51,42 1
.05,03 1.68,95 1
.01,00 1.26,60 1
.12,11 1.14,17 1
-.28 -.27 1.27,51 1
.51,10 2.49,54 2
.08,02 2.01,53 2
.38,11 3.27,55 2
.19,05 2.25,33 2
.32,07 4.24,63 2
.31,05 4.45,69 2
.12,05 2.52,69 2
-.02,02 2.05,35 2
.22,08 2.35,40 2
.17,07 1.80,52 2
.15,05 2.17,55 2
-.10 -1.01 2.50,58 2
.14 -.03,46,26 2
.14,07 2.61,52 2
-.33 -.09 3.01,47 2
.48,09 1.24,18 2
.56,11 4.29,45 2
.20,08 1.99,30 2
.47,14 2.92,45 2
.17,04 2.45,14 2
.58,04 5.06,13 2
.04,01 1.50,71 待判
-.06 -.06 1.37,40 待判
.07 -.01 1.37,34 待判
-.13 -.14 1.42,44 待判
.15,06 2.23,56 待判
.16,05 2.31,20 待判
.29,06 1.84,38 待判
.54,11 2.33,48 待判企业序号判别类型判别函数得分判别为 1的概率判别的为 2
概率
1 1 -.56509,69479,30521
2 1 -.89817,80234,19766
3 1 -.59642,70620,29380
4 1 -1.02182,83420,16580
5 2,25719,35312,64688
6 2,34253,32005,67995
7 2,27925,34442,65558
8 2 1.24010,09012,90988
判别分析的特点是根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则 。 然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别 。
§ 2 距离判别
(一) 马氏距离距离判别的最直观的想法是计算样品到第 i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设 是从期望 μ= 和方差阵 Σ=
的总体 G抽得的两个观测值,则定义和),,,( 21 mxxx?x ),,,( 21 myyy?y
),,,( 21?m 0mmij?
)()(),(2 yxyxyx 1d
kiGd iii,,2,1)()(),(2 xxx 1
样本 X和 Gi类之间的马氏距离定义为 X与 Gi类重心间的距离:
X与 Y之间的 Mahalanobis距离
(二)两个总体距离判别法先考虑两个总体的情况,设有两个协差阵?相同的 p维正态总体,对给定的样本 Y,判别一个样本 Y到底是来自哪一个总体,一个最直观的想法是计算 Y到两个总体的距离 。 故我们用马氏距离来给定判别规则,有:
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
1、方差相等
)()()()(
),(),(
1
1
12
1
2
1
2
2
2
yyyy
yy
GdGd
22211 yyy 12
)(2 211y )()( 212 11
)(]2 )([2 21121y
2
21令 ),,,()(
21 paaa?211
)2( 1111 11 yyy
则前面的判别法则表示为
0)(
0
0
2
1
YW
WG
WG
如待判,
。)(如,
,)(如,
yy
yy
当 和?已知时,是一个已知的 p
维向量,W( y) 是 y的线性函数,称为线性判别函数 。
称为判别系数 。 用线性判别函数进行判别分析非常直观,
使用起来最方便,在实际中的应用也最广泛 。
21,)( 211
) yyy ()()(W
)()( 111 ppp yaya
μαyα
例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:
资金利润率 =利润总额 /资金占用总额劳动生产率 =总产值 /职工平均人数产品净值率 =净产值 /总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为
( 7.8,39.1,9.6)和( 8.1,34.2,6.9),问这两个企业应该属于哪一类?
变量 均值向量 协方差矩阵优秀 一般资金利润率 13.5 5.4 68.39 40.24 21.41
劳动生产率 40.7 29.8 40.24 54.58 11.67
产品净值率 10.7 6.2 21.41 11.67 7.90
1 2 30,6 0 5 8 1 0,2 5 3 6 2 1,8 3 6 7 9 1 8,7 3 5 9y x x x
1 0,6 0 5 8 1 7,8 0,2 5 3 6 2 3 9,1 1,8 3 6 7 9 9,6 1 8,7 3 5 9 6
4,0 8 9 2 0
y
2 0,6 0 5 8 1 8,1 0,2 5 3 6 2 3 4,2 1,8 3 6 7 9 6,9 1 8,7 3 5 9 6
2,2 9 5 6 0
y
线性判别函数:
2,当总体的协方差已知,且不相等
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
)()()()(
),(),(
1
1
112
1
22
1
2
2
2
yyyy
yy GdGd
设有个 K总体,分别有均值向量 μi(i=1,2,…,k)和协方差阵 Σi= Σ,各总体出现的先验概率相等 。 又设 Y是一个待判样品 。 则与总体的距离为 ( 即判别函数 )
(三 ) 多总体的距离判别法
)()(),( 12 iiiGd yyy
iii 12 11 yyy
上式中的第一项 Y’Σ-1Y与 i无关,则舍去,得一个等价的函数
iiii Yg 12)( 1y
)5.0()( 1 iiii Yf 1y令则距离判别法的判别函数为:
likil Gyxfyf,则)(m ax)( 1
最大)5.0()( 1 iiii Yf 1y
注,这与前面所提出的距离判别是等价的,
最小)()(),( 122 iiiGd yyy
)5.0()( 1 iiii Yf 1y
判别规则为
( 四 ) 错判概率由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。
两总体分别服从其判别函数为
21(,)N 22(,)N
122
1( ) ( ) ( )W x x
12( ) / 2 12
12
2 2 2( / ) ( )2P x G P x
概 率,
2 1 2()
2
xP
)2(1 21
12
2() 2Px
当两总体靠得很近(即 | |小),
则无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
21
距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。 贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。
办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为
0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为 0.9,坏人做好事的概率为 0.2,
一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。
§ 3 贝叶斯判别法
)/()()/(
/
/(
坏人做好事坏人好人做好事好人好人做好事好人做好事)好人
PPPP
PP
P
82.02.05.09.05.0 9.05.0
一,最大后验准则
)/()()/(
/
/(
坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人
PPPP
PP
P
18.02.05.09.05.0 2.05.0
距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率 ( 先验概率 ) 出现,也没有考虑误判之后所造成的损失的差异 。
一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛 。
贝叶斯公式是一个我们熟知的公式
)()|(
)()|()|(
ii
ii
i BPBAP
BPBAPABP
设有总体,具有概率密度函数 。 并且根据以往的统计分析,知道 出现的概率为 。 即当样本 发生时,求他属于某类的概率 。 由贝叶斯公式计算后验概率,有:
iG)(xfi
iG
iq 0x
),,2,1( kiG i
)(
)()|(
0
0
0 xfq
xfqxGP
jj
ii
i
判别规则 )( )()|(
0
0
0 xfq
xfqxGP
jj
ll
l )(
)(
0
0
1
m a x xfq xfq
jj
ii
ki?
则 判给 。在正态的假定下,为正态分布的密度函数。
0x lG )(xfi
),(m a x)(
1 00 ki iill
xfqxfq
则 判给 。0x lG
)]()(21e x p [)2( 1)( )(1)(21 iii
i
i xxxf
若
)]()(21ex p [)2( 1)(,)(1)(21 iii
i
iii xxqxfq
则上式两边取对数并去掉与 i无关的项,则等价的判别函数为:
特别,总体服从正态分布的情形
))(l n ()( xiii fqxz?
||ln21ln iiq )]()(21 )(1)( iii xx
问题转化为若,则判 。 )]([m a x)( 1 xZxZ ikil lGx?
当协方差阵相等则判别函数退化为
k?1
xΣμμΣμx 1)(i( i )1)(i 21ln)( ii qm
问题转化为若,则判 。lGx? )]([m a x)( 1 xmxm ikil
当先验概率相等,kqq k
1
1
)(xmi ( i)1( i) μΣμ 21 xΣμ 1( i)有完全成为距离判别法 。
二,最小平均误判代价准则设有总体,具有概率密度函数 。 并且根据以往的统计分析,知道 出现的概率为 。 i
G)(xfi
iG
iq
),,2,1( kiG i
11 kqq?
又 D1,D2,┅,Dk是 R(p)的一个分划,判别法则为:
当样品 X落入 Di时,则判 iDX? ki,,3,2,1
关键的问题是寻找 D1,D2,┅,Dk分划,这个分划应该使平均错判率最小。
【 定义 】 ( 平均错判损失 )
用 P(j/i)表示将来自总体 Gi的样品错判到总体 Gj的条件概率。
jD
iij dxxfGDXPijp )()/()/( ji?
C(j/i)表示相应错判所造成的损失 。
则平均错判损失为:
k
i iji
ijPijCqE C M
1
)/()/(
使 ECM最小的分划,是 Bayes判别分析的解。
【 定理 】
若总体 G1,G2,?,Gk的先验概率为
kiq i,,3,2,1,
kihhD jkjii,,3,2,1,)(m in)(| 1 xxx
k
i iij
fijCqh
1
)()/()( xx
)(xfi)/( ijC且相应的密度函数为,损失为则划分的 Bayes解为其中含义是:当抽取了一个未知总体的样品值
x,要判别它属于那个总体,只要先计算出 k
个按先验概率加权的误判平均损失
k
i iij
fijCqh
1
)()/()( xx
为了直观说明,作为例子,我们讨论 k=2的情形。
然后比较其大小,选取其中最小的,则判定样品属于该总体。
21
1 1 2 2( 2 / 1 ) ( ) ( 1 / 2 ) ( )
DD
q C f x d x q C f x d x
dxxfCqdxxfCq
DR D
1 1
)()2/1()()1/2( 2211
11
1 2 1 2 2( 2 / 1 ) ( 2 / 1 ) ( ) ( 1 / 2 ) ( )
DD
q C q C f x d x q C f x d x
1
1 2 2 1 1( 2 / 1 ) [ ( 1 / 2 ) ( ) ( 2 / 1 ) ( ) ]
D
q C q C f x q C f x d x
ECM
由此可见,要使 ECM最小,被积函数必须在 D1是负数,则有分划
0)()1/2()()2/1(| 11221 xfCqxfCqD x
0)()1/2()()2/1( 1122 xfCqxfCq
)2/1(/)1/2()(/)( 1221 CqCqxfxf?
)(/)( 21 xfxfv? )2/1(/)1/2( 12 CqCqd?
Bayes判别准则为:
dxv
dxvGx
dxvGx
)(
)(
)(
2
1
若待判若若特别
k
i iij
fijCqh
1
)()/()( xx
ji
jiijC
0
1)/(
1
( ) ( ) ( ) ( )
kk
j i i i i j j
i j i
h q f q f q f
x x x x
越小?
k
i jjiij
fqfqh
1
)()()( xxx ()jjqf? x 越 大
),(m a x)(
1 ki iill
fqfq
xx
与标准 Bayes判别等价
lG?x
§ 4 费歇( Fisher)判别法一、两个总体的费歇( Fisher)判别法
X不能使总体单位尽可能分开的方向
u能使总体单位尽可能分开的方向
旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个
(一)费歇判别的基本思想从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数 。 Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,
Fisher在 1936年提出 。 该判别方法对总体的分布不做任何要求 。
从两个总体中抽取具有 P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:
pp XCXCXCY2211
其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小 。 当建立了判别式以后,对一个新的样品值,我们可以将他的 P
个指标值代入判别式中求出 Y值,然后与某个临界值比较,就可以将该样品归某类 。
pCCC,,,21?
假设我们可以得到一个线性判别函数:
pp xcxcxcy2211
我们可以把两个总体的样品代入上面的判别式
)1()1( 22)1(11)1( ippiii xcxcxcy
)2()2( 22)2(11)2( ippiii xcxcxcy
分别对上面两式左右相加,再除以样品个数,可得两个总体的重心,
pk kk xcy 1 )1()1( pk kk xcy 1 )2()2(
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好 。
组 间 离 差 平 方 和,
22( 1 ) ( 2 )Y Y Y Y
22( 1 ) ( 2 ) ( 1 ) ( 2 )
( 1 ) ( 2 )
22
Y Y Y YYY
( 1 ) ( 2 ) ( 1 ) ( 2 )12 X X X Xcc
总 体 内 部 的 方 差 和,
22( 1 ) ( 1 ) ( 2 ) ( 2 )E Y Y E Y Y
22 22EE ( 1 ) ( 1 ) ( ) ( )c X - X c c X - X c
12c c c c
cc
I? 组 间 离 差 平 方 和组 内 方 差 和
I
( 1 ) ( 2 ) ( 1 ) ( 2 )1 c X - X X - X c
2
c Σ c
令越大越好I
取对数 L n FL n QL n I
011
kk c
F
Fc
Q
Q求导数
kk c
F
c
Q
I?
1
ppppp
p
p
k
d
d
d
sss
sss
sss
c
c
c
2
1
21
22221
11211
2
1
1
)2()1(
)2(
2
)1(
2
)2(
1
)1(
1
2
1
pp
xx
xx
xx
n?
1
)2()1( kkk xxd
称 为典型函数,pp xcxcxY111 )(
(三)判别准则
21
)2(
2
)1(
1
0 nn
ynyny
定义临界点为如果由原始数据 y求得判别函数得分为 Y*,
对与一个样品代入判别函数中,若 Y*>Y0,则判给 G1,否则判给 G2。
)2()1( yy?不妨假定二、多个总体的 Fisher判别法
(一 ) 判别函数
Fisher判别法实际上是致力于寻找一个最能反映组和组 之 间 差 异 的 投 影 方 向,即 寻 找 线 性 判 别 函数,设有 个总体,
分别有均值向量,,…,和协方差阵,分别各总体中得到样品:
pp xcxcxY11)( k kGGG,,,21?
1 2 k k,,1?
)1()1(1
1,,nXX?
)2()2(1
2,,nXX?
)()(1,,knk
kXX?
nnnn k21
in
t
i
t
i
i XnX 1
)(1第 i个总体的样本均值向量
k
i iii XnnX 1
1综合的样本均值向量
int iitiiti XXXXV 1 )()( ))((
第 i个总体样本组内离差平方和
kVVVE21
综合的组内离差平方和组间离差平方和?
k
i iii XXXXnB 1 ))((
i ini nt itiitiitiy YYYYYYV 1 1 )()(2)( ))(()( CVC i
ki ki iiy ECCCVCVE 1 10
2
0
11
( ) ( ) ( )
ink
i i i i i
ii
B n Y Y n Y Y Y Y C B C
pp xcxcxY11)(因为如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方和小,而组间离差平方和大 。 则
pp xcxcxY11)(
m a x)(
0
02?
ECC
BCC
E
BC?
。最大的特征根相对于的最大值是 1
0
02 )(?EB
ECC
BCC
E
BC
而 所对应的特征向量即 。1? ),,( 1111 pccC?
Fisher样品判别函数是
pp xcxcxY 11111)(
然而,如果组数 k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。
类推得到 m(m<k)个线性函数。
第二大的特征根相对于的最大值是 EBECC BCCEBC
0
02 )(
),,( 2122 pccC?
pp xcxcxY 21122)(
关于需要几个判别函数得问题,需要累计判别效率达到 85%以上,即有设 为 B相对于 E得特征根,则
2 0
0
() B C BCC E C EC
12 p
12
12
85%k
p
以 m个线性判别函数得到的函数值为新的变量,再进行距离判别。
判别规则:
设 Yi(X)为第 i个线性判别函数,,),,2,1( mi
),(m in),( 1 kkjt GxdGxd tGx?
ri kiik xyxyGxd 1 2))()((),(
则
§ 5 变量选择和逐步判别变量的选择是判别分析中的一个重要的问题,
变量选择是否恰当,是判别分析效果有列的关键 。
如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好 。 而另一方面,如果判别变量个数太多,计算量必然大,会影响估计的精度 。 特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果 。
步骤
第一步:通过计算单变量的?统计量,逐步选择判别变量
i
i
W
E
i
统计量最小者首先进入模型。
第二步:分别计算未被选中的其它变量与选中变量 x1的?统计量,
i
i
W
E
1
1
1 i
统计量?1i得值最小者与 x1搭配 进入模型。
第三步:类推假设已经有 q+ 1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。 统计量?得值最大者 。
第四步:进行判别分析。
The STEPDISC Procedure(逐步判别过程)
The Method for Selecting Variables is STEPWISE
Observations 38 Variable(s) in the Analysis 4
Class Levels 2 Variable(s) will be Included 0
Significance Level to Enter 0.15
Significance Level to Stay 0.15
Class Level Information
Variable
class Name Frequency Weight Proportion
1 _1 17 17.0000 0.447368
2 _2 21 21.0000 0.552632
Stepwise Selection,Step 1(第一步)
Statistics for Entry,DF = 1,36
Variable R-Square F Value Pr > F Tolerance
x1 0.3195 16.90 0.0002 1.0000
x2 0.0514 1.95 0.1710 1.0000
x3 0.3734 21.45 <.0001 1.0000
x4 0.0008 0.03 0.8643 1.0000
Variable x3 will be entered.( X3进入)
Variable(s) that have been Entered
x3
Multivariate Statistics
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.626628 21.45 1 36 <.0001
Pillai's Trace 0.373372 21.45 1 36 <.0001
Stepwise Selection,Step 2(第二步)
Statistics for Removal,DF = 1,36
Variable R-Square F Value Pr > F
x3 0.3734 21.45 <.0001
No variables can be removed.
Statistics for Entry,DF = 1,35
Partial
Variable R-Square F Value Pr > F Tolerance
x1 0.1070 4.19 0.0482 0.6638
x2 0.0094 0.33 0.5672 0.9379
x4 0.0172 0.61 0.4386 0.9546
Variable x1 will be entered.( X1进入)
Stepwise Selection,Step 3(第三步)
Statistics for Removal,DF = 1,35
Partial
Variable R-Square F Value Pr > F
x1 0.1070 4.19 0.0482
x3 0.1777 7.56 0.0094
No variables can be removed.
Statistics for Entry,DF = 1,34
Partial
Variable R-Square F Value Pr > F Tolerance
x2 0.0196 0.68 0.4154 0.4120
x4 0.0057 0.20 0.6614 0.6119
No variables can be entered.(无变量能进入)
No further steps are possible,(进一步是不可能的)
Linear Discriminant Function for class
线性判别函数
Variable 1 2
Constant -2.45595 -5.25152
x3 2.18098 3.52968
x1 -4.55096 -0.52018
311 18098.255096.445595.2 xxf
312 5 2 9 6 8.35 2 0 1 8.02 5 1 5 2.5 xxf
Number of Observations and Percent Classified into class
From class 1 2 Total
1 14 3 17
82.35 17.65 100.00
2 3 18 21
14.29 85.71 100.00
Total 17 21 38
44.74 55.26 100.00
Priors 0.44737 0.55263
Error Count Estimates for class
1 2 Total
Rate 0.1765 0.1429 0.1579
Priors 0.4474 0.5526
Posterior Probability of Membership in class
Classified
Obs into class 1 2
1 1 0.6482 0.3518
2 1 0.7667 0.2333
3 1 0.6605 0.3395
4 1 0.8029 0.1971
5 2 0.3065 0.6935
6 2 0.2759 0.7241
7 2 0.2984 0.7016
8 2 0.0742 0.9258
将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。
选择变量
( 1)和判别分析的目的密切相关
( 2)反映要判类变量的特征
( 3)在不同研究对象上的值有明显的差异确定分析样本和验证样本一、主要步骤估计鉴别函数选择某种方法建立判别规则,有距离判别、贝叶斯判别和 费歇( Fisher)判别法 。
计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。
检查判别的效果用逐步判别法筛选变量在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除
X1总负债率(现金收益 /总负债)
X2收益性指标(纯收入 /总财产)
X3短期支付能力(流动资产 /流动负债)
X4生产效率性指标(流动资产 /纯销售额)
对 17个破产企业( 1类)和 21个正常运行企业
( 2类)进行了调查,得如下资料:
§ 1 什么是判别分析总负债率 收益性指标 短期支付能力 生产效率指标 类别
-.45 -.41 1.09,45 1
-.56 -.31 1.51,16 1
.06,02 1.01,40 1
-.07 -.09 1.45,26 1
-.10 -.09 1.56,67 1
-.14 -.07,71,28 1
-.23 -.30,22,18 1
.07,02 1.31,25 1
.01,00 2.15,70 1
-.28 -.23 1.19,66 1
.15,05 1.88,27 1
.37,11 1.99,38 1
-.08 -.08 1.51,42 1
.05,03 1.68,95 1
.01,00 1.26,60 1
.12,11 1.14,17 1
-.28 -.27 1.27,51 1
.51,10 2.49,54 2
.08,02 2.01,53 2
.38,11 3.27,55 2
.19,05 2.25,33 2
.32,07 4.24,63 2
.31,05 4.45,69 2
.12,05 2.52,69 2
-.02,02 2.05,35 2
.22,08 2.35,40 2
.17,07 1.80,52 2
.15,05 2.17,55 2
-.10 -1.01 2.50,58 2
.14 -.03,46,26 2
.14,07 2.61,52 2
-.33 -.09 3.01,47 2
.48,09 1.24,18 2
.56,11 4.29,45 2
.20,08 1.99,30 2
.47,14 2.92,45 2
.17,04 2.45,14 2
.58,04 5.06,13 2
.04,01 1.50,71 待判
-.06 -.06 1.37,40 待判
.07 -.01 1.37,34 待判
-.13 -.14 1.42,44 待判
.15,06 2.23,56 待判
.16,05 2.31,20 待判
.29,06 1.84,38 待判
.54,11 2.33,48 待判企业序号判别类型判别函数得分判别为 1的概率判别的为 2
概率
1 1 -.56509,69479,30521
2 1 -.89817,80234,19766
3 1 -.59642,70620,29380
4 1 -1.02182,83420,16580
5 2,25719,35312,64688
6 2,34253,32005,67995
7 2,27925,34442,65558
8 2 1.24010,09012,90988
判别分析的特点是根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则 。 然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别 。
§ 2 距离判别
(一) 马氏距离距离判别的最直观的想法是计算样品到第 i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设 是从期望 μ= 和方差阵 Σ=
的总体 G抽得的两个观测值,则定义和),,,( 21 mxxx?x ),,,( 21 myyy?y
),,,( 21?m 0mmij?
)()(),(2 yxyxyx 1d
kiGd iii,,2,1)()(),(2 xxx 1
样本 X和 Gi类之间的马氏距离定义为 X与 Gi类重心间的距离:
X与 Y之间的 Mahalanobis距离
(二)两个总体距离判别法先考虑两个总体的情况,设有两个协差阵?相同的 p维正态总体,对给定的样本 Y,判别一个样本 Y到底是来自哪一个总体,一个最直观的想法是计算 Y到两个总体的距离 。 故我们用马氏距离来给定判别规则,有:
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
1、方差相等
)()()()(
),(),(
1
1
12
1
2
1
2
2
2
yyyy
yy
GdGd
22211 yyy 12
)(2 211y )()( 212 11
)(]2 )([2 21121y
2
21令 ),,,()(
21 paaa?211
)2( 1111 11 yyy
则前面的判别法则表示为
0)(
0
0
2
1
YW
WG
WG
如待判,
。)(如,
,)(如,
yy
yy
当 和?已知时,是一个已知的 p
维向量,W( y) 是 y的线性函数,称为线性判别函数 。
称为判别系数 。 用线性判别函数进行判别分析非常直观,
使用起来最方便,在实际中的应用也最广泛 。
21,)( 211
) yyy ()()(W
)()( 111 ppp yaya
μαyα
例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:
资金利润率 =利润总额 /资金占用总额劳动生产率 =总产值 /职工平均人数产品净值率 =净产值 /总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为
( 7.8,39.1,9.6)和( 8.1,34.2,6.9),问这两个企业应该属于哪一类?
变量 均值向量 协方差矩阵优秀 一般资金利润率 13.5 5.4 68.39 40.24 21.41
劳动生产率 40.7 29.8 40.24 54.58 11.67
产品净值率 10.7 6.2 21.41 11.67 7.90
1 2 30,6 0 5 8 1 0,2 5 3 6 2 1,8 3 6 7 9 1 8,7 3 5 9y x x x
1 0,6 0 5 8 1 7,8 0,2 5 3 6 2 3 9,1 1,8 3 6 7 9 9,6 1 8,7 3 5 9 6
4,0 8 9 2 0
y
2 0,6 0 5 8 1 8,1 0,2 5 3 6 2 3 4,2 1,8 3 6 7 9 6,9 1 8,7 3 5 9 6
2,2 9 5 6 0
y
线性判别函数:
2,当总体的协方差已知,且不相等
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
)()()()(
),(),(
1
1
112
1
22
1
2
2
2
yyyy
yy GdGd
设有个 K总体,分别有均值向量 μi(i=1,2,…,k)和协方差阵 Σi= Σ,各总体出现的先验概率相等 。 又设 Y是一个待判样品 。 则与总体的距离为 ( 即判别函数 )
(三 ) 多总体的距离判别法
)()(),( 12 iiiGd yyy
iii 12 11 yyy
上式中的第一项 Y’Σ-1Y与 i无关,则舍去,得一个等价的函数
iiii Yg 12)( 1y
)5.0()( 1 iiii Yf 1y令则距离判别法的判别函数为:
likil Gyxfyf,则)(m ax)( 1
最大)5.0()( 1 iiii Yf 1y
注,这与前面所提出的距离判别是等价的,
最小)()(),( 122 iiiGd yyy
)5.0()( 1 iiii Yf 1y
判别规则为
( 四 ) 错判概率由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。
两总体分别服从其判别函数为
21(,)N 22(,)N
122
1( ) ( ) ( )W x x
12( ) / 2 12
12
2 2 2( / ) ( )2P x G P x
概 率,
2 1 2()
2
xP
)2(1 21
12
2() 2Px
当两总体靠得很近(即 | |小),
则无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
21
距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。 贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。
办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为
0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为 0.9,坏人做好事的概率为 0.2,
一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。
§ 3 贝叶斯判别法
)/()()/(
/
/(
坏人做好事坏人好人做好事好人好人做好事好人做好事)好人
PPPP
PP
P
82.02.05.09.05.0 9.05.0
一,最大后验准则
)/()()/(
/
/(
坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人
PPPP
PP
P
18.02.05.09.05.0 2.05.0
距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率 ( 先验概率 ) 出现,也没有考虑误判之后所造成的损失的差异 。
一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛 。
贝叶斯公式是一个我们熟知的公式
)()|(
)()|()|(
ii
ii
i BPBAP
BPBAPABP
设有总体,具有概率密度函数 。 并且根据以往的统计分析,知道 出现的概率为 。 即当样本 发生时,求他属于某类的概率 。 由贝叶斯公式计算后验概率,有:
iG)(xfi
iG
iq 0x
),,2,1( kiG i
)(
)()|(
0
0
0 xfq
xfqxGP
jj
ii
i
判别规则 )( )()|(
0
0
0 xfq
xfqxGP
jj
ll
l )(
)(
0
0
1
m a x xfq xfq
jj
ii
ki?
则 判给 。在正态的假定下,为正态分布的密度函数。
0x lG )(xfi
),(m a x)(
1 00 ki iill
xfqxfq
则 判给 。0x lG
)]()(21e x p [)2( 1)( )(1)(21 iii
i
i xxxf
若
)]()(21ex p [)2( 1)(,)(1)(21 iii
i
iii xxqxfq
则上式两边取对数并去掉与 i无关的项,则等价的判别函数为:
特别,总体服从正态分布的情形
))(l n ()( xiii fqxz?
||ln21ln iiq )]()(21 )(1)( iii xx
问题转化为若,则判 。 )]([m a x)( 1 xZxZ ikil lGx?
当协方差阵相等则判别函数退化为
k?1
xΣμμΣμx 1)(i( i )1)(i 21ln)( ii qm
问题转化为若,则判 。lGx? )]([m a x)( 1 xmxm ikil
当先验概率相等,kqq k
1
1
)(xmi ( i)1( i) μΣμ 21 xΣμ 1( i)有完全成为距离判别法 。
二,最小平均误判代价准则设有总体,具有概率密度函数 。 并且根据以往的统计分析,知道 出现的概率为 。 i
G)(xfi
iG
iq
),,2,1( kiG i
11 kqq?
又 D1,D2,┅,Dk是 R(p)的一个分划,判别法则为:
当样品 X落入 Di时,则判 iDX? ki,,3,2,1
关键的问题是寻找 D1,D2,┅,Dk分划,这个分划应该使平均错判率最小。
【 定义 】 ( 平均错判损失 )
用 P(j/i)表示将来自总体 Gi的样品错判到总体 Gj的条件概率。
jD
iij dxxfGDXPijp )()/()/( ji?
C(j/i)表示相应错判所造成的损失 。
则平均错判损失为:
k
i iji
ijPijCqE C M
1
)/()/(
使 ECM最小的分划,是 Bayes判别分析的解。
【 定理 】
若总体 G1,G2,?,Gk的先验概率为
kiq i,,3,2,1,
kihhD jkjii,,3,2,1,)(m in)(| 1 xxx
k
i iij
fijCqh
1
)()/()( xx
)(xfi)/( ijC且相应的密度函数为,损失为则划分的 Bayes解为其中含义是:当抽取了一个未知总体的样品值
x,要判别它属于那个总体,只要先计算出 k
个按先验概率加权的误判平均损失
k
i iij
fijCqh
1
)()/()( xx
为了直观说明,作为例子,我们讨论 k=2的情形。
然后比较其大小,选取其中最小的,则判定样品属于该总体。
21
1 1 2 2( 2 / 1 ) ( ) ( 1 / 2 ) ( )
DD
q C f x d x q C f x d x
dxxfCqdxxfCq
DR D
1 1
)()2/1()()1/2( 2211
11
1 2 1 2 2( 2 / 1 ) ( 2 / 1 ) ( ) ( 1 / 2 ) ( )
DD
q C q C f x d x q C f x d x
1
1 2 2 1 1( 2 / 1 ) [ ( 1 / 2 ) ( ) ( 2 / 1 ) ( ) ]
D
q C q C f x q C f x d x
ECM
由此可见,要使 ECM最小,被积函数必须在 D1是负数,则有分划
0)()1/2()()2/1(| 11221 xfCqxfCqD x
0)()1/2()()2/1( 1122 xfCqxfCq
)2/1(/)1/2()(/)( 1221 CqCqxfxf?
)(/)( 21 xfxfv? )2/1(/)1/2( 12 CqCqd?
Bayes判别准则为:
dxv
dxvGx
dxvGx
)(
)(
)(
2
1
若待判若若特别
k
i iij
fijCqh
1
)()/()( xx
ji
jiijC
0
1)/(
1
( ) ( ) ( ) ( )
kk
j i i i i j j
i j i
h q f q f q f
x x x x
越小?
k
i jjiij
fqfqh
1
)()()( xxx ()jjqf? x 越 大
),(m a x)(
1 ki iill
fqfq
xx
与标准 Bayes判别等价
lG?x
§ 4 费歇( Fisher)判别法一、两个总体的费歇( Fisher)判别法
X不能使总体单位尽可能分开的方向
u能使总体单位尽可能分开的方向
旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个
(一)费歇判别的基本思想从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数 。 Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,
Fisher在 1936年提出 。 该判别方法对总体的分布不做任何要求 。
从两个总体中抽取具有 P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:
pp XCXCXCY2211
其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小 。 当建立了判别式以后,对一个新的样品值,我们可以将他的 P
个指标值代入判别式中求出 Y值,然后与某个临界值比较,就可以将该样品归某类 。
pCCC,,,21?
假设我们可以得到一个线性判别函数:
pp xcxcxcy2211
我们可以把两个总体的样品代入上面的判别式
)1()1( 22)1(11)1( ippiii xcxcxcy
)2()2( 22)2(11)2( ippiii xcxcxcy
分别对上面两式左右相加,再除以样品个数,可得两个总体的重心,
pk kk xcy 1 )1()1( pk kk xcy 1 )2()2(
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好 。
组 间 离 差 平 方 和,
22( 1 ) ( 2 )Y Y Y Y
22( 1 ) ( 2 ) ( 1 ) ( 2 )
( 1 ) ( 2 )
22
Y Y Y YYY
( 1 ) ( 2 ) ( 1 ) ( 2 )12 X X X Xcc
总 体 内 部 的 方 差 和,
22( 1 ) ( 1 ) ( 2 ) ( 2 )E Y Y E Y Y
22 22EE ( 1 ) ( 1 ) ( ) ( )c X - X c c X - X c
12c c c c
cc
I? 组 间 离 差 平 方 和组 内 方 差 和
I
( 1 ) ( 2 ) ( 1 ) ( 2 )1 c X - X X - X c
2
c Σ c
令越大越好I
取对数 L n FL n QL n I
011
kk c
F
Fc
Q
Q求导数
kk c
F
c
Q
I?
1
ppppp
p
p
k
d
d
d
sss
sss
sss
c
c
c
2
1
21
22221
11211
2
1
1
)2()1(
)2(
2
)1(
2
)2(
1
)1(
1
2
1
pp
xx
xx
xx
n?
1
)2()1( kkk xxd
称 为典型函数,pp xcxcxY111 )(
(三)判别准则
21
)2(
2
)1(
1
0 nn
ynyny
定义临界点为如果由原始数据 y求得判别函数得分为 Y*,
对与一个样品代入判别函数中,若 Y*>Y0,则判给 G1,否则判给 G2。
)2()1( yy?不妨假定二、多个总体的 Fisher判别法
(一 ) 判别函数
Fisher判别法实际上是致力于寻找一个最能反映组和组 之 间 差 异 的 投 影 方 向,即 寻 找 线 性 判 别 函数,设有 个总体,
分别有均值向量,,…,和协方差阵,分别各总体中得到样品:
pp xcxcxY11)( k kGGG,,,21?
1 2 k k,,1?
)1()1(1
1,,nXX?
)2()2(1
2,,nXX?
)()(1,,knk
kXX?
nnnn k21
in
t
i
t
i
i XnX 1
)(1第 i个总体的样本均值向量
k
i iii XnnX 1
1综合的样本均值向量
int iitiiti XXXXV 1 )()( ))((
第 i个总体样本组内离差平方和
kVVVE21
综合的组内离差平方和组间离差平方和?
k
i iii XXXXnB 1 ))((
i ini nt itiitiitiy YYYYYYV 1 1 )()(2)( ))(()( CVC i
ki ki iiy ECCCVCVE 1 10
2
0
11
( ) ( ) ( )
ink
i i i i i
ii
B n Y Y n Y Y Y Y C B C
pp xcxcxY11)(因为如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方和小,而组间离差平方和大 。 则
pp xcxcxY11)(
m a x)(
0
02?
ECC
BCC
E
BC?
。最大的特征根相对于的最大值是 1
0
02 )(?EB
ECC
BCC
E
BC
而 所对应的特征向量即 。1? ),,( 1111 pccC?
Fisher样品判别函数是
pp xcxcxY 11111)(
然而,如果组数 k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。
类推得到 m(m<k)个线性函数。
第二大的特征根相对于的最大值是 EBECC BCCEBC
0
02 )(
),,( 2122 pccC?
pp xcxcxY 21122)(
关于需要几个判别函数得问题,需要累计判别效率达到 85%以上,即有设 为 B相对于 E得特征根,则
2 0
0
() B C BCC E C EC
12 p
12
12
85%k
p
以 m个线性判别函数得到的函数值为新的变量,再进行距离判别。
判别规则:
设 Yi(X)为第 i个线性判别函数,,),,2,1( mi
),(m in),( 1 kkjt GxdGxd tGx?
ri kiik xyxyGxd 1 2))()((),(
则
§ 5 变量选择和逐步判别变量的选择是判别分析中的一个重要的问题,
变量选择是否恰当,是判别分析效果有列的关键 。
如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好 。 而另一方面,如果判别变量个数太多,计算量必然大,会影响估计的精度 。 特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果 。
步骤
第一步:通过计算单变量的?统计量,逐步选择判别变量
i
i
W
E
i
统计量最小者首先进入模型。
第二步:分别计算未被选中的其它变量与选中变量 x1的?统计量,
i
i
W
E
1
1
1 i
统计量?1i得值最小者与 x1搭配 进入模型。
第三步:类推假设已经有 q+ 1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。 统计量?得值最大者 。
第四步:进行判别分析。
The STEPDISC Procedure(逐步判别过程)
The Method for Selecting Variables is STEPWISE
Observations 38 Variable(s) in the Analysis 4
Class Levels 2 Variable(s) will be Included 0
Significance Level to Enter 0.15
Significance Level to Stay 0.15
Class Level Information
Variable
class Name Frequency Weight Proportion
1 _1 17 17.0000 0.447368
2 _2 21 21.0000 0.552632
Stepwise Selection,Step 1(第一步)
Statistics for Entry,DF = 1,36
Variable R-Square F Value Pr > F Tolerance
x1 0.3195 16.90 0.0002 1.0000
x2 0.0514 1.95 0.1710 1.0000
x3 0.3734 21.45 <.0001 1.0000
x4 0.0008 0.03 0.8643 1.0000
Variable x3 will be entered.( X3进入)
Variable(s) that have been Entered
x3
Multivariate Statistics
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.626628 21.45 1 36 <.0001
Pillai's Trace 0.373372 21.45 1 36 <.0001
Stepwise Selection,Step 2(第二步)
Statistics for Removal,DF = 1,36
Variable R-Square F Value Pr > F
x3 0.3734 21.45 <.0001
No variables can be removed.
Statistics for Entry,DF = 1,35
Partial
Variable R-Square F Value Pr > F Tolerance
x1 0.1070 4.19 0.0482 0.6638
x2 0.0094 0.33 0.5672 0.9379
x4 0.0172 0.61 0.4386 0.9546
Variable x1 will be entered.( X1进入)
Stepwise Selection,Step 3(第三步)
Statistics for Removal,DF = 1,35
Partial
Variable R-Square F Value Pr > F
x1 0.1070 4.19 0.0482
x3 0.1777 7.56 0.0094
No variables can be removed.
Statistics for Entry,DF = 1,34
Partial
Variable R-Square F Value Pr > F Tolerance
x2 0.0196 0.68 0.4154 0.4120
x4 0.0057 0.20 0.6614 0.6119
No variables can be entered.(无变量能进入)
No further steps are possible,(进一步是不可能的)
Linear Discriminant Function for class
线性判别函数
Variable 1 2
Constant -2.45595 -5.25152
x3 2.18098 3.52968
x1 -4.55096 -0.52018
311 18098.255096.445595.2 xxf
312 5 2 9 6 8.35 2 0 1 8.02 5 1 5 2.5 xxf
Number of Observations and Percent Classified into class
From class 1 2 Total
1 14 3 17
82.35 17.65 100.00
2 3 18 21
14.29 85.71 100.00
Total 17 21 38
44.74 55.26 100.00
Priors 0.44737 0.55263
Error Count Estimates for class
1 2 Total
Rate 0.1765 0.1429 0.1579
Priors 0.4474 0.5526
Posterior Probability of Membership in class
Classified
Obs into class 1 2
1 1 0.6482 0.3518
2 1 0.7667 0.2333
3 1 0.6605 0.3395
4 1 0.8029 0.1971
5 2 0.3065 0.6935
6 2 0.2759 0.7241
7 2 0.2984 0.7016
8 2 0.0742 0.9258
将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。
选择变量
( 1)和判别分析的目的密切相关
( 2)反映要判类变量的特征
( 3)在不同研究对象上的值有明显的差异确定分析样本和验证样本一、主要步骤估计鉴别函数选择某种方法建立判别规则,有距离判别、贝叶斯判别和 费歇( Fisher)判别法 。
计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。
检查判别的效果用逐步判别法筛选变量在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除