zf
第四章 判别分析
(Discriminate Analysis)
2011-10-16 2
cxt
距离判别 贝叶斯 (Bayes)判别
费歇尔 (Fisher)判别 逐步判别
2011-10-16 3
cxt
4.1 判别分析的基本思想
? 一、什么是判别分析?
? 判别分析
根据已知对象的某些观测指标和所属类别来判断未知对象所属类
别的一种统计学方法。
如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根
据判别函数对未知样本所属类别进行判别
? 判别分析的特点(基本思想)
1、是根据已掌握的、历史上若干样本的 p个指标数据及所属类别的信息,总
结出该事物分类的规律性,建立判别公式和判别准则。
2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。
? 判别分析的目的,识别一个个体所属类别
2011-10-16 4
cxt
? 判别分析的应用:无处不在
医学,
例 1:在医学诊断中,一个病人肺部有阴影,医生
要判断他患的是肺结核、肺部良性肿瘤还是肺癌?
肺结核病人、肺部良性肿瘤病人、肺癌病人组成
三个总体,病人来自其中一个总体,可通过病人的
指标(阴影大小、边缘是否光滑等)用判别分析判
断他来自哪个总体(即判断他患的什么病?)
2011-10-16 5
cxt
? 经济学,
? 例 2:中小企业的破产模型
为了研究中小企业的破产模型,选定 4个经济指标,
X1总负债率(现金收益 /总负债)
X2收益性指标(纯收入 /总财产)
X3短期支付能力(流动资产 /流动负债)
X4生产效率性指标(流动资产 /纯销售额)
对 17个破产企业( 1类)和 21个正常运行企业( 2类)进
行了调查,得如下资料,
2011-10-16 6
cxt
总负债率
收益性指标
短期支付能力
生产效率指标
类别
-.45
-.41
1.09
.45
1
-.56
-.31
1.51
.16
1
,06
.02
1.01
.40
1
-.07
-.09
1.45
.26
1
-.10
-.09
1.56
.67
1
-.14
-.07
.71
.28
1
-.23
-.30
.22
.18
1
,07
.02
1.31
.25
1
,01
.00
2.15
.70
1
-.28
-.23
1.19
.66
1
,15
.05
1.88
.27
1
,37
.11
1.99
.38
1
-.08
-.08
1.51
.42
1
,05
.03
1.68
.95
1
,01
.00
1.26
.60
1
,12
.11
1.14
.17
1
-.28
-.27
1.27
.51
1
,51
.10
2.49
.54
2
,08
.02
2.01
.53
2
2011-10-16 7
cxt
.38
.11
3.27
.55
2
,19
.05
2.25
.33
2
,32
.07
4.24
.63
2
,31
.05
4.45
.69
2
,12
.05
2.52
.69
2
-.02
.02
2.05
.35
2
,22
.08
2.35
.40
2
,17
.07
1.80
.52
2
,15
.05
2.17
.55
2
-.10
-1.01
2.50
.58
2
,14
-.03
.46
.26
2
,14
.07
2.61
.52
2
-.33
-.09
3.01
.47
2
,48
.09
1.24
.18
2
,56
.11
4.29
.45
2
,20
.08
1.99
.30
2
,47
.14
2.92
.45
2
,17
.04
2.45
.14
2
,58
.04
5.06
.13
2
,04
.01
1.50
.71
待判
-.06
-.06
1.37
.40
待判
2011-10-16 8
cxt
,07
-.01
1.37
.34
待判
-.13
-.14
1.42
.44
待判
,15
.06
2.23
.56
待判
,16
.05
2.31
.20
待判
,29
.06
1.84
.38
待判
,54
.11
2.33
.48
待判
2011-10-16 9
cxt
企业
序号
判别
类型
判别函数
得分
判别为 1的
概率
判别的为 2
概率
1
1
-.56509
.69479
.30521
2
1
-.89817
.80234
.19766
3
1
-.59642
.70620
.29380
4
1
-1.02182
.83420
.16580
5
2
.25719
.35312
.64688
6
2
.34253
.32005
.67995
7
2
.27925
.34442
.65558
8
2
1.24010
.09012
.90988
2011-10-16 10
cxt
? 例 3:根据信息基础设施的发展状况,对世界 20
个国家和地区进行分类。
考察指标有 6个,
1,X1,每千居民拥有固定电话数目
2,X2,每千人拥有移动电话数目
3,X3,高峰时期每三分钟国际电话的成本
4,X4,每千人拥有电脑的数目
5,X5,每千人中电脑使用率
6,X6,每千人中开通互联网的人数
2011-10-16 11
cxt
? 分析结果:将 20个国家分为两类
第 1类(基础设施落后),巴西、墨西哥、波兰、
匈牙利、智利、俄罗斯、泰国、印度、马来西亚
第 2类(基础设施发达),瑞典、丹麦、美国、
中国台湾、韩国、日本、德国、法国、新加坡、英
国、瑞士
? 如果:我们想知道我国基础设施发展属于哪一类型?
运用判别分析
依据,20个国家的分类信息构建判别函数
2011-10-16 12
cxt
? 例 4:股票持有者根据股票近期的变化情况判断此
种股票价格下一周是上升还是下跌?
? 刑事学,
例 5,Smith先生被指控偷了邻居家的鸡。但 Smith先生
宣称他家冰箱里的鸡是野鸡。
如何判定,
Smith先生究竟是否偷了邻居的鸡呢??
2011-10-16 13
cxt
? 二、判别分析的 基本要求,
1、分组类型在两组以上;
2、第一阶段每组样本(或案例)个数至少一个以上;
3、解释变量必须是可测量的
? 三、判别分析与聚类分析的比较,
1、判别分析是在已知研究对象分成若干类型并已取得各种类
型的一批已知样本的观测数据,在此基础上根据某些准则建
立判别式,然后对未知类型的样本进行判别分类。
2、聚类分析则是对研究对象的类型未知的情况下,对其进行
分类的方法。
2011-10-16 14
cxt
3、判别分析和聚类分析往往联合使用。当总体分类不清
楚时,先用聚类分析对一批样本进行分类,再用判别
分析构建判别式对新样本进行判别。
? 此外 判别分析变量情况,
被解释变量为属性变量;
解释变量是定量变量。
2011-10-16 15
cxt
? 四、判别分析类型及方法
( 1)按判别的组数来分,有两组判别分析和多组判别
分析
( 2)按区分不同总体所用的数学模型来分,有线性判
别和非线性判别
( 3)按判别对所处理的变量方法不同有逐步判别、序
贯判别。
( 4)按判别准则来分,有费歇尔判别准则、贝叶斯判别
准则
2011-10-16 16
cxt
? 本章介绍的主要判别分析方法,
距离判别
贝叶斯 (Bayes)判别
费歇尔 (Fisher)判别
逐步判别
2011-10-16 17
cxt
4.2 距离判别
? 基本思想,
即:首先根据已知分类的数据,分别计算各类的
重心即各组(类)的均值,判别的准则是对任给样品,
计算它到各类平均数的距离,哪个距离最小就将它判
归哪个 类。
(一)两个总体的距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵 ?相
同的 p维正态总体,对给定的样本 Y,判别一个样本
Y到底是来自哪一个总体,一个最直观的想法是计
算 Y到两个总体的距离。故我们用马氏距离来给定
判别规则,有,
2011-10-16 18
cxt
? ? ? ?
? ? ? ?
?
?
?
?
?
?
??
??
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
2011-10-16 19
cxt
)()()()(
),(),(
1
1
12
1
2
1
2
2
2
???? ????????
?
?? yyyy
yy
??
GdGd
22211 yyy ??? 12 ??? ?????? ???
????? ? )(2 21 ??1y )()( 212 ???? ???? ? 11
)(]2 )([2 21121y ???? ?????? ?
2
21 ??? ??令 ),,,()(
21 ????? ? paaa ?211 ???
)2( 1111 ??? ??? ????????? 11 yyy
2011-10-16 20
cxt
? 则前面的判别法则表示为
?
?
?
?
?
?
??
??
0)(
0
0
2
1
YW
WG
WG
如待判,
。)(如,
,)(如,
yy
yy )???? ?????? yyy ()()(W )()(
111 ppp yaya ?? ????? ?
μαyα ????
当 和 ?已知时, 是一个已知的 p
维向量, W( y) 是 y的线性函数, 称为线性判别函数 。 ?
称为判别系数 。 用线性判别函数进行判别分析非常直观,
使用起来最方便, 在实际中的应用也最广泛 。
21 ??,)( 211 ??? ??? ?
2011-10-16 21
cxt
例 6 在企业的考核中,可以根据企业的生产经营情况
把企业分为优秀企业和一般企业。考核企业经营状
况的指标有,
资金利润率 =利润总额 /资金占用总额
劳动生产率 =总产值 /职工平均人数
产品净值率 =净产值 /总产值
三个指标的均值向量和协方差矩阵如下。现有
二个企业,观测值分别为
( 7.8,39.1,9.6)和( 8.1,34.2,6.9),
问这两个企业应该属于哪一类?
2011-10-16 22
cxt
变量 均值向量 协方差矩阵
优秀 一般
资金利润率 13.5 5.4 68.39 40.24 21.41
劳动生产率 40.7 29.8 40.24 54.58 11.67
产品净值率 10.7 6.2 21.41 11.67 7.90
2011-10-16 23
cxt
? 线性判别函数,
1 2 30, 6 0 5 8 1 0, 2 5 3 6 2 1, 8 3 6 7 9 1 8, 7 3 5 9y x x x? ? ? ? ?
1 0, 6 0 5 8 1 7, 8 0, 2 5 3 6 2 3 9, 1 1, 8 3 6 7 9 9, 6 1 8, 7 3 5 9 64, 0 8 9 2 0y ? ? ? ? ? ? ? ???
2 0, 6 0 5 8 1 8, 1 0, 2 5 3 6 2 3 4, 2 1, 8 3 6 7 9 6, 9 1 8, 7 3 5 9 6
2, 2 9 5 6 0
y ? ? ? ? ? ? ? ?
? ? ?
2011-10-16 24
cxt
? 2、当总体的协方差已知,且不相等
? ? ? ?
? ? ? ?
?
?
?
?
?
?
??
??
),(),( 2212
1
2
2
2
2
2
2
1
2
1
GydGyd
GdGdG
GdGdG
如待判,
,,如,
,,,如,
yyy
yyy
)()()()(
),(),(
1
1
112
1
22
1
2
2
2
???? ??????????
?
?? yyyy
yy GdGd
2011-10-16 25
cxt
? (二) 多总体的距离判别法
1、协方差阵相等
设有个 K总体,分别有均值向量 (i=1,2,…,k)和协
方差阵 Σi= Σ,又设 Y是一个待判样品。则 Y与各总
体的距离为(即判别函数),
(与两个总体类似,书 101- 102页)
iu
)()(),( 12 iiiGd ?? ????? ? yyy
iii ??? ?????????? ??? 12 11 yyy
)5.0(2' 11 iiiyy ??? ????????? ??? 1y
2011-10-16 26
cxt
则距离判别法的判别函数为,
)5.0()( 1 iiii yf ??? ??????? ?? 1y令
)5.0()( 1 iiii yf ??? ??????? ?? 1y
判别规则为
likil Gyyfyf ?? ??,则)(m a x)( 1
注,这与前面所提出的距离判别是等价的,
).,(m in),()(m a x)( 2121 ikilikil GydGydyfyf ???? ??,意味着
2011-10-16 27
cxt
2、协方差阵不等
设有个 K总体,分别有均值向量 (i=1,2,…,k)和协
方差阵不等,又设 Y是一个待判样品。则 Y与各总
体的距离为(即判别函数),
(与两个总体类似,书 102页)
iu
2011-10-16 28
cxt
? 距离判别法的优缺点,
该方法简单实用,但没有考虑到每个
总体出现的机会大小,即先验概率,没有考
虑到错判的损失。
贝叶斯判别法 正是为了解决这两个问
题提出的判别分析方法。
2011-10-16 29
cxt
4.3贝叶斯 (Bayes)判别
? 贝叶斯判别法是通过计算被判样本 x属于 k个总体的条件概
率 P( n/x),n=1,2…,.k,比较 k个概率的大小, 将样本判归为
来自出现概率最大的总体 ( 或归属于错判概率最小的总体 )
的判别方法 。
? 一, 最大后验概率准则
设有 k个总体 且总体 的概率密度为
,样本 x来自 的先验概率为 满足
,利用贝叶斯理论,x属于 的后验概率
(即当样本 x已知时,它属于 的概率为,
最大后验概率判别准则,
kGGGG ??321,,iG )(xfi
iG
,2,1,kiq i ???
121 ???? kqqq ??
iG
iG
ki
xfq
xfqxGP
k
i
ii
ii
i ??2,1
)(
)()(
1
??
?
?
)(m a x)(,1 xGPxGPGx ikill ???? 若
2011-10-16 30
cxt
? 例 7:设有, 和 三个类,欲判别某样本 属于
哪一类.已知
现利用后验概率准则计算 属
于各组的后验概率,
2G 3G1G 0x
,30.0,65.0,05.0 321 ??? qqq 10.0)( 01 ?xf
63.0)( 02 ?xf 4.2)( 03 ?xf
0x
004.01 3 4 5.1 005.04.230.063.065.010.005.0 10.005.0
)(
)()(
3
1
0
011
01 ???????
???
?
?i
ii xfq
xfqxGP
3 6 1.01 3 4 5.1 4 0 9 5.04.230.063.065.010.005.0 63.065.0
)(
)()(
3
1
0
022
02 ???????
???
?
?i
ii xfq
xfqxGP
6 3 5.01 3 4 5.1 72.04.230.063.065.010.005.0 4.230.0
)(
)()(
3
1
0
033
03 ???????
???
?
?i
ii xfq
xfqxGP
2011-10-16 31
cxt
例 8,办公室新来了一个雇员小王, 小王是好人还是坏人大
家都在猜测 。 按人们主观意识, 一个人是好人或坏人的
概率均为 0.5。 坏人总是要做坏事, 好人总是做好事,
偶尔也会做一件坏事, 一般好人做好事的概率为 0.9,
坏人做好事的概率为 0.2,一天, 小王做了一件好事,
小王是好人的概率有多大, 你现在把小王判为何种人 。
2011-10-16 32
cxt
? ? ? ?
? ? )/()()/(
/
/(
坏人做好事坏人好人做好事好人
好人做好事好人
做好事)好人
PPPP
PP
P
?
?
82.02.05.09.05.0 9.05.0 ???? ??
? ? ? ?
? ? )/()()/(
/
/(
坏人做好事坏人好人做好事好人
坏人做好事坏人
做好事)坏人
PPPP
PP
P
?
?
18.02.05.09.05.0 2.05.0 ???? ??
)()|(
)()|()|(
ii
ii
i BPBAP
BPBAPABP
??Bayes公式,
2011-10-16 33
cxt
特别,总体服从正态分布的情形
),(m a x)(
1 00 ki iill
xfqxfq
??
?则 判给 。 0x lG
)]()(21e x p [)2( 1)( )(1)(21 iii
i
i xxxf ??? ???????
?若
)]()(21ex p [)2( 1)(,)(1)(21 iii
i
iii xxqxfq ??? ???????
?则
2011-10-16 34
cxt
? 上式两边取对数并去掉与 i无关的项,则等价的判别函数为,
))(l n ()( x
iii fqxz ?
???? ||ln21ln iiq )]()(21 )(1)( iii xx ?? ???? ?
问题转化为若, 则判 。
)]([m a x)( 1 xZxZ ikil ??? lGx?
2011-10-16 35
cxt
? 则判别函数退化为,
?? ii qxz ln)( )](21 ( i )1( i ) μ(xΣ)μx ??? ?
???? iqln2[21 )]( ( i )1( i ) μ(xΣ)μx ??? ?
令 )]( i )1( i ) μ(xΣ)μ(x ??? ???? ii qxF ln2)(
问题转化为若,则判 。 )]([m i n)( 1 xPxP ikil ??? lGx?
( i )1)(i1)(i μΣμxΣμ ???? ???? 2ln2)( ii qxP
当协方差阵相等 ????? k?1
2011-10-16 36
cxt
)21( l n2)( xΣμμΣμx 1( i )( i )1( i ) ?? ????? ii qP
xΣμμΣμx 1)(i( i )1)(i ???? ??? 21ln)( ii qm
)]([m a x)( 1 xmxm ikil ???

问题转化为若, 则判 。
lGx?
当先验概率相等, kqq k
1
1 ??? ?
?)(xmi ( i)1( i) μΣμ ??? 21 xΣμ 1( i) ???
完全成为距离判别法 。
判别准则 1:后验概率最大 即判断 x来自后验概率最大的总体
2011-10-16 37
cxt
? 例 9:下表是某金融机构客户的个人资料,这些资料对一个金融机
构来说,对于客户信用度的了解至关重要,因为利用这些资料,
可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量
为,
x1,月收入
x2,月生活费支出
x3,虚拟变量,住房的所有权,自己的为, 1”,租用的, 0”
x4,目前工作的年限
x5,前一个工作的年限
x6,目前住所的年限
x7,前一个住所的年限
X8,家庭赡养的人口数
X9,信用程度,,5” 的信用度最高,,1” 的信用度最低。
2011-10-16 38
cxt
L o a n Y r s a t Y r s a t Y r s a t Y r s a t
R e c o r d M o n t h l y M o n t h l y H o m e P r e s e n t P r e v i o u s P r e s e n t P r e v i o u s N o, o f
N u m b e r I n c o m e E x p e n s e s O w n e r? J o b J o b A d d r e s s A d d r e s s D e p e n d, O u t p u t
1 3000 1500 0 2 8 6 2 5 3
2 850 425 1 3 3 25 25 1 3
3 1000 3000 0 0, 1 0, 3 0, 1 0, 3 4 1
4 9000 2250 1 8 4 5 3 2 5
5 4000 1000 1 3 5 3 2 1 4
6 3500 2500 0 0, 5 0, 5 0, 5 2 1 1
7 2200 1200 1 6 3 1 4 1 3
8 4500 3500 0 8 2 10 1 5 2
9 1200 1000 0 0, 5 0, 5 1 0, 5 3 1
10 800 800 0 0, 1 1 5 1 3 1
11 7500 3000 1 10 3 10 3 4 5
12 3000 1000 1 20 5 15 10 1 5
13 2500 700 1 10 5 15 5 3 5
14 3000 2600 1 6 1 3 4 2 2
15 7000 3700 1 10 4 10 1 4 4
16 3000 2800 0 1 2 3 4 3 1
17 4500 1500 1 6 4 4 9 3 4
2011-10-16 39
cxt
原始类 判类 后验概率 1 后验概率 2 后验概率 3 后验概率 4 后验概率 5
5 5 0 0 0.00001 0 0.99999
1 1 0.87079 0.00529 0.12379 0.00014 0
4 4 0.03952 0.01605 0.14635 0.78714 0.01095
2 2 0.04827 0.91002 0.03611 0.0056 0
1 3 0.381 0.19853 0.41076 0.0097 0.00001
1 3 0.2292 0.10883 0.63483 0.02681 0.00032
1 1 0.6492 0.21128 0.13896 0.00056 0
5 5 0.00014 0.00006 0.00206 0.23391 0.76384
3 3 0.18884 0.00616 0.8049 0.0001 0
3 3 0.09624 0.00172 0.90169 0.00033 0.00003
4 4 0.00891 0.30299 0.01216 0.6759 0.00004
1 1 0.79619 0.00328 0.20027 0.0002 0.00006
3 3 0.26354 0.01066 0.68458 0.03975 0.00147
2 2 0.08262 0.83204 0.01982 0.06552 0
4 4 0.00002 0.00116 0.00006 0.99813 0.00062
3 3 0.11507 0.01651 0.36721 0.29397 0.20724
3 1 0.67184 0.23902 0.0888 0.00034 0
2011-10-16 40
cxt
? 二、最小平均误判准则,错判损失最小概念作判别函数
【 定义 】 (平均错判损失)
用 P(j/i)表示将来自总体 Gi的样品错判到总体 Gj的条件概率。
C(j/i)表示相应错判所造成的损失 。
则平均错判损失为,
? ?? ?? ki iji ijPijCqE C M 1 )/()/(
使 ECM最小的分划,是 Bayes判别分析的解。
????
jD
iij dxxfGDXPijp )()/()/( ji?
2011-10-16 41
cxt
? ?kiq i,,3,2,1,?? 【 定理 】 若总体 G1,G2,?, Gk的先验概率为
且相应的密度函数为,样本来自 而误判
为 的损失为,则划分的B ayes解为,
? ? kihhD jkjii,,3,2,1,)(m in)(| 1 ???? ?? xxx
其中 ??? ki iij fijCqh 1 )()/()( xx
},2,1),({ kixf i ?? iG
jG )( ijC
2011-10-16 42
cxt
最小错判损失准则的含义是,当抽取了一个未知总
体的样品值 x,要判别它属于那个总体,只要先计
算出 k个按先验概率加权的误判平均损失
然后比较其大小,选取其中最小的,则判定样品属
于该总体。
??? ki iij fijCqh 1 )()/()( xx
2011-10-16 43
cxt
? 例:设先验概率、误判损失及概率密度如下,
判别为
G1 G2 G3
G1 C ( 1 / 1 ) = 0 C ( 2 / 1 ) = 2 0 C ( 3 / 1 ) = 8 0
G2 C ( 1 / 2 ) = 4 0 0 C ( 2 / 2 ) = 0 C ( 3 / 2 ) = 2 0 0



G3 C ( 1 / 3 ) = 1 0 0 C ( 2 / 3 ) = 5 0 0 C ( 3 / 3 ) = 0
先验概率 P 1 = 0, 5 5 P 2 = 0, 1 5 P 3 = 0, 3 0
概率密度 f 1 = 0, 4 6 f 2 = 1, 5 F 3 = 0, 7 0
2011-10-16 44
cxt
试用贝叶斯判别法将样本 x0判到 G1,G2,G3中的一个。考虑与
不考虑误判损失的结果如何?
1、考虑误判损失,
误判到 G1的平均损失为
ECM1= 0.55*0.46*0+0.15*1.5*400+0.30*0.70*100=
误判到 G2的平均损失为
ECM2= 0.55*0.46*20+0.15*1.5*0+0.30*0.70*50=
误判到 G3的平均损失为
ECM3= 0.55*0.46*80+0.15*1.5*200+0.30*0.70*0=
其中 ECM2最小,故将 x0判别到 G2。
2011-10-16 45
cxt
2、不考虑误判损失,
将 x0判别到 G1的条件概率为,
P( G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将 x0判别到 G2的条件概率为,
P( G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将 x0判别到 G3的条件概率为,
P( G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=
其中 P( G1/x0) 取值最大,故将 x0判别到 G1。
2011-10-16 46
cxt
4.4费歇尔 (Fisher)判别
? 所谓 Fisher判别法,就是用投影的方法将 k个不同总体在
p维空间上的点尽可能分散,同一总体内的各样本点尽可
能的集中。用 方差分析的思想则可构建一个较好区分各
个总体的线性判别法
例:考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。
数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。
? 这里只有两种已知类型的训练样本。其中一类有 38个点(用, o”表示),
另一类有 44个点(用, *” 表示)。按照原来的变量(横坐标和纵坐标),
很难将这两种点分开。
? 于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个
虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如
果向其他方向投影,判别效果不会比这个好。
? 这种首先进行投影的判别方法就是 Fisher判别法。
2011-10-16 47
cxt
-4 -2 0 2 4 6
-4
-3
-2
-1
0
1
2
3
2011-10-16 48
cxt
? 一、两个总体的费歇( Fisher) 判别法
旋转坐标轴至总体单位尽可能分开的方向,此时
分类变量被简化为一个
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
?
?
?
?
?
?
X不能使总体单位
尽可能分开的方向
u能使总体单位
尽可能分开的方向
?
?
2011-10-16 49
cxt
? (一)基本思想
设有 A,B两个总体,分别有 个历史样本数据,每
个样本有 P个观测指标,每个样本可看作 P维空间中的一
点。 Fisher借助于方差分析的思想构造一个线性判别函
数,
其中,判别系数 的选择应使得 y值满足,
(1)A类和 B类的样本点群尽可能远离;
(2)同一类的样本点尽可能集中。
21 nn和
pp xcxcxcy ???? ?2211
pCCC,,,21 ?
2011-10-16 50
cxt
),,2,1()m i n (
),,2,1()m i n (
)m a x (
2
2
2
bbbi
aaai
ba
niyy
niyy
yy
BAF i s h e r
?
?
??
??
?

量集中,即
应该尽;而同一总体的投影点分散,即
的头影点应尽量、的思想:不同总体由
.
)()(
)(
),,,(
1
2
1
2
2
21
准则要求取最大值就满足则只要
构造统计量
F i s h e rF
yyyy
yy
cccF
ba n
i
bbi
n
i
aai
ba
m
??
??
???
?
??
2011-10-16 51
cxt
),,2,1(0
.)(
,,,,
),,,(
2211
21
21
mi
c
F
xcxcxcXy
ccc
cccF
i
mm
m
m
?
?
?
?
??
?
?
????
为此,只需要令
:从而可以得出判别函数的值
的最大值点确定出参数求
2011-10-16 52
cxt
)()()()(
)(
1
)(
1
11
21
21
2211
22222121
11212111
BlB l i
n
i
BjB j iAlA l i
n
i
AjA j ijl
iBniBiB
b
Bi
iAniAiA
a
Ai
BiAii
mmmmmm
mm
mm
xxxxxxxxs
xxx
n
x
xxx
n
x
xxd
dcscscs
dcscscs
dcscscs
ba
b
a
??????
????
????
??
?
?
?
?
?
?
?
????
????
????
??
??
?
?
?
???????????
?
?
其中
2011-10-16 53
cxt
? (二) Fisher两类判别的计算步骤,
1、输入历史数据,计算 和
2,计算
3、解方程组,求出,建立判别函数
4、对新样本作判别
( 1)将新样本 p个观测值带入判别函数,求出 y值
( 2)确定临界值
分别将两类总体样本的判别函数之均值
求加权平均值 作为临界值。
)(AX? )(BX?
.2,1,,pksd kk ??
dsc? dsc 1??
mm xcxcxcXy ???? ?2211)(
)()(,BA yy
21
)2(2)1(1
0 nn
ynyny
?
??
2011-10-16 54
cxt
5、作出判别
( 1)
( 2)
)()( BA yy ?假定
时,不确定;=
类;时,判新样本属
类;时,判新样本属
yy
Byy
Ayy
0
0
0
?
?
)()( BA yy ?假定
时,不确定;=
类;时,判新样本属
类;时,判新样本属
yy
Ayy
Byy
0
0
0
?
?
2011-10-16 55
cxt
? (三 )判别效果的检验,
1、总体差异的显著性检验。
2、各判别变量的重要性检验。
2011-10-16 56
cxt
? 二、多个总体的 Fisher判别法
(一 ) 判别函数
Fisher判别法实际上是致力于寻找一个最能反映组
和组之间差异的投影方向, 即寻找线性判别函
数, 设有 个总体,
分别有均值向量,,…,和协方差阵,
分别各总体中得到样品,
pp xcxcxY ??? ?11)( k kGGG,,,21 ?
1?? 2?? k?? k??,,1 ?
)1()1(1
1,,nXX ?
)2()2(1
2,,nXX ??
2011-10-16 57
cxt
nnnn k ???? ?21
?
?
? in
t
i
t
i
i XnX 1
)(1第 i个总体的样本均值向量
?
?
? k
i
ii XnnX
1
1综合的样本均值向量
?? ???? int iitiiti XXXXV 1 )()( ))((
第 i个总体样本组内离差平方和
kVVVE ???? ?21综合的组内离差平方和
2011-10-16 58
cxt
组间离差平方和 ?? ???? ki iii XXXXnB 1 ))((
? ?? ? ?????? i ini nt itiitiitiy YYYYYYV 1 1 )()(2)( ))(()( CVC i??
? ?? ? ????? ki ki iiy ECCCVCVE 1 10
2
0
11
( ) ( ) ( )
ink
i i i i i
ii
B n Y Y n Y Y Y Y C B C
??
??? ? ? ? ? ???
pp xcxcxY ??? ?11)(因为
2011-10-16 59
cxt
如果判别分析是有效的, 则所有的样品的线性
组合 满足组内离差平方
和小, 而组间离差平方和大 。 则
pp xcxcxY ??? ?11)(
ma x)(
0
02 ?
?
???
ECC
BCC
E
BC?
。最大的特征根相对于的最大值是 1
0
02 )( ?EB
ECC
BCC
E
BC
?
????
1? ),,( 1111 ?? pccC ?
pp xcxcxY 11111 ??)(? ??? ?
而 所对应的特征向量即 。
Fisher样品判别函数是
2011-10-16 60
cxt
? 然而,如果组数 k太大,讨论的指标太多,则一个
判别函数是不够的,这时需要寻找第二个,甚至第
三个线性判别函数
其特征向量构成第二个判别函数的系数。
类推得到 m(m<k)个线性函数。
第二大的特征根相对于的最大值是 EBECC BCCEBC ?????
0
02 )(
),,( 2122 ?? pccC ?
pp xcxcxY 21122 ??)(? ??? ?
2011-10-16 61
cxt
? 关于需要几个判别函数得问题,需要累计判
别效率达到 85%以上,即有
设 为 B相对于 E得特征根,则
2 0
0
() B C BCC E C EC?? ? ? ?
12 p? ? ?? ? ?L
12
12
85%k
p
? ? ?
? ? ?
? ? ? ?
? ? ?
L
L
2011-10-16 62
cxt
? 以 m个线性判别函数得到的函数值为新的变
量,再进行距离判别。
? 判别规则,

),,2,1( mi ??
?? ?? ri kiik xyxyGxd 1 2))()((),(
),(m i n),( 1 kkjt GxdGxd ???tGx?
设 yi(X)为第 i个线性判别函数,,
2011-10-16 63
cxt
4.5 变量选择和逐步判别法
向后剔除 开始时,所有变量都在模型中。每一步,
在 Wilks的统计量的准则下对模型中判别能力贡献
最小的变量剔除。当所有余下的变量都达到留在模
型中的标准时,向后剔除过程停止。
逐步选择 开始时如同向前选择一样,模型中没有变
量,每一步都被检查。如果在 Wilks的准则下统计
量对模型的判别能力贡献最小的变量达不到留在模
型中的标准,它就被剔除。否则,不在模型中对模
型的判别能力贡献最大的变量被选入模型。当模型
中的所有变量都达到留在模型中的标准而没有其他
变量能达到进入模型的标准,逐步选择过程停止。
2011-10-16 64
cxt
逐步判别法采用有进有出的算法, 即每一步都进行检验 。
首先, 将判别能力最强的变量引进判别函数, 而对较早
进入判别函数的变量, 随着其他变量的进入, 其显著性
可能发生变化, 如果其判别能力不强了, 则删除 。
向前选入 开始时模型中没有变量 。 每一步, Wilks的统计
量最小者, 进入模型 。 当不再有未被选入的变量小于选
入的临界值时, 向前选入过程停止 。
2011-10-16 65
cxt
? 例 10,企图用一套打分体系来描绘企业的状况。该体
系对每个企业的一些指标(变量)进行评分。这些指
标包括:企业规模 (is),服务 (se),雇员工资比例
(sa),利润增长 (prr),市场份额 (ms),市场份额增长
(msr),流动资金比例 (cp),资金周转速度 (cs)等等。
另外,有一些企业已经被某杂志划分为上升企业、稳
定企业和下降企业。
? 我们希望根据这些企业的上述变量的打分和它们已知
的类别(三个类别之一,group-1代表上升,group-2
代表稳定,group-3代表下降)找出一个分类标准,以
对没有被该刊物分类的企业进行分类。
? 该数据有 90个企业( 90个观测值),其中 30个属于上
升型,30个属于稳定型,30个属于下降型。这个数据
就是一个, 训练样本, 。
2011-10-16 66
cxt
2011-10-16 67
cxt
? 利用 SPSS软件的逐步判别法淘汰了不显著的流动资金
比例 (cp),还剩下七个变量 is,se,sa,prr,ms,
msr,cs,得到两个典则判别函数( Canonical
Discriminant Function Coefficients),
? 0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-
0.023MSR-0.385CS-3.166
? 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.04
4MSR-0.159CS-4.384
? 这两个函数实际上是由 Fisher判别法得到的向两个
方向的投影。这两个典则判别函数的系数是下面的
SPSS输出得到的,
2011-10-16 68
cxt
? 根据这两个函数,从任何一个观测值(每个观测值都有
7个变量值)都可以算出两个数。把这两个数目当成该
观测值的坐标,这样数据中的 150个观测值就是二维平
面上的 150个点。它们的点图在下面图中。
C a n on i c a l D i s c r i m i n a n t F u n c t i on C oe f f i c i e n t s
,0 3 5, 0 0 5
3, 2 8 3, 5 6 7
,0 3 7, 0 4 1
-, 0 0 7, 0 1 2
,0 6 8, 0 4 8
-, 0 2 3, 0 4 4
-, 3 8 5 -, 1 5 9
- 3, 1 6 6 - 4, 3 8 4
I S 企业规模
S E 服务
S A 雇员工资比例
P R R 利润增长
M S 市场份额
M S R 市场份额增长
C S 资金周转速度
(C o n s t a n t )
1 2
F u n ct io n
U n s t a n d a r d iz e d co e f f i ci e n t s
2011-10-16 69
cxt
C a n o n i c a l D is c r im i n an t F u n c t io n s
F u n ct io n 1
100- 1 0
F
u
n
ct
io
n
2
4
3
2
1
0
-1
-2
-3
G R O U P
G r o u p C e n t r o i d s
3
2
1
3
2
1
2011-10-16 70
cxt
? 从上图可以看出,第一个投影(相应于来自于第一个
典则判别函数横坐标值)已经能够很好地分辨出三个
企业类型了。这两个典则判别函数并不是平等的。其
实一个函数就已经能够把这三类分清楚了。 SPSS的一
个输出就给出了这些判别函数(投影)的重要程度,E i g e n v a l u e s
2 6, 6 7 3
a
9 9, 0 9 9, 0, 9 8 2
,2 6 2
a
1, 0 1 0 0, 0, 4 5 6
F u n c t i o n
1
2
E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %
C a n o n i c a l
C o r r e l a t i o n
F i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h e
a n a l y s i s,
a,
2011-10-16 71
cxt
? 投影的重要性是和特征值的贡献率有关。该表说明第
一个函数的贡献率已经是 99%了,而第二个只有 1%。
当然,二维图要容易看一些。投影之后,再根据各点
的位臵远近算出具体的判别公式( SPSS输出),
C l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s
,1 1 8, 3 3 8, 5 5 4
,7 7 0 2 1, 3 2 9 4 1, 6 1 6
,3 4 5, 5 4 2, 8 1 1
,0 8 6, 0 2 9 -, 0 0 1
,3 5 5, 7 4 3 1, 2 0 3
,3 6 8, 1 7 3, 0 8 1
7, 5 3 1 5, 2 2 0 2, 7 4 2
- 5 7, 5 2 1 - 5 3, 7 0 4 - 9 6, 0 8 4
IS
SE
SA
P R R
MS
M S R
CS
( C o n s t a n t )
1, 0 0 2, 0 0 3, 0 0
G R O U P
F i s h e r ' s l i n e a r d i s c r i m i n a n t f u n c t i o n s
2011-10-16 72
cxt
? 该表给出了三个线性分类函数的系数。把每个观测点
带入三个函数,就可以得到分别代表三类的三个值,
哪个值最大,该点就属于相应的那一类。 计算机软件
的选项可以把这些训练数据的每一个点按照这里的分
类法分到某一类。当然,我们一开始就知道这些训练
数据的各个观测值的归属,但即使是这些训练样本的
观测值(企业)按照这里推导出的分类函数来分类,
也不一定全都能够正确划分。
2011-10-16 73
cxt
C l a s s i f i c a t i o n R e s u l t s
b,c
30 0 0 30
0 30 0 30
0 0 30 30
1 0 0, 0,0,0 1 0 0, 0
.0 1 0 0, 0,0 1 0 0, 0
.0,0 1 0 0, 0 1 0 0, 0
30 0 0 30
0 30 0 30
0 0 30 30
1 0 0, 0,0,0 1 0 0, 0
.0 1 0 0, 0,0 1 0 0, 0
.0,0 1 0 0, 0 1 0 0, 0
G R O U P
1, 0 0
2, 0 0
3, 0 0
1, 0 0
2, 0 0
3, 0 0
1, 0 0
2, 0 0
3, 0 0
1, 0 0
2, 0 0
3, 0 0
C o u n t
%
C o u n t
%
O r i g i n a l
C r o s s - v a l i d a t e d
a
1, 0 0 2, 0 0 3, 0 0
P r e d i c t e d G r o u p M e m b e r s h i p
T o t a l
C r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s, I n c r o s s
v a l i d a t i o n,e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l l
c a s e s o t h e r t h a n t h a t c a s e,
a,
1 0 0, 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d,b,
1 0 0, 0 % o f c r o s s - v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d,c,
2011-10-16 74
cxt
判别分析的 SPSS操作步骤,
? 执 行 菜 单 命 令, 单击 [ Analyze],[Classify]、
[Discriminant]
2011-10-16 75
cxt
2011-10-16 76
cxt
? ⑴ 指定分组变量及其取值范围 。
将分组变量从源变量窗口通过选择箭头选到分组变量
窗口, Grouping variable”。 并从, Define Range”按钮定
义分组变量的取值范围, 给定最小值 Minimum和最大值
Maximum。
? ⑵ 指定判别函数中的自变量 。
将自变量从源变量窗口通过选择箭头选到自变量窗口 。
? ⑶ 选择使用自变量的方法 。
对于选定的自变量可以全部应用到判别函数中去, 这是系
统默认的使用全部自变量法, Enter independent together”。
如果要对变量进行筛选检验, 将使用选项逐步进入法, Use stepwise method”。 使用该方法后, 按钮, Method”将被激活
2011-10-16 77
cxt
2011-10-16 78
cxt
2011-10-16 79
cxt
计算各类别及总体
各变量均值、标准差
? ⑷ 统计量, 矩阵和函数系数的计算
按钮, Statistics”将打开统计计算窗口 。
输出单变量
方差分析结果
各类协方差矩阵
相等的检验
计算判别函数系数
Fisher判别系数
非标准化 判别系数
组内相关矩阵
合并组内协方差矩阵
组间协方差矩阵
总协方差矩阵
2011-10-16 80
cxt
2011-10-16 81
cxt
2011-10-16 82
cxt
? ⑸分类方式和判别结果
单击按钮, Classify”将设臵分类所依据的判别先验概率
和协方差矩阵,以及输出图形和显示结果
先验概率的设定
各类取相等先验概率
根据各类样本个数
计算先验概率
输出分析结果
输出各样本的分类结果
如判别得分、判别类等
交叉检验结果
将缺失值用均值替代
选择分类使用
的协方差阵
组内协方差阵
分组协方差阵
作图
生成一张包括
各类的散点图
分类显示
各个类的散点图
分界图,将坐标平面划分为
不同的区域,每个区域将代表一个类
2011-10-16 83
cxt
2011-10-16 84
cxt
2011-10-16 85
cxt
? ⑹在 SPSS数据文件中生成新变量
单击, SAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率
建立一个标明每个样本
所属的类别的变量
生成一个判别得分变量
样本属于某类的概率
2011-10-16 86
cxt
2011-10-16 87
cxt
? 例 11:研究某年全国各地区农民家庭收支的分布规律,
根据抽样调查资料进行分类,共抽取 28个省、市、自
治区的六个指标数据。先采用聚类分析,将 28个省、
市、自治区分为三组。北京、上海、广州 3个城市属于
待判样本。(数据家庭收支,sav)
2011-10-16 88
cxt
? 例 12:为研究某地区人口死亡状况,已按某种方法将
15个已知样本单位分为三组,选择判别变量为 2个,55
岁组死亡概率 q55和 80岁组死亡概率 q80。 建立判别函
数,判定另外 4个待判样本属于何组。数据见死亡率
1.sav
2011-10-16 89
cxt
? 例 13:为研究某地区人口死亡状况,已按某种方法将
15个已知样本点分为三组,选择判别变量为 6个,0岁
组死亡概率 q0,1岁组死亡概率 q1,10岁组死亡概率
q10,55岁组死亡概率 q55,80岁死亡概率 q80,平均预
期寿命 e0。 建立判别函数以便在人寿保险中应用。试
用逐步判别法建立判别函数,判定另外 4个待判样本点
属于何组。数据见死亡率 2.sav
2011-10-16 90
cxt
? 例 14:鸢尾花数据 (花瓣,花萼的长宽 ) 5个变量,花瓣长
(slen),花瓣宽 (swid),花萼长 (plen),花萼宽 (pwid),分类
号 (1:Setosa,2:Versicolor,3:Virginica)(data14-04)
2011-10-16 91
cxt
? Statistics→Classify →Discriminant,
? Variables,independent (slen,swid,plen,pwid)
Grouping(spno) Define range(min-1,max-3)
? Classify,prior probability(All group equal) use
covariance matrix (Within-groups) Plots (Combined-
groups,Separate-groups,Territorial map) Display
(Summary table)
? Statistics,Descriptive (Means) Function Coefficients
(Fisher’s,Unstandardized) Matrix (Within-groups
correlation,Within-groups covariance,Separate-groups
covariance,Total covariance)
? Save,(Predicted group membership,Discriminant Scores,
Probability of group membership)
2011-10-16 92
cxt
鸢尾花数据 (数据分析过程简明表 )
A n a l y s i s C a s e P r o c e s s i n g S u m m a r y
1 5 0 1 0 0, 0
0,0
0,0
0,0
0,0
1 5 0 1 0 0, 0
U n w e i g h t e d C a s e s
V a l i d
M i s s i n g o r o u t - o f - r a n g e
g r o u p c o d e s
A t l e a s t o n e m i s s i n g
d i s c r i m i n a t i n g v a r i a b l e
B o t h m i s s i n g o r
o u t - o f - r a n g e g r o u p
c o d e s a n d a t l e a s t o n e
m i s s i n g d i s c r i m i n a t i n g
v a r i a b l e
T o t a l
E x c l u d e d
T o t a l
N P e r c e n t
2011-10-16 93
cxt
鸢尾花数据 (原始数据的描述 )
G r o u p S t a t i s t i c s
5 0, 0 6 3, 5 2 5 50 5 0, 0 0 0
3 4, 2 8 3, 7 9 1 50 5 0, 0 0 0
1 4, 6 2 1, 7 3 7 50 5 0, 0 0 0
2, 4 6 1, 0 5 4 50 5 0, 0 0 0
5 9, 3 6 5, 1 6 2 50 5 0, 0 0 0
2 7, 6 6 3, 1 4 7 50 5 0, 0 0 0
4 2, 6 0 4, 6 9 9 50 5 0, 0 0 0
1 3, 2 6 1, 9 7 8 50 5 0, 0 0 0
6 6, 3 8 7, 1 2 8 50 5 0, 0 0 0
2 9, 8 2 3, 2 1 8 50 5 0, 0 0 0
5 5, 6 0 5, 5 4 0 50 5 0, 0 0 0
2 0, 2 6 2, 7 4 7 50 5 0, 0 0 0
5 8, 6 0 8, 6 3 3 1 5 0 1 5 0, 0 0 0
3 0, 5 9 4, 3 6 3 1 5 0 1 5 0, 0 0 0
3 7, 6 1 1 7, 6 8 2 1 5 0 1 5 0, 0 0 0
1 1, 9 9 7, 6 2 2 1 5 0 1 5 0, 0 0 0
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
T o t a l
M e a n
S t d,
D e v i a t i o n U n w e i g h t e d W e i g h t e d
V a l i d N ( l i s t w i s e )
2011-10-16 94
cxt
鸢尾花数据 (合并类内相关阵和协方差阵 )
P o o l e d W i t h i n - G r o u p s M a t r i c e s
a
2 9, 9 6 0 8, 7 6 7 1 6, 1 2 9 4, 3 4 0
8, 7 6 7 1 1, 5 4 2 5, 0 3 3 3, 1 4 5
1 6, 1 2 9 5, 0 3 3 1 8, 5 9 7 4, 2 8 7
4, 3 4 0 3, 1 4 5 4, 2 8 7 4, 1 8 8
1, 0 0 0, 4 7 1, 6 8 3, 3 8 7
,4 7 1 1, 0 0 0, 3 4 4, 4 5 2
,6 8 3, 3 4 4 1, 0 0 0, 4 8 6
,3 8 7, 4 5 2, 4 8 6 1, 0 0 0
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
C o v a r i a n c e
C o r r e l a t i o n
花萼长 花萼宽 花瓣长 花瓣宽
T h e c o v a r i a n c e m a t r i x h a s 1 4 7 d e g r e e s o f f r e e d o m,a,
2011-10-16 95
cxt
鸢尾花数据 (总协方差阵 )
C o v a r i a n c e M a t r i c e s
a
1 2, 4 2 5 9, 9 2 2 1, 6 3 6 1, 0 3 3
9, 9 2 2 1 4, 3 6 9 1, 1 7 0, 9 3 0
1, 6 3 6 1, 1 7 0 3, 0 1 6, 6 0 7
1, 0 3 3, 9 3 0, 6 0 7 1, 1 1 1
2 6, 6 4 3 8, 2 8 8 1 8, 2 9 0 5, 5 7 8
8, 2 8 8 9, 9 0 2 8, 1 2 7 4, 0 4 9
1 8, 2 9 0 8, 1 2 7 2 2, 0 8 2 7, 3 1 0
5, 5 7 8 4, 0 4 9 7, 3 1 0 3, 9 1 1
5 0, 8 1 2 8, 0 9 0 2 8, 4 6 1 6, 4 0 9
8, 0 9 0 1 0, 3 5 5 5, 8 0 4 4, 4 5 6
2 8, 4 6 1 5, 8 0 4 3 0, 6 9 4 4, 9 4 3
6, 4 0 9 4, 4 5 6 4, 9 4 3 7, 5 4 3
7 4, 5 3 7 - 4, 6 8 3 1 3 0, 0 3 6 5 3, 5 0 7
- 4, 6 8 3 1 9, 0 3 6 - 3 3, 0 5 6 - 1 2, 0 8 3
1 3 0, 0 3 6 - 3 3, 0 5 6 3 1 2, 6 7 0 1 2 9, 8 0 3
5 3, 5 0 7 - 1 2, 0 8 3 1 2 9, 8 0 3 5 8, 1 0 1
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
T o t a l
花萼长 花萼宽 花瓣长 花瓣宽
T h e t o t a l c o v a r i a n c e m a t r i x h a s 1 4 9 d e g r e e s o f f r e e d o m,a,
2011-10-16 96
cxt
鸢尾花数据 (特征值表 )
? Eigenvalue:用于分析的前两个典则判别函数的特征值,
是组间平方和与组内平方和之比值, 最大特征值与组均值最
大的向量对应,第二大特征值对应着次大的组均值向量
典则相关系数 (canonical correlation):是组间平方和
与总平方和之比的平方根,被平方的是由组间差异解释的变
异总和的比,
E i g e n v a l u e s
3 0, 4 1 9
a
9 9, 0 9 9, 0, 9 8 4
,2 9 3
a
1, 0 1 0 0, 0, 4 7 6
F u n c t i o n
1
2
E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %
C a n o n i c a l
C o r r e l a t i o n
F i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h e
a n a l y s i s,
a,
2011-10-16 97
cxt
鸢尾花数据 (Wilks’ Lambda统计量 )
? 检验的零假设是各组变量均值相等, Lambda接近
0表示组均值不同,接近 1表示组均值没有不同,
Chi-square是 lambda的卡方转换,用于确定其
显著性,
W i l k s ' L a m b d a
,0 2 5 5 3 8, 9 5 0 8, 0 0 0
,7 7 4 3 7, 3 5 1 3, 0 0 0
T e s t o f F u n c t i o n ( s )
1 t h r o u g h 2
2
W i l k s ' L a m b d a C h i - s q u a r e df S i g,
2011-10-16 98
cxt
鸢尾花数据 (有关判别函数的输出 )
S t a n d a r d i z e d C a n o n i c a l D i s c r i m i n a n t
F u n c t i o n C o e f f i c i e n t s
-, 3 4 6, 0 3 9
-, 5 2 5, 7 4 2
,8 4 6 -, 3 8 6
,6 1 3, 5 5 5
花萼长
花萼宽
花瓣长
花瓣宽
1 2
F u n c t i o n
标准化的典型判别函数
系数 (使用时必须用标
准化的自变量 )
1 1 2 3 4
2 1 2 3 4
0, 3 4 6 0, 5 2 5 0, 8 4 6 0, 6 1 3
0, 0 3 9 0, 7 4 2 0, 3 8 6 0, 5 5 5
y x x x x
y x x x x
? ? ? ? ?
? ? ? ?
2011-10-16 99
cxt
C a n o n i c a l D i s c r i m i n a n t F u n c t i o n C o e f f i c i e n t s
-, 0 6 3, 0 0 7
-, 1 5 5, 2 1 8
,1 9 6 -, 0 8 9
,2 9 9, 2 7 1
- 2, 5 2 6 - 6, 9 8 7
花萼长
花萼宽
花瓣长
花瓣宽
( C o n s t a n t )
1 2
F u n c t i o n
U n s t a n d a r d i z e d c o e f f i c i e n t s
典型判别函数系数
1 1 2 3 4
2 1 2 3 4
0, 0 6 3 0, 1 5 5 0, 1 9 6 0, 2 9 9 2, 5 2 6
0, 0 0 7 0, 2 1 8 0, 0 8 9 0, 2 7 1 6, 9 4 8
y x x x x
y x x x x
? ? ? ? ? ?
? ? ? ? ?
2011-10-16 100
cxt
? 类均值 (重心 )处的典则判别函数值
F u n c t i o n s a t G r o u p C e n t r o i d s
- 7, 3 9 2, 2 1 9
1, 7 6 3 -, 7 3 7
5, 6 2 9, 5 1 8
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
1 2
F u n c t i o n
U n s t a n d a r d i z e d c a n o n i c a l d i s c r i m i n a n t
f u n c t i o n s e v a l u a t e d a t g r o u p m e a n s
2011-10-16 101
cxt
鸢尾花数据 (用判别函数对观测量分类结果 ) C l a s s i f i c a t i o n P r o c e s s i n g S u m m a r y
1 5 0
0
0
1 5 0
P r o c e s s e d
M i s s i n g o r o u t - o f - r a n g e
g r o u p c o d e s
A t l e a s t o n e m i s s i n g
d i s c r i m i n a t i n g v a r i a b l e
E x c l u d e d
U s e d i n O u t p u t
P r i o r P r o b a b i l i t i e s f o r G r o u p s
,3 3 3 50 5 0, 0 0 0
,3 3 3 50 5 0, 0 0 0
,3 3 3 50 5 0, 0 0 0
1, 0 0 0 1 5 0 1 5 0, 0 0 0
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
T o t a l
P r i o r U n w e i g h t e d W e i g h t e d
C a s e s U s e d i n A n a l y s i s
先验概率
C l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s
1, 6 8 7 1, 1 0 1, 8 6 5
2, 6 9 5 1, 0 7 0, 7 4 7
-, 8 8 0 1, 0 0 1 1, 6 4 7
- 2, 2 8 4, 1 9 7 1, 6 9 5
- 8 0, 2 6 8 - 7 1, 1 9 6 - 1 0 3, 8 9 0
花萼长
花萼宽
花瓣长
花瓣宽
( C o n s t a n t )
刚毛鸢尾花 变色鸢尾花
佛吉尼亚
鸢尾花
分类
F i s h e r ' s l i n e a r d i s c r i m i n a n t f u n c t i o n s
费歇判别函数系数
把自变量代入三个
式子,哪个大归谁,
2011-10-16 102
cxt
Territory Map(区域图 )
Canonical Discriminate Function 1
Versus Canonical Discriminate
Function 2三种 鸢尾花 的典
型变量值把一个典型变
量组成的坐标平面分成
三个区域, *为中心坐标,
Territorial Map
Canonical Discriminant
Function 2
-12.0 -8.0 -4.0,0 4.0 8.0 12.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
12.0 12 23
12 23
12 23
12 23
12 23
12 23
8.0 12 23
12 23
12 23
12 23
12 23
12 23
4.0 12 23
12 23
12 23
12 23
12 23
12 23 *
,0 * 12 23
12 * 23
12 23
12 23
12 23
12 23
-4.0 12 23
12 23
12 23
12 23
12 23
12 23
-8.0 12 23
12 23
12 23
12 23
12 23
12 23
-12.0 12 23
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
-12.0 -8.0 -4.0,0 4.0 8.0 12.0
Canonical Discriminant Function 1
Symbols used in territorial map
Symbol Group Label
------ ----- --------------------
1 1 刚毛鸢尾花
2 2 变色鸢尾花
3 3 佛吉尼亚鸢尾花
* Indicates a group centroid
2011-10-16 103
cxt
Canonical Discriminant Functions
Function 1
100-10
Function 2
3
2
1
0
-1
-2
-3
2? àà
Group Centroids
2e ?a ?á ?? e°?2 ?¨
±? é? e°?2 ?¨
?? ?? e°?2 ?¨
2e ?a ?á ?? e°?2 ?¨
±? é? e°?2 ?¨
?? ?? e°?2 ?¨
2011-10-16 104
cxt
Canonical Discriminant Functions
2? àà = ? ? ?? e°?2 ?¨
Function 1
-5-6-7-8-9-10
Function 2
3
2
1
0
-1
-2
-3
Group Centroid
Group Centroid
?? ?? e°?2 ?¨
2011-10-16 105
cxt
Canonical Discriminant Functions
2? àà = ± ? é? e°?2 ?¨
Function 1
543210-1
Function 2
2
1
0
-1
-2
-3
Group Centroid
Group Centroid
±? é? e°?2 ?¨
2011-10-16 106
cxt
Canonical Discriminant Functions
2? àà = 2 e ?a ?á ?? e°?2 ?¨
Function 1
109876543
Function 2
3
2
1
0
-1
-2
-3
Group Centroid
Group Centroid
2e ?a ?á ?? e°?2 ?¨
2011-10-16 107
cxt
鸢尾花数据 (预测分类结果小结 )
C l a s s i f i c a t i o n R e s u l t s
a
50 0 0 50
0 48 2 50
0 1 49 50
1 0 0, 0,0,0 1 0 0, 0
.0 9 6, 0 4, 0 1 0 0, 0
.0 2, 0 9 8, 0 1 0 0, 0
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
C o u n t
%
O r i g i n a l
刚毛鸢尾花 变色鸢尾花
佛吉尼亚
鸢尾花
P r e d i c t e d G r o u p M e m b e r s h i p
T o t a l
9 8, 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d,a,
可以看出错判率
2011-10-16 108
cxt
小结,
? 1、什么是判别分析?
? 2、判别分析有哪些判别分析方法?每种方法的判别
准则是什么?
? 3、试用各种判别方法对待判样本进行判类。
( 1) 1990联合国开发计划署公布的《人类发展报告》,用出
生时的预期寿命( x1),成人识字率( x2),实际的人均 GDP
( x3)等三个变量衡量人类发展状况,现从高发展水平国家和
中等发展水平国家中各选了 5个样本,另选中国、希腊作为待
判样本。要求,
A,作距离判别分析(假定两总体协方差阵相等)
B,作 Fisher判别分析
2011-10-16 109
cxt
类别 序号 国家 出生时的预
期寿命 (x1)
成人识字
率 (x2)
实际人均
GDP(x3)
1 美国 76 99 5374
2 日本 79.5 99 5359
3 瑞士 78 99 5372
4 阿根廷 72.1 95.9 5242
第一类
(高发
展水平
国家)
5 阿联酋 73.8 77.7 5370
6 保加利亚 71.2 93 4250
7 古巴 75.3 94.9 3412
8 巴拉圭 70 91.2 3390
9 格鲁吉亚 72.8 99 230 0
第二类
(中等
发展水
平国家)
10 南非 62.9 80.6 3799
11 中国 68.5 79.3 1950 待判样本
12 希腊 77.6 93.8 5233
2011-10-16 110
cxt
? 距离判别,
( a) 计算两类样本均值,
( b) 计算样本协方差和总体协方差
?
?
?
?
?
?
?
?
?
?
?
?
4.5 3 4 3
08.94
88.75
1X
?
?
?
?
?
?
?
?
?
?
?
?
2.3 4 3 0
74.91
44.70
2X
?
?
?
?
?
?
?
?
?
?
?
?????
?
?
??
2.1 2 9 8 724.2 5 274.4 4 8
24.2 5 22 2 8.3 4 40 2 2.56
74.4 4 80 2 2.562 2 8.36
))(( '11
1
111 XXXXS a
n
a
a
i
2011-10-16 111
cxt
?
?
?
?
?
?
?
?
?
?
??
?
?
????
?
?
?
?
8.2 0 8 7 3 8 454.1 1 3 1 674.4 8 9 5
54.1 1 3 1 66 7 2.1 8 86 8 2.1 1 7
74.4 8 9 56 8 2.1 1 78 1 2.86
))(( '22
1
222 XXXXS a
n
a
a
i
?
?
?
?
?
?
?
?
?
?
??
?
?
???? ??
?
2 1 0 0 3 7 278.115684447
78.115689.532704.173
4447704.17304.123
)( 812121
21
SSnn
?
?
?
?
?
?
?
?
?
?
??
?
?
?
5.2625460975.1446875.555
0975.144466125.66713.21
875.555713.2138.15
2011-10-16 112
cxt
? (c) 求线性判别函数
?
?
?
?
?
?
?
?
?
?
?
?
??
??
0 0 0 0 4 3 4.00 0 0 0 7 9 9.00 0 0 0 4 4 2.0
0 0 0 0 7 9 9.00 2 9 2 7 8.00 3 8 4 5.0
0 0 0 0 4 4 2.00 3 8 4 5.01 2 0 8 9 6.01
1 5 2 5.870 0 8 7 3.00 1 2 2.06 5 2 3.0)()()()( 321'211' ?????????? ?????? xxxXXaXXXXXW
)( 211 ???? ??? XXa令
2011-10-16 113
cxt
(d)回判(略)
(e)待判样本规类,
中国,
判别到第二类。
希腊,
判别到第一类。
4 7 8 9 9.241 5 2 5.871 9 5 00 0 8 7 3.03.790 1 2 2.05.686 5 2 3.0)( ?????????XW
4 7 8 9 9.41 5 2 5.875 2 3 30 0 8 7 3.08.930 1 2 2.06.776 5 2 3.0)( ????????XW
2011-10-16 114
cxt
? Fisher判别,
( a) 建立判别函数
( b) 计算临界值 y0
?
?
?
?
?
?
?
?
?
?
???
?
??
?
? ???
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
????
?
0 0 1 0 9 1 2 5.0
0 0 1 5 2 5.0
0 8 1 5 3 7 5.0
8
1
8
1
21
1
3
2
1
1
3
2
1
aXX
d
d
d
S
c
c
c
321 00109125.0001525.00815375.0 xxxy ???
6 2 6 6.91 6 1 5.12 21 ?? ?? yy 8 9 4 1.10
21
22110 ?
?
?? ??
nn
ynyny临界值
2011-10-16 115
cxt
(c)判别
将中国判别到第二类。
将希腊判别到第一类。
08342.7 yy ?=中国
01809.12 yy ?=希腊
--因
21 yy ?
2011-10-16 116
cxt
? (2)运用 Bayes判别分析法对待判样本规类,如例
判别为
G1 G2 G3
G1 C ( 1 / 1 ) = 0 C ( 2 / 1 ) = 2 0 C ( 3 / 1 ) = 8 0
G2 C ( 1 / 2 ) = 4 0 0 C ( 2 / 2 ) = 0 C ( 3 / 2 ) = 2 0 0



G3 C ( 1 / 3 ) = 1 0 0 C ( 2 / 3 ) = 5 0 0 C ( 3 / 3 ) = 0
先验概率 P 1 = 0, 5 5 P 2 = 0, 1 5 P 3 = 0, 3 0
概率密度 f 1 = 0, 4 6 f 2 = 1, 5 F 3 = 0, 7 0