上一页 下一页湘潭大学数学与计算科学学院 1
§ 8.2 判别分析
在许多自然科学和社会科学的研究中,经常会遇到
需要判别的问题。例如一个病人肺部有阴影,大夫要判
断他是肺结核、肺部良性肿瘤还是肺癌。这里,肺结核
人、肺部良性肿瘤病人以及肺癌病人组成三个总体,病
人来源于三个总体之一,判断分析的目的是通过人的指
标(阴影大小、阴影部位、边缘是否光滑等)来判断他
应该属于哪个总体(即判断他生的是什么病)。
上一页 下一页湘潭大学数学与计算科学学院 2
又如根据已有的气象资料 ( 气温, 气压等 ) 来判断明
天是阴天, 还是雨还是无雨 。 在考古学, 古生物学和
一些社会现象的调查中, 都有类似的问题, 所以判别
分析是应用性很强的一种 多元分析方法 。
类别分析的模型可以这样来描述:有 R 个总体
R
GG,,
1
?,它们的分布函数分别是 )(,),(
1
xFxF
R
?,
均为 p 维分布函数,对给定的一个新样品,需要判
断它来自哪个总体。
解决这个问题可以有多种方法, 本段介绍几种常用的
判别方法 。
上一页 下一页湘潭大学数学与计算科学学院 3
一、距离判别方法
距离判别方法是定义一个样品到某个总体的
,距离,, 然后根据样品到各个总体的, 距离,
的远近来判断样品的归属 。 为此先后介绍马氏
距离的概念 。
1、马氏距离的概念
马氏距离是印度统计学家马哈拉诺比斯于
1936年提出的一种距离概念, 其定义如下:
上一页 下一页湘潭大学数学与计算科学学院 4
定义 8.1 设 X, Y 是从总体 G 中抽取的样品,G 服
从 p 维正态分布 0),,( ????
p
N,定义 X, Y 两点之间
的马氏距离为 ),( YXD,这里
)()(),(
12
YXYXYXD ????
?
,
定义 X 与总体 G 的均值向量 ? 的 距离 。
可以证明,马氏距离符合通常距离的定义即具有
非负性、自反性且满足三角不等式。
),(),( 2 YXDYXD ?
0))())((( 2121 ?????? ?? YXYX
事实上
)()( 1 YXYX ???? ?
)()( 2121 YXYX ????? ??
上一页 下一页湘潭大学数学与计算科学学院 5
仅当 YX ? 时,0),( ?YXD 。
而自反性,),(),( XYDYXD ? 是很明显的。 下证满足三角不等式,设 X, Y, Z 为总体 G 的样
品,为证明
),(),(),( ZYDYXDZXD ??
)()( 2121 ZYYXZXW ???????? ??
VUZYYX ??????? ?? de f )()( 2121

由 Minkowski不等式得
WWZXD T?),( VVUU TT ?? ),(),( ZYDYXD ??
上一页 下一页湘潭大学数学与计算科学学院 6
当 ? 为单位矩阵时,马氏距离就化为通常的欧氏距离。
有了马氏距离的概念, 就可以用, 距离, 这个尺度
来判别样品的归属了 。
2、两个总体的判别
设有两个总体
1
G 和
2
G,
1
G 服从正态分布 ),(
11
??
p
N,
2
G 服从正态分布 ),( 22 ??pN,
21
???,对于给定的
一个样品 X ( p 维),要判断它来自哪个总体。 一个最直观的想法是计算新样品 X 到两个总
体的距离。
上一页 下一页湘潭大学数学与计算科学学院 7
若 X 到 1G 和 2G 的马氏距离分别为 ),( 1GXD 和
),( 2GXD,则可用如下规则进行判别
?
?
?
?
?
??
??
??
).,(),(
),(),(
),(),(
2121
212
211
GXDGXD,GGX
,GXDGXD,GX
,GXDGXDGX
当或

当,
( 8.6)
而 )()(),(
111112 ?? ???? ? XXGXD
)()(),( 211222 ?? ???? ? XXGXD
为了便于实际应用,人们通常考察样品 X 到
2
G 的距离
与到
1
G 的距离之差 ),(),(
1
2
2
2 GXDGXD ?
,进一步求出
了线性判别函数。
上一页 下一页湘潭大学数学与计算科学学院 8
若 ????? 21,这时
),(),( 1222 GXDGXD ?
)()()()( 111212 ???? ???????? ?? XXXX
1
1
11
1
1
2
1
22
11
2
2
???
???
??
????
????
????????
TT
TTTT
X
XXXXX
111212211 )(2 ?????? ??? ??????? TTTX
)()()(2 12121211 ?????? ??????? ?? TTX
)(22 21121 ???? ???????? ??? ?
T
X
上一页 下一页湘潭大学数学与计算科学学院 9
当 1?, 2?, ? 已知时,令
)(21 21 ??? ?? )( 211 ??? ??? ?
????? TT XXXW )()()()( 211 ?????? ?
则 )(2),(),(
1222 XWGXDGXD ??
当 0)( ?XW 时,
),(),(
1
2
2
2
GXDGXD ?,
此时应判断
1
GX ?,
当 0)( ?XW 时应判断 2GX ? 。
上一页 下一页湘潭大学数学与计算科学学院 10
于是判别规则( 8.6)可表示为
??
?
?
?
???
??
??
.0)(
,0)(
,0)(
21
2
1
XW,GXGX
XW,GX
XWGX

,这个规则取决于 )( XW 的值,通常称 )( XW 为 判
别函数,由于它是 X 的线性函数,故又称为 线性判别
函数, ? 称为 判别系数 。
线性判别函数使用起来很方便,在实际中有着广泛的应用。
上一页 下一页湘潭大学数学与计算科学学院 11

1
?,
2
?, ? 未知时,可通过样本来估 计。 设
m
XXX,,,
21
? 为取自总体
1
G 的容量为 m 的样本,
n
YYY,,,
21
? 为取自总体
2
G 的容量为 n 的样本,且两个样
本相互独立。
若记
?
?
?
m
i
iXmX
1
1 ?
?
?
n
i
iYnY
1
1
?
?
???
m
k
T
kk XXXXS
1
1 ))(( ?
?
???
n
k
T
kk YYYYS
1
2 ))((
)(21? 21 SSnm ????? )(21 YX ???
上一页 下一页湘潭大学数学与计算科学学院 12
则判别函数 )( XW 与判别系数 ? 分别为
)(?)()( 1 YXXXW ???? ??)(? 1 YX ??? ??
应用判别规则( 8.6 )对一个给定的样品
0
X 进行判断
时,也会发生错判的情形,即
0
X 本应属于
1
G,错判为
20
GX ?,或者
0
X 应属于
2
G,错判断
10
GX ? 。
这种错判也称为误判,发生误判的可能性大小用概率
来衡量,称为 误判概率 。
关于误判概率将在后面介绍。
上一页 下一页湘潭大学数学与计算科学学院 13
3、多个总体的判别
设有 k 个正态总体
k
GGG,,,
21
?,它们的均值向
量和协差阵分别为
k
???,,,
21
?,
k
???,,,
21
? 且协差
阵 ),,2,1( ki
i
????,对给定的样品 X,要判别它
属于哪个总体。 下面分不同情况进行讨论。
( 1 )协方差阵相同时的判别 当 ????????
k?21,且 k???,,,21 ?, ? 均
已知时,类似于两个总体的讨论,判别函数为
kjiXXW jijiij,,2,1,,),(]2/)([)( 1 ??????? ? ????( 8.7)
上一页 下一页湘潭大学数学与计算科学学院 14
相应的判别规则是
?
?
?
???
???
.0)(,
,,0)(,
XWGXGX
ijXWGX
ijji
iji
某个或
对一切
( 8.8)

k
??,,
1
?, ? 均未知时,可用样本来估计。设

?
G 中抽取的样本为
),,2,1(,,,
)()(
2
)(
1
kXXX
n
?? ??
???
?
,
则它们的估计为
,,,2,1,1?
1
)()( kX
nX
n
j
j ???? ?
?
??
?
??
? (8.9)
?
??
??
k
Skn
1
1?
?
?
上一页 下一页湘潭大学数学与计算科学学院 15
式中 ?
?
?
k
i
i
nn
1
,?
?
???
?
????
?
n
j
jj
XXXXS
1
)()()()(
))((,相应
的判别规则由式( 8.8 )给出。
其中
)??(?]2/)??([)( 1 jijiij XXW ???? ????? ?
( 2)协方差阵不相同时的判别
当协差阵
k
???,,,
21
? 不同,且
k
???,,,
21
?,
k
???,,,
21
? 均
已知时,判别函数为
)?()?()?()?()(
11
jijiiiij
XXXXXW ???? ????????
??
,
kji,,2,1,??,
上一页 下一页湘潭大学数学与计算科学学院 16
相应的判别规则为
?
?
?
???
???
.0)(,
,,0)(,
XWGXGX
ijXWGX
ijji
iji
某个或
对一切
( 8.10)
当 k???,,,21 ?, k???,,,21 ? 未知时,??? 的估计与式
( 8.9 )相同,而
,,1,2,1? kSkn ????? ??
?
?
式中
))(( )()()()(
1
)( ?????
?
?
XXXXXS jj
n
j
j ??? ?
?
相应的判别规则由式( 8.10)给出。
上一页 下一页湘潭大学数学与计算科学学院 17
其中
)?()?()?(?)?()( 11 jjjiiiij XXXXXW ???? ???????? ??
在判别分析中,线性判别函数容易计算,二次判别
函数的计算比较复杂,为此需要一些计算方法。
因 0??
i
,故存在惟一的下三角阵
i
V,其对角线元素均
为正,使得
T
iii
VV??,从而,d ef )(
111
i
T
ii
T
ii
LLVV
???
?? iL 仍
为下三角阵。
可事先求出 kLLL,,,21 ?,令 )( iii XLZ ???,

iTiiiTiii ZZXLLXGXD ???? )()(),(2 ??
用这样的方法来计算就比较方便。
上一页 下一页湘潭大学数学与计算科学学院 18
例 8.4 假定三个正态总体的协差阵都是 ?,但
均值向量与协差阵均未知,已知
11,3,4,3,3
321321
????????? nnnnnnnpk,
有关数据由表 8.5 给出,若令
i
G 表示第 i 个总体
)3,2,1( ?i
,试判别 )5,5,5(
0
?X 属于哪个总体(令 jx 表
示样品的第
j
个分量
3,2,1?j
)。
上一页 下一页湘潭大学数学与计算科学学院 19
表 8.5
1
G
1
x
2
x 3
x
2
G
1
x
2
x 3
x
3
G
1
x
2
x 3
x
)1(
1
x
10 9 3
)2(
1
x
6 2 7
)3(
1
x
4 1 10
)1(
2
x
8 7 1
)2(
2
x
1 4 5
)3(
2
x
1 2 6
)1(
3
x
8 4 4
)2(
3
x
2 5 4
)3(
3
x
1 0 11
)1(
4
x
2 8 0
)2(
4
x
3 1 4
)3(
x 2 1 9
)1(
x 7 7 2
)2(
x 3 3 5
首先计算出 )1(x, )2(x, )3(x,见数据表每一类的末行。
上一页 下一页湘潭大学数学与计算科学学院 20
经计算得
?
?
?
?
?
?
?
?
?
?
?
??
?
?
10614
6142
14236
1S
?
?
?
?
?
?
?
?
?
?
?
?
?
?
627
2107
7714
2S
?
?
?
?
?
?
?
?
?
?
?
??
1453
520
306
3S
?
?
?
?
?
?
?
?
?
?
?
??
?
???
?
??
301324
13269
24956
8
1
)(
311
1?
321 SSS
上一页 下一页湘潭大学数学与计算科学学院 21
从而
?
?
?
?
?
?
?
?
?
?
?
?
?? ?
49.018.018.0
18.039.011.0
18.001.022.0
? 1
由此算得判别函数
),,(),,( 3212132112 xxxWxxxW ??
)5.3(47.1)5(06.1)5(46.1 321 ?????? xxx
),,(),,( 3213132113 xxxWxxxW ??
)5.3(61.3)4(13.1)5.4(42.2 321 ?????? xxx
),,(),,( 3213232123 xxxWxxxW ??
)7(78.1)2(07.0)5.2(98.0 321 ?????? xxx
由于 0)5,5,5(21 ?W, 0)5,5,5(23 ?W,所以 )5,5,5(0 ?X 属于 2G 。