改错:
页 行 错误 正确
297 倒 8行
303 公式 (18-16)
? ?BAP ? ?ABP
)Xt )Xt jijiij ???? ??
304 7行
304 9行
)m i n ( )m a x ( ii ?? ??????
?? ?????? )m a x ( )m i n ( ii
Discriminant Analysis
第十八章
判 别 分 析
根据判别对象的若干观测指标判定应属于
哪一类?
训练样本 判别函数 判别分类
临床辅助鉴别诊断,计量诊断学的基础。
判别方法,Fisher 准则判别 最大似然判别
Bayes公式判别 Bayes准则判别
逐步判别
第一节 Fisher准则判别
一、两类判别
二、判别效果的评价
三、多类判别
Ronald Aylmer Fisher(英,1890~ 1962)
1936年提出
表 18 – 1 22 例患者三项指标观察结果
观 察 值
类 别 编 号
X
1
X
2
X
3
A 1 23 8 0
A 2 - 1 9 - 2
A 3 - 10 5 0
A 4 - 7 - 2 1
A 5 - 11 3 - 4
A 6 - 10 3 - 1
A 7 25 9 - 2
A 8 - 19 12 - 3
A 9 9 8 - 2
A 10 - 25 - 3 - 1
A 11 0 - 2 2
A 12 - 10 - 2 0
B 13 9 - 5 1
B 14 2 - 1 - 1
B 15 17 - 6 - 1
B 16 8 - 2 1
B 17 17 - 9 1
B 18 0 - 11 3
B 19 - 9 - 20 3
B 20 - 7 - 2 3
B 21 - 9 6 0
B 22 12 0 0
两类判别
两类判别
Fisher准则:
Z = C 1 X 1 + C 2 X 2 + … + C m X m
22
BA
BA
SS
ZZ
?
?
??
尽可能小
尽可能大
Ci, 判别系数
两类判别
S11C1 +S12C2 +?+S1m Cm=D1
S21C1 +S22C2 +?+S2m Cm=D2
?
Sm1C1 +Sm2C2 +?+Smm
Cm=Dm
)B(
j
)A(
jj XXD ??
两类判别
表 18 - 2 变量的均数及类间均数差
类别 例数 X 1 X 2 X 3
A 12 - 3 4 - 1
B 10 4 - 5 1
类间均数差 D j - 7 9 - 2
? ? ? ?? ? ? ? ? ?? ?
3.1 7 5
21012
41249310323
S
B A
2222
11
?
??
??????????
?
??
两类判别
表 18 - 2 变量的均数及类间均数差
类别 例数 X 1 X 2 X 3
A 12 - 3 4 - 1
B 10 4 - 5 1
类间均数差 D j - 7 9 - 2
? ?? ? ? ?? ?? ? ? ?? ? ? ?? ?? ?
3.20
21012
5041255494231048323
S
B A
12
?
??
????????????????
?
??
两类判别
175.3 20.3 – 2.3
20.3 38.2 – 5.8
–2.3 – 5.8 2.7
S =
175.3C1 +20.3C2 – 2.3C3=–7
20.3C1 + 38.2C2 – 5.8C3= 9
–2.3C1 – 5.8 C2 + 2.7C3=–2
C1=–0.070,C2=0.225,C3= –0.318
两类判别
00 4.0Z 72 2.1Z 42 8.1Z
X31 8.0X22 5.0X07 0.0Z
BA
321
?????
????
总
判为任意一类
类判为
类判为
ZZ
B ZZ
A ZZ
Ci
Ci
Ci
?
?
?
(判别界值)1 4 7.0
2
ZZ
Z BAC ??
?
?
表 18 – 1 22 例患者三项指标观察结果
观 察 值
类 别 编 号
X
1
X
2
X
3
Z
Fis her
判别结果
A 1 23 8 0 0.1 9 A
A 2 - 1 9 - 2 2.7 3 A
A 3 - 10 5 0 1.8 3 A
A 4 - 7 - 2 1 - 0.2 8 B
A 5 - 11 3 - 4 2.7 2 A
A 6 - 10 3 - 1 1.6 9 A
A 7 25 9 - 2 0.9 1 A
A 8 - 19 12 - 3 4.9 8 A
A 9 9 8 - 2 1.8 1 A
A 10 - 25 - 3 - 1 1.3 9 A
A 11 0 - 2 2 - 1.0 9 B
A 12 - 10 - 2 0 0.2 5 A
B 13 9 - 5 1 - 2.0 7 B
B 14 2 - 1 - 1 - 0.0 5 A
B 15 17 - 6 - 1 - 2.2 2 B
B 16 8 - 2 1 - 1.3 3 B
B 17 17 - 9 1 - 3.5 3 B
B 18 0 - 11 3 - 3.4 3 B
B 19 - 9 - 20 3 - 4.8 2 B
B 20 - 7 - 2 3 - 0.9 1 B
B 21 - 9 6 0 1.9 8 A
B 22 12 0 0 - 0.8 4 B
两类判别
判别效果评价
回顾性(夸大判别效果)
用建立判别函数的样本回代判别,4 / 22=18.2%
前瞻性(比较客观,未充分利用样本信息)
样本量的 85%作为训练样本,15%作为验证样本 。
误判概率, P=P(A|B)+P(B|A)
判别效果评价
Jackknife method; cross validation method
(比较客观,充分利用样本信息)
1.顺序剔除一个样品,用余下 N-1个样品建立判
别函数;
2.用判别函数判别剔除的样品;
3.重复上两步 N次。
6/22=27.3%
多类判别
多类 Fisher准则判别理论完备,但判别规
则相对复杂,很少付诸应用。
两类 Fisher准则判别方法用于多类判别:
原始资料合并
A
B
C
D
A
●
B
C
D
●
●●
两类判别
两类判别
两类判别重新分类
第二节 最大似然判别法
适用于定性指标的两类或多类判别
用 独立事件 的概率乘法定理得到判别对象
归属某类的概率( 似然函数 )
属于卡他性阑尾炎 (Y1)腹痛开始部位 (X1)在
右下腹 (S1)的 条件概率,
P( X1( S1) ︱ Y1) = 0.57
表 18 - 3 566 8 例不同型阑尾炎病例的症状发生频率 ( % )
症状、体征及化验资料
卡塔性
Y
1
蜂窝织炎
Y
2
坏疽性
Y
3
腹膜炎
Y
4
右下腹部 57 34 35 21
下腹部 15 13 12 27
上腹部 12 35 35 34
脐周围 12 10 9 6
X
1
腹痛开始部位
全腹 4 8 9 12
恶心(-)呕吐(-) 73 33 8 13
恶心( + ) 呕吐(-) 16 30 37 22 X
2
恶心呕吐
呕吐( + ) 11 37 55 65
24 小时内有正常便 72 45 35 22
24 小时内无正常便或腹泻 20 40 55 34 X
3
排便
腹泻有里急后重感 8 15 10 44
腹 部 右下部 95 93 81 9
X
4
压痛范围 更广泛 5 7 19 91
腹部肌性 肌性防御( + ) 8 39 79 96
防御和 肌性防御(-)反跳触痛( + ) 70 34 12 3 X
5
反跳触痛 肌性防御(-)反跳触痛(-) 22 27 9 1
<37 ℃ 61 32 18 10
37 ~ 38 ℃ 31 57 59 46 X
6
体温
>38 ℃ 8 11 2 44
<10000 70 16 6 12
10000 ~ 15000 22 56 33 31 X
7
白细胞
>15000 8 28 61 57
某病例症状体征等 卡他性阑尾炎发生频率 (%)
右下腹痛 0.57
呕吐 0.11
大便正常 0.72
右下腹压痛 0.95
肌性防御 0.08
体温 36.6℃ 0.61
白细胞 23700 0.08
各型阑尾炎发生的似然函数值:
P1=0.57× 0.11× 0.72× 0.95× 0.08× 0.61× 0.08
=0.00017
P2=0.34× 0.37× 0.45× 0.93× 0.39× 0.32× 0.28
=0.0018
P3=0.35× 0.55× 0.35× 0.81× 0.79× 0.18× 0.61
=0.0047
P4=0.21× 0.65× 0.22× 0.09× 0.96× 0.10× 0.57
=0.00015
坏疽型阑尾炎
第三节 Bayes公式判别法
Thomas Bayes(英,1702~ 1761)
?
?
?
n
1j
jj
ii
i
)B(P)BA(P
)B(P)BA(P
)AB(P
A:结果 B:条件
Bayes公式判别
根据以往临床记录,某种诊断癌症的试验具有
以下效果:若以 A表示事件,试验反应阳性,,
以 C表示事件,被诊断者患有癌症,,则有,
现在对一大批人进行癌症普查,没被试验的人
中患癌症的率为 0.005,即先验概率 P(C)=0.005,
试求 P(C︱ A)。
05.0)CA(P 95.0)CA(P ??
Bayes公式判别
0 8 7.0
9 9 5.005.00 0 5.095.0
0 0 5.095.0
)C(P)CA(P)C(P)CA(P
)C(P)CA(P
)AC(P
?
???
?
?
?
?
诊断正确率只有 8.7%
P(C︱ A)与 P(A︱ C)不能混淆
Bayes公式判别P ( Y
k / a ) =
P ( Y k ) P ( X 1 ( S l )/ Y k ) P ( X 2 ( S l )/ Y k ) … P ( X m ( S l )/ Y k )
?
?
g
k 1
P ( Y k ) P ( X 1 ( S l )/ Y k ) P ( X 2 ( S l )/ Y k ) … P ( X m ( S l )/ Y k )
类别 YK,k = 1,2,…,g
判别指标 Xj,j = 1,2,…,m
各指标 Xj的状态 Sl,l = 1,2,…,lj
a,判别对象
先验概率
后验概率
某病例症状体征等 卡他性阑尾炎发生频率 (%)
右下腹痛 0.57
呕吐 0.11
大便正常 0.72
右下腹压痛 0.95
肌性防御 0.08
体温 36.6℃ 0.61
白细胞 23700 0.08
卡他性阑尾炎在四种类型中的构成比,20%
Bayes公式判别
0 0 0 0 3 3.008.061.0
08.095.072.011.057.020.0
))(())((
))(())(())((
))(())(()(
137116
115114113
1321111
???
??????
?
YSXPYSXP
YSXPYSXPYSXP
YSXPYSXPYP
待判病例 a的后验概率:
0 1 5.0
0 0 0 0 7 5.00 0 1 1 7 5.00 0 0 9 0 0.00 0 0 0 3 3.0
0 0 0 0 3 3.0
)aY(P
1
?
???
?
034.0)aY(P
538.0)aY(P
412.0)aY(P
4
3
2
?
?
? 坏疽型阑尾炎
第四节 Bayes准则判别
根据概率大小进行判别;
判别规则:属于第 K类的样品,在第 K类中
取得最大的后验概率。
用于多类判别;
已知各类的先验概率;
各类服从多元正态分布且协方差矩阵相等。
表 18 - 4 4 个指标的观测数据
编号 X
1
X
2
X
3
X
4
原分类
1 6.0 - 1 1.5 19 90 1
2 - 1 1.0 - 18.5 25 - 36 3
3 90.2 - 17.0 17 3 2
4 - 4.0 - 15.0 13 54 1
5 0.0 - 14.0 20 35 2
6 0.5 - 1 1.5 19 37 3
7 - 10.0 - 19.0 21 - 42 3
8 0.0 - 23.0 5 - 35 1
9 20.0 - 22.0 8 - 20 3
10 - 100.0 - 21.4 7 - 15 1
11 - 100.0 - 21.5 15 - 40 2
12 13.0 - 17.2 18 2 2
13 - 5.0 - 18.5 15 18 1
14 10.0 - 18.0 14 50 1
15 - 8.0 - 14.0 16 56 1
16 0.6 - 13.0 26 21 3
17 - 40.0 - 20.0 22 - 50 3
Bayes准则判别Bayes准则判别函数
mm XCXCXCCY 1221111011 ????? ?
?
?
2222112022 mm XCXCXCCY ?????
mmGGGGG XCXCXCCY ????? ?22110
Cjk为判别系数
Bayes准则判别
判别系数 Cjk的计算
)(
2211
)(
2
2222121
)(
1
1212111
k
m
mkmmkmkm
k
mkmkk
k
mkmkk
XCSCSCS
XCSCSCS
XCSCSCS
????
????
????
?
?
?
?
Bayes准则判别
Xi 与 Xj的合并协方差
? ?? ?
? ??
? ?
?
? ?
?
??
?
G
k
k
G
k
n
t
k
j
k
jt
k
i
k
it
ij
n
XXXX
S
k
1
1 1
)(
)(
)(
)(
1
Bayes准则判别
Xi 与 Xj的合并协方差矩阵
2074.460 64.356 29.950 791.188
64.356 15.388 13.836 141.060
29.950 13.836 26.662 102.520
791.188 141.060 102.520 1492.490
S =
Bayes准则判别
判别系数 C0k的计算
? ? g,1,2,k
2
1
lg
1
)(
0 ???? ?
?
m
j
K
jjkkk XCYPC
确定先验概率:
? ?
3
1
g
1YP
k ??
Bayes准则判别Bayes准则判别函数
43
213
43
212
43
211
3 3 6 6.17 2 0 2.4
4 5 6 8.170 3 9 6.00 9 4 0.190
4 1 4 0.16 6 0 6.4
0 9 7 0.180 4 4 8.05 3 1 1.199
5 8 2 2.15 4 9 2.4
4 1 1 2.190 7 3 9.05 1 0 8.223
XX
XXY
XX
XXY
XX
XXY
??
????
??
????
??
????
Bayes准则判别
? ?
? ?
? ?
kg
l
cl
ck
k
YM a x
YY
YY
P ?
?
?
?
?
?
c
1
Y
ex p
ex p
计算后验概率:
表 18 - 4 4 个指标的观测数据与判别结果
后验概率
编号 X
1
X
2
X
3
X
4
原分类
1 类 2 类 3 类
判别结果
1 6.0 - 1 1.5 19 90 1 0.982 0.018 0.000 1
2 - 1 1.0 - 18.5 25 - 36 3 0.000 0.140 0.860 3
3 90.2 - 17.0 17 3 2 0.002 0.548 0.450 2
4 - 4.0 - 15.0 13 54 1 0.970 0.030 0.001 1
5 0.0 - 14.0 20 35 2 0.099 0.667 0.235 2
6 0.5 - 1 1.5 19 37 3 0.004 0.413 0.584 3
7 - 10.0 - 19.0 21 - 42 3 0.000 0.151 0.848 3
8 0.0 - 23.0 5 - 35 1 0.427 0.520 0.053 2
9 20.0 - 22.0 8 - 20 3 0.505 0.459 0.037 1
10 - 100.0 - 21.4 7 - 15 1 0.977 0.023 0.001 1
11 - 100.0 - 21.5 15 - 40 2 0.176 0.581 0.247 2
12 13.0 - 17.2 18 2 2 0.021 0.630 0.350 2
13 - 5.0 - 18.5 15 18 1 0.864 0.137 0.007 1
14 10.0 - 18.0 14 50 1 0.998 0.002 0.000 1
15 - 8.0 - 14.0 16 56 1 0.904 0.092 0.005 1
16 0.6 - 13.0 26 21 3 0.000 0.261 0.739 3
17 - 40.0 - 20.0 22 - 50 3 0.000 0.167 0.833 3
Bayes准则判别
误判概率:
回顾性估计,2/17=11.76%
刀切法估计,5/17=29.41%
第五节 逐步判别
逐步回归:
回归方程中的自变量并非越多越好,作用不
大的自变量进入方程后不但无益,反而有害。
逐步判别:
判别函数中的判别指标并非越多越好,判别
指标特异性强,判别能力越强;判别能力不
强的判别指标如果引入判别函数,同样有害
无益。
逐步判别基本原理:
由 Samuel Stanley Wilks(美,1906~ 1964)提出
基于一元方差分析组间与组内方差比 F统计量
选择指标,建立 Wilks统计量 ?。
个变量总离差矩阵
个变量类内离差矩阵
r
r
T
W
r
r
r ???
?r越小,类间离差大,判别效果越好。
逐步判别
? ?? ?
? ?? ?? ?
? ?
? ?
? ?
???
???
G
k
n
t
j
k
jt
i
k
itij
G
k
n
t
k
j
k
jt
k
i
k
itij
k
k
XXXXt
XXXXw
1 1
)()(
1 1
)(
)(
)(
)(
Wr,Tr的元素计算:
?与 F的关系:
? ?rgN 1,gF ~
1
1 ???
?
???
?
???
g
rgNF
筛选步骤:
1.确定入选域值 F?与剔除域值 F ?; ?一般取
0.05,0.1,0.2,?=2 ?。
2.选入变量:计算判别函数外每一变量的 ?i,
取最小的 ?i进行 F检验,如果 F> F?,则入选
相应变量。
3.剔除变量:计算判别函数内每一变量的 ?i,
取最大的 ?i进行 F检验,如果 F< F ?,则剔除
相应变量。
4.根据 Bayes判别准则建立 r个变量判别函数。
逐步判别
表 18 - 4 4 个指标的观测数据
编号 X
1
X
2
X
3
X
4
原分类
1 6.0 - 1 1.5 19 90 1
2 - 1 1.0 - 18.5 25 - 36 3
3 90.2 - 17.0 17 3 2
4 - 4.0 - 15.0 13 54 1
5 0.0 - 14.0 20 35 2
6 0.5 - 1 1.5 19 37 3
7 - 10.0 - 19.0 21 - 42 3
8 0.0 - 23.0 5 - 35 1
9 20.0 - 22.0 8 - 20 3
10 - 100.0 - 21.4 7 - 15 1
11 - 100.0 - 21.5 15 - 40 2
12 13.0 - 17.2 18 2 2
13 - 5.0 - 18.5 15 18 1
14 10.0 - 18.0 14 50 1
15 - 8.0 - 14.0 16 56 1
16 0.6 - 13.0 26 21 3
17 - 40.0 - 20.0 22 - 50 3
逐步判别实例应用:
1.计算类内离差平方和矩阵与总离差平方和
矩阵:
29042.4700 900.9814 419.2929 11076.6300
900.9814 215.4380 193.6926 1974.8430
419.2929 193.6926 373.2619 1435.2860
11076.6300 1974.8430 1435.2860 20894.8600
W =
逐步判别
29652.2800 898.1400 654.5000 9566.5000
898.1400 215.4612 193.5706 1976.0290
654.5000 193.5706 558.2353 283.7647
9566.5000 1976.0290 283.7647 28070.2300
T =
逐步判别
2.确定 ?=0.2,?=0.3 。
3.筛选变量:第一步选入 X3,F=3.717;
第二步选入 X4,F=5.714;
第三步选入 X2,F=2.192;
第四步剔出 X3,F=0.117。
X4, X2入选。
逐步判别
4,先验概率取等概率,按 Bayes准则建立判别
函数:
423
422
421
X7 2 1 5.0X7 3 9 7.77 6 5 4.62Y
X8 0 0 9.0X4 7 3 7.89 2 6 0.74Y
X9 5 3 3.0X8 6 5 2.94 8 7 3.1 0 1Y
????
????
????
逐步 Bayes准则判别误判概率( 2个变量):
回顾性估计,1/17=5.88%
刀切法估计,3/17=17.65%
逐步判别
Bayes准则判别误判概率( 4个变量):
回顾性估计,2/17=11.76%
刀切法估计,5/17=29.41%
第六节 判别分析中应注意的问题
1,训练样本足够大,代表性好;
原始分类正确;
判别指标选择恰当。
2,各类先验概率:各类构成比;
等概率( 1/g)
3,判别函数效果:不能以训练样本的回代情
况得出结论,要预留足够的训练样本以外
的验证样本以考察判别函数效果。
4,判别函数建立后,不断积累资料,修正、
完善。
判别分析
注意问题
5,几种判别方法比较:
Fisher准则判别,类间差异大、类内差异小;
构建线性判别函数;计量资料。
最大似然判别法,独立事件概率乘法定理;
以概率为依据;计数资料。
Bayes公式判别,Bayes公式;以概率为依据;
计数资料。
判别分析
注意问题
Bayes准则判别,个体归属于某类的后验概
率最大;构建线性判别函数后计算后验
概率;以概率为依据;计量资料。
逐步判别,先以类间差异大、类内差异小原
则筛选变量;后按 Bayes准则构建线性判
别函数,计算后验概率;以概率为依据;
计量资料。
判别分析注意问题
页 行 错误 正确
297 倒 8行
303 公式 (18-16)
? ?BAP ? ?ABP
)Xt )Xt jijiij ???? ??
304 7行
304 9行
)m i n ( )m a x ( ii ?? ??????
?? ?????? )m a x ( )m i n ( ii
Discriminant Analysis
第十八章
判 别 分 析
根据判别对象的若干观测指标判定应属于
哪一类?
训练样本 判别函数 判别分类
临床辅助鉴别诊断,计量诊断学的基础。
判别方法,Fisher 准则判别 最大似然判别
Bayes公式判别 Bayes准则判别
逐步判别
第一节 Fisher准则判别
一、两类判别
二、判别效果的评价
三、多类判别
Ronald Aylmer Fisher(英,1890~ 1962)
1936年提出
表 18 – 1 22 例患者三项指标观察结果
观 察 值
类 别 编 号
X
1
X
2
X
3
A 1 23 8 0
A 2 - 1 9 - 2
A 3 - 10 5 0
A 4 - 7 - 2 1
A 5 - 11 3 - 4
A 6 - 10 3 - 1
A 7 25 9 - 2
A 8 - 19 12 - 3
A 9 9 8 - 2
A 10 - 25 - 3 - 1
A 11 0 - 2 2
A 12 - 10 - 2 0
B 13 9 - 5 1
B 14 2 - 1 - 1
B 15 17 - 6 - 1
B 16 8 - 2 1
B 17 17 - 9 1
B 18 0 - 11 3
B 19 - 9 - 20 3
B 20 - 7 - 2 3
B 21 - 9 6 0
B 22 12 0 0
两类判别
两类判别
Fisher准则:
Z = C 1 X 1 + C 2 X 2 + … + C m X m
22
BA
BA
SS
ZZ
?
?
??
尽可能小
尽可能大
Ci, 判别系数
两类判别
S11C1 +S12C2 +?+S1m Cm=D1
S21C1 +S22C2 +?+S2m Cm=D2
?
Sm1C1 +Sm2C2 +?+Smm
Cm=Dm
)B(
j
)A(
jj XXD ??
两类判别
表 18 - 2 变量的均数及类间均数差
类别 例数 X 1 X 2 X 3
A 12 - 3 4 - 1
B 10 4 - 5 1
类间均数差 D j - 7 9 - 2
? ? ? ?? ? ? ? ? ?? ?
3.1 7 5
21012
41249310323
S
B A
2222
11
?
??
??????????
?
??
两类判别
表 18 - 2 变量的均数及类间均数差
类别 例数 X 1 X 2 X 3
A 12 - 3 4 - 1
B 10 4 - 5 1
类间均数差 D j - 7 9 - 2
? ?? ? ? ?? ?? ? ? ?? ? ? ?? ?? ?
3.20
21012
5041255494231048323
S
B A
12
?
??
????????????????
?
??
两类判别
175.3 20.3 – 2.3
20.3 38.2 – 5.8
–2.3 – 5.8 2.7
S =
175.3C1 +20.3C2 – 2.3C3=–7
20.3C1 + 38.2C2 – 5.8C3= 9
–2.3C1 – 5.8 C2 + 2.7C3=–2
C1=–0.070,C2=0.225,C3= –0.318
两类判别
00 4.0Z 72 2.1Z 42 8.1Z
X31 8.0X22 5.0X07 0.0Z
BA
321
?????
????
总
判为任意一类
类判为
类判为
ZZ
B ZZ
A ZZ
Ci
Ci
Ci
?
?
?
(判别界值)1 4 7.0
2
ZZ
Z BAC ??
?
?
表 18 – 1 22 例患者三项指标观察结果
观 察 值
类 别 编 号
X
1
X
2
X
3
Z
Fis her
判别结果
A 1 23 8 0 0.1 9 A
A 2 - 1 9 - 2 2.7 3 A
A 3 - 10 5 0 1.8 3 A
A 4 - 7 - 2 1 - 0.2 8 B
A 5 - 11 3 - 4 2.7 2 A
A 6 - 10 3 - 1 1.6 9 A
A 7 25 9 - 2 0.9 1 A
A 8 - 19 12 - 3 4.9 8 A
A 9 9 8 - 2 1.8 1 A
A 10 - 25 - 3 - 1 1.3 9 A
A 11 0 - 2 2 - 1.0 9 B
A 12 - 10 - 2 0 0.2 5 A
B 13 9 - 5 1 - 2.0 7 B
B 14 2 - 1 - 1 - 0.0 5 A
B 15 17 - 6 - 1 - 2.2 2 B
B 16 8 - 2 1 - 1.3 3 B
B 17 17 - 9 1 - 3.5 3 B
B 18 0 - 11 3 - 3.4 3 B
B 19 - 9 - 20 3 - 4.8 2 B
B 20 - 7 - 2 3 - 0.9 1 B
B 21 - 9 6 0 1.9 8 A
B 22 12 0 0 - 0.8 4 B
两类判别
判别效果评价
回顾性(夸大判别效果)
用建立判别函数的样本回代判别,4 / 22=18.2%
前瞻性(比较客观,未充分利用样本信息)
样本量的 85%作为训练样本,15%作为验证样本 。
误判概率, P=P(A|B)+P(B|A)
判别效果评价
Jackknife method; cross validation method
(比较客观,充分利用样本信息)
1.顺序剔除一个样品,用余下 N-1个样品建立判
别函数;
2.用判别函数判别剔除的样品;
3.重复上两步 N次。
6/22=27.3%
多类判别
多类 Fisher准则判别理论完备,但判别规
则相对复杂,很少付诸应用。
两类 Fisher准则判别方法用于多类判别:
原始资料合并
A
B
C
D
A
●
B
C
D
●
●●
两类判别
两类判别
两类判别重新分类
第二节 最大似然判别法
适用于定性指标的两类或多类判别
用 独立事件 的概率乘法定理得到判别对象
归属某类的概率( 似然函数 )
属于卡他性阑尾炎 (Y1)腹痛开始部位 (X1)在
右下腹 (S1)的 条件概率,
P( X1( S1) ︱ Y1) = 0.57
表 18 - 3 566 8 例不同型阑尾炎病例的症状发生频率 ( % )
症状、体征及化验资料
卡塔性
Y
1
蜂窝织炎
Y
2
坏疽性
Y
3
腹膜炎
Y
4
右下腹部 57 34 35 21
下腹部 15 13 12 27
上腹部 12 35 35 34
脐周围 12 10 9 6
X
1
腹痛开始部位
全腹 4 8 9 12
恶心(-)呕吐(-) 73 33 8 13
恶心( + ) 呕吐(-) 16 30 37 22 X
2
恶心呕吐
呕吐( + ) 11 37 55 65
24 小时内有正常便 72 45 35 22
24 小时内无正常便或腹泻 20 40 55 34 X
3
排便
腹泻有里急后重感 8 15 10 44
腹 部 右下部 95 93 81 9
X
4
压痛范围 更广泛 5 7 19 91
腹部肌性 肌性防御( + ) 8 39 79 96
防御和 肌性防御(-)反跳触痛( + ) 70 34 12 3 X
5
反跳触痛 肌性防御(-)反跳触痛(-) 22 27 9 1
<37 ℃ 61 32 18 10
37 ~ 38 ℃ 31 57 59 46 X
6
体温
>38 ℃ 8 11 2 44
<10000 70 16 6 12
10000 ~ 15000 22 56 33 31 X
7
白细胞
>15000 8 28 61 57
某病例症状体征等 卡他性阑尾炎发生频率 (%)
右下腹痛 0.57
呕吐 0.11
大便正常 0.72
右下腹压痛 0.95
肌性防御 0.08
体温 36.6℃ 0.61
白细胞 23700 0.08
各型阑尾炎发生的似然函数值:
P1=0.57× 0.11× 0.72× 0.95× 0.08× 0.61× 0.08
=0.00017
P2=0.34× 0.37× 0.45× 0.93× 0.39× 0.32× 0.28
=0.0018
P3=0.35× 0.55× 0.35× 0.81× 0.79× 0.18× 0.61
=0.0047
P4=0.21× 0.65× 0.22× 0.09× 0.96× 0.10× 0.57
=0.00015
坏疽型阑尾炎
第三节 Bayes公式判别法
Thomas Bayes(英,1702~ 1761)
?
?
?
n
1j
jj
ii
i
)B(P)BA(P
)B(P)BA(P
)AB(P
A:结果 B:条件
Bayes公式判别
根据以往临床记录,某种诊断癌症的试验具有
以下效果:若以 A表示事件,试验反应阳性,,
以 C表示事件,被诊断者患有癌症,,则有,
现在对一大批人进行癌症普查,没被试验的人
中患癌症的率为 0.005,即先验概率 P(C)=0.005,
试求 P(C︱ A)。
05.0)CA(P 95.0)CA(P ??
Bayes公式判别
0 8 7.0
9 9 5.005.00 0 5.095.0
0 0 5.095.0
)C(P)CA(P)C(P)CA(P
)C(P)CA(P
)AC(P
?
???
?
?
?
?
诊断正确率只有 8.7%
P(C︱ A)与 P(A︱ C)不能混淆
Bayes公式判别P ( Y
k / a ) =
P ( Y k ) P ( X 1 ( S l )/ Y k ) P ( X 2 ( S l )/ Y k ) … P ( X m ( S l )/ Y k )
?
?
g
k 1
P ( Y k ) P ( X 1 ( S l )/ Y k ) P ( X 2 ( S l )/ Y k ) … P ( X m ( S l )/ Y k )
类别 YK,k = 1,2,…,g
判别指标 Xj,j = 1,2,…,m
各指标 Xj的状态 Sl,l = 1,2,…,lj
a,判别对象
先验概率
后验概率
某病例症状体征等 卡他性阑尾炎发生频率 (%)
右下腹痛 0.57
呕吐 0.11
大便正常 0.72
右下腹压痛 0.95
肌性防御 0.08
体温 36.6℃ 0.61
白细胞 23700 0.08
卡他性阑尾炎在四种类型中的构成比,20%
Bayes公式判别
0 0 0 0 3 3.008.061.0
08.095.072.011.057.020.0
))(())((
))(())(())((
))(())(()(
137116
115114113
1321111
???
??????
?
YSXPYSXP
YSXPYSXPYSXP
YSXPYSXPYP
待判病例 a的后验概率:
0 1 5.0
0 0 0 0 7 5.00 0 1 1 7 5.00 0 0 9 0 0.00 0 0 0 3 3.0
0 0 0 0 3 3.0
)aY(P
1
?
???
?
034.0)aY(P
538.0)aY(P
412.0)aY(P
4
3
2
?
?
? 坏疽型阑尾炎
第四节 Bayes准则判别
根据概率大小进行判别;
判别规则:属于第 K类的样品,在第 K类中
取得最大的后验概率。
用于多类判别;
已知各类的先验概率;
各类服从多元正态分布且协方差矩阵相等。
表 18 - 4 4 个指标的观测数据
编号 X
1
X
2
X
3
X
4
原分类
1 6.0 - 1 1.5 19 90 1
2 - 1 1.0 - 18.5 25 - 36 3
3 90.2 - 17.0 17 3 2
4 - 4.0 - 15.0 13 54 1
5 0.0 - 14.0 20 35 2
6 0.5 - 1 1.5 19 37 3
7 - 10.0 - 19.0 21 - 42 3
8 0.0 - 23.0 5 - 35 1
9 20.0 - 22.0 8 - 20 3
10 - 100.0 - 21.4 7 - 15 1
11 - 100.0 - 21.5 15 - 40 2
12 13.0 - 17.2 18 2 2
13 - 5.0 - 18.5 15 18 1
14 10.0 - 18.0 14 50 1
15 - 8.0 - 14.0 16 56 1
16 0.6 - 13.0 26 21 3
17 - 40.0 - 20.0 22 - 50 3
Bayes准则判别Bayes准则判别函数
mm XCXCXCCY 1221111011 ????? ?
?
?
2222112022 mm XCXCXCCY ?????
mmGGGGG XCXCXCCY ????? ?22110
Cjk为判别系数
Bayes准则判别
判别系数 Cjk的计算
)(
2211
)(
2
2222121
)(
1
1212111
k
m
mkmmkmkm
k
mkmkk
k
mkmkk
XCSCSCS
XCSCSCS
XCSCSCS
????
????
????
?
?
?
?
Bayes准则判别
Xi 与 Xj的合并协方差
? ?? ?
? ??
? ?
?
? ?
?
??
?
G
k
k
G
k
n
t
k
j
k
jt
k
i
k
it
ij
n
XXXX
S
k
1
1 1
)(
)(
)(
)(
1
Bayes准则判别
Xi 与 Xj的合并协方差矩阵
2074.460 64.356 29.950 791.188
64.356 15.388 13.836 141.060
29.950 13.836 26.662 102.520
791.188 141.060 102.520 1492.490
S =
Bayes准则判别
判别系数 C0k的计算
? ? g,1,2,k
2
1
lg
1
)(
0 ???? ?
?
m
j
K
jjkkk XCYPC
确定先验概率:
? ?
3
1
g
1YP
k ??
Bayes准则判别Bayes准则判别函数
43
213
43
212
43
211
3 3 6 6.17 2 0 2.4
4 5 6 8.170 3 9 6.00 9 4 0.190
4 1 4 0.16 6 0 6.4
0 9 7 0.180 4 4 8.05 3 1 1.199
5 8 2 2.15 4 9 2.4
4 1 1 2.190 7 3 9.05 1 0 8.223
XX
XXY
XX
XXY
XX
XXY
??
????
??
????
??
????
Bayes准则判别
? ?
? ?
? ?
kg
l
cl
ck
k
YM a x
YY
YY
P ?
?
?
?
?
?
c
1
Y
ex p
ex p
计算后验概率:
表 18 - 4 4 个指标的观测数据与判别结果
后验概率
编号 X
1
X
2
X
3
X
4
原分类
1 类 2 类 3 类
判别结果
1 6.0 - 1 1.5 19 90 1 0.982 0.018 0.000 1
2 - 1 1.0 - 18.5 25 - 36 3 0.000 0.140 0.860 3
3 90.2 - 17.0 17 3 2 0.002 0.548 0.450 2
4 - 4.0 - 15.0 13 54 1 0.970 0.030 0.001 1
5 0.0 - 14.0 20 35 2 0.099 0.667 0.235 2
6 0.5 - 1 1.5 19 37 3 0.004 0.413 0.584 3
7 - 10.0 - 19.0 21 - 42 3 0.000 0.151 0.848 3
8 0.0 - 23.0 5 - 35 1 0.427 0.520 0.053 2
9 20.0 - 22.0 8 - 20 3 0.505 0.459 0.037 1
10 - 100.0 - 21.4 7 - 15 1 0.977 0.023 0.001 1
11 - 100.0 - 21.5 15 - 40 2 0.176 0.581 0.247 2
12 13.0 - 17.2 18 2 2 0.021 0.630 0.350 2
13 - 5.0 - 18.5 15 18 1 0.864 0.137 0.007 1
14 10.0 - 18.0 14 50 1 0.998 0.002 0.000 1
15 - 8.0 - 14.0 16 56 1 0.904 0.092 0.005 1
16 0.6 - 13.0 26 21 3 0.000 0.261 0.739 3
17 - 40.0 - 20.0 22 - 50 3 0.000 0.167 0.833 3
Bayes准则判别
误判概率:
回顾性估计,2/17=11.76%
刀切法估计,5/17=29.41%
第五节 逐步判别
逐步回归:
回归方程中的自变量并非越多越好,作用不
大的自变量进入方程后不但无益,反而有害。
逐步判别:
判别函数中的判别指标并非越多越好,判别
指标特异性强,判别能力越强;判别能力不
强的判别指标如果引入判别函数,同样有害
无益。
逐步判别基本原理:
由 Samuel Stanley Wilks(美,1906~ 1964)提出
基于一元方差分析组间与组内方差比 F统计量
选择指标,建立 Wilks统计量 ?。
个变量总离差矩阵
个变量类内离差矩阵
r
r
T
W
r
r
r ???
?r越小,类间离差大,判别效果越好。
逐步判别
? ?? ?
? ?? ?? ?
? ?
? ?
? ?
???
???
G
k
n
t
j
k
jt
i
k
itij
G
k
n
t
k
j
k
jt
k
i
k
itij
k
k
XXXXt
XXXXw
1 1
)()(
1 1
)(
)(
)(
)(
Wr,Tr的元素计算:
?与 F的关系:
? ?rgN 1,gF ~
1
1 ???
?
???
?
???
g
rgNF
筛选步骤:
1.确定入选域值 F?与剔除域值 F ?; ?一般取
0.05,0.1,0.2,?=2 ?。
2.选入变量:计算判别函数外每一变量的 ?i,
取最小的 ?i进行 F检验,如果 F> F?,则入选
相应变量。
3.剔除变量:计算判别函数内每一变量的 ?i,
取最大的 ?i进行 F检验,如果 F< F ?,则剔除
相应变量。
4.根据 Bayes判别准则建立 r个变量判别函数。
逐步判别
表 18 - 4 4 个指标的观测数据
编号 X
1
X
2
X
3
X
4
原分类
1 6.0 - 1 1.5 19 90 1
2 - 1 1.0 - 18.5 25 - 36 3
3 90.2 - 17.0 17 3 2
4 - 4.0 - 15.0 13 54 1
5 0.0 - 14.0 20 35 2
6 0.5 - 1 1.5 19 37 3
7 - 10.0 - 19.0 21 - 42 3
8 0.0 - 23.0 5 - 35 1
9 20.0 - 22.0 8 - 20 3
10 - 100.0 - 21.4 7 - 15 1
11 - 100.0 - 21.5 15 - 40 2
12 13.0 - 17.2 18 2 2
13 - 5.0 - 18.5 15 18 1
14 10.0 - 18.0 14 50 1
15 - 8.0 - 14.0 16 56 1
16 0.6 - 13.0 26 21 3
17 - 40.0 - 20.0 22 - 50 3
逐步判别实例应用:
1.计算类内离差平方和矩阵与总离差平方和
矩阵:
29042.4700 900.9814 419.2929 11076.6300
900.9814 215.4380 193.6926 1974.8430
419.2929 193.6926 373.2619 1435.2860
11076.6300 1974.8430 1435.2860 20894.8600
W =
逐步判别
29652.2800 898.1400 654.5000 9566.5000
898.1400 215.4612 193.5706 1976.0290
654.5000 193.5706 558.2353 283.7647
9566.5000 1976.0290 283.7647 28070.2300
T =
逐步判别
2.确定 ?=0.2,?=0.3 。
3.筛选变量:第一步选入 X3,F=3.717;
第二步选入 X4,F=5.714;
第三步选入 X2,F=2.192;
第四步剔出 X3,F=0.117。
X4, X2入选。
逐步判别
4,先验概率取等概率,按 Bayes准则建立判别
函数:
423
422
421
X7 2 1 5.0X7 3 9 7.77 6 5 4.62Y
X8 0 0 9.0X4 7 3 7.89 2 6 0.74Y
X9 5 3 3.0X8 6 5 2.94 8 7 3.1 0 1Y
????
????
????
逐步 Bayes准则判别误判概率( 2个变量):
回顾性估计,1/17=5.88%
刀切法估计,3/17=17.65%
逐步判别
Bayes准则判别误判概率( 4个变量):
回顾性估计,2/17=11.76%
刀切法估计,5/17=29.41%
第六节 判别分析中应注意的问题
1,训练样本足够大,代表性好;
原始分类正确;
判别指标选择恰当。
2,各类先验概率:各类构成比;
等概率( 1/g)
3,判别函数效果:不能以训练样本的回代情
况得出结论,要预留足够的训练样本以外
的验证样本以考察判别函数效果。
4,判别函数建立后,不断积累资料,修正、
完善。
判别分析
注意问题
5,几种判别方法比较:
Fisher准则判别,类间差异大、类内差异小;
构建线性判别函数;计量资料。
最大似然判别法,独立事件概率乘法定理;
以概率为依据;计数资料。
Bayes公式判别,Bayes公式;以概率为依据;
计数资料。
判别分析
注意问题
Bayes准则判别,个体归属于某类的后验概
率最大;构建线性判别函数后计算后验
概率;以概率为依据;计量资料。
逐步判别,先以类间差异大、类内差异小原
则筛选变量;后按 Bayes准则构建线性判
别函数,计算后验概率;以概率为依据;
计量资料。
判别分析注意问题