第四章 贝叶斯决策理论
贝叶斯分类器
正态分布决策理论
关于分类的错误率分析
最小风险 Bayes分类器
Bayes分类器算法和例题
聂曼-皮尔逊判别准则
最大最小判别准则
决策树
序贯分类
对 x再观察:有细胞光密度特征,有类条件概率密度,
P(x/ ω?)?=1,2,… 。如图所示
利用贝叶斯公式,
通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞 x进行识别 。
第四章 贝叶斯决策理论
§ 4-1 Bayes分类器 — 最优分类器、最佳分类器
一、两类问题例如:细胞识别问题 ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率 P(ω1),P(ω2)。若取该地区某人细胞 x属何种细胞,只能由 先验概率决定。
这种分类器决策无意义
221
121
),()(
),()(
xPP
xPP
,(也称为后验概率)?
2
1
)()()()()(
j
jjiii PxPPxPxP
)( 1?xP
)( 2?xP
x条件概率密度分布
)( ixP?
221
121
),()(
),()(
xxPxP
xxPxP
则若则若
设 N个样本分为两类 ω1,ω2。 每个样本抽出 n个特征,
x =( x1,x2,x3,…,xn) T
通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞 x进行识别 。
1、判别函数:
若已知先验概率 P(ω1),P(ω2),类条件概率密度 P(x/ ω1),
P(x/ ω2)。 则可得贝叶斯判别函数四种形式,
)()()( 21 xgxgxg
)( 1 xP? )( 2 xP?
x2.0
4.0
6.0
8.0
0.1
后验概率分布
)( xP i?
2、决策规则:
)(,
)(
)(
ln
)(
)(
ln)()4(
)(,
)(
)(
)(
)(
)()3(
)(),()()()()()2(
)(),()()()1(
1
2
2
1
1
2
2
1
2211
21
取对数方法似然比形式类条件概率密度后验概率
P
P
xP
xP
xg
P
P
xP
xP
xg
PxPPxPxg
xPxPxg
2
1
1
2
2
1
2
1
1
2
2
1
2
1
2211
2
1
21
)(
)(
ln
)(
)(
ln)()4(
)(
)(
)(
)(
)3(
)()()()()2(
)()()1(
x
P
P
xP
xP
xg
x
P
P
xP
xP
xPxPPxP
xxPxP
3、决策面方程:
x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。
例,某地区细胞识别; P(ω1)=0.9,P(ω2)=0.1 未知细胞 x,先从类条件概率密度分布曲线上查到:
解,该细胞属于正常细胞还是异常细胞,先计算后验概率:
0)(?xg
P(x/ ω1)=0.2,P(x/ ω2)=0.4
.),()(
),()(,1 8 2.0)(1)(
8 1 8.0
1.04.09.02.0
9.02.0
)()(
)()(
)(
21
12112
2
1
11
1
用所以先验概率起很大作因为属正常细胞。因为
PP
xxPxPxPxP
PxP
PxP
xP
j
jj
g(x)
n
x
x
x
X
...
2
1
特征向量判别计算决策
2
1
x
阈值单元
4、分类器设计:
二、多类情况,ω?=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)
1.判别函数,M类有 M个判别函数 g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。
2.决策规则,
),.,.,2,1(,)()(m a x
)()()(
1
MixPxP
PxPxg
ijjMj
iii
iij
Mj
iii
xPxP
PxPxg
)(ln)(lnm a x
)(ln)(ln)(
1
另一种形式:
3、决策面方程:
4、分类器设计:
0)()(),()( xgxgxgxg jiji 即
g1(x)
Maxg(x)
nx
x
x
X
...
2
1
特征向量 判别计算决策
ixg2(x)
gn(x) 最大值选择器
...
§ 4-2 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。
b、正态分布数学上简单,N(μ,σ 2) 只有均值和方差两个参数。
2、单变量正态分布:
)()(
)(,)()(:
),(
2
1
e x p
2
1
)(
2
22
2
2
方差,
均值或数学期望其中
dxxPxxE
dxxxPxE
N
x
xP
1)(
)(,0)(
dxxP
xxP
列关系:概率密度函数应满足下
)(xP
X
2 2
95.0
1
3、(多变量)多维正态分布
( 1)函数形式,
的行列式为的逆阵,为维协方差矩阵,为维均值向量,
维特征向量其中
1
21
21
1
2
1
2
),.,.,,(
,,.,.,,:
2
1
e x p
2
1
)(
nn
n
nxxxx
xxxP
T
n
T
n
T
n
iiiii dxxPxxE?
)()(
nnnnnn
nn
nn
nn
T
xxxx
xxxx
E
xx
x
x
E
xxE
...
....,.
...
,...,....,.
11
111111
11
11
是协方差,非对角线是方差对角线
ji
ji
xxExxE
xxExxE
ij
ij
nnnn
n
nnnnnn
nn
2
2
22
2
2
1
2
1
2
12
2
11
11
111111
,
,
...
............
...
...
..,,.,
...
(2)、性质:
①,μ与 ∑对分布起决定作用 P(χ)=N(μ,∑),μ由
n个分量组成,∑由 n(n+1)/2元素组成。 ∴ 多维正态分布由 n+n(n+1)/2个参数组成。
②,等密度点的轨迹是一个超椭球面。区域中心由 μ决定,区域形状由 ∑决定。
③,不相关性等价于独立性。若 xi与 xj互不相关,则 xi与 xj一定独立。
④,线性变换的正态性 Y=AX,A为线性变换矩阵。若 X为正态分布,则 Y也是正态分布。
⑤,线性组合的正态性。
2?
1? 1X
2X
判别函数:类条件概率密度用正态来表示:
)(lnln
2
1
2ln
22
1
)(ln
2
1
e x p
2
1
ln
)(
2
1
e x p
2
1
)()()(
1
1
2
1
2
1
2
1
2
iii i
T
i
ii i
T
i
i
n
ii i
T
i
i
n
ii
P
n
xx
Pxx
Pxx
PxPxg
二、最小错误率 (Bayes)分类器,从最小错误率这个角度来分析 Bayes 分类器
1.第一种情况,各个特征统计独立,且同方差情况。 (最简单情况 )
决策面方程,0)()( xgxg
0
)(
)(ln
2
1)()( 11
j
i
i iii ii P
Pxxxxxgxg
i
T
iii
i
i
i
i
T
ii
i
i
i
ii
i
i
T
ii
xxxP
x
Pxxxg
i
n
III
P
n
xxxg
2
2
2
1
2
1
2
2
1
),(ln
2
)(ln
2
1
)(
2ln
2
,,1,
)(lnln
2
1
2ln
22
1
)(
其中对分类无影响。
无关。都与因为
)(,2)(
)(.,,)()(
2
2
21
欧氏距离
i
m
xxg
PPP
零。,只有方差,协方差为即
2
2
11
2
.,,0
.,,.,,.,,
0.,,
:
nn
i I
判别函数:
最小距离分类器:未知 x与 μi相减,找最近的 μi把 x归类
如果 M类先验概率相等:
ij
T
j
Mw
i
T
ii
ii
T
iiii
i
T
ii
TTT
i
T
i
xwxwwxwxg
Pww
wxwxg
ixxxxxxx
0
1
0
202
0
m a x)(
)(ln
2
1
,
2
1
)(,)(
,2
判别规则:
其中:
线性判别函数简化可得:
无关与因为二次项
)(
)(
ln)(
2
1
0)(
0)()(
2
0
0
j
i
ji
ji
ji
ji
ji
P
P
x
W
xxW
xgxg
其中决策面方程:
2
1
2
1
22112122
12
)(
)(
ln)(
2
1
)(
1
)()()(
x
P
P
x
xgxgxg
TTT
对于二类情况
讨论:
的联线。垂直于决策面同方向同相与,所以又因为垂直与,因此分界面点积为与因率面是一个圆形。协方差为零。所以等概因为
H
WW
WHxxWb
Ia
ji
i
)(
0)(:)(
,:)(
2121
0
2
21 i二类情况下界面。均值联线的垂直线作为对多类情况,用各类的
。离开先验概率大的一类否则就是联线的中点。通过如果先验概率相等
:)(
),()(
),()(:)(
21
21
d
HPP
HPPc
1?
2?
W H
时决策面)()( 21 PP
1?
2?
4?
3?
34H
23H
14H
12H1?
1?
2?
1x
2x
H
W
2?
0x
)()()(
2
1
)(
)(...)()()(
)(ln)()(
2
1
)(
...
21
321
1
21
马氏距离,
若先验概率相等无关与因为
rxxxg
PPPP
Pxxxg
i
i
T
ii
i
ii
T
ii
M
未知 x,把 x与各类均值相减,把 x归于最近一类。最小距离分类器。
)(ln
2
1
,)(
)()(
1
0
1
0
11
ii
T
ii
ii
i
T
ii
T
i
T
i
Pw
W
wxWxg
ixxxx
其中
(线性函数)
无关。与展开;把
2、第二种情况,Σi= Σ相等,即各类协方差相等。
)()(
)(
)(
)(
ln
)(
2
1
)(,0)(
10
1
0
ji
T
ji
ji
j
i
ji
ji
T
P
P
x
WxxW
。其中
0)()(
)(
)(
ln)(
2
1
)()()()(
m a x)(
2
1
2
1
2211
1
1
1212
0
1
0
xgxg
x
P
P
xxgxgxg
xwxWwxWxg
jiji
TT
ij
T
j
Mj
i
T
ii
相邻与决策界面:若对于二类情况决策规则:
讨论:针对 ω1,ω2二类情况,如图:
。离开先验概率大的一类否则通过均值联线中点则则若各类先验概率相等,
值联线。不垂直于不同相与所以因为点。通过正交,与所以点积为与因为本征值决定长轴由所以等概率面是椭圆,因为
H
Hxd
HWWc
xHxxWxxWb
Ia
ji
jiji
ii;),(
2
1
:)(;)();(:)(
)(,0)(:)(
,:)(
0
1
000
1?
1?
2?
1x
2x
H
W
2?
0x
3、第三种情况 (一般情况 ),Σ?为任意,各类协方差矩阵不等,
二次项 xT Σ? x与 i有关。所以判别函数为二次型函数。
ijTjjT
Mj
i
T
ii
T
i
xwxWxWx
wxWxWxxg
01
0
m a x
)(决策规则:
2
1
2
1
2
1
2
1
221
1
1112
)(
)(
lnln
2
1
)()(
2
1
)()(
2
1
)()()(
x
P
P
xxxxxgxgxg TT对于二类情况
)(lnln
2
1
2
1
)(
)(,
2
1
,)(:
1
0
1
1
0
iii i
T
iiiii
iii
T
ii
T
i
PwnW
nnWwxWxWxxg
,维列向量矩阵其中判别函数圆)(a
1x
2x
1?
2?
双曲线)(d
1?
2?
2?
椭圆)(b
2?
1?
抛物线)(c
1?
2?
1?
2?
先验概率相等。
为条件独立;;二类情况对于二类问题,条件:
各种图形:下面看一下决策界面的决策面方程:
:
::
0)()(
2121
c
xxba
xgxg ji
直线)(e
2?
2?
1?
1?
§ 4-3 关于分类器的错误率分析
1、一般错误率分析,
dxxPPdxxPPeP
xPPxPP
dxxPPdxxPP
ePPePPeP
dxxPRxPeP
dxxPRxPeP
dxxePeP
xxP
xxP
xeP
xPxxPxP
T
T
Y
Y
RR
R
R
)()()()()(
)()()()(
)()()()(
)()()()()(
)()()(
)()()(
)()(
),(
),(
)(
).(,),()(
1122m i n
2211
2211
2211
2212
1121
21
12
2121
12
1
2
(证明略)使错误率最小条件:
总错误率:
第二类判错:
第一类判错:
平均错误率:
这时错误率最小。
当当这时错误率为则二类问题:若
)()( 11 PxP
)()( 22 PxP
TY
1R
2R
1Y
计算量很大)
总错误率对于多类问题:
)(()(
)()(..,)()(
..,)()(..,)()(
)()(..,)()()(
1 1
121
222321
111312
i
M
i
M
j
jj
MMMMM
M
M
PRxP
PRxPRxPRxP
PRxPRxPRxP
PRxPRxPRxPeP
ij
M
i
iR i
M
i
iii
dxPxP
PRxPMP
i1
1
)()(
)()()(用平均正确分类概率:
,计算相对简单。错误率,)(1)( MPeP
2、正态分布最小错误率 (在正态分布情况下求最小错误率 )
2
1)()(
21 PP设:
)(
2
1
e x p
2
1
)(
)(
2
1
e x p
2
1
)(
2
2
1
1
B
x
xP
A
x
xP
率。因此可计算出最小错误可以计算若已知错误率最小对多维问题:
可计算可以计算若已知
,其中:
。可得代入把值值就是,可解出条件:把上式代入最小错误率
.,,
)(
2
1
,
2
1
e x p
2
1
)(
,)(,,)(
)(,,,
2
1
2
1
e x p
2
1
)()()()()(
)()(
.)()()()(
21
21
1
21
2
m i n
222111
m i n21
22
21
1
2
2211m i n
m i n
2211
k
kduueP
NxPNxP
ePk
k
x
u
duudxxPPdxxPPeP
ePePY
YxxPPxPP
T
k
k
Y
Y
T
T
T
T
§ 4-4 最小风险 Bayes分类器
假定要判断某人是正常 (ω1)还是肺病患者 (ω2),于是在判断中可能出现以下情况:
第一类,判对 (正常 →正常 ) λ11 ;第二类,判错 (正常 →肺病 ) λ21 ;
第三类,判对 (肺病 →肺病 ) λ22;第四类,判错 (肺病 →正常 ) λ12 。
在判断时,除了能做出“是” ωi类或“不是” ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:
在整个特征空间中定义期望风险,
期望风险:
).(,.,,,2,1,
1
MaaixPExR j
M
j
jijii
)(,平均风险dxxPxxRR
行动 αi:表示把模式 x判决为 ωi类的一次动作。
损耗函数 λii=λ(αi/ωi)表示模式 X本来属于 ωi类而错判为 ωi所受损失。因为这是正确判决,故损失最小。
损耗函数 λij=λ(αi/ωj)表示模式 X本来属于 ωj类错判为 ωi所受损失。因为这是错误判决,故损失最大。
风险 R(期望损失):对未知 x采取一个判决行动 α(x)所付出的代价(损耗)
条件风险(也叫条件期望损失):
条件风险只反映对某 x取值的决策行动 αi所带来的风险。期望风险则反映在整个特征空间不同的 x取值的决策行动所带来的平均风险。
最小风险 Bayes决策规则,
kiMik xxRxR 则若,m in,...,2,1
二类问题:把 x归于 ω1时风险:
把 x归于 ω2时风险:
作用。较大,决策损失起决定=因类风险大。因决策异常细胞因为条件风险:
概率:由上例中计算出的后验
,曲线上查的从类条件概率密度分布异常为概率为例:已知正常细胞先验
6
,)()(
81 8.0)()(
09 2.1)()()(
18 2.0)(,81 8.0)(
0,1,6,0
4.0)(,2.0)(
,1.0)(,9.0)(
12
121
1212
2
1
21211
21
22211211
21
xxRxR
xPxR
xPxPxR
xPxP
xPxP
PP
j
jj
ii
)()()(
)()()(
2221212
2121111
xPxPxR
xPxPxR
分类器。这时便得到最小错误率最大,最小,就相当于后验概率时时函数用最小风险分类规则:
)()(
)(1
)()()()()(
,1
,0
)(:10
)()()(
)()(
11
2
1
221211121
121
xPxR
xP
xPxPxPxR
ji
ji
xxP
xxRxR
ii
i
j
jj
ij
ijijj
M
i
i
ijjj
§ 4-5 Bayes分类的算法 (假定各类样本服从正态分布)
1.输入类数 M;特征数 n,待分样本数 m.
2.输入训练样本数 N和训练集资料矩阵 X(N× n)。并计算有关参数。
3.计算矩阵 y中各类的后验概率。
4.若按最小错误率原则分类,则可根据 3 的结果判定 y中各类样本的类别。
5.若按最小风险原则分类,则输入各值,并计算 y中各样本属于各类时的风险并判定各样本类别。
例 1、有训练集资料矩阵如下表所示,现已知,N=9,N1=5、
N2=4,n=2,M=2,试问,X=(0,0)T应属于哪一类?
解 1、假定二类协方差 矩阵不等( ∑1≠∑2) 则均值,
5
3,0)11011(
5
1
1211 XX
训练样本号 k 1 2 3 4 5 1 2 3 4
特征 x1
特征 x2
1 1 0 -1 -1 0 1 0 -1
0 1 1 1 0 -1 -2 -2 -2
类别 ω1 ω 2
方法)
的计算请看协方差协方差矩阵为
11
2221
1211
21
2221212111
(,
4
1
0
0
3
2
,
10
3
0
01
:.)
4
7
,0(,,)
5
3
,0(,
CC
CC
XXXXXX
T
T
T
T
计算方法同上)协方差矩阵为 (
4
1
0
0
3
2
,
10
3
0
01
10
3
)()(
4
1
0)()(
4
1
1)01()01()00()01()01(
4
1
)()(
15
1
21
12
2
5
1
12
222
2112
12
2
5
1
11
112
22222
11
1
5
1
11
111
T
k
k
k
T
k
k
k
k
k
T
k
xxxxC
CC
xxxxC
xxxxC
2 2 3.0
)(
)(
ln,
9
4
)(,
9
5
)(:
59.0ln,
6
1
,
10
3
,
40
0
2
3
,
3
10
0
01
2
1
21
2
1
21
1
2
1
1
P
P
PP先验概率
1
88.12
)5.13(
81.14
091.1018
3
2
2
1
0)(
)0,0(
091.10)()0,0(),(x,),(x
0
)(
)(
lnln
2
1
)xx()xx(
2
1
)xx()xx(
2
1
)()()(
2
2
2
2
2
1
2
2
2
2
1
1
2121
2
1
2
1
2
1
1
2
22
1
1
11
12
xx
xxxxg
X
xgxxxx
x
P
P
xgxgxg
T
TTT
TT
程:这是一个非线性椭圆方得分界线方程为:令类。属于所以判代入得:将利用公式:
1X
2X
1?
2?
待定样本
1?
1?
2?
1
1
两种解得分界线
62.0?
.61.0
068.2
11
47
)(
)0,0(x
068.2
)(
)(
ln)xxxx(
2
1
x)xx()(
2
2
1
2
1
1
2
1
211
1
1
12
所示为一直线,如图中虚线从而得分界线方程为类,判为故应把
x
xxg
P
P
xg
T
TT
T
1X
2X
1?
2?
待定样本
1?
1?
2?
1
1
两种解得分界线
得:所以代入 Tx 0,0
,
11
20
0
0
5
3
,
20
11
0
0
3
5
1
21
解 2,假定两类协方差矩阵相等 ∑=∑1+∑2
训练样本号 k 1 2 3 1 2 3 1 2 3
特征 x1 0 1 2 -2 -1 -2 0 1 -1
特征 x2 1 0 -1 1 0 -1 -1 -2 -2
类别 ω1 ω2 ω3
解 1,假定三类协方差不等;
例 2,有训练集资料矩阵如下表所示,现已知,N=9,N1=N2=3,n=2、
M=3,试问,未知样本 X=(0,0)T应属于哪一类?
321
321
3
1
0
01
10
0
3
1
,
10
01
:
)
3
5
,0(x)0,
3
5
(x,)0,1(x
,协方差矩阵为
,均值 TTT
30
01
10
03
10
01 1
3
1
2
1
1,,所以
6.3)()(,5.0)(
:0,0
2.7103
2
1
)(
2.7103
2
1
)(
12
2
1
)(
.lnln
2
1
2
1
,,
2
1
,)(
3
1
3
1
3
1
1
321
2
2
2
2
13
1
2
2
2
12
1
2
2
2
11
111
321
321
xgxgxg
X
xxxxg
xxxxg
xxxxg
PwwW
wxwxWxxg
PPP
T
iiii
T
iioiiiii
io
T
ii
T
i
代入得将所以其中代入多类判别函数先验概率
,,
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
06.252)()(
055)()(
01.36)()(
)()(),()(),()(
0,0
21
2
213
21
2
2
2
132
1
2
121
133221
1
xxxxgxg
xxxxxgxg
xxxgxg
xgxgxgxgxgxg
X
T
分别令类为故应判样品
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
可得三类分界线如图所示:
42
25
)()(,
14
3
)(
:0,0
42
25
7
5
)(
42
25
7
5
)(,
14
3
7
3
)(
)(:
7
3
0
0
7
3
,
3
7
0
0
3
7
321
23
1211
0
1
321
xgxgxg
X
xxg
xxgxxg
wxwxg
T
i
T
ii
代入得将所以代入多类时判别函数
解 2,设三类协方差矩阵相等
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
21
8
7
5
7
3
)()(
7
5
7
5
)()(
21
8
7
8
)()(
)()(),()(),()(
0,0
2113
2132
121
133221
1
xxxgxg
xxxgxg
xxgxg
xgxgxgxgxgxg
X
T
分别令类为故应判样品
可得三类分界线如图所示:
作业,① 在下列条件下,求待定样本 x=(2,0)T的类别,画出分界线,编程上机。
1、二类协方差相等,2、二类协方差不等。
训练样本号 k 1 2 3 1 2 3
特征 x1 1 1 2 -1 -1 -2
特征 x2 1 0 -1 1 0 -1
类别 ω1 ω2
作业,② 有训练集资料矩阵如下表所示,现已知,N=9、
N1=N2= N3=3,n=2,M=3,试问,X=(-2,2)T应属于哪一类?
要求,用两种解法 a、三类协方差不等; b、三类协方差相等。
编程上机,画出三类的分界线。
训练样本号 k 1 2 3 1 2 3 1 2 3
特征 x1 0 2 1 -1 -2 -2 0 0 1
特征 x2 0 1 0 1 0 -1 -2 -1 -2
类别 ω1 ω2 ω3
为代定常数其中:
先定义一个辅助常数:要满足以上条件最小,使为常数时取聂曼-皮尔逊准则是在
,
如图所示:的错误率判为为的错误率判为为
T
dxxPTdxxPTr
dxxPdxxP
12
12
2121
1022
2211
122
211
,
,,
,
§ 4-6 在一类错误率固定使另一类错误率最小的判别准则 (聂曼 -皮尔逊判决 neyman-pearson)
)( 1?xP
)( 2?xP
1?
2X
1X
1?
2?
dxxPdxxP
xxT
xP
xP
xPxTP
r
dxxPxTPr
dxxPdxxP
21
1
12
22
111
2
1
121
1
12
11
1
),(
.,
1
1
同理:
类属于区域在即区域内应使在应使积分为负最小为变量,要使式中
,因为
.
)(
)(
.
(
)(
)(
,)()(1
2
1
2
1
22
2
1
21
1
T
xT
xP
xP
xT
xP
xP
dxxTPxPr
值皮尔逊规则归结为找阈得到判决准则根据两个不等式,我们区域)在
例,两类的模式分布为二维正态协方差矩阵为单位矩阵 ∑1=∑2=I,设 ε2= 0.09求聂曼皮尔逊准则 T.
解:
最小一定这时可确定,为常数时,的函数在取为的分界线作时当
12
2222
21
2
1
,)(
.,
)(
)(
TTdxxP
TT
xP
xP
T
TT 0,1,0,1 21
2
2
e x p
2
1
2
e x p
2
1
)(
2
1
e x p
2
1
2
e x p
2
1
)(
2
2
2
122
2
2
2
2
111
1
xxxx
xP
xxxx
xP
T
T
同理:
所以因为是两类正态
如图所示:
时为最小错误率小但大小大但小大如图所示:
的不同直线。判别边界是平行于对于不同式有了判别边界和判别形即判别式为:
判别边界为:
如右图所示
.1
,;,
,ln
2
1
2e x p
2e x p
2e x p
)(
)(
:
1212
2
2
1
1
2
1
1
1
1
2
1
T
TT
xT
xTx
xTx
xT
Tx
xP
xP
4 2 1
21 41
1?1?
1x
2x
1? 2?
345.0
7.0
345.0?
7.0?
所以此时聂曼 —— 皮尔逊分类器的分界线为:
2
1
1
1
3 4 5.0,69.02lnln
,ln
2
1
xxT
Tx
所以因为
由图可知为保证 ε2足够小,边界应向 ω1一侧靠,则 ε1↑
T与 ε2的关系表如右:
最小的判别规则。时使这就是在给定最小上式使此时判别式为:
由表查得给定
12
12
2
1
2
1
2
09.0,2
)(
)(
209.0
xT
xP
xP
T的关系表与 2?T
T 4 2 1
ε2 0.04 0.09 0.16 0.25 0.38
§ 4-7最大最小判别准则,前边的讨论都是假定先验概率不变,现在讨论在 P(ωi)变化时如何使 最大可能风险最小,先验概率
P(ω1)与风险 R间的变化关系如下:
.)(,
11
)(
121
222121112122111
2221222
1121
22221121
22121111
21
12
2
12
2
1
21
的线性函数就是被确定,风险一旦
,对二类情况有:
关系:与风险
PR
dxxPdxxPP
dxxPR
dxxPdxxPPP
dxxPPxPP
dxxPPxPP
dxxPxxRdxxPxxRdxxPxxRR
PR
i
12
2
22212111212211
2221222
1
dxxPdxxPb
dxxPa
bPaR
其中:
)( 1?xP
)( 2?xP
1?
2X
1X
1?
2?
这样,就得出最小风险与先验概率的关系曲线,如图所示:
讨论:
。使最大风险为不变,变化,则平行,与横坐标这时直线如图所示
,这时候最大风险为最小即无关与使如果选择关系为一条曲线与选择不同时,当关系为直线关系与区间固定时,当
a
:
0
.,0,3;,2;,,,1
11
2221222
22212111212211
121
121
1121
2
12
RPPR
dxxPaR
dxxPdxxP
PRb
PR
RPPR
1?P
R
固定21,
*R
A
选择不同21,
)( 1*?P
1?P
R *R
B
)( 1*?P
不变变化
R
P 1?
.
,,,
0
.0,,
2121
2112
2211
21
12
两类错误概率相等若选取损失为满足应该使边界所以在最大最小判别中
ePePdxxPdxxP
b
上式证明,所选的判别边界,使两类的概率相等:
ePeP 21?
这时可使最大可能的风险为最小,这时先验概率变化,其风险不变
§ 4-8 决策树 — 多峰情况
Bayes分类器只能适用于样本分布呈单峰情况,对多峰情况则不行。
若用决策树,可进行如下步骤分类
ExxFxxxx
Dxxxx
BxxCxxxx
Axxxx
xx
12121
2111
21121
1111
202
,5
),5(4
,3;,32
);4(),2(1
否则则若否则则转若否则则若否则则转若否则转则转若
2X
E FD
CA B
1X
2?
1?
1?
1? 2?
2?
12x
20x
11x
整个分类过程可用右图的树表示,
1、基本概念
( 1)决策树:二叉树。每个节点都是两类分类器。例如;节点 a上的决策规则为:
( 2)代价(损失)矩阵定义节点 L的代价为:
c
bxx?
202
202 xx? 202
xx?
111 xx? 111 xx?
121 xx?
121 xx?
111 xx?
121 xx?
121 xx?
A
BC
D
E F
a
b c
1?
j
1?
1?
2?
2?
2?
2、决策树的构造在构造决策树时,需要考虑以下问题:
1)、如何判断一节点是否为叶子。
如右图表示,假定 A,B,C,D,E,F
各包含 50个样本,并有以下的代价矩阵
对于节点 a,可以作出以下两个决策之一:
决策 1,a不再分割
决策 2,a分为两类
决策 1的代价为 A1( a) =Ca ─节点 a的代价
决策 2的代价为 A2( a) =α( Cb+Cc) ─节点 b,c的代价和
其中,α为一经验因子,用以防止无限分割下去上各类样本混淆程度表示在节点类的损失,
误判为类原属于类样本数表示属于类样本数表示属于其中:
LC
rr
rrC
Li
jijjjLiiL
i j
ijjLiLL
,,,
202 xx? 202
xx?
111 xx? 111 xx?
121 xx?
121 xx?
111 xx?
121 xx?
121 xx?
A
BC
D
E F
a
b c
1?
j
1?
1?
2?
2?
2?
010 1002221 1211
只要经验因子 α≤2.25,便有 A2(a) ≤A1(a),因此取决策 2的代价较小,故应把 α分为两类。
一般地决策代价为:
2)、选择节点的分割方式:
a、根据经验确定。例如,全部样本分为三类,其代价矩阵为
2 00 00 0
4 50 00 0101 501 50101 501 50
2
1
2
1
2
1
2
1
21121221
2
1
2
1
i j
ijjcic
i j
ijjbibcb
aaaa
i j
ijjaiaa
rrrrCC
rrrrrrC
=+
分为两类不再分割树叶决策分类公式:
,分为两类,
不再分割
LLALA
PCC
PC
LA
RR
L
P
12
21 2
1,
L
1R 2R
05060
50010
60100
333231
232221
131211
b、根据对样本分布的了解试探确定。如右图所示,将 a划分为 b,c的方式有两种
c、根据聚类结果来划分。
3)、如何确定各节点分类器。
原则:
①、分类器应尽量简单,因此,多采用线性分类器,
②、尽量减小分类时所使用的特征,选用最有效的特征进行分类
2X
E FD
CA B
1X
2?
1?
1?
1? 2?
2?
12x
20x
11x
。原则划分作为另一类。根据这一类,而合为一,,所以
,,因为
L
3
212332
31132112
50
6010
。,取代价小的一种方式再计算二种方式的代价
FECBcDAb
FEDcCBAb
,,,,,:)2(
,,,,,:)1(
§ 4-9 序贯分类
迄今为止所讨论的分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。
假设对样品进行第 i 次观察获取一序列特征为,X=(x1,x2,…,xi)T 则对于 ω1,ω2两类问题,
若 X ∈ ω1,则判决完毕
若 X∈ ω2,则判决完毕
若 X不属 ω1也不属 ω2,则不能判决,进行第 i+1次观察,得
X=(x1,x2,…,xi,,x i+1)T,再重复上面的判决,直到所有的样品分类完毕为止。
这样做的好处是使那些在二类边界附近的样本不会因某种偶然的微小变化而误判,当然这是以多次观察为代价的。
:
),...,,(
)(
)(
)(
)(
)(
1
21
2
1
1
2
2
1
时可计算其似然比当测得第一个特征参数其中,特征矢量
x
xxxX
X
P
P
XP
XP
xl
T
N
i
)(
)(
)(
)()(
21
11
21
11
11?
xP
xP
xP
xPxl
由最小错误概率的 Bayes 判决,对于两类问题,似然比为
)(
)(
)(
,)(
,)(
,)(
221
121
212
211
2111
1111
xxP
xxP
xxl
xAxlB
xXBxl
xXAxl
,
,
,
并计算似然比则测量下一个特征参数如果则如果则如果
现在来确定 A,B的值。
因为是上下门限),(其中止样品的类别全部确定为所有,为重复以上过程直到,再测第三个特征参数,若
,则,若
,则,若
BA
xAxxlB
xxXBxxl
xxXAxxl
T
T
.
)(
)(,)(
)(,)(
3212
221212
121212
类的概率。判决为类而属于,左边的积分代表模式得:的特征空间内取积分可对上式两边对应于次测量表示第
1
121
1
21
2
1
11
)()(
)()(
,
)(
)(
)(
dXXPAdXXP
XAPXP
NNA
XP
XP
xl
NN
NN
N
N
N
2
2
1
1
2
1
2
1
21
21
11
2
1
2
1
21
12
22
211
11
)(1
)(
)(
)(1
)(1
)(
) ),(1()(
)()(
)()(,
)(
)(
)(
)(
)(1
)()(1
)()(
)(
)(1)(
22
1
1
X
eP
eP
B
X
eP
eP
A
eP
eP
BePBeP
dXXPBdXXP
XBPXPB
XP
XP
xl
eP
eP
AeAPeP
ePdXXP
eP
ePdXXP
NN
NN
N
N
N
N
N
用错误概率表示为即所以同理,因为或类的分类误差概率类而错判为为本来属于而积分类的分类误差概率类而错判为表示本来属于即:
)()(1
2
1 ePePA)(1)(
2
1 ePePB
继续观察区区判决 1X区判决 2X
序贯分类决策规则:
上下门限 A,B是由设计给定的错误概率 P1(e),P2(e)
来确定的,Wald 已证明,观察次数不会很大,它收敛的很快。
时,继续观察时时
A
XP
XP
B
X
eP
eP
B
XP
XP
X
eP
eP
A
XP
XP
i
i
i
i
i
i
)(
)(
)(1
)(
)(
)(
)(
)(1
)(
)(
2
1
2
2
1
2
1
1
2
1
2
1
贝叶斯分类器
正态分布决策理论
关于分类的错误率分析
最小风险 Bayes分类器
Bayes分类器算法和例题
聂曼-皮尔逊判别准则
最大最小判别准则
决策树
序贯分类
对 x再观察:有细胞光密度特征,有类条件概率密度,
P(x/ ω?)?=1,2,… 。如图所示
利用贝叶斯公式,
通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞 x进行识别 。
第四章 贝叶斯决策理论
§ 4-1 Bayes分类器 — 最优分类器、最佳分类器
一、两类问题例如:细胞识别问题 ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率 P(ω1),P(ω2)。若取该地区某人细胞 x属何种细胞,只能由 先验概率决定。
这种分类器决策无意义
221
121
),()(
),()(
xPP
xPP
,(也称为后验概率)?
2
1
)()()()()(
j
jjiii PxPPxPxP
)( 1?xP
)( 2?xP
x条件概率密度分布
)( ixP?
221
121
),()(
),()(
xxPxP
xxPxP
则若则若
设 N个样本分为两类 ω1,ω2。 每个样本抽出 n个特征,
x =( x1,x2,x3,…,xn) T
通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞 x进行识别 。
1、判别函数:
若已知先验概率 P(ω1),P(ω2),类条件概率密度 P(x/ ω1),
P(x/ ω2)。 则可得贝叶斯判别函数四种形式,
)()()( 21 xgxgxg
)( 1 xP? )( 2 xP?
x2.0
4.0
6.0
8.0
0.1
后验概率分布
)( xP i?
2、决策规则:
)(,
)(
)(
ln
)(
)(
ln)()4(
)(,
)(
)(
)(
)(
)()3(
)(),()()()()()2(
)(),()()()1(
1
2
2
1
1
2
2
1
2211
21
取对数方法似然比形式类条件概率密度后验概率
P
P
xP
xP
xg
P
P
xP
xP
xg
PxPPxPxg
xPxPxg
2
1
1
2
2
1
2
1
1
2
2
1
2
1
2211
2
1
21
)(
)(
ln
)(
)(
ln)()4(
)(
)(
)(
)(
)3(
)()()()()2(
)()()1(
x
P
P
xP
xP
xg
x
P
P
xP
xP
xPxPPxP
xxPxP
3、决策面方程:
x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。
例,某地区细胞识别; P(ω1)=0.9,P(ω2)=0.1 未知细胞 x,先从类条件概率密度分布曲线上查到:
解,该细胞属于正常细胞还是异常细胞,先计算后验概率:
0)(?xg
P(x/ ω1)=0.2,P(x/ ω2)=0.4
.),()(
),()(,1 8 2.0)(1)(
8 1 8.0
1.04.09.02.0
9.02.0
)()(
)()(
)(
21
12112
2
1
11
1
用所以先验概率起很大作因为属正常细胞。因为
PP
xxPxPxPxP
PxP
PxP
xP
j
jj
g(x)
n
x
x
x
X
...
2
1
特征向量判别计算决策
2
1
x
阈值单元
4、分类器设计:
二、多类情况,ω?=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)
1.判别函数,M类有 M个判别函数 g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。
2.决策规则,
),.,.,2,1(,)()(m a x
)()()(
1
MixPxP
PxPxg
ijjMj
iii
iij
Mj
iii
xPxP
PxPxg
)(ln)(lnm a x
)(ln)(ln)(
1
另一种形式:
3、决策面方程:
4、分类器设计:
0)()(),()( xgxgxgxg jiji 即
g1(x)
Maxg(x)
nx
x
x
X
...
2
1
特征向量 判别计算决策
ixg2(x)
gn(x) 最大值选择器
...
§ 4-2 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。
b、正态分布数学上简单,N(μ,σ 2) 只有均值和方差两个参数。
2、单变量正态分布:
)()(
)(,)()(:
),(
2
1
e x p
2
1
)(
2
22
2
2
方差,
均值或数学期望其中
dxxPxxE
dxxxPxE
N
x
xP
1)(
)(,0)(
dxxP
xxP
列关系:概率密度函数应满足下
)(xP
X
2 2
95.0
1
3、(多变量)多维正态分布
( 1)函数形式,
的行列式为的逆阵,为维协方差矩阵,为维均值向量,
维特征向量其中
1
21
21
1
2
1
2
),.,.,,(
,,.,.,,:
2
1
e x p
2
1
)(
nn
n
nxxxx
xxxP
T
n
T
n
T
n
iiiii dxxPxxE?
)()(
nnnnnn
nn
nn
nn
T
xxxx
xxxx
E
xx
x
x
E
xxE
...
....,.
...
,...,....,.
11
111111
11
11
是协方差,非对角线是方差对角线
ji
ji
xxExxE
xxExxE
ij
ij
nnnn
n
nnnnnn
nn
2
2
22
2
2
1
2
1
2
12
2
11
11
111111
,
,
...
............
...
...
..,,.,
...
(2)、性质:
①,μ与 ∑对分布起决定作用 P(χ)=N(μ,∑),μ由
n个分量组成,∑由 n(n+1)/2元素组成。 ∴ 多维正态分布由 n+n(n+1)/2个参数组成。
②,等密度点的轨迹是一个超椭球面。区域中心由 μ决定,区域形状由 ∑决定。
③,不相关性等价于独立性。若 xi与 xj互不相关,则 xi与 xj一定独立。
④,线性变换的正态性 Y=AX,A为线性变换矩阵。若 X为正态分布,则 Y也是正态分布。
⑤,线性组合的正态性。
2?
1? 1X
2X
判别函数:类条件概率密度用正态来表示:
)(lnln
2
1
2ln
22
1
)(ln
2
1
e x p
2
1
ln
)(
2
1
e x p
2
1
)()()(
1
1
2
1
2
1
2
1
2
iii i
T
i
ii i
T
i
i
n
ii i
T
i
i
n
ii
P
n
xx
Pxx
Pxx
PxPxg
二、最小错误率 (Bayes)分类器,从最小错误率这个角度来分析 Bayes 分类器
1.第一种情况,各个特征统计独立,且同方差情况。 (最简单情况 )
决策面方程,0)()( xgxg
0
)(
)(ln
2
1)()( 11
j
i
i iii ii P
Pxxxxxgxg
i
T
iii
i
i
i
i
T
ii
i
i
i
ii
i
i
T
ii
xxxP
x
Pxxxg
i
n
III
P
n
xxxg
2
2
2
1
2
1
2
2
1
),(ln
2
)(ln
2
1
)(
2ln
2
,,1,
)(lnln
2
1
2ln
22
1
)(
其中对分类无影响。
无关。都与因为
)(,2)(
)(.,,)()(
2
2
21
欧氏距离
i
m
xxg
PPP
零。,只有方差,协方差为即
2
2
11
2
.,,0
.,,.,,.,,
0.,,
:
nn
i I
判别函数:
最小距离分类器:未知 x与 μi相减,找最近的 μi把 x归类
如果 M类先验概率相等:
ij
T
j
Mw
i
T
ii
ii
T
iiii
i
T
ii
TTT
i
T
i
xwxwwxwxg
Pww
wxwxg
ixxxxxxx
0
1
0
202
0
m a x)(
)(ln
2
1
,
2
1
)(,)(
,2
判别规则:
其中:
线性判别函数简化可得:
无关与因为二次项
)(
)(
ln)(
2
1
0)(
0)()(
2
0
0
j
i
ji
ji
ji
ji
ji
P
P
x
W
xxW
xgxg
其中决策面方程:
2
1
2
1
22112122
12
)(
)(
ln)(
2
1
)(
1
)()()(
x
P
P
x
xgxgxg
TTT
对于二类情况
讨论:
的联线。垂直于决策面同方向同相与,所以又因为垂直与,因此分界面点积为与因率面是一个圆形。协方差为零。所以等概因为
H
WW
WHxxWb
Ia
ji
i
)(
0)(:)(
,:)(
2121
0
2
21 i二类情况下界面。均值联线的垂直线作为对多类情况,用各类的
。离开先验概率大的一类否则就是联线的中点。通过如果先验概率相等
:)(
),()(
),()(:)(
21
21
d
HPP
HPPc
1?
2?
W H
时决策面)()( 21 PP
1?
2?
4?
3?
34H
23H
14H
12H1?
1?
2?
1x
2x
H
W
2?
0x
)()()(
2
1
)(
)(...)()()(
)(ln)()(
2
1
)(
...
21
321
1
21
马氏距离,
若先验概率相等无关与因为
rxxxg
PPPP
Pxxxg
i
i
T
ii
i
ii
T
ii
M
未知 x,把 x与各类均值相减,把 x归于最近一类。最小距离分类器。
)(ln
2
1
,)(
)()(
1
0
1
0
11
ii
T
ii
ii
i
T
ii
T
i
T
i
Pw
W
wxWxg
ixxxx
其中
(线性函数)
无关。与展开;把
2、第二种情况,Σi= Σ相等,即各类协方差相等。
)()(
)(
)(
)(
ln
)(
2
1
)(,0)(
10
1
0
ji
T
ji
ji
j
i
ji
ji
T
P
P
x
WxxW
。其中
0)()(
)(
)(
ln)(
2
1
)()()()(
m a x)(
2
1
2
1
2211
1
1
1212
0
1
0
xgxg
x
P
P
xxgxgxg
xwxWwxWxg
jiji
TT
ij
T
j
Mj
i
T
ii
相邻与决策界面:若对于二类情况决策规则:
讨论:针对 ω1,ω2二类情况,如图:
。离开先验概率大的一类否则通过均值联线中点则则若各类先验概率相等,
值联线。不垂直于不同相与所以因为点。通过正交,与所以点积为与因为本征值决定长轴由所以等概率面是椭圆,因为
H
Hxd
HWWc
xHxxWxxWb
Ia
ji
jiji
ii;),(
2
1
:)(;)();(:)(
)(,0)(:)(
,:)(
0
1
000
1?
1?
2?
1x
2x
H
W
2?
0x
3、第三种情况 (一般情况 ),Σ?为任意,各类协方差矩阵不等,
二次项 xT Σ? x与 i有关。所以判别函数为二次型函数。
ijTjjT
Mj
i
T
ii
T
i
xwxWxWx
wxWxWxxg
01
0
m a x
)(决策规则:
2
1
2
1
2
1
2
1
221
1
1112
)(
)(
lnln
2
1
)()(
2
1
)()(
2
1
)()()(
x
P
P
xxxxxgxgxg TT对于二类情况
)(lnln
2
1
2
1
)(
)(,
2
1
,)(:
1
0
1
1
0
iii i
T
iiiii
iii
T
ii
T
i
PwnW
nnWwxWxWxxg
,维列向量矩阵其中判别函数圆)(a
1x
2x
1?
2?
双曲线)(d
1?
2?
2?
椭圆)(b
2?
1?
抛物线)(c
1?
2?
1?
2?
先验概率相等。
为条件独立;;二类情况对于二类问题,条件:
各种图形:下面看一下决策界面的决策面方程:
:
::
0)()(
2121
c
xxba
xgxg ji
直线)(e
2?
2?
1?
1?
§ 4-3 关于分类器的错误率分析
1、一般错误率分析,
dxxPPdxxPPeP
xPPxPP
dxxPPdxxPP
ePPePPeP
dxxPRxPeP
dxxPRxPeP
dxxePeP
xxP
xxP
xeP
xPxxPxP
T
T
Y
Y
RR
R
R
)()()()()(
)()()()(
)()()()(
)()()()()(
)()()(
)()()(
)()(
),(
),(
)(
).(,),()(
1122m i n
2211
2211
2211
2212
1121
21
12
2121
12
1
2
(证明略)使错误率最小条件:
总错误率:
第二类判错:
第一类判错:
平均错误率:
这时错误率最小。
当当这时错误率为则二类问题:若
)()( 11 PxP
)()( 22 PxP
TY
1R
2R
1Y
计算量很大)
总错误率对于多类问题:
)(()(
)()(..,)()(
..,)()(..,)()(
)()(..,)()()(
1 1
121
222321
111312
i
M
i
M
j
jj
MMMMM
M
M
PRxP
PRxPRxPRxP
PRxPRxPRxP
PRxPRxPRxPeP
ij
M
i
iR i
M
i
iii
dxPxP
PRxPMP
i1
1
)()(
)()()(用平均正确分类概率:
,计算相对简单。错误率,)(1)( MPeP
2、正态分布最小错误率 (在正态分布情况下求最小错误率 )
2
1)()(
21 PP设:
)(
2
1
e x p
2
1
)(
)(
2
1
e x p
2
1
)(
2
2
1
1
B
x
xP
A
x
xP
率。因此可计算出最小错误可以计算若已知错误率最小对多维问题:
可计算可以计算若已知
,其中:
。可得代入把值值就是,可解出条件:把上式代入最小错误率
.,,
)(
2
1
,
2
1
e x p
2
1
)(
,)(,,)(
)(,,,
2
1
2
1
e x p
2
1
)()()()()(
)()(
.)()()()(
21
21
1
21
2
m i n
222111
m i n21
22
21
1
2
2211m i n
m i n
2211
k
kduueP
NxPNxP
ePk
k
x
u
duudxxPPdxxPPeP
ePePY
YxxPPxPP
T
k
k
Y
Y
T
T
T
T
§ 4-4 最小风险 Bayes分类器
假定要判断某人是正常 (ω1)还是肺病患者 (ω2),于是在判断中可能出现以下情况:
第一类,判对 (正常 →正常 ) λ11 ;第二类,判错 (正常 →肺病 ) λ21 ;
第三类,判对 (肺病 →肺病 ) λ22;第四类,判错 (肺病 →正常 ) λ12 。
在判断时,除了能做出“是” ωi类或“不是” ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:
在整个特征空间中定义期望风险,
期望风险:
).(,.,,,2,1,
1
MaaixPExR j
M
j
jijii
)(,平均风险dxxPxxRR
行动 αi:表示把模式 x判决为 ωi类的一次动作。
损耗函数 λii=λ(αi/ωi)表示模式 X本来属于 ωi类而错判为 ωi所受损失。因为这是正确判决,故损失最小。
损耗函数 λij=λ(αi/ωj)表示模式 X本来属于 ωj类错判为 ωi所受损失。因为这是错误判决,故损失最大。
风险 R(期望损失):对未知 x采取一个判决行动 α(x)所付出的代价(损耗)
条件风险(也叫条件期望损失):
条件风险只反映对某 x取值的决策行动 αi所带来的风险。期望风险则反映在整个特征空间不同的 x取值的决策行动所带来的平均风险。
最小风险 Bayes决策规则,
kiMik xxRxR 则若,m in,...,2,1
二类问题:把 x归于 ω1时风险:
把 x归于 ω2时风险:
作用。较大,决策损失起决定=因类风险大。因决策异常细胞因为条件风险:
概率:由上例中计算出的后验
,曲线上查的从类条件概率密度分布异常为概率为例:已知正常细胞先验
6
,)()(
81 8.0)()(
09 2.1)()()(
18 2.0)(,81 8.0)(
0,1,6,0
4.0)(,2.0)(
,1.0)(,9.0)(
12
121
1212
2
1
21211
21
22211211
21
xxRxR
xPxR
xPxPxR
xPxP
xPxP
PP
j
jj
ii
)()()(
)()()(
2221212
2121111
xPxPxR
xPxPxR
分类器。这时便得到最小错误率最大,最小,就相当于后验概率时时函数用最小风险分类规则:
)()(
)(1
)()()()()(
,1
,0
)(:10
)()()(
)()(
11
2
1
221211121
121
xPxR
xP
xPxPxPxR
ji
ji
xxP
xxRxR
ii
i
j
jj
ij
ijijj
M
i
i
ijjj
§ 4-5 Bayes分类的算法 (假定各类样本服从正态分布)
1.输入类数 M;特征数 n,待分样本数 m.
2.输入训练样本数 N和训练集资料矩阵 X(N× n)。并计算有关参数。
3.计算矩阵 y中各类的后验概率。
4.若按最小错误率原则分类,则可根据 3 的结果判定 y中各类样本的类别。
5.若按最小风险原则分类,则输入各值,并计算 y中各样本属于各类时的风险并判定各样本类别。
例 1、有训练集资料矩阵如下表所示,现已知,N=9,N1=5、
N2=4,n=2,M=2,试问,X=(0,0)T应属于哪一类?
解 1、假定二类协方差 矩阵不等( ∑1≠∑2) 则均值,
5
3,0)11011(
5
1
1211 XX
训练样本号 k 1 2 3 4 5 1 2 3 4
特征 x1
特征 x2
1 1 0 -1 -1 0 1 0 -1
0 1 1 1 0 -1 -2 -2 -2
类别 ω1 ω 2
方法)
的计算请看协方差协方差矩阵为
11
2221
1211
21
2221212111
(,
4
1
0
0
3
2
,
10
3
0
01
:.)
4
7
,0(,,)
5
3
,0(,
CC
CC
XXXXXX
T
T
T
T
计算方法同上)协方差矩阵为 (
4
1
0
0
3
2
,
10
3
0
01
10
3
)()(
4
1
0)()(
4
1
1)01()01()00()01()01(
4
1
)()(
15
1
21
12
2
5
1
12
222
2112
12
2
5
1
11
112
22222
11
1
5
1
11
111
T
k
k
k
T
k
k
k
k
k
T
k
xxxxC
CC
xxxxC
xxxxC
2 2 3.0
)(
)(
ln,
9
4
)(,
9
5
)(:
59.0ln,
6
1
,
10
3
,
40
0
2
3
,
3
10
0
01
2
1
21
2
1
21
1
2
1
1
P
P
PP先验概率
1
88.12
)5.13(
81.14
091.1018
3
2
2
1
0)(
)0,0(
091.10)()0,0(),(x,),(x
0
)(
)(
lnln
2
1
)xx()xx(
2
1
)xx()xx(
2
1
)()()(
2
2
2
2
2
1
2
2
2
2
1
1
2121
2
1
2
1
2
1
1
2
22
1
1
11
12
xx
xxxxg
X
xgxxxx
x
P
P
xgxgxg
T
TTT
TT
程:这是一个非线性椭圆方得分界线方程为:令类。属于所以判代入得:将利用公式:
1X
2X
1?
2?
待定样本
1?
1?
2?
1
1
两种解得分界线
62.0?
.61.0
068.2
11
47
)(
)0,0(x
068.2
)(
)(
ln)xxxx(
2
1
x)xx()(
2
2
1
2
1
1
2
1
211
1
1
12
所示为一直线,如图中虚线从而得分界线方程为类,判为故应把
x
xxg
P
P
xg
T
TT
T
1X
2X
1?
2?
待定样本
1?
1?
2?
1
1
两种解得分界线
得:所以代入 Tx 0,0
,
11
20
0
0
5
3
,
20
11
0
0
3
5
1
21
解 2,假定两类协方差矩阵相等 ∑=∑1+∑2
训练样本号 k 1 2 3 1 2 3 1 2 3
特征 x1 0 1 2 -2 -1 -2 0 1 -1
特征 x2 1 0 -1 1 0 -1 -1 -2 -2
类别 ω1 ω2 ω3
解 1,假定三类协方差不等;
例 2,有训练集资料矩阵如下表所示,现已知,N=9,N1=N2=3,n=2、
M=3,试问,未知样本 X=(0,0)T应属于哪一类?
321
321
3
1
0
01
10
0
3
1
,
10
01
:
)
3
5
,0(x)0,
3
5
(x,)0,1(x
,协方差矩阵为
,均值 TTT
30
01
10
03
10
01 1
3
1
2
1
1,,所以
6.3)()(,5.0)(
:0,0
2.7103
2
1
)(
2.7103
2
1
)(
12
2
1
)(
.lnln
2
1
2
1
,,
2
1
,)(
3
1
3
1
3
1
1
321
2
2
2
2
13
1
2
2
2
12
1
2
2
2
11
111
321
321
xgxgxg
X
xxxxg
xxxxg
xxxxg
PwwW
wxwxWxxg
PPP
T
iiii
T
iioiiiii
io
T
ii
T
i
代入得将所以其中代入多类判别函数先验概率
,,
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
06.252)()(
055)()(
01.36)()(
)()(),()(),()(
0,0
21
2
213
21
2
2
2
132
1
2
121
133221
1
xxxxgxg
xxxxxgxg
xxxgxg
xgxgxgxgxgxg
X
T
分别令类为故应判样品
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
可得三类分界线如图所示:
42
25
)()(,
14
3
)(
:0,0
42
25
7
5
)(
42
25
7
5
)(,
14
3
7
3
)(
)(:
7
3
0
0
7
3
,
3
7
0
0
3
7
321
23
1211
0
1
321
xgxgxg
X
xxg
xxgxxg
wxwxg
T
i
T
ii
代入得将所以代入多类时判别函数
解 2,设三类协方差矩阵相等
1?
2X
3?
2?
1X
待定样品
3
5?
3
5?
1
1x
3x
2x
21
8
7
5
7
3
)()(
7
5
7
5
)()(
21
8
7
8
)()(
)()(),()(),()(
0,0
2113
2132
121
133221
1
xxxgxg
xxxgxg
xxgxg
xgxgxgxgxgxg
X
T
分别令类为故应判样品
可得三类分界线如图所示:
作业,① 在下列条件下,求待定样本 x=(2,0)T的类别,画出分界线,编程上机。
1、二类协方差相等,2、二类协方差不等。
训练样本号 k 1 2 3 1 2 3
特征 x1 1 1 2 -1 -1 -2
特征 x2 1 0 -1 1 0 -1
类别 ω1 ω2
作业,② 有训练集资料矩阵如下表所示,现已知,N=9、
N1=N2= N3=3,n=2,M=3,试问,X=(-2,2)T应属于哪一类?
要求,用两种解法 a、三类协方差不等; b、三类协方差相等。
编程上机,画出三类的分界线。
训练样本号 k 1 2 3 1 2 3 1 2 3
特征 x1 0 2 1 -1 -2 -2 0 0 1
特征 x2 0 1 0 1 0 -1 -2 -1 -2
类别 ω1 ω2 ω3
为代定常数其中:
先定义一个辅助常数:要满足以上条件最小,使为常数时取聂曼-皮尔逊准则是在
,
如图所示:的错误率判为为的错误率判为为
T
dxxPTdxxPTr
dxxPdxxP
12
12
2121
1022
2211
122
211
,
,,
,
§ 4-6 在一类错误率固定使另一类错误率最小的判别准则 (聂曼 -皮尔逊判决 neyman-pearson)
)( 1?xP
)( 2?xP
1?
2X
1X
1?
2?
dxxPdxxP
xxT
xP
xP
xPxTP
r
dxxPxTPr
dxxPdxxP
21
1
12
22
111
2
1
121
1
12
11
1
),(
.,
1
1
同理:
类属于区域在即区域内应使在应使积分为负最小为变量,要使式中
,因为
.
)(
)(
.
(
)(
)(
,)()(1
2
1
2
1
22
2
1
21
1
T
xT
xP
xP
xT
xP
xP
dxxTPxPr
值皮尔逊规则归结为找阈得到判决准则根据两个不等式,我们区域)在
例,两类的模式分布为二维正态协方差矩阵为单位矩阵 ∑1=∑2=I,设 ε2= 0.09求聂曼皮尔逊准则 T.
解:
最小一定这时可确定,为常数时,的函数在取为的分界线作时当
12
2222
21
2
1
,)(
.,
)(
)(
TTdxxP
TT
xP
xP
T
TT 0,1,0,1 21
2
2
e x p
2
1
2
e x p
2
1
)(
2
1
e x p
2
1
2
e x p
2
1
)(
2
2
2
122
2
2
2
2
111
1
xxxx
xP
xxxx
xP
T
T
同理:
所以因为是两类正态
如图所示:
时为最小错误率小但大小大但小大如图所示:
的不同直线。判别边界是平行于对于不同式有了判别边界和判别形即判别式为:
判别边界为:
如右图所示
.1
,;,
,ln
2
1
2e x p
2e x p
2e x p
)(
)(
:
1212
2
2
1
1
2
1
1
1
1
2
1
T
TT
xT
xTx
xTx
xT
Tx
xP
xP
4 2 1
21 41
1?1?
1x
2x
1? 2?
345.0
7.0
345.0?
7.0?
所以此时聂曼 —— 皮尔逊分类器的分界线为:
2
1
1
1
3 4 5.0,69.02lnln
,ln
2
1
xxT
Tx
所以因为
由图可知为保证 ε2足够小,边界应向 ω1一侧靠,则 ε1↑
T与 ε2的关系表如右:
最小的判别规则。时使这就是在给定最小上式使此时判别式为:
由表查得给定
12
12
2
1
2
1
2
09.0,2
)(
)(
209.0
xT
xP
xP
T的关系表与 2?T
T 4 2 1
ε2 0.04 0.09 0.16 0.25 0.38
§ 4-7最大最小判别准则,前边的讨论都是假定先验概率不变,现在讨论在 P(ωi)变化时如何使 最大可能风险最小,先验概率
P(ω1)与风险 R间的变化关系如下:
.)(,
11
)(
121
222121112122111
2221222
1121
22221121
22121111
21
12
2
12
2
1
21
的线性函数就是被确定,风险一旦
,对二类情况有:
关系:与风险
PR
dxxPdxxPP
dxxPR
dxxPdxxPPP
dxxPPxPP
dxxPPxPP
dxxPxxRdxxPxxRdxxPxxRR
PR
i
12
2
22212111212211
2221222
1
dxxPdxxPb
dxxPa
bPaR
其中:
)( 1?xP
)( 2?xP
1?
2X
1X
1?
2?
这样,就得出最小风险与先验概率的关系曲线,如图所示:
讨论:
。使最大风险为不变,变化,则平行,与横坐标这时直线如图所示
,这时候最大风险为最小即无关与使如果选择关系为一条曲线与选择不同时,当关系为直线关系与区间固定时,当
a
:
0
.,0,3;,2;,,,1
11
2221222
22212111212211
121
121
1121
2
12
RPPR
dxxPaR
dxxPdxxP
PRb
PR
RPPR
1?P
R
固定21,
*R
A
选择不同21,
)( 1*?P
1?P
R *R
B
)( 1*?P
不变变化
R
P 1?
.
,,,
0
.0,,
2121
2112
2211
21
12
两类错误概率相等若选取损失为满足应该使边界所以在最大最小判别中
ePePdxxPdxxP
b
上式证明,所选的判别边界,使两类的概率相等:
ePeP 21?
这时可使最大可能的风险为最小,这时先验概率变化,其风险不变
§ 4-8 决策树 — 多峰情况
Bayes分类器只能适用于样本分布呈单峰情况,对多峰情况则不行。
若用决策树,可进行如下步骤分类
ExxFxxxx
Dxxxx
BxxCxxxx
Axxxx
xx
12121
2111
21121
1111
202
,5
),5(4
,3;,32
);4(),2(1
否则则若否则则转若否则则若否则则转若否则转则转若
2X
E FD
CA B
1X
2?
1?
1?
1? 2?
2?
12x
20x
11x
整个分类过程可用右图的树表示,
1、基本概念
( 1)决策树:二叉树。每个节点都是两类分类器。例如;节点 a上的决策规则为:
( 2)代价(损失)矩阵定义节点 L的代价为:
c
bxx?
202
202 xx? 202
xx?
111 xx? 111 xx?
121 xx?
121 xx?
111 xx?
121 xx?
121 xx?
A
BC
D
E F
a
b c
1?
j
1?
1?
2?
2?
2?
2、决策树的构造在构造决策树时,需要考虑以下问题:
1)、如何判断一节点是否为叶子。
如右图表示,假定 A,B,C,D,E,F
各包含 50个样本,并有以下的代价矩阵
对于节点 a,可以作出以下两个决策之一:
决策 1,a不再分割
决策 2,a分为两类
决策 1的代价为 A1( a) =Ca ─节点 a的代价
决策 2的代价为 A2( a) =α( Cb+Cc) ─节点 b,c的代价和
其中,α为一经验因子,用以防止无限分割下去上各类样本混淆程度表示在节点类的损失,
误判为类原属于类样本数表示属于类样本数表示属于其中:
LC
rr
rrC
Li
jijjjLiiL
i j
ijjLiLL
,,,
202 xx? 202
xx?
111 xx? 111 xx?
121 xx?
121 xx?
111 xx?
121 xx?
121 xx?
A
BC
D
E F
a
b c
1?
j
1?
1?
2?
2?
2?
010 1002221 1211
只要经验因子 α≤2.25,便有 A2(a) ≤A1(a),因此取决策 2的代价较小,故应把 α分为两类。
一般地决策代价为:
2)、选择节点的分割方式:
a、根据经验确定。例如,全部样本分为三类,其代价矩阵为
2 00 00 0
4 50 00 0101 501 50101 501 50
2
1
2
1
2
1
2
1
21121221
2
1
2
1
i j
ijjcic
i j
ijjbibcb
aaaa
i j
ijjaiaa
rrrrCC
rrrrrrC
=+
分为两类不再分割树叶决策分类公式:
,分为两类,
不再分割
LLALA
PCC
PC
LA
RR
L
P
12
21 2
1,
L
1R 2R
05060
50010
60100
333231
232221
131211
b、根据对样本分布的了解试探确定。如右图所示,将 a划分为 b,c的方式有两种
c、根据聚类结果来划分。
3)、如何确定各节点分类器。
原则:
①、分类器应尽量简单,因此,多采用线性分类器,
②、尽量减小分类时所使用的特征,选用最有效的特征进行分类
2X
E FD
CA B
1X
2?
1?
1?
1? 2?
2?
12x
20x
11x
。原则划分作为另一类。根据这一类,而合为一,,所以
,,因为
L
3
212332
31132112
50
6010
。,取代价小的一种方式再计算二种方式的代价
FECBcDAb
FEDcCBAb
,,,,,:)2(
,,,,,:)1(
§ 4-9 序贯分类
迄今为止所讨论的分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。
假设对样品进行第 i 次观察获取一序列特征为,X=(x1,x2,…,xi)T 则对于 ω1,ω2两类问题,
若 X ∈ ω1,则判决完毕
若 X∈ ω2,则判决完毕
若 X不属 ω1也不属 ω2,则不能判决,进行第 i+1次观察,得
X=(x1,x2,…,xi,,x i+1)T,再重复上面的判决,直到所有的样品分类完毕为止。
这样做的好处是使那些在二类边界附近的样本不会因某种偶然的微小变化而误判,当然这是以多次观察为代价的。
:
),...,,(
)(
)(
)(
)(
)(
1
21
2
1
1
2
2
1
时可计算其似然比当测得第一个特征参数其中,特征矢量
x
xxxX
X
P
P
XP
XP
xl
T
N
i
)(
)(
)(
)()(
21
11
21
11
11?
xP
xP
xP
xPxl
由最小错误概率的 Bayes 判决,对于两类问题,似然比为
)(
)(
)(
,)(
,)(
,)(
221
121
212
211
2111
1111
xxP
xxP
xxl
xAxlB
xXBxl
xXAxl
,
,
,
并计算似然比则测量下一个特征参数如果则如果则如果
现在来确定 A,B的值。
因为是上下门限),(其中止样品的类别全部确定为所有,为重复以上过程直到,再测第三个特征参数,若
,则,若
,则,若
BA
xAxxlB
xxXBxxl
xxXAxxl
T
T
.
)(
)(,)(
)(,)(
3212
221212
121212
类的概率。判决为类而属于,左边的积分代表模式得:的特征空间内取积分可对上式两边对应于次测量表示第
1
121
1
21
2
1
11
)()(
)()(
,
)(
)(
)(
dXXPAdXXP
XAPXP
NNA
XP
XP
xl
NN
NN
N
N
N
2
2
1
1
2
1
2
1
21
21
11
2
1
2
1
21
12
22
211
11
)(1
)(
)(
)(1
)(1
)(
) ),(1()(
)()(
)()(,
)(
)(
)(
)(
)(1
)()(1
)()(
)(
)(1)(
22
1
1
X
eP
eP
B
X
eP
eP
A
eP
eP
BePBeP
dXXPBdXXP
XBPXPB
XP
XP
xl
eP
eP
AeAPeP
ePdXXP
eP
ePdXXP
NN
NN
N
N
N
N
N
用错误概率表示为即所以同理,因为或类的分类误差概率类而错判为为本来属于而积分类的分类误差概率类而错判为表示本来属于即:
)()(1
2
1 ePePA)(1)(
2
1 ePePB
继续观察区区判决 1X区判决 2X
序贯分类决策规则:
上下门限 A,B是由设计给定的错误概率 P1(e),P2(e)
来确定的,Wald 已证明,观察次数不会很大,它收敛的很快。
时,继续观察时时
A
XP
XP
B
X
eP
eP
B
XP
XP
X
eP
eP
A
XP
XP
i
i
i
i
i
i
)(
)(
)(1
)(
)(
)(
)(
)(1
)(
)(
2
1
2
2
1
2
1
1
2
1
2
1