第二章 Bayes决策理论
? 2.0 引言
? 2.1 基于最小错误率的 Bayes决策
? 2.2 基于最小风险的 Bayes决策
? 2.3 正态分布的最小错误率 Bayes决策
? 2.4 说明
2.0 引言
2.0 引言
? 统计决策理论 ——根据每一类总体的概率分布决定决策边界
? Bayes决策理论是统计决策理论的基本方法
? 每一类出现的先验概率
? 类条件概率密度
2.0 引言
? 例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。
? 两类的识别问题。
? 根据医学知识和以往的经验医生知道:
2.0 引言
? 患病的人,白细胞的浓度服从均值 2000,方差 1000的正态分布;未患病的人,白细胞的浓度服从均值 7000,
方差 3000的正态分布;
? 一般人群中,患病的人数比例为 0.5%。
? 一个人的白细胞浓度是 3100,医生应该做出怎样的判断?
2.0 引言
? 数学表示:
用表 示“类别,这一随机变量,
表示患病,表示不患病; 表示
“白细胞浓度,这个随机变量,表示浓度值。
1
ω
2
ω
X
x
2.0 引言
? 例子中,医生掌握的知识非常充分,他知道:
? 类别的 先验 分布:
先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布;
%5.0)(
1
==? ωP
%5.99)(
2
==? ωP
2.0 引言
? 观测数据白细胞浓度分别在两种情况下的类条件分布:
? 已知先验分布和观测值的类条件分布,
Bayes决策理论是最优的。
).1000,2000(~)|(
1
NXp ω=?
).3000,7000(~)|(
2
NXp ω=?
2.0 引言
? 决策的概念:
决策是从样本空间,到决策空间的一个映射,
对于刚才的例子,样本空间就是白细胞浓度的取值范围,决策空间
.,Θ→SD
S Θ
},{
21
ωω=Θ
2.0 引言
? 评价决策有多种标准,对于同一个问题,
采用不同的标准会得到不同意义下,最优,
的决策。
? Bayes决策是所有识别方法的一个基准
( Benchmark)。
? Bayes决策两种常用的准则:
? 最小错误率;
? 最小风险。
2.1 基于最小错误率的 Bayes决策
2.1 基于最小错误率的 Bayes决策
? 决策的错误率 最小。)(eP
? 错误率与条件错误率,
)|( xeP
)).|((
)()|(
),()(
xePE
dxxpxeP
dxxePeP
=
=
=


错误率是条件错误率的数学期望!
2.1 基于最小错误率的 Bayes决策
? 条件错误率 的计算:
? 以两类问题为例,当获得观测值 后,有两种决策可能:决定,或者条件错误率为:
)|( xeP
x
1
ω∈x,
2
ω∈x
∈?=
∈?=
=
221
112
)|(1)|(
)|(1)|(
)|(
ωωω
ωωω
xxPxP
xxPxP
xeP
若决定若决定
2.1 基于最小错误率的 Bayes决策
? Bayes最小错误率决策:
? 选择后验概率 中大的 作 为决策,使得在观测值 下 的条件错误率最小。
? 条件错误率:
? 错误率:
),|(
1
xP ω )|(
2
xP ω
x
).|(maxarg)( xPxD
i
i
ω=
ω
).|(max1)|( xPxeP
i
i
ω?=
)).|(()( xePEeP =
)|(
1
ωxp
x
)|(
2
ωxp
)|(
1
xp ω
)|(
2
xp ω
x
0.0
0.2
0.4
0.6
0.8
1.0
类条件概率密度函数后验概率
)()|(
11
ωω pxp
)()|(
22
ωω pxp
1
2
)()(
11
ωpep)()(
22
ωpep
)()()()(
)()|()()|(
),(),()(
1122
112221
1221
eppepp
pxppxp
xpxpep
ωω
ωωωω
ωω
+=
∈+?∈==
∈+?∈=
2.1 基于最小错误率的 Bayes决策
? Bayes最小错误率决策不仅保证了错误率
(条件错误率的期望)最小,而且保证每个观测值下的条件错误率最小,Bayes
决策是 一致 最优决策。
2.1 基于最小错误率的 Bayes决策
? 多类识别问题的 Bayes最小错误率决策:
? 在观测值 下的每个决策的条件错误率为:
? 决策为:
x
ii
xxPxeP ωω ∈?= 若决定)|(1)|(
).|(maxarg)( xPxD
i
i
ω=
2.1 基于最小错误率的 Bayes决策
? 后验概率 的计算:
? Bayes公式:
?,先验概率;,类条件概率密度。
)|( xP
i
ω
)(
i
P ω )|(
i
xp ω
.
)()|(
)()|(
)(
)()|(
)|(

=
=
i
ii
ii
ii
i
Pxp
Pxp
xp
Pxp
xP
ωω
ωω
ωω
ω
2.1 基于最小错误率的 Bayes决策
? 对数域中计算,变乘为加:
? 比较大小不需要计算,
)(xp
).(ln)|(ln))()|(ln(
iiii
PxpPxp ωωωω +=
.
)(
)()|(
)|(
xp
Pxp
xP
ii
i
ωω
ω =
2.2 基于最小风险的 Bayes决策
2.2 基于最小风险的 Bayes决策
? 决策的风险:
? 以医生根据白细胞浓度判断一个人是否患血液病为例:
? 没病被判为有病,还可以做进一步检查,损失不大;
? 有病被判为无病,损失严重。
? 做决策要考虑决策可能引起的损失。
2.2 基于最小风险的 Bayes决策
? 损失的定义,(N类问题 )
? 做出决策,但实际上 受到的损失:
? 损失矩阵:
)|)((
,jiji
xD ωωλλ ==
i
xD ω=)(
j
x ω∈
.,,2,1,Nji L=
NNji *,
)(λ
2.2 基于最小风险的 Bayes决策
? N类问题:
*
()
NN
λ
i,j
11 12 13 14 1
21 22 2
n
n
λλ λ

L
O
表示当我们给出的决策为 i类,而真实类别为 j时的损失值。
(1)1 (1)
12
ij
nnn
nn n
λλλλ λ
λ
λλ
λλ λ




L
MM
L
2.2 基于最小风险的 Bayes决策
? 基于最小风险的 Bayes决策:
? 决策带来的损失的平均值 — 风险最小。
? 平均的两重含义:
? 获得观测值 后,决策 造成的损失对 实际所属类别的各种可能的平均,称为条件风险:
x
)(xD
x
.)|()|)(()|)((

=
i
ii
xPxDxxDR ωωλ
2.2基于最小风险的 Bayes决策
? 条件风险对观测值 的数学期望,称为风险:
x
? Bayes最小风险决策通过保证每个观测值下的条件风险最小,使得它的数学期望 —
风险最小,是一致最优决策。
.)()|)((
))|)((())((

=
=
dxxpxxDR
xxDRExDR
2.2 基于最小风险的 Bayes决策
? 最小风险决策的计算:
? 给定损失矩阵,算出每个决策的条件风险,
取最小的。
? 某些特殊问题,存在简单的解析表达式。
.)|()|)((minarg
)|)((minarg)(

=
=
i
ii
D
D
xPxD
xxDRxD
ωωλ
2.2 基于最小风险的 Bayes决策
? 例:两类问题的最小风险 Bayes决策:
),|()|()|)((
2121111
xPxPxxDR ωλωλω +==
).|()|()|)((
2221212
xPxPxxDR ωλωλω +==
).|()()|()(
22212
2
1
11121
xPxP ωλλ
ω
ω
ωλλ?
<
>
2.2 基于最小风险的 Bayes决策用 Bayes公式展开:
.
)()(
)()(
)|(
)|(
)(
)(
11121
22212
2
1
2
1
>
=
=
其它若
ωλλ
ωλλ
ω
ω
ω
ω
P
P
xp
xp
xD
xD
2.2 基于最小风险的 Bayes决策
? 基于最小错误率的 Bayes决策也可以看作最小风险 Bayes决策的一种特殊情形。只需要定义损失为:
决策正确时,损失为 0;错误时为 1。
).,(1
,
ji
ji
δλ?=
.,,2,1,Nji L=
.
0
1
),(

=
=
ji
ji
jiδ
基于最小风险的 Bayes决策
? 根据前面的定义,条件风险:
(()|) (() | )( |)
ij j
j
R Dx x Dx P xλωωω==

(1 (,)) ( | )
j
j
ijP xδω=?

( | )
1(| )
j
ji
i
Px
Px
ω
ω

=
=?

基于最小风险的 Bayes决策
? 则前面的决策函数上式与基于最小错误率的决策函数是一致的所以在前述风险函数定义下,两种决策方法是统一的
() arg min ( ( ) | )
D
D xRDx=
arg min(1 ( | ))
i
D
Pxω=?
arg max ( | )
i
D
P xω=
2.3 正态分布的最小错误率
Bayes决策
2.3 正态分布的最小错误率 Bayes决策
? 观测值与观测向量:
前面的例子中,观测值 是一维的,是随机变量。实际应用中,可以同时观测多个值,用向量表示:
相应地,是多元随机变量,或称随机矢量:
x
X
.),,,(
21 Td
xxxx L=
X
.),,,(
21 Td
XXXX L=
2.3 正态分布的最小错误率 Bayes决策
? Bayes决策中,类条件概率密度的选择:
? 模型合理性;
? 计算复杂性。
? 常用概率密度模型:正态分布。
2.3 正态分布的最小错误率 Bayes决策
? 正态分布:
? 一元正态分布:
}.
2
)(
exp{
2
1
)(
2
2
σ
μ
σπ
=
x
xp
2.3 正态分布的最小错误率 Bayes决策
? 多元正态分布:
)}.()(
2
1
exp{
)2(
1
)(
1
2/1
2/
μμ
π


=
xxxp
T
d
.),,,(
21 Td
xxxx L=
.),,,(
21 Td
μμμμ L=
.)(
*ddij
σ=∑
2.3 正态分布的最小错误率 Bayes决策
? 选择正态模型的考虑:
? 模型的合理性:
观测值通常是很多种因素共同作用的结果,根据中心极限定理,服从正态分布。
? 计算复杂性:
计算、分析最为简单的模型。
2.3 正态分布的最小错误率 Bayes决策
? 观测向量的类条件分布服从正态分布:
).,(~)|(
iii
NXp ∑μω
.)(lnln
2
1
)()(
2
1
))()|(ln()|(ln
1
constP
xx
constPxpxp
ii
ii
T
i
iii
++∑?
∑=
+=
ω
μμ
ωωω
2.3 正态分布的最小错误率 Bayes决策
? 两类问题正态模型的决策面:
? 决策面方程:
? 两类的协方差矩阵不等,决策面是二次曲面,
协方差矩阵相等,决策面是超平面。
)).()|(ln())()|(ln(
2211
ωωωω PxpPxp =
.0)()(
2
1
2
1
21
1
1
1
2
1
1
=+∑?∑?∑?∑

constxxx
TT
μμ
正态分布等协方差 决策面
1
μ
2
μ
1
2
1
x
2
x
正态分布且
2121
),()( Σ=Σ= ωω PP 时的决策面正态分布下的几种决策面的形式
1
2
1
2
1
1
2
2 1
1
2
2
2
2
2
1
1
2
2
2
1
1
(b) 椭圆
(c) 抛物线
(d) 双曲线
(a) 圆
1
(e) 直线
2.4 说明
2.4 说明
? Bayes决策所需的条件是最多的,必须知道各类先验概率和观测量的类条件概率密度。实际工作中,在决策之前必须解决概率密度的估计问题。
参考文献
? [1]Richard O,Duda,Peter E,Hart,David G,Stork,
Pattern Classification,2
nd
Edition,John Wiley & Sons,Inc,
2001.
? [2],模式识别》,边肇祺,张学工等编著,清华大学出版社,2000年 1月第 2版,