第四章 统计分类器
4.1 概率论基本知识
? 确定事件:概念是确定的,发生也是确
定的;
? 随机事件:概念是确定的,发生是不确
定的;
? 模糊事件:概念本身就不确定。
随机变量
? 随机变量:随机事件的数量表示;
? 离散随机变量:取值为离散的随机变
量 ;
? 连续随机变量:取值为连续的随机变
量 ;
频率和概率
? 频率:试验在相同的条件下重复 N次,
其中 M次事件 A发生,则 A发生的频率
为,fN(A) = M / N;
? 概率:当 N很大时,频率会趋向一个稳
定值,称为 A的概率:
? ? ? ?li m NNP A f A???
联合概率和条件概率
? 联合概率,设 A,B是两个随机事件,A
和 B同时发生的概率称为联合概率,记
为,P(A,B);
? 条件概率,在 B事件发生的条件下,A
事件发生的概率称为条件概率,记为:
P(A|B);
? 乘法定理, P(A|B) = P(A,B) / P(B)。
概率密度函数
? 概率分布函数,设 X为连续型随机变量,
定义分布函数; F(x) = P(X≤x);
? 概率密度函数,如果存在一个非负函
数 p(x)使得下式成立,则 p(x)称为的概
率密度函数:
? ? ? ?xF x p t d t??? ?
? ? ? ?F x p x? ? ? ? ? ?P X x p x d x??
全概公式
? 互不相容事件,如果试验时,若干个
随机事件中任何两个事件都不可能同时
发生,则称它们是互不相容的。
? 全概公式,若事件只能与两两不相容的
事件 A1,A2,…,A N之一同时发生,则有:
? ? ? ? ? ?
1
N
ii
i
P B P A P B A
?
? ?
贝叶斯公式
? 离散形式,A,B为离散随机变量:
? ? ? ? ? ?? ?P B A P AP A B PB?
? 连续形式,A为离散随机变量,B为连
续随机变量:
? ? ? ? ? ?? ?p B A P AP A B pB?
概率分类器的问题提出
? 已知,M个类别的先验概率 P(Ωi),类
条件概率 P(X| Ωi);
? 对 类别未知样本 X进行分类。
最小错误率准则
? 寻找一个类别 i,使得 Pi(e)最小;
? 等价于后验概率 P(Ωi|X)最大。
? 将 X分类为 Ωi类所产生的误判概率为:
? ? ? ? ? ? ? ? ? ?
11
1
MM
i j j i i
jj
ji
P e P P P P
??
?
? ? ? ? ? ? ? ? ??? X X X X
两类问题的最小错误率
贝叶斯分类器的判别准则
? ? ? ? ? ?? ?iii PPP P???? XX X
? ? ? ? ? ?i i id P P? ? ?XX
? ?0 1a r g m a x iiMid??? X 0i??X
Bayes判别准则:
,则
两类问题的 Bayes判别
? 似然比:
? ? ? ?? ?112
2
P
l
P
?
?
?
X
X
X
? 阈值:
? ?
? ?
2
21
1
P
P
?
?
?
?
两类问题的 Bayes判别
? 判别准则:
? ?
? ?
12 21 1
12 21 2
,
,
l
l
?
?
? ? ???
?
? ? ???
XX
XX
贝叶斯分类器的错误率估计
? ? ? ? ? ? ? ? ? ?1 1 2 2t tP e p x P d x p x P d x???? ? ? ? ? ???
4.3 最小平均风险准则贝叶斯
分类器
?问题的提出
有 M个类别 ?1,?2,...,?M,将 ?i类的样本判
别为 ?j类 的代价为 Lij。
?将未知模式 X判别为 ?j类 的平均风险为:
? ? ? ?
1
M
j ij i
i
LP?
?
???XX
最小平均风险判别准则
? 利用 Bayes公式,构造判别函数:
? ? ? ?jjd ???XX
? ? ? ? ? ?
1
M
j ij i i
i
L P P?
?
? ? ??XX
两类问题的判别准则
? 定义似然比:
? ? ? ?? ?112
2
P
l
P
?
?
?
X
X
X
? 定义阈值:
? ?
? ?
? ?
? ?
2 2 1 2 2
21
1 1 2 1 1
P L L
P L L
?
??
??
??
4.4 贝叶斯分类器的学习
? 先验概率 P(Ωi)一般可以根据经验得到;
? 贝叶斯分类器的学习问题就是如何通过
训练样本集来得到类条件概率:
P(X| Ωi)
高斯模型 (Gaussian Model)
? ? ? ? ? ? ? ?112211 e x p 2
2
T
i i i iN
i
pC
C?
???? ? ? ? ?
????X X m X m
高斯模型的参数估计
? 均值矢量:
? ?iiE?mX ? ?
1
1 iN i
ij
jiN ?
? ?mX
? 协方差矩阵:
? ? ? ? ? ?T TTi i i i i i iC E E??? ? ? ? ???X m X m X X m m
? ?? ? ? ?? ? ? ? ? ?? ?
11
11iiNN TTi i i i T
i j i j i j j i i
jjii
C NN
??
??? ? ? ? ?
??????X m X m X X m m
混合高斯模型
(Mixed Gaussian Model,GMM)
? ? ? ? ? ? ? ?? ?
1
K
i i i
i j j j
j
p a N
?
?? ?X m,C
N(m,C)表示一个高斯分布。
其中:
? ?
1
1
K
i
j
j
a
?
??
两个高斯函数混合
? ? ? ?0, 7 1 0,2 0, 3 ( 5,3 )p x N N? ? ?
GMM的训练
? K值要预先确定;
? 需要训练的参数,aj,mj,Cj;
? 训练算法一般采用 EM迭代算法。
Expectation Maximization Algorithm
隐含 Markov模型
(Hidden Markov Model,HMM)
观察序列
? 信号的特征需要用一个特征矢量的序列
来表示:
12,,,TO ? O O OL
? 其中的 Oi为一个特征矢量,称为一个观
察值。
HMM的结构
? HMM由若干个隐状态构成,隐状态之
间可以进行转移,是一个 Markov过程。
? 隐状态是不可见的,每一个隐状态在每
一个时刻可以输出任何观察值,但输出
的概率不同。
“左 -右,模型结构
1 2 3
HMM的数学表示
? 状态转移矩阵,A,M*M的方阵;
? 状态输出概率密度,B,包括 M个概率
密度函数;
? 初始概率,π,包括 M个元素。
M维模型的状态数。
? ?,,? ? AB π
HMM的识别
? 计算出模型 λ输出待识模式观察序列 O
的概率:
? ?PO ?
? 计算量大,MT;
? Viterbi算法,M2T。
HMM模型的训练
? 已知一组训练样本的观察序列,O(1),
O(2),…, O(N),求模型:
? ?,,? ? AB π
使得模型输出全部训练样本的总概率最
大。
? 训练一般采用 Baum-Welch迭代算法。
带跨越的“左 -右”结构 HMM
模型
1 2 3 4
全连接的 HMM模型
1 2
3 4