1
第三章概率密度估计
? 3.0 引言
? 3.1 参数估计
? 3.2 非参数估计
? 3.3 说明
2
3.0引言
3
3.0引言
?进行Bayes决策需要事先知道两种知识:
?各类的先验概率;
?观测向量的类条件概率密度。
?知识的获取(估计):
?一些训练数据;
?对问题的一般性的认识。
4
3.0引言
?类的先验概率的估计(较容易):
?依靠经验;
?用训练数据中各类出现的频率估计。
?用频率估计概率的优点:
?无偏性;
?相合性;
?收敛速度快。
5
3.0引言
?类条件概率密度的估计(非常难):
?概率密度函数包含了一个随机变量的全部信息;
?概率密度函数可以是满足下面条件的任何函数:
.1)(

=dxxp
,0)( ≥xp
6
3.0引言
?概率密度估计的两种主要思路:
?参数估计:
根据对问题的一般性的认识,假设随机变量服从某种分布,分布函数的参数通过训练数据来估计。
?非参数估计:
不用模型,而只利用训练数据本身对概率密度做估计。
7
3.1参数估计
8
3.1参数估计
?估计随机变量的概率密度:
?给定某类训练数据—样本
?假设已知所服从的分布形式,待估计的参数为。例如,假定服从正态分布,
待估参数是
X
,,,,
21 n
xxxL
,
d
i
x?∈
X
θ
X
),( ∑μN
).,( ∑= μθ
9
3.1参数估计
?最大似然估计(Maximum Likelihood):
?把待估计的参数看作“数”,与后面将要讲到的Bayes估计中把看作随机变量有区别。
?为了描述概率密度函数与参数的依赖关系,用表示。
θ
θ
)(xp θ
);( θxp
10
3.1参数估计
?似然函数:
?对数似然函数:
?最大似然估计量:

=
n
i
i
xp
1
);( θ

=
n
i
i
xp
1
);(ln θ
ML
θ

=
=
n
i
iML
xp
1
);(lnmaxarg
θθ
θ
等价
11
3.1参数估计
?似然函数给出了从总体样本中抽出n个样本的概率。
?假设样本是独立抽取的,并且不同类别的参数是相互独立的。
?最大似然估计就是根据已经抽取的n个样本,来估计这组样本“最可能”
来自哪个密度函数。(“最似”哪个密度函数)
n
xxx,,,
21
L
n
xxx,,,
21
L
12
最大似然估计示意图
θ
θ
);( θxp
θ
θ
);(ln θxp
13
3.1参数估计
?参数求解:必要条件是梯度为0。
0));(ln(
1
=?

=
n
i
i
xp θ
θ
14
3.1参数估计
?正态分布假设下的最大似然参数估计:
))()(
2
1
exp(
)2(
1
),;(
1
2/
2/
μμ
π
μ


=

i
T
i
d
d
i
xx
xp
15
3.1参数估计
?似然函数:
.)()(
2
1
))2ln((
2
),;(ln
1
1
1


=
=
∑∑?=

n
i
i
T
i
d
n
i
i
xx
n
xp
μμπ
μ
16
3.1参数估计
?均值估计:
μ
).()),;(ln(
1
1
1
μμ
μ ∑∑
=
=
∑=∑?
n
i
i
n
i
i
xxp
.0)
(
1
1
=?∑

=
ML
n
i
iML
x μ
.
1
1

=
==
n
i
iML
xx
n
μ

均值的最大似然估计与无关!
17
3.1参数估计
?协方差矩阵的估计:
?对矩阵求导:
是矩阵,是的函数。

.)(
)(
nm
ij
a
f
A
Af
×
=
nmij
aA
×
= )(
f A
18
3.1参数估计
?几个矩阵求导的公式,是矩阵:
BA,
)).()((
)(
1111
1

+?=
BAAdiagABBA
A
BAtr
T
).(2
ln
11
=
AdiagA
A
A
19
3.1参数估计
.))((
1

=

n
i
T
ii
xx μμ

)).(2(
2
1
)2(
2
)),;(ln(
1111
11
1


=

∑Τ∑?∑Τ∑+
∑?∑?=
∑?

diag
diag
n
xp
n
i
i
μ
20
3.1参数估计
0));(ln(
1
=?

=

n
i
i
xp θ
.)
)(
(
1
1

=
=∑
n
i
T
MLiMLiML
xx
n
μμ
ML
μ
协方差矩阵的最大似然估计与有关!
21
3.1参数估计
?协方差矩阵的最大似然估计是有偏估计:
?无偏估计:
.
1
)))((
1
(
1
∑≠

=


=
n
n
xxxx
n
E
n
i
T
ii
.))((
1
1
1

=

n
i
T
ii
xxxx
n
22
3.1参数估计
?最大后验概率估计(MAP)—maximum
a posteriori.
?把待估计的参数看作随机变量,希望使后验概率最大。
表示训练数据
θ
)|(maxarg
Xp
MAP
θθ
θ
=
X
.,,,
21 n
xxxL
23
3.1参数估计
?利用Bayes公式:
分母中的与参数估计无关,MAP估计化为:
.
)(
)()|(
)|(
Xp
pXp
Xp
θθ
θ =
)(Xp
).()|(maxarg
θθθ
θ
pXp
MAP
=
24
3.1参数估计
?是参数作为随机变量的先验概率密度函数,一般根据经验确定。
? MAP估计的求解:
)(θp
).(ln)|(lnmaxarg
)()|(maxarg
1
θθ
θθθ
θ
θ
pxp
pXp
n
i
i
MAP
+=
=

=
0))(ln)|(ln(
1
=+?

=
θθ
θ
pxp
n
i
i
25
3.1参数估计
?正态分布假设下的最大后验概率估计:
样本服从正态分布,
只有均值向量未知。
?假设均值向量服从正态分布
?表示我们根据先验知识对的最好的推测,表示这个推测的不确定性。
μ
n
xxx,,,
21
L
),(
2
σμN
),(
2
00
σμN
0
μ
μ
2
0
σ
μ
26
3.1参数估计
? MAP估计:
0)(
1
)(
1
0
2
1
2
=

=
μμ
σ
μ
σ
μ
i
n
i
x
2
2
1
2
2
0
1
σ
σ
σ
σ
μ
μ
μ
μ
n
x
n
i
i
MAP
+
+
=

=
.0))(ln)|(ln(
1
=+?

=
μμ
μ
pxp
n
i
i
27
3.1参数估计
? Bayes(MAP)估计与ML估计的关系:
?当样本数趋于无穷时,MAP估计一般趋向于ML
估计。
? ML估计也可以看作参数的先验概率密度函数服从均匀分布(相当于没有先验知识)的MAP估计。
?当参数的先验概率密度函数比较准确时,MAP
估计的小样本性质大大优于ML估计。
28
3.1参数估计
?参数估计中的模型选择问题:
?实际工作中处理的大都是高维数据:。
10≥d
?统计学中经典的多元(高维)分布很少,研究的最详尽的是多元正态分布。
?近几十年的研究发现,实际所处理的高维数据几乎都不服从正态分布。
?通过增加模型的复杂程度(参数的个数),
如正态模型的线性组合—高斯混合模型,
试图“逼近”真实的分布,出现了过拟合问题。
29
3.2非参数估计
30
3.2非参数估计
?与参数估计需要事先假定一种分布函数不同,非参数估计不做任何模型假设。
?两种主要方法:
?直方图法;
?核方法。
31
3.2非参数估计
?直方图法:
?用直方图逼近概率密度函数。
?高维空间由于数据稀疏,很难应用。
)(xp
32
3.2非参数估计
?核方法:
?用某种核函数的线性组合估计概率密度。
?模式识别中常用的两种方法:
Parzen窗法;
-近邻法。
n
k
33
3.2非参数估计
?两种常用的核函数:
?均匀核:
=≤
=
.0
.,,2,12/1||1
)(
其它
dix
xk
i
L
1/2
-1/2
dd
xxxx?∈= ),,,(
21
L
34
3.2非参数估计
?正态(高斯)核:
).
2
exp(
2
1
)(
2
x
xk?=
π
35
3.2非参数估计
?核函数要满足概率密度函数的条件。
.1)(

=
d
dxxk
36
3.2非参数估计
? Parzen窗法:
把核函数看作“窗”,根据样本是控制“窗”宽度的参数,根据样本的数量选择。

=
=
n
i
n
i
d
n
n
h
xx
k
nh
xp
1
).(
1
)(
,,,,
21 n
xxxL
n
h
37
3.2非参数估计是以为中心,宽的窗。
满足归一化条件:
)(
1
n
i
d
n
h
xx
k
h
i
x
n
h

=
d
dx
h
xx
k
h
n
i
d
n
1)(
1
38
3.2非参数估计
? Parzen窗的例子:
39
3.2非参数估计
?窗宽的选择:
?保证依概率渐进收敛到真实的概率密度:
收敛的充要条件:
).().()(
xpxpxp
P
n
任何?→?
.0lim =
∞→
n
n
h
n
h
.lim ∞=
∞→
d
n
n
nh
40
3.2非参数估计
?样本有限—均方误差最小(MSE)准则,但
?维数灾难(Curse of Dimensionality):
当维数较高时,样本数量无法达到精确估计的要求。
).(~)))()(
((
4
4
2
+
d
n
nOxpxpEMSE
41
3.2非参数估计
?不同维数达到相同估计精度所需的样本数:
0.150
0.1103162
0.15178
0.1232
0.1116
dn
4
4
+
d
n
13
103×
42
3.2非参数估计
?不同窗宽的估计效果:
43
3.2非参数估计
?均匀核函数Parzen窗估计的几何意义:
点处概率密度=
x
总样本数样本数为边长的超立方体内的为中心,以
n
hx 2
44
3.2非参数估计
? —近邻估计:
?均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。
? —近邻估计:把窗扩大到刚好覆盖个点。
落在窗内的样本点的数目固定,窗宽是变化的。
?根据样本总数选择。
n
k
n
k
n
k
n
k
n
45
3.2非参数估计
?概率密度估计表达式:
点处窗的“体积”是:
.
1
)(
n
k
V
xp
n
n
n
=
x
n
V
46
3.2非参数估计
?一个—近邻估计例子
n
k
1
2
4
3
47
3.2非参数估计
?的选择:
n
k
渐进收敛容易保证;
有限样本性质、最小平方误差与Parzen窗几乎相同。
48
3.3 说明
49
3.3说明
?高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。
?概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。
?进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。
?先估计概率密度,再进行分类,可能走了“弯路”。
50
参考文献
[1] Richard O,Duda,Peter E,Hart,David G,Stork,
Pattern Classification,2
nd
Edition,John Wiley & Sons,Inc,
2001.
关于模式识别中矩阵微分的常用公式可参看[2]的附录:
[2] K,Fukunaga,Introduction to Statistical Pattern
Recognition,2
nd
Edition,Academic Press,1990.
非参数估计的理论性较强的的教材是[3]:
[3] L,Devroye,Nonparametric density estimation,the
L1 view,New York,Wiley,c1985.