第五章 参数估计与非参数估计
参数估计与监督学习
参数估计理论
非参数估计理论
§ 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率,条件概率或后验概概率 P(ωi),P(x/ωi),P(ωi /x)就可以设计分类器了 。 现在来研究如何用已知训练样本的信息去估计 P(ωi),P(x/ωi),
P(ωi /x)
一,参数估计与非参数估计参数估计,先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数 。
非参数估计,不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型 。
二,监督学习与无监督学习监督学习,在已知类别样本指导下的学习和训练,
参数估计和非参数估计都属于监督学习 。
无监督学习,不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。
§ 5-2参数估计理论一,最大似然估计假定:
① 待估参数 θ是确定的未知量
② 按类别把样本分成 M类 X1,X2,X3,… XM
其中第 i类的样本共 N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 (i≠j)的信息,所以可以对每一类样本独立进行处理 。
④ 第 i类的待估参数根据以上四条假定,我们下边就可以只利用第 i类学习样本来估计第 i类的概率密度,其它类的概率密度由其它类的学习样本来估计 。
),...,( 21 n Ti?
j
1.一般原则:
第 i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒ θi) = P(Xi/θi)
原属于 i类的学习样本为 Xi=(X1,X2,… XN,)T i=1,2,… M
求 θi的最大似然估计就是把 P(Xi/θi)看成 θi的函数,求出使它最大时的 θi值 。
∵ 学习样本独立从总体样本集中抽取的
∴
N个学习样本出现概率的乘积取对数,
N
k
iX kPiXPiiXP ii
1
)|()|().|(
N
k
i
k
i
k
N
k
XPXP
11
)|(l o g)|(l o g
对 θi求导,并令它为 0:
有时上式是多解的,上图有 5个解,只有一个解最大即,
0)|(lo g..,
1
1
N
k
i
k
p
XP?
0)|(lo g
..,.,.,,.
..,.,.,,.
0)|(lo g
1
1 1
i
k
N
k p
i
k
N
k
XP
XP P(Xi/θi)
=,即为的估值利用上式求出 ii
2,多维正态分布情况
① ∑已知,μ 未知,估计 μ
服从正态分布所以在正态分布时
)|(? iiXP
0)|(lo g
1
XP k
N
k
121|]|2l o g [21)|( XXXP kk Tnk
N
k
kX
1
1 0?
N
k
kX
1
1 0?
1i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均 。
1
1
0)(
N
k
k NX?
N
k
kXN
1
1
② ∑,μ 均未知
A,一维情况,n=1对于每个学习样本只有一个特征的简单情况:
(n=1)由上式得即学习样本的算术平均样本方差
21211,
1 2
2
2 2
12l o g
2
1)|(l o g XXP
k
i
k
0)(1)|(l o g 1
1 21 1
XXP k
N
k
i
k
N
k
代入
0]2 )(
2
1[)|(l o g
1
2
2
1
2
21 2
N
k
ki
k
N
k
XXP
N
k
kXN
1
11
1
N
k
X kN
1
22
12
1
讨论:
1.正态总体均值的最大似然估计即为学习样本的算术平均
2.正态总体方差的最大似然估计与样本的方差不同,当 N较大的时候,二者的差别不大 。
B,多维情况,n个特征 ( 学生可以自行推出下式 )
估计值:
结论,① μ 的估计即为学习样本的算术平均
② 估计的协方差矩阵是矩阵 的算术平均 ( nⅹ n阵列,nⅹ n个值 )
N
k
kXN
1
1
1
X
T
XN k
N
k
k
1
2
1
XX k Tk
二,贝叶斯估计最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第 i类学习样本 Xi的观察,使概率密度分布 P(Xi/θ)转化为后验概率 P(θ/Xi),再求贝叶斯估计。
估计步骤,
① 确定 θ的先验分布 P(θ),待估参数为随机变量 。
② 用第 i类样本 xi=(x1,x2,…,xN)T求出样本的联合概率密度分布
P(xi|θ),它是 θ的函数 。
③ 利用贝叶斯公式,求 θ的后验概率
④
dPXP
PXPXP
i
i
i
)()|(
)().|()|(
(证明略)求贝叶斯估计 dXP i )|(
下面以正态分布的均值估计为例说明贝叶斯估计的过程一维正态分布,已知 σ2,估计 μ
假设概率密度服从正态分布
P(X|μ )=N(μ,σ2),P(μ )=N(μ 0,σ02)
第 i类学习样本 xi=(x1,x2,…,xN)T,i=1,2,… M
第 i类概率密度 P(x|μ i,xi)=P(x|xi)
所以后验概率 (贝叶斯公式 )
dPXP
PXPXP
i
i
i
)()|(
)().|()|(
因为 N个样本是独立抽取的,所以上式可以写成其中 为比例因子,只与 x有关,与 μ 无关
∵ P(Xk| μ )=N(μ,σ2),P(u)=N(μ 0,σ02)
其中 a’,a’’包含了所有与 μ 无关的因子
N
k
k
i PXPaXP
1
)().|()|(
dPXPa i )()|(1
]}21e x p [2 121e x p {2 1)|(
0
0 22
1?
kN
k
i XaXP
]}[21e x p {'
1 0
0 22?
N
k
kXa
]})1(2)1[(21e x p {'' 2
0
0
12
2
202
N
k
kXNa
∴ P(μ | xi)是 u的二次函数的指数函数
∴ P(μ | xi)仍然是一个正态函数,P(μ |Xi)=N(μ N,σN2)
另外后验概率可以直接写成正态形式:
比较以上两个式子,对应的系数应该相等
∴
]21e x p [2 1)|( 2
N
N
N
iXP
0
2
0
1
22
2
0
22
1
11
N
k
k
N
N
X
N
N
解以上两式得将 μ N,σN2代入 P(μ |Xi)可以得到后验概率,再用公式
02
0 2
2
1
20 2
0 2?
NXN
N
k
kN
20 2
20 2
2
NN
的估计求,)|( dXP i
∴ 对 μ 的估计为若令 P(μ )=N(μ 0,σ02 )=N(0,1)
与最大似然估计相似,只是分母不同
02
0
2
2
1
2
0
2
0
2
NXN
N
k
kNN
N
k
kXNN
11
1?
Ni dXP )|(∵
三,贝叶斯学习
1.贝叶斯学习的概念,求出 μ 的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个 μ 的估计值的修正值当观察 N=4时,对 μ 进行修正,向真正的 μ 靠近当观察 N=9时,对 μ 进行修正,向真正的 μ 靠的更近当 N↑,μ N就反映了观察到 N个样本后对 μ 的最好推测,而 σN2
反映了这种推测的不确定性,N↑,σN2↓,σN2 随观察样本增加而单调减小,且当 N→∞,σN2 → 0
当 N↑,P(μ |xi)越来越尖峰突起
N→∞,P(μ |xi)→σ函数,这个过程成为贝叶斯学习。
dXPXPdXPXPXXP iii )|()|()|()|()|(
2,类概率密度的估计在求出 u的后验概率 P(μ |xi)后,可以直接利用式推断类条件概率密度 。
即 P(x|xi)= P(x|ω i,xi)
⑴ 一维正态:已知 σ2,μ 未知
∵ μ 的后验概率为
dxPxPxxP ii )|()|()|(
服从正态分布
]
2
1
e x p [
2
1
)|(
]
2
1
e x p [
2
1
)|()|(
2
2
x
xP
xPxP
NN
Nii
dxPxPdxPxPxxP iii )|()|()|()|()|(代入
dx
NN
N ]
2
1e x p [
2
1]
2
1e x p [
2
1 22
dxx
N
NN
N
N
NN
N ]
2
1e x p [
2
1e x p [
2
1
22
22 2
22
22
22
2
]21e x p [
2
1
22
2
22
NN
Nx
为正态函数),( 22 NNN
结论:
① 把第 i类的先验概率 P(ω i)与第 i类概率密度 P(x|xi)相乘可以得到第 i类的后验概率 P(ω i/x),根据后验概率可以分类 。
② 对于正态分布 P(x|xi),用样本估计出来的 μ N代替原来的 μ
用 代替原来的方差 即可 。
③ 把估计值 μ N作为 μ 的实际值,那么使方差由原来的 变为,使方差增大
22?N?2
2
22?N
⑵ 多维正态 ( 已知 Σ,估计 μ )
设 P(x|μ )=N(μ,∑) P(μ )=N(μ 0,∑0).
根据 Bayes公式,仿上面步骤可以得到:
Σ N,μ N 有以下关系
]21e x p [)|( 1 N NN Ti axP
).(.,,,,,,,,,1011 ANN
).,,,,,,(.)( 10 01
1
1 BxN
k
kN N
其中 a与 μ 无关这就是在多维情况下,对 μ 的估计
N
A
NN
1
0:)( 0
11
式得由
010
1
0
1
)1(1)1(0)(
1
NNxN
B
N
k
kN N式得:代入分类器设计就可以代入将
B ay e s
dxPxPxxP iiN )|()|()|(
§ 5-3非参数估计参数估计要求密度函数的形式已知,但这种假定有时并不成立,常见的一些函数形式很难拟合实际的概率密度,经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,因此用非参数估计 。
非参数估计,直接用已知类别样本去估计总体密度分布,方法有:
① 用样本直接去估计类概率密度 p(x/ωi)以此来设计分类器,
如窗口估计
② 用学习样本直接估计后验概率 p(ωi/x)作为分类准则来设计分类器如 k近邻法,
1,密度估计,一个随机变量 X落在区域 R的概率为 P
P(X’)为 P(X)在 R内的变化值,P(X)就是要求的总体概率密度
R
P(x)
RxPdxxPP R r )( '
假设有 N个样本 X=(X1,X2,… XN)T都是按照 P(X)从总体中独立抽取的若 N个样本中有 k个落入在 R内的概率符合二项分布其中 P是样本 X落入 R内的概率
Pk是 k个样本落入 R内的概率数学期望,E(k)=k=NP
∴ 对概率 P的估计,。 是 P的一个比较好的估计设 P(x’)在 R内连续变化,当 R逐渐减小的时候,小到使 P(x)在其上几乎没有变化时,则其中 是 R包围的体积
PpCP kNkkNk1
N
kP?
N
k
N
kdxxPP
R?
')'(
N
kVxPdxxPP
R?
)(')'( RdxV '
∴
∴ 条件密度的估计,(V足够小 )
讨论,① 当 V固定的时候 N增加,k也增加,当 时只反映了 P(x)的空间平均估计而反映不出空间的变化
② N固定,体积变小当 时,k=0时时所以起伏比较大,噪声比较大,需要对 V进行改进,
N
kPVxP)(
V
NkxP?)(
Nk
1 NkP VVN
k
xP 1)(
0?V 0)(
V
NkxP
0?k
V
NkxP )(
对体积 V进行改进:
为了估计 X点的密度,我们构造一串包括 X的区域序列 R1,R2,.,RN.
对 R1采用一个样本进行估计,对 R2采用二个样本进行估计,.。
设 VN是 RN的体积,KN是 N个样本落入 VN的样本数则密度的第 N次估计,VN是 RN的体积
KN是 N个样本落入 VN的样本数
∴ PN(x)是 P(x)的第 N次估计
V
Nk( x )P
N
N?
若 PN(x)收敛于 P(x)应满足三个条件:
①,当 N↑时,VN↓,N→∞,VN→0
这时虽然样本数多,但由于 VN↓,落入 VN内的样本 KN
也减小,所以空间变化才反映出来
②,N ↑,kN ↑,N与 KN同相变化
③,KN的变化远小于 N的变化 。 因此尽管在
R内落入了很多的样本,但同总数 N比较,仍然是很小的一部分 。
0lim V NN
K NNlim
0lim NK NN
如何选择 VN满足以上条件:
① 使体积 VN以 N的某个函数减小,如 (h为常数 )
② 使 KN作为 N的某个函数,例
VN的选择使 RN正好包含 KN个近邻
V1→K1,V2→K2,..VR→KR →Kn近邻法
NhV N?
NK N?
窗口法
2.Parzen窗口估计假设 RN为一个 d维的超立方体,hN为超立方体的长度
∴ 超立方体体积为:,
d=1,窗口为一线段 d=2,窗口为一平面
d=3,窗口为一立方体 d>3,窗口为一超立方体窗口的选择:
hV dNN?
其他.0
2
1||,1
)( uu?
|}|e x p{)( uu
方窗函数 指数窗函数
}21e x p {21)( 2uu
正态窗函数
Φ (u) Φ (u) Φ (u)
hN
正态窗函数
∵ ф(u) 是以原点 x为中心的超立方体。
∴ 在 xi落入方窗时,则有在 VN内为 1
不在 VN内为 0
落入 VN的样本数为所有为 1者之和
∴ 密度估计
2
2
h
xx
h
xx
N
i
N
i
1]21[]2[]||[ hhh xx
N
N
N
i
N
i N
i
N h
xxK
1
)||(?
N
i N
i
NN
NN
h
xx
VNV
NKxP
1
)||(11)(?
讨论:
① 每个样本对估计所起的作用依赖于它到 x的距离,即
| x-xi|≤hN/2时,xi在 VN内为 1,否则为 0。
② 称为 的窗函数,取 0,1两种值,但有时可以取 0,0.1,0.2…… 多种数值,例如随 xi离 x接近的程度,
取值由 0,0.1,0.2…… 到 1。
)||( h xx
N
i
h
xx
N
i ||?
)||( h xx
N
i
③ 要求估计的 PN(x)应满足:
为满足这两个条件,要求窗函数满足:
④ 窗长度 hN对 PN(x)的影响若 hN太大,PN(x)是 P(x)的一个平坦,分辨率低的估计,有平均误差若 hN太小,PN(x)是 P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重,hN应很好选择
h
x
h
xx
d
h
xx
h
xx
N
i
x
N
i
N
i
N
i
|| 0)
||
()
||
(
0)
||
(
1)(
0)(
dxxP
xP
N
N
例 1:对于一个二类 ( ω1,ω2 ) 识别问题,随机抽取 ω1类的 6
个样本 X=(x1,x2,…,x6)
ω1=(x1,x2,…,x6)
=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)
估计 P(x|ω1)即 PN(x)
解:选正态窗函数
)21e x p (21)( 2uu
])||(21e x p [21)||()(
2
h
xx
h
xxu
N
i
N
i
0 1 2 3 4 5 6
x6 x5 x3 x1 x2 x4 x
∵ x是一维的上式用图形表示是 6个分别以 3.2,3.6,3,6,2.5,1.1为中心的丘形曲线 (正态曲线 ),而 PN(x)则是这些曲线之和。
])05 |1.1|(21e x p [1 3 4.0...])05 |2.3|(21e x p [1 3 4.0)||(11)(
22
1
xx
h
xx
VN
xP
N
i
N
i N
N?
5.06 65.0 V N
665.0h,NhhV 11NN N,其中选由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。
例 2:设待估计的 P(x)是个均值为 0,方差为 1的正态密度函数。若随机地抽取 X样本中的 1个,16个,256个作为学习样本 xi,试用窗口法估计 PN(x)。
解:设窗口函数为正态的,σ= 1,μ = 0
hN:窗长度,N为样本数,h1为选定可调节的参数。
])||(21e x p [
2
1)||( 2
h
xx
h
xx
N
i
N
i
N
hh 1
N?设
N
i
i
N
i N
iN
h
Nxx
Nhh
xx
h
N
NxP 1 1
2
11 1
]||21e x p [211)||(1)(
用窗法估计单一正态分布的实验
Parzen 001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
25.01?h
202?202?202?
001.0
01.0
1.0
0.1
0.10
11?h 41?h
讨论:由图看出,PN(x)随 N,h1的变化情况
①当 N= 1时,PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。
②当 N= 16及 N=256时
h1= 0.25 曲线起伏很大,噪声大
h1= 1 起伏减小
h1= 4 曲线平坦,平均误差
③当 N→∞时,PN(x)收敛于一平滑的正态曲线,
估计曲线较好。
例 3。待估的密度函数为二项分布解:此为多峰情况的估计设窗函数为正态解:此为多峰情况的估计设窗函数为正态
x-2.5 -2
1
0.25
0 2
P(x)
0
25.0
1
)( xP
-0.25<x<-2
0<x<2
x为其它
N
hhuu
N
12 ],
2
1e x p [
2
1)(
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
25.01?h
202?202?202?
001.0
01.0
1.0
0.1
0.10
11?h 41?h
用窗法估计两个均匀分布的实验
Parzen
当 N=1,16,256,∞时的 PN(x)估计如图所示
①当 N= 1时,PN(x) 实际是窗函数。
②当 N= 16及 N=256时
h1= 0.25 曲线起伏大
h1= 1 曲线起伏减小
h1= 4 曲线平坦
③当 N→∞时,曲线较好。
结论:
①由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。
②要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。
3.KN近邻估计,在窗口法中存在一个问题是对 hN的选择问题 。
若 hN选太小,则大部分体积将是空的 ( 即不包含样本 ),从而使 PN(x)估计不稳定 。 若 hN选太大,则 PN(x)估计较平坦,反映不出总体分布的变化,而 KN近邻法的思想是以 x为中心建立空胞,
使 v↑,直到捕捉到 KN个样本为止 。 ∴ 称 KN-近邻估计
v的改进,样本密度大,VN ↓;
样本密度小,VN ↑;
∴ P(x)的估计为,N
k N 取,
V
N
k
( x )P
N
N
N
使 PN(x)收敛于 P(x)的充分必要条件:
①,N与 KN同相变化
②,KN的变化远小于 N的变化
③
K NNlim
0lim NK NN
))(11)()(( 1
11
| VxPVV NKxPxP N
N
NN
,所以因为
V1为 N=1时的 VN值
N
V
N
xP
xP
NN
xP
NK
xP
NKVNK N
N
N
N N
1)(1
)()()(时,=当
∴ KN近邻估计对 KN和 VN都作了限制
KN近邻法作后验概率的估计 由 KN近邻估计知 N个已知类别样本落入 VN内为 KN个样本的概率密度估计为:
N个样本落入 VN内有 KN个,KN个样本内有 Ki个样本属于 ωi类则联合概率密度:
N
VV
NK
N
N
1
V
N
k
xP
N
N
N?)(
)()|(),( ii
N
i
iN PxPv
N
k
xP
根据 Bayes公式可求出后验概率:
类别为 ω i的后验概率就是落在 VN内属于 ω i的样本 ki与 VN内总样本数 KN的比值
M
j
iN
iN
N
i
ii
ii
iN
xP
xP
PxP
PxPx
P
11
),(
),(
)()|(
)()|()|(
V
N
k
xPxP
N
NM
j
jN
1
),()(?V N
k
xP
N
i
iN?),(?
k
kxP
N
iiN?)|(?后验概率的估计:
∴
∵
K近邻分类准则:对于待分样本 x,找出它的 k个近邻,检查它的类别,把 x归于样本最多的那个类别 。
K近邻分类的错误率随 K↑,Pk↓,最低的错误率为 Bayes分类 。
P*
PK
4,最近邻分类准则:待分样本 x,找一个离它最近的样本,
把 x归于最近的样本一类 。
错误率:
M为类别数 P(e)为 Bayes估计的错误率最近邻分类法则的错误率 P比 K近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二倍。
)(2)](12)[()( ePePM MePPeP
M
M 1?
MM 1?
P
P(e)
Bayes
K近邻最近邻
参数估计与监督学习
参数估计理论
非参数估计理论
§ 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率,条件概率或后验概概率 P(ωi),P(x/ωi),P(ωi /x)就可以设计分类器了 。 现在来研究如何用已知训练样本的信息去估计 P(ωi),P(x/ωi),
P(ωi /x)
一,参数估计与非参数估计参数估计,先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数 。
非参数估计,不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型 。
二,监督学习与无监督学习监督学习,在已知类别样本指导下的学习和训练,
参数估计和非参数估计都属于监督学习 。
无监督学习,不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。
§ 5-2参数估计理论一,最大似然估计假定:
① 待估参数 θ是确定的未知量
② 按类别把样本分成 M类 X1,X2,X3,… XM
其中第 i类的样本共 N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 (i≠j)的信息,所以可以对每一类样本独立进行处理 。
④ 第 i类的待估参数根据以上四条假定,我们下边就可以只利用第 i类学习样本来估计第 i类的概率密度,其它类的概率密度由其它类的学习样本来估计 。
),...,( 21 n Ti?
j
1.一般原则:
第 i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒ θi) = P(Xi/θi)
原属于 i类的学习样本为 Xi=(X1,X2,… XN,)T i=1,2,… M
求 θi的最大似然估计就是把 P(Xi/θi)看成 θi的函数,求出使它最大时的 θi值 。
∵ 学习样本独立从总体样本集中抽取的
∴
N个学习样本出现概率的乘积取对数,
N
k
iX kPiXPiiXP ii
1
)|()|().|(
N
k
i
k
i
k
N
k
XPXP
11
)|(l o g)|(l o g
对 θi求导,并令它为 0:
有时上式是多解的,上图有 5个解,只有一个解最大即,
0)|(lo g..,
1
1
N
k
i
k
p
XP?
0)|(lo g
..,.,.,,.
..,.,.,,.
0)|(lo g
1
1 1
i
k
N
k p
i
k
N
k
XP
XP P(Xi/θi)
=,即为的估值利用上式求出 ii
2,多维正态分布情况
① ∑已知,μ 未知,估计 μ
服从正态分布所以在正态分布时
)|(? iiXP
0)|(lo g
1
XP k
N
k
121|]|2l o g [21)|( XXXP kk Tnk
N
k
kX
1
1 0?
N
k
kX
1
1 0?
1i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均 。
1
1
0)(
N
k
k NX?
N
k
kXN
1
1
② ∑,μ 均未知
A,一维情况,n=1对于每个学习样本只有一个特征的简单情况:
(n=1)由上式得即学习样本的算术平均样本方差
21211,
1 2
2
2 2
12l o g
2
1)|(l o g XXP
k
i
k
0)(1)|(l o g 1
1 21 1
XXP k
N
k
i
k
N
k
代入
0]2 )(
2
1[)|(l o g
1
2
2
1
2
21 2
N
k
ki
k
N
k
XXP
N
k
kXN
1
11
1
N
k
X kN
1
22
12
1
讨论:
1.正态总体均值的最大似然估计即为学习样本的算术平均
2.正态总体方差的最大似然估计与样本的方差不同,当 N较大的时候,二者的差别不大 。
B,多维情况,n个特征 ( 学生可以自行推出下式 )
估计值:
结论,① μ 的估计即为学习样本的算术平均
② 估计的协方差矩阵是矩阵 的算术平均 ( nⅹ n阵列,nⅹ n个值 )
N
k
kXN
1
1
1
X
T
XN k
N
k
k
1
2
1
XX k Tk
二,贝叶斯估计最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第 i类学习样本 Xi的观察,使概率密度分布 P(Xi/θ)转化为后验概率 P(θ/Xi),再求贝叶斯估计。
估计步骤,
① 确定 θ的先验分布 P(θ),待估参数为随机变量 。
② 用第 i类样本 xi=(x1,x2,…,xN)T求出样本的联合概率密度分布
P(xi|θ),它是 θ的函数 。
③ 利用贝叶斯公式,求 θ的后验概率
④
dPXP
PXPXP
i
i
i
)()|(
)().|()|(
(证明略)求贝叶斯估计 dXP i )|(
下面以正态分布的均值估计为例说明贝叶斯估计的过程一维正态分布,已知 σ2,估计 μ
假设概率密度服从正态分布
P(X|μ )=N(μ,σ2),P(μ )=N(μ 0,σ02)
第 i类学习样本 xi=(x1,x2,…,xN)T,i=1,2,… M
第 i类概率密度 P(x|μ i,xi)=P(x|xi)
所以后验概率 (贝叶斯公式 )
dPXP
PXPXP
i
i
i
)()|(
)().|()|(
因为 N个样本是独立抽取的,所以上式可以写成其中 为比例因子,只与 x有关,与 μ 无关
∵ P(Xk| μ )=N(μ,σ2),P(u)=N(μ 0,σ02)
其中 a’,a’’包含了所有与 μ 无关的因子
N
k
k
i PXPaXP
1
)().|()|(
dPXPa i )()|(1
]}21e x p [2 121e x p {2 1)|(
0
0 22
1?
kN
k
i XaXP
]}[21e x p {'
1 0
0 22?
N
k
kXa
]})1(2)1[(21e x p {'' 2
0
0
12
2
202
N
k
kXNa
∴ P(μ | xi)是 u的二次函数的指数函数
∴ P(μ | xi)仍然是一个正态函数,P(μ |Xi)=N(μ N,σN2)
另外后验概率可以直接写成正态形式:
比较以上两个式子,对应的系数应该相等
∴
]21e x p [2 1)|( 2
N
N
N
iXP
0
2
0
1
22
2
0
22
1
11
N
k
k
N
N
X
N
N
解以上两式得将 μ N,σN2代入 P(μ |Xi)可以得到后验概率,再用公式
02
0 2
2
1
20 2
0 2?
NXN
N
k
kN
20 2
20 2
2
NN
的估计求,)|( dXP i
∴ 对 μ 的估计为若令 P(μ )=N(μ 0,σ02 )=N(0,1)
与最大似然估计相似,只是分母不同
02
0
2
2
1
2
0
2
0
2
NXN
N
k
kNN
N
k
kXNN
11
1?
Ni dXP )|(∵
三,贝叶斯学习
1.贝叶斯学习的概念,求出 μ 的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个 μ 的估计值的修正值当观察 N=4时,对 μ 进行修正,向真正的 μ 靠近当观察 N=9时,对 μ 进行修正,向真正的 μ 靠的更近当 N↑,μ N就反映了观察到 N个样本后对 μ 的最好推测,而 σN2
反映了这种推测的不确定性,N↑,σN2↓,σN2 随观察样本增加而单调减小,且当 N→∞,σN2 → 0
当 N↑,P(μ |xi)越来越尖峰突起
N→∞,P(μ |xi)→σ函数,这个过程成为贝叶斯学习。
dXPXPdXPXPXXP iii )|()|()|()|()|(
2,类概率密度的估计在求出 u的后验概率 P(μ |xi)后,可以直接利用式推断类条件概率密度 。
即 P(x|xi)= P(x|ω i,xi)
⑴ 一维正态:已知 σ2,μ 未知
∵ μ 的后验概率为
dxPxPxxP ii )|()|()|(
服从正态分布
]
2
1
e x p [
2
1
)|(
]
2
1
e x p [
2
1
)|()|(
2
2
x
xP
xPxP
NN
Nii
dxPxPdxPxPxxP iii )|()|()|()|()|(代入
dx
NN
N ]
2
1e x p [
2
1]
2
1e x p [
2
1 22
dxx
N
NN
N
N
NN
N ]
2
1e x p [
2
1e x p [
2
1
22
22 2
22
22
22
2
]21e x p [
2
1
22
2
22
NN
Nx
为正态函数),( 22 NNN
结论:
① 把第 i类的先验概率 P(ω i)与第 i类概率密度 P(x|xi)相乘可以得到第 i类的后验概率 P(ω i/x),根据后验概率可以分类 。
② 对于正态分布 P(x|xi),用样本估计出来的 μ N代替原来的 μ
用 代替原来的方差 即可 。
③ 把估计值 μ N作为 μ 的实际值,那么使方差由原来的 变为,使方差增大
22?N?2
2
22?N
⑵ 多维正态 ( 已知 Σ,估计 μ )
设 P(x|μ )=N(μ,∑) P(μ )=N(μ 0,∑0).
根据 Bayes公式,仿上面步骤可以得到:
Σ N,μ N 有以下关系
]21e x p [)|( 1 N NN Ti axP
).(.,,,,,,,,,1011 ANN
).,,,,,,(.)( 10 01
1
1 BxN
k
kN N
其中 a与 μ 无关这就是在多维情况下,对 μ 的估计
N
A
NN
1
0:)( 0
11
式得由
010
1
0
1
)1(1)1(0)(
1
NNxN
B
N
k
kN N式得:代入分类器设计就可以代入将
B ay e s
dxPxPxxP iiN )|()|()|(
§ 5-3非参数估计参数估计要求密度函数的形式已知,但这种假定有时并不成立,常见的一些函数形式很难拟合实际的概率密度,经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,因此用非参数估计 。
非参数估计,直接用已知类别样本去估计总体密度分布,方法有:
① 用样本直接去估计类概率密度 p(x/ωi)以此来设计分类器,
如窗口估计
② 用学习样本直接估计后验概率 p(ωi/x)作为分类准则来设计分类器如 k近邻法,
1,密度估计,一个随机变量 X落在区域 R的概率为 P
P(X’)为 P(X)在 R内的变化值,P(X)就是要求的总体概率密度
R
P(x)
RxPdxxPP R r )( '
假设有 N个样本 X=(X1,X2,… XN)T都是按照 P(X)从总体中独立抽取的若 N个样本中有 k个落入在 R内的概率符合二项分布其中 P是样本 X落入 R内的概率
Pk是 k个样本落入 R内的概率数学期望,E(k)=k=NP
∴ 对概率 P的估计,。 是 P的一个比较好的估计设 P(x’)在 R内连续变化,当 R逐渐减小的时候,小到使 P(x)在其上几乎没有变化时,则其中 是 R包围的体积
PpCP kNkkNk1
N
kP?
N
k
N
kdxxPP
R?
')'(
N
kVxPdxxPP
R?
)(')'( RdxV '
∴
∴ 条件密度的估计,(V足够小 )
讨论,① 当 V固定的时候 N增加,k也增加,当 时只反映了 P(x)的空间平均估计而反映不出空间的变化
② N固定,体积变小当 时,k=0时时所以起伏比较大,噪声比较大,需要对 V进行改进,
N
kPVxP)(
V
NkxP?)(
Nk
1 NkP VVN
k
xP 1)(
0?V 0)(
V
NkxP
0?k
V
NkxP )(
对体积 V进行改进:
为了估计 X点的密度,我们构造一串包括 X的区域序列 R1,R2,.,RN.
对 R1采用一个样本进行估计,对 R2采用二个样本进行估计,.。
设 VN是 RN的体积,KN是 N个样本落入 VN的样本数则密度的第 N次估计,VN是 RN的体积
KN是 N个样本落入 VN的样本数
∴ PN(x)是 P(x)的第 N次估计
V
Nk( x )P
N
N?
若 PN(x)收敛于 P(x)应满足三个条件:
①,当 N↑时,VN↓,N→∞,VN→0
这时虽然样本数多,但由于 VN↓,落入 VN内的样本 KN
也减小,所以空间变化才反映出来
②,N ↑,kN ↑,N与 KN同相变化
③,KN的变化远小于 N的变化 。 因此尽管在
R内落入了很多的样本,但同总数 N比较,仍然是很小的一部分 。
0lim V NN
K NNlim
0lim NK NN
如何选择 VN满足以上条件:
① 使体积 VN以 N的某个函数减小,如 (h为常数 )
② 使 KN作为 N的某个函数,例
VN的选择使 RN正好包含 KN个近邻
V1→K1,V2→K2,..VR→KR →Kn近邻法
NhV N?
NK N?
窗口法
2.Parzen窗口估计假设 RN为一个 d维的超立方体,hN为超立方体的长度
∴ 超立方体体积为:,
d=1,窗口为一线段 d=2,窗口为一平面
d=3,窗口为一立方体 d>3,窗口为一超立方体窗口的选择:
hV dNN?
其他.0
2
1||,1
)( uu?
|}|e x p{)( uu
方窗函数 指数窗函数
}21e x p {21)( 2uu
正态窗函数
Φ (u) Φ (u) Φ (u)
hN
正态窗函数
∵ ф(u) 是以原点 x为中心的超立方体。
∴ 在 xi落入方窗时,则有在 VN内为 1
不在 VN内为 0
落入 VN的样本数为所有为 1者之和
∴ 密度估计
2
2
h
xx
h
xx
N
i
N
i
1]21[]2[]||[ hhh xx
N
N
N
i
N
i N
i
N h
xxK
1
)||(?
N
i N
i
NN
NN
h
xx
VNV
NKxP
1
)||(11)(?
讨论:
① 每个样本对估计所起的作用依赖于它到 x的距离,即
| x-xi|≤hN/2时,xi在 VN内为 1,否则为 0。
② 称为 的窗函数,取 0,1两种值,但有时可以取 0,0.1,0.2…… 多种数值,例如随 xi离 x接近的程度,
取值由 0,0.1,0.2…… 到 1。
)||( h xx
N
i
h
xx
N
i ||?
)||( h xx
N
i
③ 要求估计的 PN(x)应满足:
为满足这两个条件,要求窗函数满足:
④ 窗长度 hN对 PN(x)的影响若 hN太大,PN(x)是 P(x)的一个平坦,分辨率低的估计,有平均误差若 hN太小,PN(x)是 P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重,hN应很好选择
h
x
h
xx
d
h
xx
h
xx
N
i
x
N
i
N
i
N
i
|| 0)
||
()
||
(
0)
||
(
1)(
0)(
dxxP
xP
N
N
例 1:对于一个二类 ( ω1,ω2 ) 识别问题,随机抽取 ω1类的 6
个样本 X=(x1,x2,…,x6)
ω1=(x1,x2,…,x6)
=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)
估计 P(x|ω1)即 PN(x)
解:选正态窗函数
)21e x p (21)( 2uu
])||(21e x p [21)||()(
2
h
xx
h
xxu
N
i
N
i
0 1 2 3 4 5 6
x6 x5 x3 x1 x2 x4 x
∵ x是一维的上式用图形表示是 6个分别以 3.2,3.6,3,6,2.5,1.1为中心的丘形曲线 (正态曲线 ),而 PN(x)则是这些曲线之和。
])05 |1.1|(21e x p [1 3 4.0...])05 |2.3|(21e x p [1 3 4.0)||(11)(
22
1
xx
h
xx
VN
xP
N
i
N
i N
N?
5.06 65.0 V N
665.0h,NhhV 11NN N,其中选由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。
例 2:设待估计的 P(x)是个均值为 0,方差为 1的正态密度函数。若随机地抽取 X样本中的 1个,16个,256个作为学习样本 xi,试用窗口法估计 PN(x)。
解:设窗口函数为正态的,σ= 1,μ = 0
hN:窗长度,N为样本数,h1为选定可调节的参数。
])||(21e x p [
2
1)||( 2
h
xx
h
xx
N
i
N
i
N
hh 1
N?设
N
i
i
N
i N
iN
h
Nxx
Nhh
xx
h
N
NxP 1 1
2
11 1
]||21e x p [211)||(1)(
用窗法估计单一正态分布的实验
Parzen 001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
25.01?h
202?202?202?
001.0
01.0
1.0
0.1
0.10
11?h 41?h
讨论:由图看出,PN(x)随 N,h1的变化情况
①当 N= 1时,PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。
②当 N= 16及 N=256时
h1= 0.25 曲线起伏很大,噪声大
h1= 1 起伏减小
h1= 4 曲线平坦,平均误差
③当 N→∞时,PN(x)收敛于一平滑的正态曲线,
估计曲线较好。
例 3。待估的密度函数为二项分布解:此为多峰情况的估计设窗函数为正态解:此为多峰情况的估计设窗函数为正态
x-2.5 -2
1
0.25
0 2
P(x)
0
25.0
1
)( xP
-0.25<x<-2
0<x<2
x为其它
N
hhuu
N
12 ],
2
1e x p [
2
1)(
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
001.0
01.0
1.0
0.1
0.10
25.01?h
202?202?202?
001.0
01.0
1.0
0.1
0.10
11?h 41?h
用窗法估计两个均匀分布的实验
Parzen
当 N=1,16,256,∞时的 PN(x)估计如图所示
①当 N= 1时,PN(x) 实际是窗函数。
②当 N= 16及 N=256时
h1= 0.25 曲线起伏大
h1= 1 曲线起伏减小
h1= 4 曲线平坦
③当 N→∞时,曲线较好。
结论:
①由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。
②要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。
3.KN近邻估计,在窗口法中存在一个问题是对 hN的选择问题 。
若 hN选太小,则大部分体积将是空的 ( 即不包含样本 ),从而使 PN(x)估计不稳定 。 若 hN选太大,则 PN(x)估计较平坦,反映不出总体分布的变化,而 KN近邻法的思想是以 x为中心建立空胞,
使 v↑,直到捕捉到 KN个样本为止 。 ∴ 称 KN-近邻估计
v的改进,样本密度大,VN ↓;
样本密度小,VN ↑;
∴ P(x)的估计为,N
k N 取,
V
N
k
( x )P
N
N
N
使 PN(x)收敛于 P(x)的充分必要条件:
①,N与 KN同相变化
②,KN的变化远小于 N的变化
③
K NNlim
0lim NK NN
))(11)()(( 1
11
| VxPVV NKxPxP N
N
NN
,所以因为
V1为 N=1时的 VN值
N
V
N
xP
xP
NN
xP
NK
xP
NKVNK N
N
N
N N
1)(1
)()()(时,=当
∴ KN近邻估计对 KN和 VN都作了限制
KN近邻法作后验概率的估计 由 KN近邻估计知 N个已知类别样本落入 VN内为 KN个样本的概率密度估计为:
N个样本落入 VN内有 KN个,KN个样本内有 Ki个样本属于 ωi类则联合概率密度:
N
VV
NK
N
N
1
V
N
k
xP
N
N
N?)(
)()|(),( ii
N
i
iN PxPv
N
k
xP
根据 Bayes公式可求出后验概率:
类别为 ω i的后验概率就是落在 VN内属于 ω i的样本 ki与 VN内总样本数 KN的比值
M
j
iN
iN
N
i
ii
ii
iN
xP
xP
PxP
PxPx
P
11
),(
),(
)()|(
)()|()|(
V
N
k
xPxP
N
NM
j
jN
1
),()(?V N
k
xP
N
i
iN?),(?
k
kxP
N
iiN?)|(?后验概率的估计:
∴
∵
K近邻分类准则:对于待分样本 x,找出它的 k个近邻,检查它的类别,把 x归于样本最多的那个类别 。
K近邻分类的错误率随 K↑,Pk↓,最低的错误率为 Bayes分类 。
P*
PK
4,最近邻分类准则:待分样本 x,找一个离它最近的样本,
把 x归于最近的样本一类 。
错误率:
M为类别数 P(e)为 Bayes估计的错误率最近邻分类法则的错误率 P比 K近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二倍。
)(2)](12)[()( ePePM MePPeP
M
M 1?
MM 1?
P
P(e)
Bayes
K近邻最近邻