第七章SVM
? 7.1 非线性SVM
? 7.2 SVM技术
? 7.3 SVM性质
? 7.4 SVM推广
7.1 非线性SVM
7.1 非线性SVM
?线性分类器的局限:
?可变性(flexibility)差;
? VC维=d+1,d是原始数据x的维数;
?很多实际问题不是线性可分的。
7.1 非线性SVM
? SVM思想:
?非线性映射把原始数据变换到高维特征空间:
?在特征空间中,设计线性SVM
原始数据空间特征空间
)(,)(),(()(
2211
xaxaxaxzx
MM
φφφL=→
7.1 非线性SVM
?例:XOR问题
),,(
21
xxx =
).,,(),,()(
2121321
xxxxzzzxz ==
二维映射到三维
).0,0,1()0,1(
),0,1,0()1,0(
,)1,1,1()1,1(
),0,0,0()0,0(




线性可分线性不可分
7.1 非线性SVM
?线性SVM回顾:
?优化函数(二次规划):
)(
2
1
min
1
2
,,

=
+
n
i
i
bw
Cw ξ
ξ
iii
bwxyts ξ?≥+? 1)(..,,,2,1 niL=
.0≥
i
ξ
7.1 非线性SVM
?线性SVM回顾:
?对偶形式:
∑∑
==

n
ji
jijiji
n
i
i
xxyy
1,1
)(
2
1
max ααα
α
.,,2,1,0.,niCts
i
L=≤≤α
.0
1
=

=
n
i
ii

7.1 非线性SVM
?超平面是支持向量的线性组合:
.
1

=
=
n
i
iii
xyw α
C
i
<<α01)( =+? bwxy
ii
1)( >+? bwxy
ii
0=
i
α
C
i
=α1)( <+? bwxy
ii
7.1 非线性SVM
?判决函数:
.)()(
1
bxxyxg
n
i
iii
+?=

=
α
7.1 非线性SVM
?如果把原始空间数据映射到特征空间,
那么特征空间中的线性SVM为:
bxzxzyxg
n
i
iii
+?=

=1
))()(()( α
∑∑
==

n
ji
jijiji
n
i
i
xzxzyy
1,1
))()((
2
1
max ααα
α
.,,2,1,0.,niCts
i
L=≤≤α
.0
1
=

=
n
i
ii

7.1 非线性SVM
?由于目标函数和判决函数都只涉及内积,
因此定义核函数:
).,()()()()(
212121
xxKxzxzxzxz
k
kk
==?

核函数
7.1 非线性SVM
?非线性SVM:
?优化函数(二次规划):
?判决函数:
.),(
2
1
max
1,1
∑∑
==
n
ji
jijiji
n
i
i
xxKyy ααα
α
.,,2,1,0.,niCts
i
L=≤≤α
.0
1
=

=
n
i
ii

.),()( bxxKyxg
n
+=

α
1i
iii
=
7.1 非线性SVM
SVM结构:
y
L
L
L
1
x
2
x
11
αy
d
x
),(
1
xxK
nn
y α
b
),( xxK
n
7.1 非线性SVM
?核函数可以表示为内积的条件:
? Mercer定理(Mercer 1909):
对称核函数具有Hilbert空间中内积形式的充要条件是:
对任何平方可积函数成立。
),( yxK

≥,0)()(),( dxdyygxgyxK
g
7.1 非线性SVM
p
yxyxK )(),(?=
?例:
0))((
)!(!!
!
)()(
)!(!!
!
)()()(
)()(),(
2
21
2121
2121
2121
1
21
21
2121
21


=

=
=







=++
=++
=
dxxgxx
rrprr
p
dxdyygxgyyxx
rrprr
p
dxdyygxgyx
dxdyygxgyxK
rr
prrr
rrrr
prrr
p
d
i
ii
d
d
L
LL
LL
LL
L
L
7.1 非线性SVM
?符合Mercer条件的常用核函数:
?多项式核:
? RBF:
? 2层NNs(只对某些参数v,c成立):
.)1(),(
m
yxyxK +?=
).exp(),(
2
yxyxK= γ
.
))(exp(1
1
),(
cyxv
yxK
+
=
7.1 非线性SVM
?解决了三个问题:
?特征空间线性分类器的泛化能力:线性SVM.
?计算复杂性:超高维特征空间中的计算;
?映射的表示:不一定有显式表达式。
7.2 SVM技术
7.2 SVM技术
?全局解和唯一性
?全局解——不存在其他解使得目标函数更小。凸规划问题中,任何局部解都是全局解。
?非唯一性(1)——对于(w,b)是唯一的,
但的展开不唯一。
?非唯一性(2)——(w,b)不是唯一的。

=
=
s
N
i
iii
xyw
1
α
7.2 SVM技术
?例
?一个解是w=[1,0],b=0,a=[1/4,1/4,1/4,1/4],
另一个解是w=[1,0],b=0,a=[1/2,1/2,0,0]
]1,1[],1,1[
]1,1[]1,1[
43
21
==
==
xx
xx
7.2 SVM技术
? SVM的训练:
.),(
2
1
max
1,1
∑∑
==
n
ji
jijiji
n
i
i
xxKyy ααα
α
.,,2,1,0.,niCts
i
L=≤≤α
.0
1
=

=
n
i
ii

二次规划,n个box 约束和一个等式约束。.
标准的二次规划软件很难直接使用:变量太多
10,10~
65
7.2 SVM技术
?分解算法的基本思想:把原问题分解为很多容易处理的子问题,每次处理一个样本子集,希望通过对子问题的迭代求解来得到原问题的最优解。
7.2 SVM技术
?最常用的优化方法:Active set
?每次只挑选一部分进行优化,以避免计算并存储所有;
?最有代表性的软件:SVM-light (Joachims).
i
α
),(
ji
xxK
7.2 SVM技术
? Sequential Minimal Optimization (SMO):
?思想:每次只优化两个有解析解。
?方法:
?挑出两个原始值记作
?两个变量的二次优化:
,
i
α
,
i
α
.,
21
oldold
αα
.),(
2
1
max
1,
2
1
,
21
∑∑
==
n
ji
jijiji
i
i
xxKyy ααα
αα
.2,1,0.,=≤≤ iCts
i
α
.
22112211
yyyy
oldold
αααα +=+
7.2 SVM技术
?约束的几何意义:
.
22112211
yyyy
oldold
αααα +=+
(见习题二)
单变量的二次函数优化,有解析解!
7.2 SVM技术
? Robust Linear Programming (RLP) SVM:
?将二次规划的SVM转化为线性规划问题;
?与二次规划SVM的区别仅仅是在原始优化表达式中用一范数代替二范数:
7.2 SVM技术
?二次规划SVM的原问题:
2
1
,,
2
1
)(min wC
n
i
i
bw
+

=
ξ
ξ
2范数
iii
bwxyts ξ?≥+? 1)(..,,,2,1 niL=
.0≥
i
ξ
7.2 SVM技术
? SVM-RLP:
∑∑
==
+
n
j
j
n
i
i
bw
sC
11
,,
)(min ξ
ξ
1范数
iii
bwxyts ξ?≥+? 1)(..
.0≥
i
ξ
.
jjj
sws ≤≤?
7.2 SVM技术
? SVM-RLP的优点:
?用1范数代替2范数可以进一步减少SV的数量;
?用线性规划取代二次规划在最优化方面能获得好处。
?也可以自然地推广到非线性的SVM。
7.3 SVM性质
7.3 SVM性质
? Gap Tolerant 分类器(GTC)—严格执行
SRM准则,同时类似于SVM的分类器:
?分类器由一个d维欧氏空间中直径为D的球,
和两个相互平行的超平面构成,两个超平面之间的区域称为margin set;
?落在球内,但又不在margin set中的点根据它的位置被分类,其它点认为已被正确分类,目的是不影响经验风险。
7.3 SVM性质
+1
-1
Margin set
7.3 SVM性质
?学习函数集的参数:
?球的直径D;
? Margin的大小;
),( MD=θ
M
}.|),{(
minmax
MMDDMD ≥≤=Θ,
7.3 SVM性质
?学习函数集的性质
? M越小,VC维越大,经验风险越小,但推广能力越弱;反之,M越大,VC维越小,
经验风险越大,推广能力越强。
7.3 SVM性质
D=2,M=3/2,最多只能对两个点任意分类,VC维=2。
7.3 SVM性质
?学习函数集的VC维:
?可以被任意地分成两类的最多的样本个数。
?在d维欧氏空间中,
.1),min(
2
min
2
max
+≤ dMDh
7.3 SVM性质
? SRM的实现:
?第i个学习函数集定义为:
?构成了具有包含关系的函数集合序列:
?在每个上用经验风险最小化,最后挑出使得期望风险上界最小的。
}:),({
22
iMDMD
i
≤==Φ θL,2,1=i
.
21
L?Φ?Φ
i
Φ
i
Φ
7.3 SVM性质
? SVM 与SRM
+
= ))(1())(,(
iiii
xfyxfyL损失函数
m
K
n
i
ii
f
Af
xfyL
n
SRM


=
2
1
))(,(
1
min)(
7.3 SVM性质
? SVM 与SRM

=
n
i
i
bw
n
SRM
1
,,
1
min)( ξ
ξ
iii
bwxyts ξ?≥+? 1)(..
.,,2,1 niL=
0
2


i
m
Aw
ξ
7.3 SVM性质
? SVM 与SRM
)(
2
1
)())(,(
1
)(
1
2
1
2
∑∑
==
+=?+
n
i
im
n
i
mmii
CwAwxfyL
n
SRM ξλ
iii
bwxyts ξ?≥+? 1)(..
.,,2,1 niL=
0≥
i
ξ
7.3 SVM性质
? SVM 与SRM
)(
2
1
)())(,(
1
)(
1
2
1
2
∑∑
==
+=?+
n
i
i
n
i
ii
CwAwxfyL
n
SVM ξλ
.,,2,1 niL=
iii
bwxyts ξ?≥+? 1)(..
.0≥
i
ξ
7.3 SVM性质
? SVM的VC维估计:如果训练样本包含在直径为D的球体内。
?用特征空间的维数衡量;
?用margin衡量:
?结论:
.1+≤dh
d
[ ],1
22
+≤ ρDh
[ ],1),min(
22
+≤ dDh ρ
7.3 SVM性质
?风险的估计方法:
? Leave-one-out:
?从数据中,每次抽出一个做测试,
其它训练,得到损失函数:
? Leave-one-out风险估计:求平均。
n
zzz,,,
21
L
),,
,,,|,(
21 nii
zzzzzLLLθ

=
=
n
i
niiL
zzzzzL
n
R
1
21
).,,?,,,|,(
1
)(
LLθθ
几乎无偏估计。
7.3 SVM性质
? SVM风险的Leave-one-out估计:
?用支持向量的个数衡量:
只有抽出的数据恰好是SV时,才有可能被判错,抽出不是SV的数据,最优超平面不变!
的个数SVm
n
m
EEP
n
error
=≤
),(
1
7.3 SVM性质
?用margin衡量:
?结论:
)(
22
1
n
D
EEP
n
error
ρ

数据半径
Margin
}
),min(
{
22
1
n
mD
EEP
n
error
ρ

7.3 SVM性质
? SVM的其它性质:很多论文对SVM的性质进行了广泛地研究,包括SVM的泛化能力(前面介绍的是最经典的结果)、
SVM与其它模式识别方法的关系等等。
7.3 SVM性质
? SVM与Bayes决策的关系:
? Bayes决策:利用类条件概率密度、类别的先验概率进行决策。
? SVM(对两类的分类问题)等价于先用正则化方法(将在下一章介绍)估计概率密度,然后用估计出的概率密度做近似的Bayes决策。其中,
概率密度的形式不是任意的,只能在某个重构核
Hilbert空间(RKHS)(将在下一章介绍)中选取。
7.4 SVM推广
7.4 SVM推广
? SVM在模式分类问题上获得成功后被推广到很多领域:
?回归估计;
?算子求逆;
?概率密度的估计;
?奇异性检测等等。
7.4 SVM推广
?若干重要的推广都基于SVM利用核函数将线性问题转化为非线性问题的思想:
?一切原空间中的内积形式都可转化为核函数:
?例:Kernel FDA
21
xx? ).,()()(
2121
xxKxzxz =?
wSw
wSw
wJ
t
b
T
T
F
φ
φ
=)(
7.4 SVM推广
? Kernel PCA (PCA将在特征提取一章将重点介绍)。将PCA线性问题推广为一类非线性问题(核函数)。
? Kernel K-means 聚类(K-means 聚类属于无监督学习,在后面的章节中详述)。
?利用核函数的思想进行机器学习这一领域现在被统称为Kernel Machine。
参考文献
? [1] Vladimir N,Vapnik,Statistical Learning Theory,John
Wiley & Sons,Inc,1998.
? [2] Vladimir N,Vapnik,The Nature of Statistical Learning,
Springer-Verlag,New York,NY,1995 (中译本《统计学习理论的本质》,张学工译,清华大学出版社,2000
年9月)
? [3] Christopher J,Burges,A Tutorial on Support Vector
machines for Pattern Recognition.
? [4] Alex J,Smola,A Tutorial on Support Vector
Regression.