Page1数学与计算机学院彭宏支持向量机及其应用SupportVectorMachinesanditsApplication智能算法讲座(一)Page2Page3目录线性可分的支持向量(分类)机线性支持向量(分类)机支持向量(分类)机最小二乘支持向量(分类)机硬-带支持向量(回归)机软-带支持向量(回归)机-支持向量(回归)机最小二乘支持向量(回归)机支持向量机应用Page4SVM的描述SVM是一种基于统计学习理论的模式识别方法,它是由Boser,Guyon,Vapnik在COLT-92上首次提出,从此迅速的发展起来,现在已经在许多领域(生物信息学,文本,图像处理,语言信号处理和手写识别等)都取得了成功的应用COLT(ComputationalLearningTheory)Page5SVM的描述目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。解决方法:构造一个在约束条件下的优化问题,具体的说是一个约束二次规划问题(constrainedquadraticprograming),求解该问题,得到分类器。Page6模式识别问题的一般描述已知:n个观测样本,(x1,y1),(x2,y2)……(xn,yn)求:最优函数y’=f(x,w)满足条件:期望风险最小损失函数),()),(,()(yxdFwxfyLwR),(1),(0)),(,(wxfywxfywxfyLPage7SVM的描述期望风险R(w)要依赖联合概率F(x,y)的信息,实际问题中无法计算。一般用经验风险Remp(w)代替期望风险R(w)nwxfyLnwRniiiemp错分数1)),(,(1)(Page8一般模式识别方法的问题经验风险最小不等于期望风险最小,不能保证分类器的推广能力.经验风险只有在样本数无穷大趋近于期望风险,需要非常多的样本才能保证分类器的性能。需要找到经验风险最小和推广能力最大的平衡点。Page9一、线性可分的支持向量(分类)机)},(,),(),,{(2211nnyxyxyxD,niyRXximi,,1},1,1{,0)(bxw首先考虑线性可分情况。设有如下两类样本的训练集:线性可分情况意味着存在超平面使训练点中的正类和负类样本分别位于该超平面的两侧。如果能确定这样的参数对(w,b)的话,就可以构造决策函数来进行识别新样本。))sgn(()(bxwxfPage10线性可分的支持向量(分类)机nibxwytswiibw,,1,1))((..21min2,问题是:这样的参数对(w,b)有许多。解决的方法是采用最大间隔原则。最大间隔原则:选择使得训练集D对于线性函数(w·x)+b的几何间隔取最大值的参数对(w,b),并由此构造决策函数。在规范化下,超平面的几何间隔为于是,找最大几何间隔的超平面表述成如下的最优化问题:w1(1)Page11线性可分的支持向量(分类)机niiiibxwywbwL12)1))(((21),,(nTnR),,,(210),,(,0),,(bwLbwLwb为求解问题(1),使用Lagrange乘子法将其转化为对偶问题。于是引入Lagrange函数:其中,称为Lagrange乘子。首先求Lagrange函数关于w,b的极小值。由极值条件有:niiiy10niiiixyw1得到:(2)(3)(4)Page12线性可分的支持向量(分类)机niytsxxyyiniiininjjnjjijiji,,1,0,0..)(21min1111niiiixyw1niiiixyw1**将(3)式代入Lagrange函数,并利用(4)式,则原始的优化问题转化为如下的对偶问题(使用极小形式):这是一个凸二次规划问题有唯一的最优解(5)求解问题(5),得。则参数对(w,b)可由下式计算:nyiniiiixwb1*1***2Page13线性可分的支持向量(分类)机0)1))(((***bxwyiii支持向量:称训练集D中的样本xi为支持向量,如果它对应的i*0。根据原始最优化问题的KKT条件,有于是,支持向量正好在间隔边界上。于是,得到如下的决策函数:niiiibxxyxf1**)(sgn)(Page14目录线性可分的支持向量(分类)机线性支持向量(分类)机支持向量(分类)机最小二乘支持向量(分类)机硬-带支持向量(回归)机软-带支持向量(回归)机-支持向量(回归)机最小二乘支持向量(回归)机支持向量机应用Page15二、线性支持向量(分类)机1))((bxwyiinibxwyiii,,1,1))((现在考虑线性不可分情况。对于训练集D,不存在这样的超平面,使训练集关于该超平面的几何间隔取正值。如果要用超平面来划分的话,必然有错分的点。但我们任希望使用超平面进行分划,这时应“软化”对间隔的要求,即容许不满足约束条件的样本点存在。为此,引入松弛变量并“软化”约束条件:i0iPage16线性支持向量(分类)机为了避免i取太大的值,需要在目标函数中对它们进行惩罚。于是原始优化问题变为:ninibxwytsCwiiiiniibw,,1,0,,1,1))((..21min12,,其中C0称为惩罚因子。(6)Page17线性支持向量(分类)机niiiniiiiiniirbxwyCwrbwL1112)1))(((21),,,,(类似前面,通过引入如下的Lagrange函数:得到如下的对偶问题:niCytsxxyyiniiininjjnjjijiji,,1,0,0..)(21min1111(7)Page18线性支持向量(分类)机求解对偶问题(7),可得如下决策函数:niiiibxxyxf1**)(sgn)(支持向量有下列性质:(1)界内支持向量一定位于间隔边界上的正确划分区;(2)支持向量不会出现在间隔以外的正确划分区;(3)非支持向量一定位于带间隔的正确划分区。Page19目录线性可分的支持向量(分类)机线性支持向量(分类)机支持向量(分类)机最小二乘支持向量(分类)机硬-带支持向量(回归)机软-带支持向量(回归)机-支持向量(回归)机最小二乘支持向量(回归)机支持向量机应用Page20三、支持向量(分类)机对于一般的非线性可分情况。对于训练集D,无法寻找到来如前的超平面来划分。Page21支持向量(分类)机下面通过核技术来处理。引入一个非线性映射把输入空间映射到一个(高维的)Hilbert空间H,使数据在H中是线性可分或线性不可分:)(:xzxHZRXm输入空间XiHilbert空间H线性可分线性不可分Page22在核映射下,D对应于Hilbert空间H的训练集为:支持向量(分类)机)}),((,),),({()},(,),,{('1111nnnnyxyxyzyzD于是在Hilbert空间H中寻找使几何间隔最大的超平面,其原始优化问题为:ninibzwytsCwiiiiniibw,,1,0,,1,1))((..21min12,,(8)Page23问题(8)对应的对偶问题为:支持向量(分类)机(9)niCytsxxKyyiniiininjjnjjijiji,,1,0,0..)(21min1111求解对偶问题(9),可得如下决策函数:niiiibxxKyxf1**)(sgn)(Page24b*问的计算如下:支持向量(分类)机选取的一个正分量0j*C,计算nijiiijxxKyyb1**)(Page25在问题(9)中K(x,x’)称为核函数。有:支持向量(分类)机))'()(()'(xxxxK核函数K(x,x’)仅依赖于的内积,要求满足Mercer条件。若K是正定核的话,问题(9)是凸二次规划,比有解。在支持向量机应用中,核函数K(x,x’)一般先验性地选取。常见的核有:线性核、多项式核、高斯核、Sigmoid核、样条核、小波核等等。Page26线性核:支持向量(分类)机)'()'(xxxxKSigmoid核:多项式核:高斯核:dcxxxxK))'(()'()/'exp()'(22xxxxK))'(tanh()'(vxxxxKPage27目录线性可分的支持向量(分类)机线性支持向量(分类)机支持向量(分类)机最小二乘支持向量(分类)机硬-带支持向量(回归)机软-带支持向量(回归)机-支持向量(回归)机最小二乘支持向量(回归)机支持向量机应用Page28四、最小二乘支持向量(分类)机nkkkTempybxwn1bwR12)))(((),(Suykens等人在支持向量回归机中引入如下的二次损失函数作为代价函数,并将其不等式约束改为等式约束:nkkTeb,w,e21wwe)J(w,min1221且带有如下等式约束条件:nkebxwykkTk,,1,)(其中bxxyeTi因此,把支持向量机的原始优化问题转变为如下寻找w和b的优化问题:nkebxwykkTk,,1,)(Page29最小二乘支持向量(回归)机为了在对偶空间中求解上述优化问题,定义如下的Lagrange泛函:nkkkkTkyebxw-e)J(w,)e,b,L(w,1))((其中kR为乘子(叫做支持向量)。其优化条件由下式给出:nkyebxwLnkeeLbLxwwLkkkTkkkknkknkkk,,1,)(0,,1,000)(011Page30最小二乘支持向量(回归)机上式能被直接表示为求解如下如下线性方程组:其中y=(y1,…,yn)T,(x)=((x1),…,(xn))T,1n=(1,...,1)T,e=(e1,…,en)T,=(1,…,n)T。在上式中消去w和e后,得到如下线性方程组:yebwIxIIxInnTnnTn00001)(001000)(00ybInnTn01110其中kl=(xk)T(xl),k,l=1,...,n。Page31最小二乘支持向量(回归)机根据Mercer定理,最小二乘支持向量分类器为:其中与b通过求解上述方程组得到。nkkkbxxKxf1),(sgn)(Page32例子:最小二乘支持向量(分类)机Page33目录线性可分的支持向量(分类)机线性支持向量(分类)机支持向量(分类)机最小二乘支持向量(分类)机硬-带支持向量(回归)机软-带支持向量(回归)机-支持向量(回归)机最小二乘支持向量(回归)机支持向量机应用Page34五、硬-带支持向量(回归)机1、一个简单的回归例子。考虑两个量x与y的关系。假设已测得若干个数据构成的数据集D:Page35硬-带支持向量(回归)机Page36五、硬-带支持向量(回归)机2、不敏感损失函数为了在回归问题中使用结构风险代替经验风险来作为期望风险,以及保持在支持向量分类机的稀疏性质,Vapnik引入了如下的不敏感损失函数:其中:Page37硬-带支持向量(回归)机