支持向量机SVM2015.11.25主要内容•数据线性可分的情况•数据非线性可分的情况•支持向量机(SupportVectorMachine,SVM)——一种对线性和非线性数据进行分类的方法。•SVM是一种算法,使用一种非线性映射,把原训练数据映射到较高的维上;在新的维上,搜索最优分离超平面。数据线性可分的情况•首先考虑最简单的情况——两类问题,是线性可分的。最佳标准:分类间隔分类间隔:两类样本中离分类面最近的样本到分类面的距离称作分类间隔。数据线性可分的情况•如何找出最佳超平面?•SVM通过搜索最大间隔超平面(MaximumMarginalHyperplane,MMH)来处理该问题。分离超平面:由最优超平面定义的分类决策函数为:0gxWXbsgnfxgx数据线性可分的情况由点到线的距离公式可得:从分离超平面到H1上的任意点的距离是1W因为W是超平面的法向量,所以W实际上只由在H1平面上的样本点确定。在H1上的点叫做支持向量,它们撑起了分界线。数据线性可分的情况于是问题便转换为了求很容易看出当||W||=0的时候就得到了目标函数的最小值。反映在图中,就是H1与H2两条直线间的距离无限大,所有样本都进入了无法分类的灰色地带。解决方案:加一个约束条件——对所有样本正确分类21min2w数据线性可分的情况数据线性可分的情况数据线性可分的情况数据线性可分的情况数据线性可分的情况数据线性可分的情况•决策数据线性可分的情况改进:加入松弛变量:允许实际分类中一定的不准确性的存在惩罚因子C:为了避免系统轻易放弃一些重要的数据,减小系统损失i数据线性不可分的情况对于上述的SVM,处理能力还是很弱,仅仅能处理线性可分的数据。如果数据线性不可分的时候,我们就将低维的数据映射到更高的维,以此使数据重新线性可分。这转化的关键便是核函数。数据线性不可分的情况数据线性不可分的情况数据线性不可分的情况数据线性不可分的情况数据线性不可分的情况数据线性不可分的情况•后面的都是我的导师张朝晖老师自己做的ppt•而我是直接用的,仅谢谢老师