大数据经典算概要

rich1979
1 ℃
2020-01-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

AdaBoost1组员：朱航，杨帅，王永胜，曹宏武，曾德清，周峰Adaboost算法•算法分析•算法步骤•训练过程•举例说明•算法介绍2Adaboost算法介绍•IdeaAdaBoost(AdaptiveBoosting,R.Scharpire,Y.Freund,ICML,1996)•Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。3Adaboost算法介绍•Adaboost算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次得到的分类器最后融合起来，作为最后的决策分类器。4Adaboost算法介绍•目前，对Adaboost算法的研究以及应用大多集中于分类问题，同时近年也出现了一些在回归问题上的应用。•就其应用Adaboost系列主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题，回归问题。•它用全部的训练样本进行学习。•使用adaboost分类器可以排除一些不必要的训练数据特征，并将关键放在关键的训练数据上面。5Adaboost算法分析该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能力。1、先通过对N个训练样本的学习得到第一个弱分类器；2、将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；3、将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器4、最终经过提升的强分类器。即某个数据被分为哪一类要通过......的多数表决。6Adaboost算法分析对于boosting算法，存在两个问题：1.如何调整训练集，使得在训练集上训练的弱分类器得以进行；2.如何将训练得到的各个弱分类器联合起来形成强分类器。7Adaboost算法分析针对以上两个问题，AdaBoost算法进行了调整：1.使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数据样本上；2.将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。8Adaboost算法分析AdaBoost算法是Freund和Schapire根据在线分配算法提出的，他们详细分析了AdaBoost算法错误率的上界，以及为了使强分类器达到错误率，算法所需要的最多迭代次数等相关问题。与Boosting算法不同的是，AdaBoost算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差，并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度，这样可以深入挖掘弱分类器算法的能力。9Adaboost算法分析AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，即其中n为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，降低其权重，这样分错的样本就被突显出来，从而得到一个新的样本分布。在新的样本分布下，再次对样本进行训练，得到弱分类器。依次类推，经过T次循环，得到T个弱分类器，把这T个弱分类器按一定的权重叠加（boost）起来，得到最终想要的强分类器。10Adaboost算法分析Adaboost的核心思想“关注”被错分的样本，“器重”性能好的弱分类器怎么实现（1）不同的训练集调整样本权重（2）“关注”增加错分样本权重（3）“器重”好的分类器权重大（4）样本权重间接影响分类器权重11Adaboost算法步骤AdaBoost算法的具体步骤如下：1.给定训练样本集S，其中X和Y分别对应于正例样本和负例样本；T为训练的最大循环次数；2.初始化样本权重为1/n，即为训练样本的初始概率分布；3.第一次迭代：(1)训练样本的概率分布相当，训练弱分类器;(2)计算弱分类器的错误率;(3)选取合适阈值，使得误差最小；(4)更新样本权重；经T次循环后，得到T个弱分类器，按更新的权重叠加，最终得到的强分类器。12Adaboost算法步骤Adaboost算法是经过调整的Boosting算法，其能够对弱学习得到的弱分类器的错误进行适应性(Adaptive)调整。上述算法中迭代了T次的主循环，每一次循环根据当前的权重分布对样本x定一个分布P，然后对这个分布下的样本使用弱学习算法得到一个弱分类器，对于这个算法定义的弱学习算法，对所有的样本都有错误率，而这个错误率的上限并不需要事先知道，实际上。每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均13一.样本Given:mexamples(x1,y1),…,(xm,ym)wherexiX,yiY={-1,+1}xi表示X中第i个元素，yi表示与xi对应元素的属性值，+1表示xi属于某个分类，-1表示xi不属于某个分类二.初始化训练样本xi的权重D(i):i=1,……，m;(1).若正负样本数目一致，D1(i)=1/m(2).若正负样本数目m+,m-则正样本D1(i)=1/m+，负样本D1(i)=1/m-SchapireAdaboostAlgorithm14三.训练弱分类器Fort=1,……,T1.Trainlearnerhtwithminerror若划分正确，则不计入误差，若所有元素都被正确划分，则误差为0若划分错误，则计入误差2.Ifεt≥0.5,thenstop3.Computethehypothesisweight4.5.最后得到的强分类器:SchapireAdaboostAlgorithm~Pr[()]ttiDtiihxyttt1ln21TheweightAdapts.Thebiggertbecomesthesmallertbecomes.TtttxhxH1)(sign)(15Adaboost算法的优点1)Adaboost是一种有很高精度的分类器2)可以使用各种方法构建子分类器,Adaboost算法提供的是框架3)当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单4)简单，不用做特征筛选5)不用担心overfitting(过度拟合)！16Adaboost实例详解下面我们举一个简单的例子来看看adaboost的实现过程：图中，“+”和“-”分别表示两种类别，在这个过程中，我们使用水平或者垂直的直线作为分类器，来进行分类。17Adaboost实例详解根据分类的正确率，得到一个新的样本分布(样本中每个元素的权重分布)D2，一个子分类器h1。其中划圈的样本表示被分错的。在右边的途中，比较大的“+”表示对该样本做了加权。也许你对上面的ɛ1，ɑ1怎么算的也不是很理解。算法最开始给了一个均匀分布D。所以h1里的每个点的值是0.1。当划分后，有三个点划分错了，根据算法误差表达式得到误差为分错的三个点的值之和，所以。εt=(0.1+0.1+0.1)=0.3,然后根据算法把分错点的权值变大，分错点的权值计算如下：对于分类正确的7个点，其权值保持不变，为0.1；对于分类错误的3个点，其权值为||)(||1titimitxhyD42.03.03.01ln211ln211112333.03.03.011.0-1i)（111D18Adaboost实例详解19Adaboost实例详解根据分类的正确率，得到一个新的样本分布D3，一个子分类器h2如上图所示，弱分类器h2中有三个“-”符号分类错误，分类错误的权值为：we2=0.1*3=0.3；上图中十个点的总权值为：wt2=0.1*7+0.233*3=1.3990；错误率为：ε2=we2/wt2=0.3/1.399=0.2144;对于分类错误的三个点，其权值为:于是，分类错误的三个点误差增加为0.3664如此迭代6493.02144.02144.01ln211ln212223644.02144.02144.011.0-1i)（222D20Adaboost实例详解21Adaboost实例详解得到一个子分类器h3如上图所示，弱分类器h3中有两个“+”符号和一个“-”符号分类错误，分类错误的权值为we3=0.1*2+0.1*1=0.3；上图中十个点的总权值为：wt3=0.1*4+0.233*3+0.3664*3=2.1982；错误率为：εt=we3/wt3=0.3/2.1982=0.1365;对于分类错误的三个点，其权值为:于是，分类错误的三个点误差增加为0.6326如此迭代9223.01365.01365.01ln211ln213336326.01365.01365.011.0-1i)（333D22Adaboost实例详解每个区域是属于哪个属性，由这个区域所在分类器的权值综合决定。比如左下角的区域，属于蓝色分类区的权重为h1中的0.42和h2中的0.65，其和为1.07；属于淡红色分类区域的权重为h3中的0.92；属于淡红色分类区的权重小于属于蓝色分类区的权值，因此左下角属于蓝色分类区。因此可以得到整合的结果如上图所示，从结果图中看，即使是简单的分类器，组合起来也能获得很好的分类效果。23Adaboost权值调整的原因注意到算法最后的表到式为这里面的αt表示的权值，是由得到的。而是关于误差的表达式，到这里就可以得到比较清晰的答案了，所有的一切都指向了误差。提高错误点的权值，当下一次分类器再次分错了这些点之后，会提高整体的错误率，这样就导致αt变的很小，最终导致这个分类器在整个混合分类器的权值变低。也就是说，这个算法让优秀的分类器占整体的权值更高，而挫的分类器权值更低。这个就很符合常理了。到此，我认为对adaboost已经有了一个透彻的理解了。24ttt1ln21）)(（)（1tTttxhsignxH总结最后，我们可以总结下adaboost算法的一些实际可以使用的场景：1）用于二分类或多分类的应用场景2）用于做分类任务的baseline，无脑化，简单，不会overfitting，不用调分类器3）用于特征选择（featureselection)4）Boosting框架用于对badcase的修正只需要增加新的分类器，不需要变动原有分类器由于adaboost算法是一种实现简单，应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器，同时具有分类错误率上界随着训练增加而稳定下降，不会过拟合等的性质，应该说是一种很适合于在各种分类场景下应用的算法。25Thankyou！26