集成学习

凌晨的star
1 ℃
2020-03-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

集成学习集成学习综述基本思想基础分类器组合策略对于回归预测（数值）简单平均加权平均对于分类预测（类别）简单投票加权投票学习法集成学习方法BoostingAdaboostAdboost+决策树=提升树决策树+GradientBoosting=GBDTBagging随机森林（决策树）（决策树）ID3(信息增益)c4.5（信息增益率）CART（基尼系数）Stacking模型评价方差&偏差集成学习：简单直观的例子对实例进行分类对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能※定义：集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。集成学习在概率近似正确（PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，如果正确率很高，那么就称这个概念是强可学习（stronglylearnable）的。如果正确率不高，仅仅比随即猜测略好，那么就称这个概念是弱可学习（weaklylearnable）的。后来证明强可学习与弱可学习是等价的解决的问题：1.弱分类器之间是怎样的关系？2.组合时，如何选择学习器？3.怎样组合弱分类器？集成学习解决的问题1.弱分类器之间是怎样的关系？第一种就是所有的个体学习器都是一个种类的，或者说是同质的。第二种是所有的个体学习器不全是一个种类的，或者说是异质的。集成学习2.组合时，如何选择学习器？考虑准确性和多样性准确性指的是个体学习器不能太差，要有一定的准确度；多样性则是个体学习器之间的输出要具有差异性集成学习3.怎样组合弱分类器？组合策略：（1）平均法（2）投票法（3）学习法集成学习（1）平均法对于数值类的回归预测问题思想：对于若干个弱学习器的输出进行平均得到最终的预测输出。•简单平均法•加权平均法其中wi是个体学习器hi的权重，通常有wi≥0,)(11xhTxHTii）（Tiiw11TiiixhwxH1)()（集成学习（2）投票法对于分类问题的预测思想：多个基本分类器都进行分类预测，然后根据分类结果用某种投票的原则进行投票表决，按照投票原则使用不同投票法。一票否决、一致表决、少数服从多数阈值表决：首先统计出把实例x划分为Ci和不划分为Ci的分类器数目分别是多少，然后当这两者比例超过某个阈值的时候把x划分到Ci。集成学习（3）学习法之前的方法都是对弱学习器的结果做平均或者投票，相对比较简单，但是可能学习误差较大。代表方法是Stacking思想：不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，分为2层。第一层是用不同的算法形成T个弱分类器，同时产生一个与原数据集大小相同的新数据集，利用这个新数据集和一个新算法构成第二层的分类器。集成学习集成学习主要学习方法：根据个体学习器的生成方式，目前的集成学习方法大致可分为两类，•Boosting：个体学习器间存在强依赖关系，必须串行生成的序列化方法；串行：下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。•Bagging：个体学习器间不存在强依赖关系，可同时生成的并行化方法。并行：所有的弱分类器都给出各自的预测结果，通过组合把这些预测结果转化为最终结果。集成学习Boosting重赋权法：即在训练过程的每一轮中，根据样本分布为每一个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法，则可以通过重采样法来处理，即在每一轮的学习中，根据样本分布对训练集重新进行采样，在用重采样而来的样本集对基学习器进行训练。代表算法：Adboost决策树+adboost=提升树GBDT（GradientBoostDecisionTree）梯度提升决策树决策树+GradientBoosting=GBDT其他叫法：GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回归树MART(MultipleAdditiveRegressionTree)多决策回归树TreeNet决策树网络集成学习Bagging(bootstrapaggregation)Bagging的策略：-从样本集中用Bootstrap采样选出n个样本-在所有属性上，对这n个样本建立分类器（CARTorSVMor...）-重复以上两步m次，i.e.buildm个分类器（CARTorSVMor...）-将数据放在这m个分类器上跑，最后vote看到底分到哪一类Bootstrap方法是非常有用的一种统计学上的估计方法。Bootstrap是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。Bootstrap是一种有放回的重复抽样方法，抽样策略就是简单的随机抽样。Bagging扩展变体随机森林（randomforest简称RF）随机森林：决策树+bagging=随机森林集成学习从偏差-方差分解的角度偏差(bias)：描述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差(variance)：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。集成学习Boosting主要关注降低偏差偏差刻画了学习算法本身的拟合能力Boosting思想，对判断错误的样本不停的加大权重，为了更好地拟合当前数据，所以降低了偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。boosting是把许多弱的分类器组合成一个强的分类器。Bagging主要是降低方差度量了同样大小的数据集的变动所导致的学习性能的变化。刻画了数据扰动所造成的影响。Bagging思想，随机选择部分样本来训练处理不同的模型，再综合来减小防方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。bagging是对许多强（甚至过强）的分类器求平均集成学习集成学习综述基本思想基础分类器组合策略对于回归预测（数值）简单平均加权平均对于分类预测（类别）简单投票加权投票学习法集成学习方法BoostingAdaboostAdboost+决策树=提升树决策树+GradientBoosting=GBDTBagging随机森林（决策树）（决策树）ID3(信息增益)c4.5（信息增益率）CART（基尼系数）Stacking模型评价方差&偏差