集成算法用延迟符专业:计算机科学与技术讲解者:目录CATALOG01030204集成算法简介回归算法随机森林集成算法延迟符05总结延迟符集成算法简介延迟符集成学习是用多个弱分类器构成一个强分类器,一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成集成学习算法概念目的让机器学习效果更好,单个不行,群殴走起弱学习器1弱学习器2弱学习器t强学习器结合策略延迟符Bagging训练多个分类器取平均典型代表:随机森林Boosting从弱分类器开始加强,通过加权来进行训练典型代表:①Adaboost②Xgboost③GDBTStacking聚合多个分类或者回归模型集成学习算法类型bagging模型Bagging的算法原理和boosting不同,它的弱学习器之间没有依赖关系,可以并行生成,我们可以用一张图做一个概括如下:m个样本训练集m个样本训练集tm个样本训练集2m个样本采样集1弱学习器1弱学习器2弱学习器t强学习器随机采样训练训练训练结合策略典型代表:AdaBoost,Xgboost,GDBTBoosting模型Adaboost会根据前一次的分类效果调整数据权重解释:如果某一个数据在这次分错了,那么在下一次给出更大的权重最终的结果:每个分类器根据吱声的准确性来确定各自的权重,再合体m个样本训练集权重D(1)权重D(2)权重D(3)带权重D(1)训练集带权重D(T)训练集带权重D(1)训练集弱学习器1基于学习误差率e1更新权重系数a1强学习器弱学习器2基于学习误差率e2更新权重系数a2弱学习器T基于学习误差率eT更新权重系数aT训练训练训练结合策略根据a1更新样本权重D(2)根据a2更新样本权重D(3)应用:神经网络堆叠:很暴力,拿来一堆直接说(各种分类器都来了),可以堆叠各种各样的分类器(KNN,SVM,RF...)分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练Stacking模型结合策略平均法投票法学习法对于数值类的回归预测问题,通常使用的结合策略是平均法,也就是说,对于若干和弱学习器的输出进行平均得到最终的预测输出。对于分类问题的预测,我们通常使用的是投票法。假设我们的预测类别是{c1,c2,...cK},对于任意一个预测样本x,我们的T个弱学习器的预测结果分别是(h1(x),h2(x)...hT(x))。对于学习法,代表方法是stacking,当使用stacking的结合策略时,我们不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,也就是说,我们将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果。(1)本算法中数据共891个,用的是pythonjupyter(便于演示)(2)处理缺失值(3)处理字符型数据(转化为数字,便于处理)数据处理延迟符回归算法延迟符线性回归线性回归逻辑回归逻辑回归延迟符随机森林延迟符用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。概述1.它能够处理很高维度(feature很多)的数据,并且不用做特征选择2.能够评估各个特征在分类问题上的重要性(黑箱操作)3.容易做成并行化方法随机森林特点随机性1.数据的随机性选取2.待选特征的随机选取由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样(随机是要保证泛化能力)随机森林结果那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。随机森林以上两者的区别在于参数的不同特征选取延迟符GradientBoost延迟符GradientBoostGradientBoost其实是一个框架,里面可以套入很多不同的算法延迟符总结延迟符优点缺点集成学习在机器学习算法中具有较高的准确率模型的训练过程可能比较复杂,效率不是很高集成学习用于对。1什么是集成学习2常见集成学习方法3集合策略4在python中的应用集成学习延迟符结论延时符谢谢聆听!敬请批评指正延迟符