李欣海第五届中国R语言会议北京2012用R实现随机森林的分类与回归ApplicationsofRandomForestusingRClassificationandRegression李欣海中科院动物所邮件:lixh@ioz.ac.cn主页:~LiXinhai博客:微博:李欣海第五届中国R语言会议北京2012RandomForest•RandomForestisanensembleclassifierthatconsistsofmanydecisiontrees.•Itoutputstheclassthatisthemodeoftheclass'soutputbyindividualtrees(Breiman2001).•Itdealswith“smallnlargep”-problems,high-orderinteractions,correlatedpredictorvariables.Breiman,L.2001.Randomforests.MachineLearning45:5-32.(Beingcited6500timesuntil2012)2/25随机森林简介李欣海第五届中国R语言会议北京2012HistoryThealgorithmforinducingarandomforestwasdevelopedbyLeoBreiman(2001)andAdeleCutler,andRandomForestsistheirtrademark.ThetermcamefromrandomdecisionforeststhatwasfirstproposedbyTinKamHoofBellLabsin1995.ThemethodcombinesBreiman'sbaggingideaandtherandomselectionoffeatures,introducedindependentlybyHo(1995)andAmitandGeman(1997)inordertoconstructacollectionofdecisiontreeswithcontrolledvariation.3/25随机森林简介李欣海第五届中国R语言会议北京2012TreemodelsRegressiontree(Crawley2007TheRBookp691)Classificationtree(Crawley2007TheRBookp694)iiiiixxxyεββββ++++=33221104/25随机森林简介李欣海第五届中国R语言会议北京2012Thestatisticalcommunityusesirrelevanttheory,questionableconclusions?DavidR.CoxBruceHoadleyBradEfronEmanuelParzenNOYES5/25随机森林简介李欣海第五届中国R语言会议北京2012EnsembleclassifiersTreemodelsaresimple,oftenproducenoisy(bushy)orweak(stunted)classifiers.•Bagging(Breiman,1996):Fitmanylargetreestobootstrap-resampledversionsofthetrainingdata,andclassifybymajorityvote.•Boosting(Freund&Shapire,1996):Fitmanylargeorsmalltreestoreweightedversionsofthetrainingdata.Classifybyweightedmajorityvote.•RandomForests(Breiman1999):Fancierversionofbagging.IngeneralBoostingRandomForestsBaggingSingleTree(TrevorHastie).随机森林简介李欣海第五届中国R语言会议北京2012HowRandomForestWorks•Ateachtreesplit,arandomsampleofmfeaturesisdrawn,andonlythosemfeaturesareconsideredforsplitting.Typicallym=sqrt(p)orlog(p),wherepisthenumberoffeatures.•Foreachtreegrownonabootstrapsample,theerrorrateforobservationsleftoutofthebootstrapsampleismonitored.Thisiscalledtheout-of-bag(OOB)errorrate.•Randomforeststriestoimproveonbaggingby“de-correlating”thetrees.Eachtreehasthesameexpectation.(TrevorHastie,p21inTrees,Bagging,RandomForestsandBoosting)随机森林简介李欣海第五届中国R语言会议北京2012RPackagesrandomForestrandomForest()Title:BreimanandCutler’srandomforestsforclassificationandregressionVersion:4.6-6Date:2012-01-06Author:FortranoriginalbyLeoBreimanandAdeleCutler,RportbyAndyLiawandMatthewWiener.ImplementationbasedonCARTtreesforvariablesofdifferenttypes.Biasedinfavorofcontinuousvariablesandvariableswithmanycategories.partycforest()Basedonunbiasedconditionalinferencetrees.Forvariablesofdifferenttypes:unbiasedwhensubsampling.8/25随机森林简介李欣海第五届中国R语言会议北京2012##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################