C5.0算法人员眼睛颜色头发颜色所属人种1黑色黑色黄种人2蓝色金色白种人3灰色金色白种人4蓝色红色白种人5灰色红色白种人6黑色金色混血儿7灰色黑色混血儿8蓝色黑色混血儿A={眼睛颜色,头发颜色,所属人种}R={黄种人,白种人,混血人种}C5.0决策树的感性认识C5.0决策树的感性认识蓝色灰色黑色{1,6}{2,4,8}{3,5,7}眼睛颜色黄种人{1}混血儿{6}黄种人{2}白种人{4}混血儿{8}白种人{3}白种人{5}混血儿{7}黑色金色金色黑色黑色红色金色红色根节点内部节点叶节点自然界的树:基因、环境:•决策树:属性•C5.0:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。C5.0究竟哪棵是好树?•信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵•信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,P(ui)=1•信息量(单位是bit,对的底数取2):•信息熵:(先验不确定性)•信息熵H(U)的性质•H(U)=0时,表示只存在唯一的可能性,不存在不确定性•如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k,H(U)达到最大,不确定性最大•P(ui)差别越小,H(U)就越大;P(ui)差别大,H(U)就越小)(log)(1log)(22iiiuPuPuI)(log)()(1log)()(22iiiiiiuPuPuPuPUHC5.0熵–设S是一个样本集合,目标变量C有k个分类,freq(Ci,S)表示S中属于Ci类的样本数,|S|表示样本集合S的样本数。则集合S的信息熵定义为:–如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为:–属性变量T带来的信息增益为:|))|/),((log|)|/),((()(12SSCfreqSSCfreqSInfokiii))(|)|/|((|)(1iniiTInfoTTTInfo)()()(TInfoSInfoTGainC5.0算法简介•信息熵•信息增益C5.0算法简介•信息增益•分离信息•信息增益率•剪枝C5.0算法简介•Speed•Memory•Smallerdecision•Supportforboosting•Weighting•WinnowingC5.0相比C4.5的优点谢谢聆听欢迎大家提问指正