C5.0

卜留回忆
8 ℃
2020-06-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

统计分析、数据挖掘与商业智能应用研究小组C5.0报告人：石磊指导教师:谢邦昌日期：2007年11月30日统计分析、数据挖掘与商业智能应用研究小组C5.0•C5.0是Clementine的决策树模型中的算法•最早(20世纪50年代)的算法是亨特CLS(ConceptLearningSystem)提出，后经发展由JRQuinlan在1979年提出了著名的ID3算法，主要针对离散型属性数据•C4.5是ID3后来的改进算法，它在ID3基础上增加了：–--对连续属性的离散化•C5.0是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改进统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型•决策树(DecisionTree)模型，也称规则推理模型–通过对训练样本的学习，建立分类规则–依据分类规则，实现对新样本的分类–属于有指导(监督)式的学习方法，有两类变量：•目标变量(输出变量)•属性变量(输入变量)•决策树模型与一般统计分类模型的主要区别–决策树的分类是基于逻辑的，一般统计分类模型是基于非逻辑的统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型•常用的算法有CHAID、CART、Quest和C5.0。•对每个决策都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。•决策树很擅长处理非数值型数据，这与神经网络只能处理数值型数据比起来，就免去了很多数据预处理工作。统计分析、数据挖掘与商业智能应用研究小组C5.0原理介绍•C5.0是经典的决策树模型的算法之一，可生成多分支的决策树，目标变量为分类变量•使用c5.0算法可以生成决策树（decisiontree）或者规则集（rulesets）。C5.0模型根据能够带来最大信息增益（informationgain）的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。统计分析、数据挖掘与商业智能应用研究小组C5.0的优点•优点：–C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。–C5.0模型通常不需要很长的训练次数进行估计。–C5.0模型比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释。–C5.0也提供强大的增强技术以提高分类的精度。统计分析、数据挖掘与商业智能应用研究小组C5.0算法•C5.0算法选择分支变量的依据–以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降统计分析、数据挖掘与商业智能应用研究小组•信息熵：信息量的数学期望，是信源发出信息前的平均不确定性，也称先验熵•信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型，P(ui)＝1•信息量(单位是bit，对的底数取2)：•信息熵：(先验不确定性)•信息熵H(U)的性质•H(U)=0时，表示只存在唯一的可能性，不存在不确定性•如果信源的k个信号有相同的发出概率，即所有的ui有P(ui)=1/k，H(U)达到最大，不确定性最大•P(ui)差别越小，H(U)就越大；P(ui)差别大，H(U)就越小)(log)(1log)(22iiiuPuPuI)(log)()(1log)()(22iiiiiiuPuPuPuPUHC5.0算法---熵统计分析、数据挖掘与商业智能应用研究小组•决策树中熵的应用–设S是一个样本集合，目标变量C有k个分类，freq(Ci,S)表示S中属于Ci类的样本数，|S|表示样本集合S的样本数。则集合S的信息熵定义为：–如果某属性变量T，有n个分类，则属性变量T引入后的条件熵定义为：–属性变量T带来的信息增益为：C5.0算法--决策树中熵的应用|))|/),((log|)|/),((()(12SSCfreqSSCfreqSInfokiii))(|)|/|((|)(1iniiTInfoTTTInfo)()()(TInfoSInfoTGain统计分析、数据挖掘与商业智能应用研究小组C5.0算法的简单示例该组样本的熵为：关于T1的条件熵为：T1带来的信息增益为：940.0)145(log145)149(log149)(22SInfo694.0))52(log52)53(log53(145))40(log40)44(log44(144))53(log53)52(log52(145)1(222222TInfo246.0694.0940.0)1(TGain统计分析、数据挖掘与商业智能应用研究小组C5.0节点模型选项•模型名称（Modelname）•输出类型（Outputtype）：此处指定希望最终生成的模型是决策树还是规则集。•群体字符（Groupsymbolics）。如果选择该选项，C5.0会尝试将所有与输出字段格式相似的字符值合并。如果没有选择该选项，C5.0会为用于拆分母节点的字符字段的每个值创建一个子节点。•使用自举法（Useboosting）：提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的方式建立。随后，建立第二个模型，聚焦于被第一个模型错误分类的记录。以此类推，最后应用整个模型集对样本进行分类，使用加权投票过程把分散的预测合并成综合预测。TheNumberoftrials选项允许控制用于助推的模型数量。统计分析、数据挖掘与商业智能应用研究小组C5.0节点模型选项•交叉验证（Cross－validate）：如果选择了该选项，C5.0将使用一组基于训练数据子集建立的模型，来估计基于全部数据建立的模型的精确度。如果数据集过小，不能拆分成传统意义上的训练集和测试集，这将非常有用。或用于交叉验证的模型数目。•模式（Mode）：对于简单的训练，绝大多数C5.0参数是自动设置。高级训练模式选项允许对训练参数更多的直接控制。统计分析、数据挖掘与商业智能应用研究小组C5.0节点模型选项•简单模式选项（simple）•偏好（Favor）：–在accuracy下，C5.0会生成尽可能精确的决策树。在某些情况下，这会导致过度拟和。选择Generality（一般化）项以使用不易受该问题影响的算法设置。•期望噪声百分数（Expectednoise（%））：–指定训练集中的噪声或错误数据期望比率。统计分析、数据挖掘与商业智能应用研究小组C5.0节点模型选项•高级模式选项•修剪纯度（pruningseverity）：决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小，更简洁的决策树。降低纯度值将获得更加精确的决策树。•子分支最少记录数（Minimumrecordsperchildbranch）：子群大小可以用于限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数，决策树才会继续拆分。默认值为2，提高该值将有助于避免噪声数据的过度训练。•全局修剪（Useglobalpruning）：第一阶段：局部修建第二阶段：全局修剪•排除属性（Winnowattributes）：如果选择了该选项，C5.0会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段元的模型非常有用，并且有助于避免过度拟和。统计分析、数据挖掘与商业智能应用研究小组错误归类损失选项图1指定错误归类损失•错误归类损失允许指定不同类型预测错误之间的相对重要性。•错误归类损失矩阵显示预测类和实际类每一可能组合的损失。所有的错误归类损失都预设设置为1.0。要输入自定义损失值，选择Usemisclassificationcosts，然后把自定义值输入到损失矩阵中。统计分析、数据挖掘与商业智能应用研究小组例子目标：分析通过观看电视或网络信息，哪些客户有可能订购某种新闻服务变量情况：年龄、性别、受教育程度、收入等级、每天收看电视的小时、子女数(newschan.sav)统计分析、数据挖掘与商业智能应用研究小组例子—数据统计分析、数据挖掘与商业智能应用研究小组例子—设置统计分析、数据挖掘与商业智能应用研究小组例子—设置分配训练样本和测试样本统计分析、数据挖掘与商业智能应用研究小组例子—结果统计分析、数据挖掘与商业智能应用研究小组例子--decisiontree统计分析、数据挖掘与商业智能应用研究小组例子--model统计分析、数据挖掘与商业智能应用研究小组例子--RuleSet统计分析、数据挖掘与商业智能应用研究小组模型评价evaluation统计分析、数据挖掘与商业智能应用研究小组模型评价---GainsChart•横坐标通常为分位点(按置信度降序)，纵坐标是累计Gains，定义为：–分位累计命中数/总命中数×100％•理想的Gains图应在前期快速达到较高的累计Gains，很快趋于100％并平稳统计分析、数据挖掘与商业智能应用研究小组模型评价---LiftChart•横坐标通常为分位点(按置信度降序)，纵坐标是累计Lift，定义为：(分位累计命中数/分位样本数)/(总命中数/总样本数)•理想的Lift图应在较高的累计Lift上保持较长一段，然后迅速下降到1统计分析、数据挖掘与商业智能应用研究小组模型评价---ResponseChart•横坐标通常为分位点(按置信度降序)，纵坐标是累积Response，定义为：–(分位累计命中数/分位样本数)×100%•Response图与Lift图相似，但纵坐标计量单位不同。一般从大于100％开始逐渐减少至100％。•理想的Response图应在较高的累计Lift上保持一段，然后迅速下降到100％统计分析、数据挖掘与商业智能应用研究小组模型评价---ProfitChart•横坐标通常为分位点(按置信度降序)，纵坐标是累积Profit，定义为：–分位累积回报－分位累积成本•Profit图反映了当样本不断增加过程中的利润变化情况。通常纵坐标从0(或大于0)开始，快速增加后将快速下降。•理想的Profit图应在前期快速上升，在50％分位点纵坐标达到最大后快速下降统计分析、数据挖掘与商业智能应用研究小组模型评价---ROIChart•横坐标通常为分位点(按置信度降序)，纵坐标是累积ROI，定义为：–(分位累积利润/分位累积成本)×100%•ROI图与Response和Lift图类似，但纵坐标计量单位不同。一般从大于0％开始逐渐减少至一般水平(可能为负数至100％)。•理想的ROI图应在较高的累计ROI上保持一段，然后迅速下降至一般水平统计分析、数据挖掘与商业智能应用研究小组谢谢！