张文超2014/05/07基本概念决策树模型的建立决策树与判别函数的比较计算方法决策树及随机效应模型R软件包应用决策树是同时提供分类的预测的常用方法决策树的数据分析是一种树形结构来表现数据各变量影响程度的预测模型,利用树上各级节点分支自动确认和评估各个类别。决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等,也可以由结果反推原因。决策树是同时提供分类与预测的常用方法。通过一系列的选择将数据分类,可由落入相同结点的路径上的规则集来推测相同的结果。决策树的主要功能是由已知分类的个体来建立决策树和相应的决策规则。与神经网络不同,决策树产生的决策规则可用文字或数字来表达?。常用的决策树方法有CHAID(chaid)以及CART(cart)CHAID(卡方自动交互检测法)决策树只限于处理分类变量,如果是连续变量必须采用区段的方式,先转换数据为类别变量,才可以使用。(1)对每个变量都计算其所有可能的分割点,并找出一个最佳分割点。(2)比较各预测变量在“最佳分割方式”下的组间方差,然后找出一个组间方差最大的变量,即为最佳预测变量。(3)用最佳预测变量的最佳分割方式把原始数据分成两组(4)将分割后的每一组作为样本,重复前述分割步骤(5)重复分割,直到所有变量都被用完为止。针对分类预测变量,计算以单变量分裂为基础的二元决策树针对顺序预测变量,计算以单变量分裂为基础的二元决策树(至少为顺序尺度类型的变量)混合两类方法的预测变量计算以单变量分裂为基础的二元决策树。决策树与判别函数的比较如表10-1所示决策树是要建立预测正确率最高的分类规则预测精度的定义,一般包含了成本的概念成本指的是个例被混合分类时的比例如果研究中,各分类包含的个例数的比例相等或相近,或各类中的个例数目相等或相近,就可以选择“相同先验概率”。如果不同分类的比例相差较大,以至于影响到分类数,那么,可依据样本中的分类比例来估计先验概率。如果针对基本比例有着经验判断,便可以给予不同的基本比例,并可将其归类为先验概率如果设置相同的错误分类成本,并且不以分类的个体比例作为权数,那么错误分类率是相同的。分层技术比较如表10-2所示在决策树模块中,提供两个选项可以控制停止分裂(分层)的时间点:(1)取小n(最终节点中所包含的个例数)(2)设置对象的片段在一般化的分割过程中,需要确定决策树的适当规模决策树模块可提供几种不同的选取适当大小的策略,可择一或同时使用。如表10-3所示。决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。□——决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。○——状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。△——结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。机器学习,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。一个决策树包含三种类型的节点:决策节点:通常用矩形框来表式机会节点:通常用圆圈来表式终结点:通常用三角形来表示决策树学习也是资料探勘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。数据库已如下所示:(x,y)=(x1,x2,x3…,xk,y)相关的变量Y表示我们尝试去理解,分类或者更一般化的结果。其他的变量x1,x2,x3等则是帮助我们达到目的的变量。剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。为了适应市场的需要,某地准备扩大电视机生产。市场预测表明:产品销路好的概率为0.7;销路差的概率为0.3。备选方案有三个:第一个方案是建设大工厂,需要投资600万元,可使用10年;如销路好,每年可赢利200万元;如销路不好,每年会亏损40万元。第二个方案是建设小工厂,需投资280万元;如销路好,每年可赢利80万元;如销路不好,每年也会赢利60万元。第三个方案也是先建设小工厂,但是如销路好,3年后扩建,扩建需投资400万元,可使用7年,扩建后每年会赢利190万元。各点期望:点②:0.7×200×10+0.3×(-40)×10-600(投资)=680(万元)决策树分析点⑤:1.0×190×7-400=930(万元)点⑥:1.0×80×7=560(万元)比较决策点4的情况可以看到,由于点⑤(930万元)与点⑥(560万元)相比,点⑤的期望利润值较大,因此应采用扩建的方案,而舍弃不扩建的方案。把点⑤的930万元移到点4来,可计算出点③的期望利润值。点③:0.7×80×3+0.7×930+0.3×60×(3+7)-280=719(万元)最后比较决策点1的情况。由于点③(719万元)与点②(680万元)相比,点③的期望利润值较大,因此取点③而舍点②。这样,相比之下,建设大工厂的方案不是最优方案,合理的策略应采用前3年建小工厂,如销路好,后7年进行扩建的方案。应用SAS8.2EnterpriseMiner模块建立决策树模型和回归模型,对该区公务员人群的健康状况影响因素进行分析和预测。将logistic回归模型与决策树模型进行预测性能的比较,ROC面积比较结果发现,两者差别无统计学意义。结论公务员人群健康状况不容乐观,各种慢性病患病率较高,是今后开展健康管理的重点群体&logistic回归是分类数据统计分析的一种重要方法,流行病学上常用于研究疾病与致病因子间的联系,以疾病发生与否为应变量,影响疾病发生的因子为自变量,估计各因子的相对危险度或比数比。决策树是一种非线性的判别分析的方法,是一种类似于流程图的结构图,其中,每个内部节点(非树节点)表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点(或终结点)存放一个类标号。本研究应用enterpriseminer建立logistic回归模型和决策树模型对公务员健康状况的预测性能进行比较分析&决策树模型方法能产生一些可以理解的规则线性随机效应混合模型的一般公式,1,2,....iiiiiiyxZbiN固定效应随机效应如果固定效应不一定是线性的,而又无法写出非线性关系的分析表达式,则可以用决策树来取代那固定的线性部分。其公式为123(,,,......),1,2,....ipiiiyfXXXXZbiN其中,yi为ni*r,xi为ni*p,Zi为ni*q,bi为q*r,为ni*ri123(0,),i(0,),b..qbbbNNbi对于所有的,而且独立于“决策树及随机效应模型”,使得建模的灵活性大大增加。所用程序包:REEMtreeP97页w=read.csv(riesby.csv,na.strings=-9)w$week=fator(w$week);w=na.omit(w)library(REEMtree)a-REEMtree(hamd~week,data=w,random=~week|id)print(a);plot(a)程序运行结果,将给出决策树的细节及随机部分的有关协方差和方差。谢谢!