XXXX第6次课-决策树new

88284621
3 ℃
2018-12-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第6章决策树主要内容决策树基本概念决策树算法决策树研究问题主要参考文献主要内容决策树基本概念决策树算法决策树研究问题主要参考文献第6章决策树决策树基本概念关于分类问题分类（Classification）任务就是通过学习获得一个目标函数（TargetFunction）f,将每个属性集x映射到一个预先定义好的类标号y。分类任务的输入数据是纪录的集合，每条记录也称为实例或者样例。用元组(X,y)表示，其中，X是属性集合，y是一个特殊的属性，指出样例的类标号（也称为分类属性或者目标属性）第6章决策树决策树基本概念关于分类问题名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳动物海龟冷血鳞片否半否是否爬行类鸽子恒温羽毛否否是是否鸟类鲸恒温毛发是是否否否哺乳类Xy分类与回归分类目标属性y是离散的，回归目标属性y是连续的第6章决策树决策树基本概念解决分类问题的一般方法分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用一种学习算法确定分类模型，该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。分类方法的实例包括：决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。第6章决策树决策树基本概念解决分类问题的一般方法通过以上对分类问题一般方法的描述，可以看出分类问题一般包括两个步骤：1、模型构建（归纳）通过对训练集合的归纳，建立分类模型。2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。第6章决策树决策树基本概念解决分类问题的一般方法TIDA1A2A3类1Y100LN2N125SN3Y400LY4N415MN学习算法学习模型模型应用模型TIDA1A2A3类1Y100L？2N125S？3Y400L？4N415M？训练集（类标号已知）检验集（类标号未知）归纳推论第6章决策树决策树基本概念有指导的学习与无指导的学习(有监督学习与无监督学习)有指导的学习（supervisedlearning一般用于分类）模型的学习在被告知每个训练样本属于“那个类”的指导下进行。新数据使用训练数据集中得到的规则进行分类。无指导的学习（unsupervisedlearning一般用于聚类）每个训练样本的类编号是未知的，要学习的类集合和数量也可能是事先未知的。通过一系列的度量、观察来建立数据中的类编号或进行聚类第6章决策树决策树基本概念半监督学习（semi-supervisedlearning）传统的机器学习技术需要使用大量有标记训练样本进行学习，但是在很多真实应用中，获取大量有标记训练样本相当困难，但是很容易获得大量未标记训练样本。半监督学习致力于利用未标记样本来提高学习性能。半监督学习主要有三种学习方法：自训练；协同训练；Co-EM算法第6章决策树决策树基本概念半监督学习（semi-supervisedlearning）自训练：先在较小的标识数据集上训练得到初始分类器，然后利用该分类器对未标识样本进行分类。将分类置信度较高的未标识数据作为新的训练样本，添加到原训练集中对模型进行更新。如此循环多次后，输出得到的分类器及其分类结果。特点：自训练的方法通过将训练得到的置信度高的未标识数据作为训练样本，添加到训练集重复训练的方法，增加了训练集的数量，对未标识数据的信息进行了很好的利用，提高了分类的性能。但要求分类器对未标识数据具有较高的分类精度。这点对于较为复杂的分类尤其重要。自训练方法及特点第6章决策树半监督学习（semi-supervisedlearning）协同训练方法及特点协同训练是一种利用互补的分类器对未标识样本特征空间进行探索的半监督学习方法。协同训练利用分类器之间的相互训练来提高分类性能。可以弥补因一个分类器不准而对最终结果造成的影响。最终结果综合了两个分类器的结果得到。协同训练结果一般要优于自训练。但也面临未知数据分类精度对最终结果的影响问题。第6章决策树半监督学习（semi-supervisedlearning）Co-EM算法及特点Co-EM算法是协同训练的改进形式，它不是直接利用当前分类器对未标识样本的分类，而利用分类后的后验概率进行分类。优点在于对数据前几轮中的预测标识可以通过后验概率来改变。这样在初始分类器准确率不高的情况下优于协同训练。但其合理性和收敛性没有理论的保证。第6章决策树半监督学习（semi-supervisedlearning）其它半监督学习方法还包括：生成式模型（generativemodels）;最大化分离（maximizingseparation）;基于图的方法（graph-basedmethods）.第6章决策树决策树基本概念决策树决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。第6章决策树决策树基本概念决策树的优点1、推理过程容易理解，决策推理过程可以表示成IfThen形式；2、推理过程完全依赖于属性变量的取值特点；3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。第6章决策树决策树基本概念关于归纳学习(1)决策树技术发现数据模式和规则的核心是归纳算法。归纳是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性和属性中，通过比较、总结、概括而得出一个规律性的结论。归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。即从特殊事实到普遍性规律的结论。归纳对于认识的发展和完善具有重要的意义。人类知识的增长主要来源于归纳学习。第6章决策树决策树基本概念关于归纳学习(2)归纳学习的过程就是寻找一般化描述的过程。这种一般性描述能够解释给定的输入数据，并可以用来预测新的数据。锐角三角形内角和等于180度；钝角三角形内角和等于180度；三角形内角和直角三角形内角和等于180度；等于180度已知三角形ABC，A角等于76度，B角等于89度，则其C角等于15度归纳学习由于依赖于检验数据，因此又称为检验学习。归纳学习存在一个基本的假设：任一假设如果能够在足够大的训练样本集中很好的逼近目标函数，则它也能在未见样本中很好地逼近目标函数。该假定是归纳学习的有效性的前提条件。第6章决策树决策树基本概念关于归纳学习(3)第6章决策树决策树基本概念关于归纳学习(4)归纳过程就是在描述空间中进行搜索的过程。归纳可分为自顶向下，自底向上和双向搜索三种方式。自底向上法一次处理一个输入对象。将描述逐步一般化。直到最终的一般化描述。自顶向下法对可能的一般性描述集进行搜索，试图找到一些满足一定要求的最优的描述。第6章决策树决策树基本概念从机器学习看分类及归纳推理等问题（1）从特殊的训练样例中归纳出一般函数是机器学习的中心问题；从训练样例中进行学习通常被视为归纳推理。每个例子都是一个对偶（序偶）（x,f(x)），对每个输入的x，都有确定的输出f(x)。学习过程将产生对目标函数f的不同逼近。F的每一个逼近都叫做一个假设。假设需要以某种形式表示。例如，y=ax+b。通过调整假设的表示，学习过程将产生出假设的不同变形。在表示中通常需要修改参数（如a,b）。第6章决策树决策树基本概念从机器学习看分类及归纳推理等问题（2）从这些不同的变形中选择最佳的假设（或者说权值集合）。一般方法如定义为使训练值与假设值预测出的值之间的误差平方和E最小为最佳。amplestrainingexbVtrainbbVbVtrainE)(,2^))()((学习是在假设空间上的一个搜索。概念学习也可以看作是一个搜索问题的过程。它在预定义的假设空间中搜索假设，使其与训练样例有最佳的拟合度。多数情况下，为了高效地搜索，可以利用假设空间中一种自然形成的结构，即一般到特殊的偏序关系。第6章决策树决策树基本概念从机器学习看分类及归纳推理等问题（3）分类模型的性能根据模型正确和错误预测也可以根据的检验记录计数进行评估。这些计数存储在混淆矩阵（ConfusionMatrix）的表格中，二元分类问题混淆矩阵如下：实际的类类1f11类0f01f10f00类1类0预测的类准确率=正确的预测数/预测总数=（f11+f00）/(f11+f01+f10+f00)差错率=错误的预测数/预测总数=（f10+f01）/(f11+f01+f10+f00)第6章决策树决策树基本概念从机器学习看分类及归纳推理等问题（4）混淆矩阵一般可以用于衡量分类器的精度。例如有150个数据，分3类，每类50个数据。分类结果的混淆矩阵如下类1类2类3类14352类22453类30149含义：第1行表示类1有43个分类是正确的，5个错分为类2,2个错分为类3。其分类精度为.43/50.其余类同上例的数据来自UCIMachineLearningRepository中的GermanCreditDataset可以免费获取。归纳学习假设机器学习的任务是在整个实例集合X上确定与目标概念c相同的假设。一般H表示所有可能假设。H中每个假设h表示X上定义的布尔函数。由于对c仅有的信息只是它在训练样例上的值，因此归纳学习最多只能保证输出的假设能与训练样例相拟合。若没有更多的信息，只能假定对于未见实例最好的假设就是训练数据最佳拟合的假设。定义归纳学习假设：任一假设如果在足够大的训练样例中很好地逼近目标函数，则它也能在未见实例中很好地逼近目标函数。（FunctionApproximation）。})1,0{:(xhh第6章决策树决策树基本概念从机器学习看分类及归纳推理等问题（4）主要内容决策树基本概念决策树算法决策树研究问题主要参考文献第6章决策树决策树算法与决策树相关的重要算法1、Hunt,Marin和Stone于1966年研制的CLS学习系统，用于学习单个概念。2、1979年,J.R.Quinlan给出ID3算法，并在1983年和1986年对ID3进行了总结和简化，使其成为决策树学习算法的典型。3、Schlimmer和Fisher于1986年对ID3进行改造，在每个可能的决策树节点创建缓冲区，使决策树可以递增式生成，得到ID4算法。4、1988年，Utgoff在ID4基础上提出了ID5学习算法，进一步提高了效率。5、1993年，Quinlan进一步发展了ID3算法，改进成C4.5算法。6、另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学习实例的正例与反例。CLS,ID3，C4.5，CART第6章决策树决策树算法计数年龄收入学生信誉归类：买计算机？64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买假定公司收集了左表数据，那么对于任意给定的客人（测试样例），你能帮助公司将这位客人归类吗？即：你能预测这位客人是属于“买”计算机的那一类，还是属于“不买”计算机的那一类？又：你需要多少有关这位客人的信息才能回答这个问题？决策树的用途第6章决策树计数年龄收入学生信誉归类：买计算机？64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买谁在买计算机？年龄？学生？信誉？买青中老否是优良不买买买不买决策树的用途决策树算法第6章决策树计数年龄收入学生信誉归类：买计算机？64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优