王小川MATLAB数据挖掘课件6

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Matlab数据挖掘公开课6之分类与决策树(一)主讲人:王小川同济大学经管学院博士研究生新浪微博:目录1.概念2.算法4.MATLAB实现分类挖掘3.模型概念1概念分类定义分类预备知识解决分类的一般方法分类是确定对象属于哪个预定义的目标类常见应用:垃圾邮件检测肿瘤良性恶性判断个人信用等级判断金融债券评级系统(财务报表提供的信息)绪论分类定义分类预备知识解决分类的一般方法分类任务就是通过学习得到一个目标函数每个属性集x映射到一个预先定义的类标号y目标函数也叫做分类模型1.2.3.预备知识目的用途描述性建模:解释性的工具,用于区分不同类中的对象。预测性建模,由于预测未知记录的类标号绪论分类定义分类预备知识解决分类的一般方法分类VS预测分类:预测分类标号,根据训练数据和类标号,构建模型分类现有数据,并且用来分类新数据。预测:构造和使用模型评价无标号样本类,或评估给定样本可能具有的属性值或者值区间。相同点:1都需要构建模型2都用模型来估计未知值(预测中主要为回归模型,包括线性、多元、非线性回归等)不同点:1分类主要用来预测类标号2预测主要用来估计连续值绪论分类定义分类预备知识解决分类的一般方法分类VS聚类分类:模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到规则进行分类聚类:每个训练样本的类编号是未知的,要学习的类集合或者数量也可能是事先未知的。通过一系列的度量,观察来建立数据中的类编号或进行聚类绪论分类定义分类预备知识解决分类的一般方法分类任务就是通过学习得到一个目标函数每个属性集x映射到一个预先定义的类标号y目标函数也叫做分类模型1.2.3.预备知识目的用途描述性建模:解释性的工具,用于区分不同类中的对象。预测性建模,由于预测未知记录的类标号类标号完善模型与算法准确率绪论分类定义分类预备知识解决分类的一般方法研究思路输入属性集模型分类算法研究方法2算法使用一种学习算法确定分类模型较好拟合输入数据中属性集与输出数据类标号的联系。很好的拟合输入数据/正确地预测未知样本的类标号1.2.3.分类算法目的泛化能力,即建立起能够准确地预测未知样本类标号的模型。算法算法分类算法步骤第一步:建立模型算法=规则!算法分类算法步骤第二步:用模型进行分类决策树模型神经网络模型SVM模型NaiveBayesclassifier….选择分类算法Bagged决策树线性判别分析算法约束度算法复杂度1.算法模型越简单越好2.内存占用与速度3.简单模型约束强测试是否违背约束探索性数据分析算法算法分类准备(预处理)数据清理:消除或减少噪声,处理空缺值,从而减少学习时的混乱。相关性分析:数据中的有些属性可能与当前任务不相关,也有些属性可能是冗余的,删除这些属性可以加快学习步骤,使得学习结果更精确。数据变换:可以将数据概化到较高层概念,或者将数据归一化。3决策树MATLAB具体案例决策树决策树功能强大且相当被受欢迎的分类和预测工具。每一个路径代表一个规则。模型正确和模型明确度之间的选择。把由不同成份形成的母体分成较小且较具同质性的组群。决策树决策树路径代表一个规则根节点(rootnode)叶节点(leafnode)子节点(childnode)ABinaryDecisionTree决策树分类•第一个问题的答案决定了下一个问题。•谨慎选择问题,短短几次询问就可以将后来的资料正确分类。•目的:选择出在依变数之中能做出最佳区别的测试法。•不同的叶节点可能组成同一个类别,虽然每一个叶节点是由不同原因而组成的。•例子:蔬菜水果决策树评分估计多种形式决策树•补充资料。•允许记录分类从很可能到最没可能成为被要求的种类的成员。•知道A实际答覆的可能性。•Backfitting法:叶节点分类比例来产生一个分数可能性。决策树估计多种形式分类评分决策树决策树•「回归树」是使用数值依变数所建立。•决策树中选取的分隔是为了降低子节点的变异。•决策树较适合用来估计离散的变数。•回归式和类神经网路较适合用来估计连续的变数。评分估计多种形式分类决策树决策树•二元决策树(Binarytree)。•三元决策树(Ternarytree)。•混合式的决策树。评分估计多种形式分类决策树决策树算法常用的算法有CHAID、CART、ID3、C4.5、Quest和C5.0。(自查文献)建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。此我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同。这个切分的过程也可称为数据的“纯化”。然而决策树的这种明确性可能带来误导。比如,决策树每个节点对应分割的定义都是非常明确毫不含糊的,但在实际生活中这种明确可能带来麻烦(凭什么说年收入¥40,001的人具有较小的信用风险而¥40,000的人就没有)。•••决策树不断分支,对训练集资料的预测效果也会不断改善,最后很可能会overfit训练集资料。导致不稳定性而无法做准确的预测。解决对策:修剪决策树,以避免overfit发生。修剪方式:CART修剪演算法C5演算法Stability-BasedPruning决策树决策树修剪目的决策树决策树修剪复杂的树内,也有更简易及稳定的树。决策树决策树修剪为了使得到的决策树所蕴含的规则具有普遍意义,必须防止训练过度,同时也减少了训练的时间。因此我们需要有一种方法能让我们在适当的时候停止树的生长。常用的方法是设定决策树的最大高度(层数)来限制树的生长。还有一种方法是设定每个节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分割。与设置停止增长条件相对应的是在树建立好之后对其进行修剪。先允许树尽量生长,然后再把树修剪到较小的尺寸,当然在修剪的同时要求尽量保持决策树的准确度尽量不要下降太多。解释决策树整合(ensemble)••••Baggingdecisiontrees:anearlyensemblemethod,buildsmultipledecisiontreesbyrepeatedlyresamplingtrainingdatawithreplacement,andvotingthetreesforaconsensuspredictionARandomForestclassifierusesanumberofdecisiontrees,inordertoimprovetheclassificationrate.BoostedTreescanbeusedforregression-typeandclassification-typeproblemsRotationforest-inwhicheverydecisiontreeistrainedbyfirstapplyingprincipalcomponentanalysis(PCA)onarandomsubsetoftheinputfeatures.决策树算法决策树应用••••••从大数据中选出重要变量在工业流程中,预测某些重要变量的未来状态在推广系统中,建立用户集群分析历史性事件以便预测未来一批大量的自变量如何和某些预测的未来结果结合应用于相关规则中,找出连续性模式,产生衍生变量丰富资料用途决策树决策树决策树MATLAB操作其他细节MATLAB程序讲解解释4MATLAB2012b发布MATLAB创始人中国行MATLAB技术论坛研讨会R2012bMATLABR2012b发布解释R2012b标题10月9日上午(星期二)地点清华大学(北京)10:00-11:30六教C30010月10日下午(星期三)北京师范大学(北京)3:30-5:00教九(曾宪梓楼)50210月11日下午(星期四)10月15日下午(星期一)10月17日下午(星期三)10月18日下午(星期四)10月19日下午(星期五)西安电子科技大学(西安)3:30-5:00学生活动中心小剧场电子科技大学(成都)4:10–5:30电子工程楼二楼报告厅吉林大学(长春)3:20–4:40逸夫楼报告厅同济大学(上海)3:30–5:00机械学院报告厅上海交通大学(上海)3:30–5:00机动学院高田会堂MATLAB创始人中国行MATLAB上海、成都研讨会上海上海研讨会:2012-10-139点活动地点:上海市杨浦区四平路1239号同济大学成都经济与管理学院成都研讨会:2012-10-209点活动地点:成都市西南交通大学老校区R2012b欢迎提问同济大学经管学院主讲人:王小川

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功