1/60目标任务与主要内容复习信息熵熵、联合熵、条件熵、互信息决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林的思想投票机制分类算法的评价指标ROC曲线和AUC值2/60决策树的实例(Weka自带测试数据)注:Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine)的,基于JAVA环境下开源的机器学习(machinelearning)以及数据挖掘(dataminining)软件。它和它的源代码可在其官方网站下载。3/60复习:熵将离散随机变量X的概率分布为P(X=xi),则定义熵为:若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是:1、若X为离散随机变量,则该名称为概率分布函数;2、若X为连续随机变量,则该名称为概率密度函数。XxxpxpXH1log4/60对熵的理解熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0均匀分布是“最不确定”的分布熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。P(x)H(函数数值)泛函回忆一下关于“变分推导”章节中对于泛函的内容。5/60联合熵和条件熵两个随机变量X,Y的联合分布,可以形成联合熵JointEntropy,用H(X,Y)表示H(X,Y)–H(Y)(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵——在Y发生的前提下,X发生“新”带来的信息熵该式子定义为Y发生前提下,X的熵:条件熵H(X|Y)=H(X,Y)–H(Y)6/60推导条件熵的定义式yxyxyxyxyxyxyyxyxpyxpypyxpyxpypyxpyxpyxpypyxpyxpyxpypypyxpyxpYHYXH,,,,,,)|(log),()(),(log),()(log),(),(log),()(log),(),(log),()(log)(),(log),()(),(7/60相对熵相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是说明:相对熵可以度量两个随机变量的“距离”在“贝叶斯网络”、“变分推导”章节使用过一般的,D(p||q)≠D(q||p)D(p||q)≥0、D(q||p)≥0提示:凸函数中的Jensen不等式8/60互信息两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。I(X,Y)=D(P(X,Y)||P(X)P(Y))yxypxpyxpyxpYXI,)()(),(log),(),(9/60计算H(X)-I(X,Y))|()|(log),()(),(log),()()(),(log),()(log),()()(),(log),()(log),()()(),(log),()(log)(),()(,,,,,,YXHyxpyxpypyxpyxpypxpyxpyxpxpyxpypxpyxpyxpxpyxpypxpyxpyxpxpxpYXIXHyxyxyxyxyxxyyxx10/60整理得到的等式H(X|Y)=H(X,Y)-H(Y)条件熵定义H(X|Y)=H(X)-I(X,Y)根据互信息定义展开得到有些文献将I(X,Y)=H(Y)–H(Y|X)作为互信息的定义式对偶式H(Y|X)=H(X,Y)-H(X)H(Y|X)=H(Y)-I(X,Y)I(X,Y)=H(X)+H(Y)-H(X,Y)有些文献将该式作为互信息的定义式试证明:H(X|Y)≤H(X),H(Y|X)≤H(Y)11/60强大的Venn图:帮助记忆12/60决策树示意图13/60决策树(DecisionTree)决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。决策树学习是以实例为基础的归纳学习。决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。14/60决策树学习算法的特点决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。显然,属于有监督学习。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。15/60决策树学习的生成算法建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。ID3C4.5CART16/60信息增益概念:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D)–H(D|A)显然,这即为训练数据集D和特征A的互信息。17/60基本记号设训练数据集为D,|D|表示其容量,即样本个数。设有K个类Ck,k=1,2,…,K,|Ck|为属于类Ck的样本个数。Σk|Ck|=|D|。设特征A有n个不同的取值{a1,a2…an},根据特征A的取值将D划分为n个子集D1,D2,…Dn,|Di|为Di的样本个数,Σi|Di|=D。记子集Di中属于类Ck的样本的集合为Dik,|Dik|为Dik的样本个数。18/60信息增益的计算方法计算数据集D的经验熵计算特征A对数据集D的经验条件熵H(D|A)计算信息增益:g(D,A)=H(D)–H(D|A)KkkkDCDCDH1log19/60经验条件熵H(D|A)niiikiikKkiniikikKkiniikikiKkkiikikikiikikDDDDDDADpADpApADpADpApADpADpApADpADpADH111111,,log|log||log||log||log,|20/60其他目标信息增益率:gr(D,A)=g(D,A)/H(A)基尼指数:21121111KkkKkkKkkkDCppppGini21/60讨论(一家之言)考察基尼指数的图像、熵、分类误差率三者之间的关系将f(x)=-lnx在x0=1处一阶展开,忽略高阶无穷小,得到f(x)≈1-xKkkkKkkkppppXH111ln22/60三种决策树学习算法适应信息增益来进行特征选择的决策树学习过程,即为ID3决策。所以如果是取值更多的属性,更容易使得数据更“纯”,其信息增益更大,决策树会首先挑选这个属性作为树的顶点。结果训练出来的形状是一棵庞大且深度很浅的树,这样的划分是极为不合理的。C4.5:信息增益率gr(D,A)=g(D,A)/H(A)CART:基尼指数总结:一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。23/60决策树的例子对于下面的数据,希望分割成红色和绿色两个类24/60决策树的生成过程25/60决策树的生成过程26/60决策树的生成过程27/60决策树的生成过程28/60决策树的生成过程29/60决策树的生成过程30/60决策树的生成过程31/60决策树的生成过程32/60决策树的生成过程33/60决策树的过拟合决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。剪枝随机森林34/60BootstrapingBootstraping的名称来自成语“pullupbyyourownbootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法。注:Bootstrap本义是指高靴子口后面的悬挂物、小环、带子,是穿靴子时用手向上拉的工具。“pullupbyyourownbootstraps”即“通过拉靴子让自己上升”,意思是“不可能发生的事情”。后来意思发生了转变,隐喻“不需要外界帮助,仅依靠自身力量让自己变得更好”。35/60Bagging的策略bootstrapaggregation从样本集中重采样(有重复的)选出n个样本在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次,即获得了m个分类器将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类36/60AnotherdescriptionofBagging37/60Bagging38/60Bagging的结果39/60随机森林随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本;从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;重复以上两步m次,即建立了m棵CART决策树这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类40/60应用实例:KinectReal-TimeHumanPoseRecognitioninPartsfromSingleDepthImages,JamieShottonetc,2001,41/60随机森林/Bagging和决策树的关系当然可以使用决策树作为基本分类器但也可以使用SVM、Logistic回归等其他分类器,习惯上,这些分类器组成的“总分类器”,仍然叫做随机森林。举例42/60回归问题离散点是样本集合,描述了臭氧(横轴)和温度(纵轴)的关系试拟合二者的变化曲线43/60使用Bagging算法过程做100次bootstrap,每次得到的数据Di,Di的长度为N对于每一个Di,使用局部回归(LOESS)拟合一条曲线(图中灰色线是其中的10条曲线)将这些曲线取平均,即得到红色的最终拟合曲线显然,红色的曲线更加稳定,并且没有过拟合明显减弱记原始数据为D,长度为N(即图中有N个离散点)44/60附:局部加权线性回归LWR:LocallyWeightedlinearRegressionLOESS:LOcalregrESSion45/60附:线性回归与局部加权回归黑色是样本点红色是线性回归曲线绿色是局部加权回归曲线46/60投票机制简单投票机制一票否决(一致表决)少数服从多数有效多数(加权)阈值表决贝叶斯投票机制47/60贝叶斯投票机制简单投票法假设每个分类器都是平等的。在实际生活中,我们听取一个人的意见,会考虑这个人过去的意见是否有用,从而加大或者减少权值。贝叶斯投票机制基于每个基本分类器在过去的分类表现设定一个权值,然后按照这个权值进行投票。48/60投票机制举例假定有N个用户可以为X个电影投票(假定投票者不能给同一电影重复投票),投票有1、2、3、4、5星共5档。如何根据用户投票,对电影排序?本质仍然是分类问题:对于某个电影,有N个决策树,每个决策树对该电影有1个分类(1、2、3、4、5类),求这个电影应该属于哪一类(可以是小数:分类问题变成了回归问题)49/60一种可能的方案WR:加权得分(weightedrating)R:该电影的用户投票的平均得分(Rating)C:所有电影的平均得分v:该电影的投票人数(v