本章结构1.评估对象4.有指导学习评估3.属性评估5.无指导评估技术2.评估工具一、评估对象???推论检验集一般分类模型的构成模型建立者模型评估的对象二、评估工具评估的工具本章主要是利用统计研究方法来进行评估,因为统计研究方法具有能够将置信度与数据挖掘实验的结果联系起来的优势。统计学相关知识点回顾单值汇总统计正态分布假设检验单值汇总统计数值数据的一个总体可以用均值、样本偏差和数据中出现值的频率和概率分布来唯一确定均值(u):样本均值=方差():样本方差=XV注意:即使两个总体的均值和方差都非常的相似,它们各个数据项之间仍然可能有显著的差异正态分布一些数据挖掘模型假定数值属性为正态分布,可以运用正态分布的特性来帮助评估数据挖掘模型的性能。声明一:对于给定的总体,从大小相同的随机的独立样本集中取得的均值的分布是正态分布。(例子:美国家庭平均信用卡债务问题)声明二:95%的情况下,任何样本均值与总体均值的偏差在正负两个标准误差之内。(家庭信用卡的例子说明)假设检验的经典模型虚假设:假定两个子样或它们的特征之间不存在差异例子:在用药品X和用安慰剂的两组病人之间,他们每天过敏反应总次数的平均增加和减少值不存在显著差别。)nvnv(221121XXP重要性值独立样本1的均值样本大小独立样本2的均值均值的方差值要95%的确信两个样本之间的差异是显著的,等式中2P运用条件:每个均值是用一个独立数据集计算出来的三、属性评估属性的类型及相应的评估方法属性类型描述例子操作分类的(定性的)标称标称属性值仅仅只是不同的名字(=)邮政编码,性别众数检验序数提供足够的信息确定对象的序。()矿石硬度,成绩中值,游程检验,符号检验,秩相关数值的(定量的)区间值之间的差异是有意义的,即存在测量单位(+)日历年龄日期,摄氏温度均值,标准差,t和F检验比率差和比率都是有意义的质量,长度,几何平均,调和平均,2x数值属性重要性的假设检验前提假设数值属性A,其重要性有待确定属性A的n个类C1,C2,…,Cn,以及相应的均值…计算。为每一类Ci和Cj,用如下公式计算比较。如果)(2211nvnvXXPjiij,则该属性是重要的的任何一个值2IJP中的实例数是中的实例数,是的方差,类是的方差,类是属性的均值是类的均值是类jjiijicncnAjXiXjviAv,ji四、指导者模型的评估分类模型性能评估指标单模型分类器错误率置信区间的求解比较两个模型的分类正确性评估分类器性能的其他方法评估具有数值输出的有指导模型无指导聚类用于有指导的评估分类模型性能评估指标分类模型的性能评估常用准确率或错误率来度量准确率=错误率=预测总数正确预测数预测总数错误预测数常通过混淆矩阵求解正确率或错误率混淆矩阵混淆矩阵用来作为分类规则特征表示,它是分类器识别不同样本情况的有用工具,它包括正确的和错误的分类。通过混淆矩阵,可以求出分类模型的正确率和错误率:如预测的类类=1类=0实际的类类=1类=011f10f01f00f010011100110ffffff错误率单模型分类器错误率置信区间的求解给定大小为n的检验集样本S和错误率E计算样本方差;计算标准误差(SE),用Variance(E)除以n,再求商的平方根)1()(EEEVariance总体方差的估计=标准误差(SE)是所估计的总体方差的平方根SE=求95%置信区间的上限:E+2(SE)求95%置信区间下限:E-2(SE)例题:假定分类器在运用于有100个检验实例的随机样本时有10%的错误率,计算错误率的置信区间。比较两个模型的分类正确度思考一对分类模型M1和M2.假设M1在包含30个记录的检验集上的准确率达到85%,而M2在包含5000个记录的不同检验数集上达到75%的准确率,根据这些信息,我们能得出M1比M2好吗?关键问题1.M1和M2两个分类器之间的性能是否存在显著性差异?2.尽管M1比M2的准确率高,但是它是在较小的检验集上检验的,M1的置信程度有多大?比较两个模型的分类正确度运用范围:用于两个独立检验集或只有单个检验集比较M1和M2两个分类器模型的性能的统计形式中的实例个数检验集中的实例个数检验集)(的错误率模型的错误率模型)((BnAnEEqMEMEnnqqEEP212122111212)11122P如果我们就有95%的把握认为M1和M2的检验集性能差别是显著的。我们还可以交换两个检验集后重复实验过程,以提高结果的置信度。两次实验的P的平均值作为显著性检验的结果。评估分类器性能的其他方法保持方法随机二次抽样交叉验证法自助法折(k-fold)交叉验证法留一(leave-out)交叉验证法较大的检验数据检验数据较小评估具有数值输出的有指导模型评估数值输出的方法评估数值输出的方法均方误差绝对均值误差均方根误差均方误差(mse)是实际输出和计算输出间差的平方的平均值均方根误差(rms)是均方误差的平方根计算输出值实际输出值个实例:其中,对于第iinniicainccccmseaaaa))))((((22222112绝对均值误差(mae)是实际输出值和计算输出值间差的绝对值的平均数。它的的有点是较少受实际输出值和计算输出值间大的偏差值的影响,同时,还保持了误差值的维数。主要运用于神经网络。2211无指导聚类用于有指导的评估应用无指导聚类进行有指导的评估时,选中用于有指导的数据实例提交给无指导聚类技术,实例的输出属性标为只显示,如果实例被聚类到训练数据中已定义好的类中,则用训练数据创建的有指导学习者的模型可能运行良好。五、无指导评估技术有指导评估用于无指导的聚类将每个形成的族指定为一类通过从每个类中选择实例的随机样本建立有指导学习者模型用剩余的实例检验有指导学习者模型内部外部重复聚类使用有指导学习方法,但指定所有实例为训练数据应用族质量的统计性质度量方法创建自己的族质量的度量方法(凝聚聚类)进行族间属性-值的比较参数评估无指导聚类的其他方法参考文献Pang-NingTangMichaelSteinbachVipinKumar著范明,范宏建等译,数据挖掘导论(M),人民邮电出版社,2010::89-122元昌安邓松李文敬等编著,数挖掘原理与SPSSClementine运用宝典(M),电子工业出版社442-461