数据挖掘王成华侨大学计算机科学与技术学院这上面的聚类数据45种,分类数据240种数据挖掘领域十大经典算法主要内容分类和预测知识的表达基于距离的分类聚类聚类(Clustering)解决的是事物分组的问题,目的是将类似的事物放在一起聚类算法(k-Means,DBSCAN...)分类分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。把每个数据点分配到合适的类别中,即所谓的“分类”分类算法邮件正常邮件垃圾邮件例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件数值预测数值预测(numericprediction)是预测一个连续值或有序值,而不是类标号例如预测某同学在期末考试中的成绩为95分,95是一个数值,而不是“树”、“船”这样的类标号分类和数值预测是“预测问题”的两种主要类型,简单起见,在不产生混淆时,使用较短术语“预测”表示“数值预测”相关应用垃圾邮件识别信用卡用户分级,低风险优质客户给予较高的额度手写字体识别、语音输入、图像识别...相关应用9月26日,石家庄市建华大街和裕华路交叉口西南角的行人闯红灯自动识别抓拍系统开始试用。如果行人指示信号灯为红灯时,仍有行人在斑马线上过马路,这套系统会自动将其中一个人的图像拍摄下来并形成照片。分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别或类标号模型使用:用创建的模型预测未来或者类别未知的记录分类过程:训练模型训练集天气气温湿度适合运动晴中中雨低高晴高低...是否否分类算法模型IF气温低THEN不适合运动......分类过程:测试模型分类算法模型预测结果:不适合运动真实结果:不适合运动测试集天气气温湿度适合运动晴中中雨低高晴高低...分类过程:训练集和测试集的划分十折交叉验证留一法过拟合分类过程:使用模型未分类数据(天气晴,温度高,湿度中等)分类算法模型不适合运动数值预测过程数值预测也是一个两步过程,和分类过程类似,只不过没有“类标号属性”,因为要预测的属性值是连续值,而不是分类的(离散值)例如预测某同学的期末考试成绩得分,如果转换成预测某同学的期末考试成绩“是否合格”,该数据挖掘任务就由数值预测变成了分类。有监督和无监督学习监督学习(Supervisedlearning)训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习分类算法是有监督的机器学习算法无监督学习(Unsupervisedlearning)学习不是在训练样本的“指导”下操作的让计算机自己去学习怎样做一件事情聚类算法是无监督的机器学习算法模型可将模型看成一个映射或函数y=f(X),其中X是特征向量给定未知实例的特征向量X,算法即可得出其关联的y的值分类和预测算法的训练过程即是为了从训练数据中“学习”得到这个函数,进而用于未知数据分类算法的评价预测的准确率正确地预测新的或先前未见过的数据的类标号的能力速度构造模型的速度、利用模型进行分类的速度强壮性给定噪声数据或具有空缺值的数据,模型正确预测的能力可伸缩性当给定大量数据时,有效地构造模型的能力可解释性涉及学习模型提供的理解和洞察的层次分类算法预测准确率的指标两类错误查全率查准率精度主要内容分类和预测知识的表达基于距离的分类基于线性模型的表达线性模型的输出仅是实例的各属性的加权求和nnxwxwxwxwwy...3322110例如,给定学生的特征向量(x1,x2,x3...),预测模型可表示为其中y为输出,(x1,x2,x3...xn)为特征向量,w0,w1,w2...wn为权值,将由算法学习得到...6.02.08.050321xxx成绩其中50,0.8,0.2,0.6...的值将由算法学习得到基于线性模型的表达xy5.01基于决策树的表达母亲:闺女,给你介绍个对象女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。示例来源于July博客:你见或不见,我都在那里基于决策树的表达天气刮大风温度晴小雨去玩多云不要去玩不要去玩去玩去玩=35度35度是否基于规则的表达IF天气=多云THEN去玩IF天气=晴AND温度=35THEN去玩IF天气=晴AND温度35THEN不要去玩IF天气=小雨AND刮大风THEN不要去玩IF天气=小雨AND没有刮大风THEN去玩基于实例的表达直接将训练样本保存下来,使用实例本身来表达所学到的(知识),而不是推断出一个规则集或决策树,并保存它直接在样本上进行工作,而不是建立规则的学习称为基于实例的学习(instance-basedlearning)基于实例的学习也称为死记硬背式学习(rotelearning),一旦“记住”了一个训练实例集,在遇到一个新的实例时,就会在“记忆”中找出与之最相似的一个训练实例基于实例的表达在基于实例的学习中,对一个新的实例进行分类时,才进行实质性的工作,而不是处理训练集时进行和其它机器学习方法的区别在于“学习”发生的时间不同基于实例的学习是“懒惰”的,尽可能延缓实质性的工作,而其它学习方法是“急切”的,在训练样本时就进行学习并得到一个泛化的表达,例如生成决策树或规则主要内容分类和预测知识的表达基于距离的分类基于距离的分类与一个类中的成员和另一个类中的成员之间的相似性相比,同一个类中的成员彼此之间被认为是更加相似的相似性(距离)度量可以用来识别数据库中不同成员之间的“相似程度”基于距离的分类方法的直观解释(1)类定义(2)待分类样本(3)分类结果k-最近邻算法k-最近邻算法,kNN,k-NearestNeighbor十大数据挖掘算法之一C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCARTk-最近邻算法计算每个训练实例到待分类实例之间的距离找出和待分类实例距离最近的k个训练实例找到的k个训练实例中哪个类别占的最多,待分类实例就属于哪个类别k-最近邻算法A(1,1)B(2,1)D(2,0)C(3,1)E(5,2)F(4,3)G(5,3)H(6,3)M(2,2)d(M,A)d(M,B)d(M,C)d(M,D)d(M,E)d(M,F)d(M,G)d(M,H)2124951017取k=5,使用欧氏距离M的k个近邻中,蓝色有4个,黄色有1个,因此M的分类结果为蓝色从k个最近邻居中决定分类结果方式1:选出k个最近的邻居中的数量最多的类标号方式2:k个最近邻居分别按距离计算权重,权重最大的类标号获胜。权重可以采用1/(d2+1)来计算,其中d为某个最近邻居到待分类实例的距离。可采用其它权重计算方式,只要满足到待分类实例的距离越近权重值越大,到待分类实例的距离越远权重值越小即可k-最近邻算法A(1,1)B(2,1)D(2,0)C(3,1)E(5,2)F(4,3)G(5,3)H(6,3)M(2,2)d(M,A)d(M,B)d(M,C)d(M,D)d(M,E)d(M,F)d(M,G)d(M,H)2124951017取k=5,使用欧氏距离weight(蓝)=1/3+1/2+1/3+1/5=1.367weight(黄)=1/6=0.167k-最近邻算法A(1,1)B(2,1)D(2,0)C(3,1)E(5,2)F(4,3)G(5,3)H(6,3)M(4,1)取k=2,使用欧氏距离d(M,A)d(M,B)d(M,C)d(M,D)d(M,E)d(M,F)d(M,G)d(M,H)94152458M要分类为蓝色还是黄色?如果只有两个类别,选择k时应选择一个奇数k值的选择如果k过于小,那么将会对数据中存在的噪声过于敏感如果k过大,邻居中可能包含其他类的点一个经验的取值法则为k≤,q为训练实例的数目qk-最近邻算法kNN是基于实例的学习算法,训练过程仅是保存训练数据必须保存全部训练数据,如果训练数据集很大,必须使用大量的存储空间在分类时必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时应用示例:手写数字识别将训练样本中的每张图划分成5x5的网格,计算每个格子中黑色像素所占比例,形成5x5维特征向量,并以此训练分类算法将待识别的图片按同样的方式转换为5x5维特征向量,然后应用分类算法分类系统设计的基本步骤传感器特征提取特征选择分类器设计系统评估模式总结分类:将待分类实例划分到合适的类别中数值预测:预测数值属性,没有“类标号”知识的表达:线性模型、决策树、规则、基于实例的表达基于距离的分类:kNN算法谢谢!