数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

聚类分析主要内容聚类基于分割的聚类层次聚类基于密度的聚类聚类分析(ClusteringAnalysis)发现对象簇(Cluster),使得同一个簇内的对象尽量相似,不同簇间的对象尽量不同。Inter-clusterdistancesaremaximizedIntra-clusterdistancesareminimized簇的概念可能会模糊Howmanyclusters?FourClustersTwoClustersSixClusters聚类无监督的学习(Unsupervisedlearning):与分类不同,没有事先定义的类别标记。聚类的用途:•作为单独的数据分析工具•可作为其它方法的预处理手段聚类分析的应用理解(Understanding)•相关文档的组,有相似功能的基因和蛋白质组,或有相似价格波动的股票等。概括(Summarization)•减小数据集的规模DiscoveredClustersIndustryGroup1Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN,Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN,Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN,Sun-DOWNTechnology1-DOWN2Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN,ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,Computer-Assoc-DOWN,Circuit-City-DOWN,Compaq-DOWN,EMC-Corp-DOWN,Gen-Inst-DOWN,Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWNTechnology2-DOWN3Fannie-Mae-DOWN,Fed-Home-Loan-DOWN,MBNA-Corp-DOWN,Morgan-Stanley-DOWNFinancial-DOWN4Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,Schlumberger-UPOil-UPClusteringprecipitationinAustralia用聚类做数据预处理数据概括(Summarization):•服务于回归(regression),主成分分析(PCA),分类(classification),关联分析(associationanalysis)压缩(Compression):•图像处理(Imageprocessing)寻找K-最近邻居(K-nearestNeighbors)•在一个簇或几个簇内进行局部搜索聚类质量的评价高质量的聚类:•高簇内相似性(highintra-classsimilarity)•低簇间相似性(lowinter-classsimilarity)聚类的质量不但依赖于所使用的方法,而且也依赖于实现方式。聚类质量最主要的评价标准还是用户的满意程度。聚类质量的度量相似性度量:•一般通过距离函数来描述:d(i,j)•针对不同数据,如区间值数据、布尔数据、类别数据、顺序数据等,会有不同的距离函数•根据不同应用和数据的语义,变量会被赋予不同的权重。聚类的质量:•通常会有明确的质量函数来度量聚类质量的好坏。•很难定义“足够好”•这类问题的答案往往具有明显的主观色彩。聚类中常用的数据结构数据矩阵差别矩阵距离函数(1)通常距离函数须具备如下性质:•d(i,j)0,非负性•d(i,i)=0•d(i,j)=d(j,i),对称性•d(i,j)d(i,k)+d(k,j),三角不等式距离函数(2)假设每条记录有n个属性,两个元组(xi1,…,xin)和(xj1,…,xjn)的相似性可通过如下方式来度量:Minkowski距离:若属性具有不同的权重,此时的距离可定义为:通常使用的是Minkowski距离的特殊形式:数值型属性可使用Minkowski距离及其特殊形式使用距离函数之前,要对属性的值进行规范化,如z-值规范化:使用平均绝对偏差(MeanAbsoluteDeviation,MAD),而不用标准差的原因:•前者比后者抗噪声能力更强•用前者更容易检测到噪声顺序属性顺序属性(ordinalattribute)可以是连续的,也可以是离散的•可通过离散化把连续属性转换为顺序属性顺序比实际的值更重要转换后可看作是连续属性•将实际的值xiA用其排序(rank)riA来代替,riA{1,…,MA}•将排序映射到[0,1]•再使用Minkowski距离二值属性(BinaryVariables)使用列联表(contingencytable)对称属性(symmetricattribute)的距离:非对称属性(asymmetricattribute)的距离:Jaccard系数:1-d(i,j)dcbacbjid),(cbacbjid),(pdbcasumdcdcbabasum0101ObjectiObjectj二值属性的相异性•性别是对称属性,其余均是非对称属性•设Y和P代表1,N代表0•相异性只由非对称属性计算NameGenderFeverCoughTest-1Test-2Test-3Test-4JackMYNPNNNMaryFYNPNPNJimMYPNNNN75.021121),(67.011111),(33.010210),(maryjimdjimjackdmaryjackd名词性属性(NominalVariables)二值数型的泛化,可取两个以上的值,如red,yellow,blue,green方法1:简单匹配•m:#ofmatches,p:total#ofvariables方法2:转化为二值属性pmpjid),(混合型属性将不同类型的属性转换到[0,1]不同的属性可被赋予不同的权重向量对象(VectorObjects)向量对象:文档中的关键字等.应用广泛:信息检索,生物信息学等.Cosinemeasure(,)XYsXYXY聚类的类型聚类就是要得到一系列的簇主要分为分割聚类和层次聚类分割聚类(PartitionalClustering)•将数据对象分割为不重叠的子集,使得每个数据对象只属于其中的一个子集。层次聚类(Hierarchicalclustering)•将数据对象分割为一系列嵌套的、树状的簇分割聚类OriginalPointsAPartitionalClustering层次聚类p4p1p3p2p4p1p3p2p4p1p2p3p4p1p2p3TraditionalHierarchicalClusteringNon-traditionalHierarchicalClusteringNon-traditionalDendrogramTraditionalDendrogram聚类的类型排它的与非排它的•非排它聚类中,对象可能属于多个簇模糊与非模糊的•模糊聚类中,每个点与每个簇都有一个0到1之间的隶属度•这些隶属度的和必须是1部分与完全的•在某些情况下,可能只对一部分数据进行聚类同构与异构的•可能对不同类型的对象进行聚类聚类的类型良分割聚类(Well-separatedclusters)基于中心的聚类(Center-basedclusters)邻近聚类(Contiguousclusters)基于密度的聚类(Density-basedclusters)基于概念的聚类(Concept-basedclusters)基于目标函数的聚类(ObjectiveFunctionclusters)良分割聚类每个点到簇内其它点的距离都小于到簇外其它点的距离。3well-separatedclusters基于中心的聚类每个点与其所在簇中心的距离都小于与其它簇中心的距离。簇的中心可以是质心(centroid),即簇内所有点的均值;或是medoid,即簇内最有代表性的点。(它到其他所有(当前cluster中的)点的距离之和最小)4center-basedclusters基于密度的聚类簇是密度超过一定阈值的点的集合,簇与簇之间被一些低密度度区域分开。适用于簇不规则(irregular)、或相互纠缠(intertwined),及存在噪声和孤立点(outlier)的情况。7density-basedclusters基于目标函数的聚类(1)用目标函数来定义簇•构建簇,使目标函数最大或最小。•枚举所有可能的把对象点构成簇的方式,并使用目标函数对这些簇进行评价,评价结果最好的作为最终的聚类方式。(NPHard)•可以有全局和局部目标•层次聚类通常是局部目标•分割聚类通常是全局目标基于目标函数的聚类(2)可将聚类问题映射到不同的域,并在这些域内求解问题:•相关矩阵(Proximitymatrix)定义了一个加权图,其中结点是用于聚类的点,加权的边代表结点间的相关性。•聚类等价于将图分割为互连的子图,每个子图代表一个簇。•目标是使簇间的权重和最小,簇内的权重和最大。主要内容聚类基于分割的聚类层次聚类K-平均聚类分割聚类方法每个簇都有一个中心点(centroid)每个点最终都归属于一个与其距离最近的中心点所决定的簇。簇的数目K需要事先给定基本的算法非常简单K-平均聚类的细节初始中心点是随机选择的•每次迭代之后簇往往会发生变化.中心点一般是该簇的均值.“相似性”一般是通过Euclidean距离,cosine相似性等来度量的.在以上这些相似性度量标准下,K-平均聚类一般都会收敛.复杂性O(n*K*I*d)•n=numberofpoints,K=numberofclusters,I=numberofiterations,d=numberofattributes两个不同的K-平均聚类-2-1.5-1-0.500.511.5200.511.522.53xy-2-1.5-1-0.500.511.5200.511.522.53xySub-optimalClustering-2-1.5-1-0.500.511.5200.511.522.53xyOptimalClusteringOriginalPointsK-平均聚类演示-2-1.5-1-0.500.511.5200.511.522.53xyIteration1-2-1.5-1-0.500.511.5200.511.522.53xyIteration2-2-1.5-1-0.500.511.5200.511.522.53xyIteration3-2-1.5-1-0.500.511.5200.511.522.53xyIteration4-2-1.5-1-0.500.511.5200.511.522.53xyIteration5-2-1.5-1-0.500.511.5200.511.522.53xyIteration6K-平均聚类演示-2-1.5-1-0.500.511.5200.511.522.53xyIteration1-2-1.5-1-0.500.511.5200.511.522.53xyIteration2-2-1.5-1-0.500.511.5200.511.522.53xyIteration3-2-1.5-1-0.500.511.5200.511.522.53xyIteration4-2-1.5-1-0.500.511.5200.511.522.53xyItera

1 / 87
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功