聚类分析,Clusteranalysis,指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。区别聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。定义依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classificationanalysis),后者是有监督的学习。变量类型:定类变量、定量(离散和连续)变量聚类方法1,层次聚类(HierarchicalClustering)合并法、分解法、树状图2.非层次聚类划分聚类、谱聚类聚类方法特征:聚类分析简单、直观。聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。研究者在使用聚类分析时应特别注意可能影响结果的各个因素。异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时,需要事先做标准化处理。当然,聚类分析不能做的事情是:自动发现和告诉你应该分成多少个类——属于非监督类分析方法期望能很清楚的找到大致相等的类或细分市场是不现实的;样本聚类,变量之间的关系需要研究者决定;不会自动给出一个最佳聚类结果;我这里提到的聚类分析主要是谱系聚类(hierarchicalclustering)和快速聚类(K-means)、两阶段聚类(Two-Step);根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。可以用两种方式来测量:1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性。2、采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclideandistance)、欧氏距离的平方(SquaredEuclideandistance)、曼哈顿距离(Block)、切比雪夫距离(Chebychevdistance)、卡方距离(Chi-Squaremeasure)等;相似性也有不少,主要是皮尔逊相关系数了!聚类变量的测量尺度不同,需要事先对变量标准化;聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大欧式距离的平方是最常用的距离测量方法;聚类算法要比距离测量方法对聚类结果影响更大;标准化方法影响聚类模式:变量标准化倾向产生基于数量的聚类;样本标准化倾向产生基于模式的聚类;一般聚类个数在4-6类,不易太多,或太少;统计量群重心群中心群间距离分层步骤定义问题与选择分类变量聚类方法确定群组数目聚类结果评估结果的描述、解释K-means属于非层次聚类法的一种(1)执行过程初始化:选择(或人为指定)某些记录作为凝聚点循环:按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止(2)方法特点通常要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量过程特点:处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健算法原理第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并判别分析DiscriminantAnalysis介绍:判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。判别分析DA概述DA模型DA有关的统计量两组DA案例分析判别分析判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。判别分析不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。DA适用于定类变量(因)、任意变量(自)两类:一个判别函数;多组:一个以上判别函数DA目的建立判别函数检查不同组之间在有关预测变量方面是否有显著差异决定哪个预测变量对组间差异的贡献最大根据预测变量对个体进行分类分析模型要先建立判别函数Y=a1x1+a2x2+...+anxn,其中:Y为判别分数(判别值),x1x2...xn为反映研究对象特征的变量,a1a2...an为系数有关统计典型相关系数特征值(0,1)=SSw/SStforXWilk's组重心分类矩阵两组判别定义问题估计DA函数系数确定DA函数的显著性解释结果评估有效性定义问题判别分析的第一步第二步就是将样本分为:分析样本验证样本估算判别函数系数直接法(directmethod)就是同时用所有的预测变量估计判别函数,此时每个自变量都包括在内,而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。逐步判别分析(stepwisediscriminantanalysis),预测变量依据其对组别的判别能力被逐步引入。确定显著性零假设:总体中各组所有判别函数的均值相等。特征值典型相关系数(0,1)转换成卡方值检验Wilk‘s见travel.spo解释结果系数的符号无关紧要,但能够表示每个变量对判别函数值的影响,以及与特定组的联系。我们可以通过标准化判别函数系数的绝对值初步判断变量的相对重要性。通过考察结构相关系数,也可以对预测变量的相对重要性进行判断。组重心评估判别分析的有效性根据分析样本估计出的判别权数,乘以保留样本中的预测变量值,就得出保留样本中每个样本的判别分。可以根据判别分及适当的规则划分为不同的组别。命中率(hitratio)或称样本正确分类概率,就是分类矩阵对角线元素之和与总样本数的比例。比较样本正确分类百分比与随机正确分类百分比。因子分析模型因子分析模型(FA)基本思想因子分析模型FA的基本思想“因子分析”于1931年由Thurstone提出,概念起源于Pearson和Spearmen的统计分析FA用少数几个因子来描述多个变量之间的关系,相关性较高的变量归于同一个因子;FA利用潜在变量或本质因子(基本特征)去解释可观测变量FA模型X1=a11F1+a12F2+…+a1pFp+v1X2=a21F1+a22F2+…+a2pFp+v2X=AF+VXi=ai1F1+ai2F2+…+aipFp+viXm=ap1F1+ap2F2+…+ampFm+vmXi—第i个标准化变量aip—第i个变量对第p个公因子的标准回归系数F—公因子Vi—特殊因子公因子模型F1=W11X1+W12X2+…+W1mXmF2=W21X1+W22X2+…+W2mXmFi=Wi1X1+Wi2X2+…+WimXmFp=Wp1X1+Wp2X2+…+WpmXmWi—权重,因子得分系数Fi—第i个因子的估计值(因子得分)有关统计量Bartlett氏球体检验:各变量之间彼此独立KMO值:FA合适性因子负荷:相关系数因子负荷矩阵公因子方差(共同度)特征值方差百分比(方差贡献率)累计方差贡献率因子负荷图碎石图FA步骤定义问题检验FA方法的适用性确定因子分析方法因子旋转解释因子计算因子得分注意事项样本量不能太小变量相关性公因子有实际意义主要应用商业聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。生物聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识地理聚类能够帮助在地球中被观察的数据库商趋于的相似性保险行业聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组因特网聚类分析被用来在网上进行文档归类来修复信息电子商务聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。主要步骤1.数据预处理,2.为衡量数据点间的相似度定义一个距离函数,3.聚类或分组,4.评估输出。数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。CrispClustering,它的每一个数据都属于单独的类;FuzzyClustering,它的每个数据可能在任何一个类中,CrispClustering和FuzzyClusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于