SPSS高级统计分析聚类分析聚类分析为什么聚类?俗语说,物以类聚、人以群分当有一个分类指标时,分类比较容易但是多个指标时,进行分类就不是很容易了!例如,对中国的区县进行分类:自然条件:降水、土地、日照、湿度等经济指标:收入水平、教育程度、医疗条件、基础设施等平均的方法?容易忽视相对重要程度的问题要进行多元分类-聚类分析聚类分析聚类分析基本目标一种探索性的数据分析技术基本目标:在数据中寻找某种“自然的”分组结构应用举例细分市场消费行为划分设计抽样方案聚类分析方法原理聚类分析就是要找出具有相似程度的点或类聚为一类如何衡量这个“相似程度”?根据距离来确定“距离”含义很广:如欧式距离,马氏距离…,相似系数聚类分析聚类分析分类根据分析对象:R型聚类-对变量(指标)进行聚类Q型聚类-对观测对象(个体、样品)进行聚类根据方法:系统聚类(HierarchicalClustering)非系统聚类K-均值聚类两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法聚类分析把每个样品看成一类,构成N个类系统聚类聚类分析系统聚类方法可应用多种距离衡量个体/变量的相似性利用哪种距离聚类取决于:所分析的数据类型哪种距离对于聚类最具有解释意义距离包括:最短距离法-NearestNeighbor(SingleLinkage)最长距离法-FurthestNeighbor(CompleteLinkage)重心法-CentroidClustering类平均法-Between-groupsLinkage离差平方和法-Ward’sMethod此外还有中间距离(MedianClustering)、类内平均法(Within-GroupsLinkage)等聚类分析最短距离法-NearestNeighbor对离群值不敏感聚类分析最长距离法-FurthestNeighbor对离群值不敏感聚类分析重心法-CentroidMethod对离群值不敏感不适用于噪声数据类平均法-Between-GroupsLinkage对离群值敏感在多数情况下,可以取得较好的聚类结果可很好地应用于有噪声数据聚类分析重心法-CentroidMethod离群值敏感可适用于噪声数据趋向于把观测分成数目近乎相等的类群聚类分析重心法-CentroidMethod离群值敏感可适用于噪声数据趋向于把观测分成数目近乎相等的类群聚类分析聚类分析聚类分析非系统聚类K-均值聚类TwoStep聚类聚类分析非系统聚类K均值聚类首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束聚类分析非系统聚类K均值聚类K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法内存占用小由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类聚类分析非系统聚类TwoStep聚类可有效地分析大型数据集可处理分类、定量型数据可自动确定聚类数目TwoStep聚类过程Pre-clusterStep生成聚类特性树ClusteringStep根据聚类准则确定最终聚类TwoStep聚类的一些假定连续型变量不相关,并服从正态分布分类型变量不相关,并服从多项分布比较稳健,不满足上述假设时,有时也可以得到很好的结果聚类分析距离&变量标准化距离:SPSS根据数据类型,提供不同的观测/变量的距离或相似性度量IntervalCountsBinary变量标准化:对变量进行聚类时,是否要进行标准化?当聚类的变量的测度水平存在很大差异时注,当以对数似然函数的改变量作为距离的度量时,则可以不用考虑标准化问题实例分析系统聚类分析数据说明:Beer.sav数据记录了对20种啤酒的评级。对于酒的评价包括客观的和主观的客观评价如:酒精的百分含量、卡路里、钠/mg,每12盎司成本主观评价如:对酒的质量评级我们感兴趣的是,能否根据客观的测度将啤酒分成几类。例如,也许一些啤酒具有高卡路里、高酒精含量和成本。这些啤酒是否具有较高的质量评级呢?是否这些集中于某个国家呢?实例分析认识数据是否需要对客观评价指标进行标准化?Analyze-DescriptiveStatistics-Descriptive实例分析Solargedifferences!实例分析Analyze-Classify-HierarchicalCluster预测变量!实例分析Statistics…Continue实例分析Plots…Continue实例分析Method…Continue利用标准化变量进行聚类实例分析Save…ContinueOk实例分析输出实例分析系统树图根据图形能将啤酒分成三类(或许四类)?实例分析进一步探讨从输出结果,不能非常确定聚成几类解决办法:借助新生成的聚类标识变量,作进一步的分析。Analyze-DescriptiveStatistics-Frequencies实例分析输出AverageLinkage(BetweenGroups)1890.090.090.0210.010.0100.020100.0100.012TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)1470.070.070.0420.020.090.0210.010.0100.020100.0100.0123TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)945.045.045.0420.020.065.0525.025.090.0210.010.0100.020100.0100.01234TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)945.045.045.0315.015.060.0525.025.085.015.05.090.0210.010.0100.020100.0100.012345TotalValidFrequencyPercentValidPercentCumulativePercent2类3类5类4类实例分析从以上的分析中,似乎聚类为4的方案相对合理些如何解释各个类群?Analyze-Reports-CaseSummaries实例分析输出实例分析利用CaseSummaries枢轴表,创建各类群的预测变量的均值剖面图双击CaseSummariespivottable实例分析输出实例分析主观评价指标是否与我们的聚类结果一致?价格高的啤酒(比如进口啤酒)一定比成本较低、口味较淡的啤酒(lighterbeers)评价更高?Analyze-DescriptiveStatistics-Crosstabs实例分析Cells…实例分析输出实例分析结论初步结果似乎由客观预测变量得出的对啤酒的聚类结果,与根据主观评价的划分是一致的有了类群ID的变量,可以进行各类群与其它变量之间的关系探察为了得到更为准确的结果,可以利用不同的聚类方法进行验证不要为对于聚类结果没有最终的检验感到失望,因为聚类分析是一种探索性分析方法实例分析K-均值聚类数据说明:Usage.sav数据是关于SPSS一些产品模块使用情况的调查数据,每位被调查者被要求在SPSS的部分产品模块的列表中,选出他们使用模块。这些产品模块包括Basic,ProfessionalStatistics,AdvancedStatistics,Times,PresentationTables,PerceptualMaps,AutomaticInteractionDetection,Mapping和NeuralNet作为调查的一部分,我们还调查了许多其它问题。不过在这个数据集中,只包括了jobarea.数据共310个记录问题:能否把我们的顾客根据他们的产品使用情况分成几个不同的组?如果可以做到,那么就可以根据不同的客户群制定不同的营销方案注:该调查是基于SPSS11.5以前的调查,一些模块的名字已经发生改动实例分析认识数据输出实例分析建立K-均值聚类聚多少类?熟悉研究领域/很熟悉数据系统聚类,结合其系统树图和聚合表界定一个初步范围进行一系列不同类群数目的K-均值聚类并结合一些准则来确定结合TwoStep聚类本例中,我们将演示3个类群的k-均值聚类,事实上经过实践表明,聚成2、4、5、8、10类,都不是很理想练习:尝试建立不过聚类的k-均值聚类实例分析Analyze-Classify-K-meansCluster前者对数据进行K-均值聚类,后者用于把额外的观测分到已生成的类别中实例分析Save…Options…实例分析输出Jack-of-all-trades实例分析输出F值越大越重要实例分析是否每个类群大到足可以引起关注?存在离群点吗?营销实例分析进一步通过图形对三个类群比较利用FinalClusterCentersTechnicalAnalystPresenters实例分析总结可以指定不同类群数,进行k-均值聚类通过比较,确定最佳聚类方案确定了有意义的类群后,进行商业角度(营销、销售)的分析以及不同群体和其它变量(如,人口统计学变量)的关系例如,对类群与行业、地区,或者工作领域进行交叉列表分析实例分析TwoStep聚类数据说明:Telcom.sav问题根据顾客的电话使用情况(时间和计划)进行聚类实例分析满足TwoStep聚类的假定吗?0204060Longdistancecall050100150200Minutes实例分析Analyze-Classify-TwoStepCluster…有分类型预测变量时,欧式距离不可用!实例分析Plots…哪个预测变量在类群的形成中,具有决定性作用?实例分析Output…实例分析输出…Nosmallclusterscontainoutliers!实例分析输出实例分析类群概括实例分析WithinClusterPercentage实例分析WithinClusterPercentage实例分析各预测变量对各类群的影响练习数据:Usage.sav要求利用K均值聚类把数据集分为4类,对每个类别进行描述(利用所学过的描述性统计),您能对这四类进行解释吗?利用two-step对以上数据集进行聚类,把关于usage的变量都作为分类变量处理。聚类结果聚为几类了?根据每一类的特征,描述每个类群判别分析判别分析为什么进行判别分析?在一个企业破产之前的两年内,曾对某些财务变量的极端值进行了观测。根据这些领先指标的观测值,另一个企业的官员便可对企业的状态是否健康做出判断,并在必要时采取及时的纠正许多疾病只有通过非常昂贵的手术才能够确诊。通常,我们希望通过某些容易观测的外部症状来诊断某种疾病。这种方法有助于避免不必要的(而且是昂贵的手术)电池的寿命只能通过使用直到将它用坏时才能确定;一块钢材的强度只能通过在其上加载荷,直到它锻炼时才能得到,然而被毁坏