SPSS高级统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS高级统计分析聚类分析聚类分析ƒ为什么聚类?ƒ俗语说,物以类聚、人以群分ƒ当有一个分类指标时,分类比较容易ƒ但是多个指标时,进行分类就不是很容易了!ƒ例如,对中国的区县进行分类:ƒ自然条件:降水、土地、日照、湿度等ƒ经济指标:收入水平、教育程度、医疗条件、基础设施等ƒ平均的方法?ƒ容易忽视相对重要程度的问题ƒ要进行多元分类-聚类分析聚类分析ƒ聚类分析基本目标ƒ一种探索性的数据分析技术ƒ基本目标:在数据中寻找某种“自然的”分组结构ƒ应用举例ƒ细分市场ƒ消费行为划分ƒ设计抽样方案聚类分析ƒ方法原理ƒ聚类分析就是要找出具有相似程度的点或类聚为一类ƒ如何衡量这个“相似程度”?ƒ根据距离来确定ƒ“距离”含义很广:ƒ如欧式距离,马氏距离…,相似系数聚类分析ƒ聚类分析分类ƒ根据分析对象:ƒR型聚类-对变量(指标)进行聚类ƒQ型聚类-对观测对象(个体、样品)进行聚类ƒ根据方法:ƒ系统聚类(HierarchicalClustering)ƒ非系统聚类ƒK-均值聚类ƒ两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法聚类分析把每个样品看成一类,构成N个类ƒ系统聚类聚类分析ƒ系统聚类方法可应用多种距离衡量个体/变量的相似性ƒ利用哪种距离聚类取决于:ƒ所分析的数据类型ƒ哪种距离对于聚类最具有解释意义ƒ距离包括:ƒ最短距离法-NearestNeighbor(SingleLinkage)ƒ最长距离法-FurthestNeighbor(CompleteLinkage)ƒ重心法-CentroidClusteringƒ类平均法-Between-groupsLinkageƒ离差平方和法-Ward’sMethod此外还有中间距离(MedianClustering)、类内平均法(Within-GroupsLinkage)等聚类分析ƒ最短距离法-NearestNeighborƒ对离群值不敏感聚类分析ƒ最长距离法-FurthestNeighborƒ对离群值不敏感聚类分析ƒ重心法-CentroidMethodƒ对离群值不敏感ƒ不适用于噪声数据ƒ类平均法-Between-GroupsLinkageƒ对离群值敏感ƒ在多数情况下,可以取得较好的聚类结果ƒ可很好地应用于有噪声数据聚类分析ƒ重心法-CentroidMethodƒ离群值敏感ƒ可适用于噪声数据ƒ趋向于把观测分成数目近乎相等的类群聚类分析ƒ重心法-CentroidMethodƒ离群值敏感ƒ可适用于噪声数据ƒ趋向于把观测分成数目近乎相等的类群聚类分析聚类分析聚类分析ƒ非系统聚类ƒK-均值聚类ƒTwoStep聚类聚类分析ƒ非系统聚类ƒK均值聚类ƒ首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个ƒ其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子ƒ第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去ƒ第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心ƒ第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束聚类分析ƒ非系统聚类ƒK均值聚类ƒK均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法ƒ内存占用小ƒ由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类聚类分析ƒ非系统聚类ƒTwoStep聚类ƒ可有效地分析大型数据集ƒ可处理分类、定量型数据ƒ可自动确定聚类数目ƒTwoStep聚类过程ƒPre-clusterStepƒ生成聚类特性树ƒClusteringStepƒ根据聚类准则确定最终聚类ƒTwoStep聚类的一些假定ƒ连续型变量不相关,并服从正态分布ƒ分类型变量不相关,并服从多项分布ƒ比较稳健,不满足上述假设时,有时也可以得到很好的结果聚类分析ƒ距离&变量标准化ƒ距离:SPSS根据数据类型,提供不同的观测/变量的距离或相似性度量ƒIntervalƒCountsƒBinaryƒ变量标准化:对变量进行聚类时,是否要进行标准化?ƒ当聚类的变量的测度水平存在很大差异时ƒ注,当以对数似然函数的改变量作为距离的度量时,则可以不用考虑标准化问题实例分析ƒ系统聚类分析ƒ数据说明:Beer.savƒ数据记录了对20种啤酒的评级。对于酒的评价包括客观的和主观的ƒ客观评价如:酒精的百分含量、卡路里、钠/mg,每12盎司成本ƒ主观评价如:对酒的质量评级ƒ我们感兴趣的是,能否根据客观的测度将啤酒分成几类。例如,也许一些啤酒具有高卡路里、高酒精含量和成本。这些啤酒是否具有较高的质量评级呢?是否这些集中于某个国家呢?实例分析ƒ认识数据ƒ是否需要对客观评价指标进行标准化?ƒAnalyze-DescriptiveStatistics-Descriptive实例分析Solargedifferences!实例分析ƒAnalyze-Classify-HierarchicalCluster预测变量!实例分析ƒStatistics…ƒContinue实例分析ƒPlots…ƒContinue实例分析ƒMethod…ƒContinue利用标准化变量进行聚类实例分析ƒSave…ƒContinueƒOk实例分析ƒ输出实例分析ƒ系统树图ƒ根据图形能将啤酒分成三类(或许四类)?实例分析ƒ进一步探讨ƒ从输出结果,不能非常确定聚成几类ƒ解决办法:借助新生成的聚类标识变量,作进一步的分析ƒ。ƒAnalyze-DescriptiveStatistics-Frequencies实例分析ƒ输出AverageLinkage(BetweenGroups)1890.090.090.0210.010.0100.020100.0100.012TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)1470.070.070.0420.020.090.0210.010.0100.020100.0100.0123TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)945.045.045.0420.020.065.0525.025.090.0210.010.0100.020100.0100.01234TotalValidFrequencyPercentValidPercentCumulativePercentAverageLinkage(BetweenGroups)945.045.045.0315.015.060.0525.025.085.015.05.090.0210.010.0100.020100.0100.012345TotalValidFrequencyPercentValidPercentCumulativePercent2类3类5类4类实例分析ƒ从以上的分析中,似乎聚类为4的方案相对合理些ƒ如何解释各个类群?ƒAnalyze-Reports-CaseSummaries实例分析ƒ输出实例分析ƒ利用CaseSummaries枢轴表,创建各类群的预测变量的均值剖面图ƒ双击CaseSummariespivottable实例分析ƒ输出实例分析ƒ主观评价指标是否与我们的聚类结果一致?ƒ价格高的啤酒(比如进口啤酒)一定比成本较低、口味较淡的啤酒(lighterbeers)评价更高?ƒAnalyze-DescriptiveStatistics-Crosstabs实例分析ƒCells…实例分析ƒ输出实例分析ƒ结论ƒ初步结果ƒ似乎由客观预测变量得出的对啤酒的聚类结果,与根据主观评价的划分是一致的ƒ有了类群ID的变量,可以进行各类群与其它变量之间的关系探察ƒ为了得到更为准确的结果,可以利用不同的聚类方法进行验证ƒ不要为对于聚类结果没有最终的检验感到失望,因为聚类分析是一种探索性分析方法实例分析ƒK-均值聚类ƒ数据说明:Usage.savƒ数据是关于SPSS一些产品模块使用情况的调查数据,每位被调查者被要求在SPSS的部分产品模块的列表中,选出他们使用模块。这些产品模块包括Basic,ProfessionalStatistics,AdvancedStatistics,Times,PresentationTables,PerceptualMaps,AutomaticInteractionDetection,Mapping和NeuralNet作为调查的一部分,我们还调查了许多其它问题。不过在这个数据集中,只包括了jobarea.数据共310个记录ƒ问题:ƒ能否把我们的顾客根据他们的产品使用情况分成几个不同的组?如果可以做到,那么就可以根据不同的客户群制定不同的营销方案注:该调查是基于SPSS11.5以前的调查,一些模块的名字已经发生改动实例分析ƒ认识数据ƒ输出实例分析ƒ建立K-均值聚类ƒ聚多少类?ƒ熟悉研究领域/很熟悉数据ƒ系统聚类,结合其系统树图和聚合表界定一个初步范围ƒ进行一系列不同类群数目的K-均值聚类并结合一些准则来确定ƒ结合TwoStep聚类ƒ本例中,我们将演示3个类群的k-均值聚类,事实上经过实践表明,聚成2、4、5、8、10类,都不是很理想ƒ练习:尝试建立不过聚类的k-均值聚类实例分析ƒAnalyze-Classify-K-meansCluster前者对数据进行K-均值聚类,后者用于把额外的观测分到已生成的类别中实例分析ƒSave…ƒOptions…实例分析ƒ输出Jack-of-all-trades实例分析ƒ输出F值越大越重要实例分析ƒ是否每个类群大到足可以引起关注?ƒ存在离群点吗?营销实例分析ƒ进一步通过图形对三个类群比较ƒ利用FinalClusterCentersTechnicalAnalystPresenters实例分析ƒ总结ƒ可以指定不同类群数,进行k-均值聚类ƒ通过比较,确定最佳聚类方案ƒ确定了有意义的类群后,进行商业角度(营销、销售)的分析以及不同群体和其它变量(如,人口统计学变量)的关系ƒ例如,对类群与行业、地区,或者工作领域进行交叉列表分析实例分析ƒTwoStep聚类ƒ数据说明:Telcom.savƒ问题ƒ根据顾客的电话使用情况(时间和计划)进行聚类实例分析ƒ满足TwoStep聚类的假定吗?0204060Longdistancecall050100150200Minutes实例分析ƒAnalyze-Classify-TwoStepCluster…有分类型预测变量时,欧式距离不可用!实例分析ƒPlots…哪个预测变量在类群的形成中,具有决定性作用?实例分析ƒOutput…实例分析ƒ输出…Nosmallclusterscontainoutliers!实例分析ƒ输出实例分析ƒ类群概括实例分析ƒWithinClusterPercentage实例分析ƒWithinClusterPercentage实例分析ƒ各预测变量对各类群的影响练习ƒ数据:Usage.savƒ要求ƒ利用K均值聚类把数据集分为4类,对每个类别进行描述(利用所学过的描述性统计),您能对这四类进行解释吗?ƒ利用two-step对以上数据集进行聚类,把关于usage的变量都作为分类变量处理。聚类结果聚为几类了?根据每一类的特征,描述每个类群判别分析判别分析ƒ为什么进行判别分析?ƒ在一个企业破产之前的两年内,曾对某些财务变量的极端值进行了观测。根据这些领先指标的观测值,另一个企业的官员便可对企业的状态是否健康做出判断,并在必要时采取及时的纠正ƒ许多疾病只有通过非常昂贵的手术才能够确诊。通常,我们希望通过某些容易观测的外部症状来诊断某种疾病。这种方法有助于避免不必要的(而且是昂贵的手术)ƒ电池的寿命只能通过使用直到将它用坏时才能确定;一块钢材的强度只能通过在其上加载荷,直到它锻炼时才能得到,然而被毁坏

1 / 210
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功