spss聚类分析教程.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/101基本统计分析•有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键•SPSS有数字分析和作图分析两类方法2020/1/102基本统计分析概述目录上页下页返回结束•基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。•在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和DescriptiveStatistics命令项中包括的功能是对单变量的描述统计分析•DescriptiveStatistics包括的统计功能有:Frequencies:频数分析Descriptives:描述统计量分析Explore:探索分析Crosstabs:多维频数分布交叉表(列联表)2020/1/104描述统计分析过程Descriptives目录上页下页返回结束•1、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。•2、描述统计分析过程通过平均值(Mean)、算术和(Sum)、标准差(StdDev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范围(Range)、平均数标准误(S.E.Mean)等统计量对变量进行描述。2020/1/105目录上页下页返回结束•SPSS数值统计分析过程均在Analyze菜单中基本统计分析:Reports,DescriptiveStatisticsb、均值比较与检验:CompareMeansd、方差分析:ANOVAModelsb、相关分析:Correlatee、回归分析:Regressionf、聚类与判别:Classifyg、因子分析:DataReductionh、非参数检验:NonparametricTests等等2020/1/106第一章聚类分析•聚类分析的基本思想•聚类分析上机实现2020/1/107§1.1聚类分析的思想目录上页下页返回结束•我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,…。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。2020/1/108目录上页下页返回结束•对样品的分类常称为Q型聚类分析•对变量的分类常称为R型聚类分析2020/1/109§1.1聚类分析的思想目录上页下页返回结束•聚类的目的•在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。•【例1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌”等,指标如何选择取决于聚类的目的。2020/1/1010目录上页下页返回结束2020/1/1011目录上页下页返回结束•上例中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度•间隔尺度。变量用连续的量来表示。•有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。•名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。•不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。2020/1/1012目录上页下页返回结束•第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。。•聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3)K-均值法。(4)有序样品的聚类。(5)分解法。(6)加入法。2020/1/1013§1.2系统聚类法目录上页下页返回结束(1)最短距离法。(nearestneighbor或singlelinkagemethod)2020/1/1014目录上页下页返回结束(2)最长距离法(farthestneighbor或completelinkagemethod)。2020/1/1015目录上页下页返回结束(3)类平均法(groupaveragemethod)。2020/1/1016目录上页下页返回结束(4)重心法(Centroidmethod)。(5)离差平方和法(SumofSquaresmethod)。2(,)wpqpqDpqDDD2020/1/10中国人民大学六西格玛质量管理研究中心17§1.3系统聚类法目录上页下页返回结束系统聚类法(hierarchicalclusteringmethod)在聚类分析中诸方法中用的最多,包含下列步骤:2020/1/1018目录上页下页返回结束注:不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。2020/1/10中国人民大学六西格玛质量管理研究中心19§1.4计算步骤与上机实践目录上页下页返回结束2020/1/1020§1.5案例研究目录上页下页返回结束例3我们以2005年31个省、市、自治区的城镇居民月平均消费支出数据为例,在SPSS中利用K-均值法对31个省、市、自治区的城镇居民消费水平进行聚类分析。在SPSS中依次点击“Analyze”→“Classify”→“K-MeansCluster”,打开K-MeansClusterAnalysis对话框,将8个变量选入Variable框中,将表示地区的变量选入LabelCasesBy栏中,将分类数(Numberofclusters)定为3。另外,点击Iterate按钮可以在其中输入最大迭代次数(Maximumiterations)和收敛标准(Convergencecriterion);在Save按钮中可以选择保存样本的聚类结果(Clustermembership)和各样本距各自中心点的距离(Distancefromclustercenter);在Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击“OK”得到聚类结果如下:2020/1/10中国人民大学六西格玛质量管理研究中心21目录上页下页返回结束2020/1/1022目录上页下页返回结束表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。2020/1/1023目录上页下页返回结束上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。2020/1/1024目录上页下页返回结束当然,也可以采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify”→“HierarchicalCluster”,打开HierarchicalClusterAnalysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入LabelCasesBy栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在ClusterMethod下拉菜单中选择Between-groupslinkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果。2020/1/1025目录上页下页返回结束最短距离法和最长距离法操作步骤与类平均法一样,只不过要在ClusterMethod下拉菜单中分别选择NearestNeighbor和FurthestNeighbor选项。直观看出,类平均法分为三类:{1,9,11,19}为第一类,{13,2,22,10}为第二类,其他为第三类;最短距离法分为两类,{1,9,11,19}为一类,其余的省市归为一大类;最长距离法也分为三类:{1,9,11,19}为第一类,{10,22,2,13,26}为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。

1 / 25
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功