spss16

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第九章聚类分析与判别分析根据同类事物应具有相近特性,而不同事物在这些特性上差异较大的假定,将所研究的事物进行分类,这种研究方法称为聚类Cluster。在SPSS中,有两种方法进行聚类分析,一种是并不指定最终的类数,所有样本不断相聚,最终聚为一类,结论将在聚类过程中寻求,这种聚类称为分层聚类。另一种是在指定了用于聚类分析的变量和类数后进行的聚类,称为快速样本聚类。§9.1分层聚类一、分层聚类的概念事物的性质是通过测量变量来描述的,因此,变量可以揭示事物的一些内部属性。如果以n个数值型变量(n维空间)来描述某一类事物,则一个事物就是n维空间中是一个点。YXZ..........................ABC在A、B、C三组数据点群中,每组内部的数据点的坐标数值都比较接近。用几何距离表示就是:由于在同一类中数据点的坐标值比较接近或几何距离比较接近,这类点的总体性质就比较接近。例如:对一批运动员分别测量了他们的百米、万米、摸高、举重、体操等若干项指标,最后根据他们的各项成绩的分析将他们分为几种不同类型的运动员,比如:爆发力型、耐力型、灵巧型等。分层聚类分析就是通过对变量的测量,将比较接近的样本找出来归为一类,进一步再将比较接近的类合并成为新的类,逐层合并直到最后合并成为一类。分层聚类产生的结果不在聚类的开始,也不在聚类的最终,而是在其过程中。研究者将根据聚类过程适当截取聚类结论。222jijijijizzyyxxpp二、分层聚类的类型分层聚类有两种类型:“Q聚类”,也可解释为样本聚类。这种聚类将在聚类过程中发现具有共同属性的样本组。“R聚类”,也可解释为变量聚类。而“R聚类”则可以在某些变量中选择出具有代表性的变量。分层聚类的显示结果不仅有聚类步骤表供数据分析使用,而且有各种图形可以直观地显示结果。聚类分析的图形结果有“树状图”和“冰柱”图。三、分层聚类的命令执行[Statistics][Classify][HierarchicalCluster],选择变量进入“Variable(s)”中选择聚类类型“Cluster”(单选项):样本聚类Cases(“Q聚类”)或变量聚类Variable(“R聚类”)“display”中可以选择(复选项):“Statistics”只计算统计分析。“plots”只产生图像。按钮“Statistics”将产生输出统计量:“Agglomerationschedule”为生成并类过程表。在表中将显示并类过程中的并类信息,包括:并类距离值、在相应值上的并类类别和类间关系。可以根据并类过程表了解聚类过程。“Proximitymatrix”产生测度矩阵。测度矩阵可以显示出并类过程中各类之间的距离或相关性。“ClusterMembership”聚类成员关系表。在并类过程中,各个样本被并到哪一类:“None”不显示聚类成员关系表。“Singlesolution”显示指定类数时聚类成员关系表。指定的类数应当是小于等于样本个数,大于等于1的整数。当聚类到达此指定的数值时,将在输出窗口显示各个样本所属的类。“Rangeofsolutions”显示聚类成员在指定并类范围内所属类的关系表。指定的范围也应当是在样本数与1之间的整数。按钮“Plots”将产生聚类图形:“Dendrogram”生成树状图“Icicle”生成冰柱图“Allclusters”全过程冰柱图“Specifiedrangeofclusters”指定并类范围冰柱图“None”不生成冰柱图“Orientaton”图形取向:竖直的Vertical和水平的Horizontal按钮“Method”为聚类方法选择:⑴“Cluster”共有七种进行聚类的方法:①“Between-groupslinkage”类间平均法,当两类之间所有样本之间距离的平均值最小时,这两类可以合并为一类。这是系统缺省的方法。(可以理解为m×n个距离的平均值最小)②“Within-groupslinkage”类内平均法,当合并后所有样本的距离的平均值最小时,这两类可以合并为一类。③“Nearestneighbor”最短距离法,当两类之间最近的样本之间的距离最小时,这两类可以合并为一类。④“Furthestneighbor”最长距离法,当两类之间最远的样本之间的距离最小时,这两类可以合并为一类。⑤“Centroidclustering”重心法,当两类中重心的距离最小时,这两类可以合并为一类。⑥“Medianclustering”中心法,当两类中心的距离最小时,这两类可以合并为一类。⑦“Ward'smethod”离差平方和法,当合并后类内部的各个样本距离的离差平方和最小时,这两类可以合并为一类。⑵“Measure”距离的测量项,“Interval”间隔的测量:①“Euclideandistance”欧氏距离,②“SquaredEuclideandistance”欧氏平方距离,③“Cosine”夹角的余弦cos(θij)。④“PearsonCorrelation”皮尔逊相关系数。⑤“Chebychev”车贝雪夫距离,Max(ΔX,ΔY,ΔZ,...)⑥“Block”绝对值之和距离,|ΔX|+|ΔY|+|ΔZ|+...222zyx222zyx⑦“Mincowski”明柯夫斯基距离,当p等于1时,为绝对值之和距离“Block”。当p等于2时,为欧氏距离“Euclideandistance”。⑧“Customized”自定义幂与根式的距离,当p等于1而r等于1时,为绝对值距离之和“Block”。当p等于2而r等于2时,为欧氏距离“Euclideandistance”。当p等于2而r等于1时,欧氏平方距离。ppppzyx...rpppzyx...四、聚类分析的应用举例调查某市的11个区、县的国民生产和经济发展情况,测量如下项目:地区、非农业人口、农业人口、社会增产率、工业总产值、工商总税利和农业总产值。对其进行分层聚类分析,并生成聚类过程的树状图。由报告中可以得到:样本处理摘要表“CaseProcessingSummary”、并类表“AgglomerationSchedule”以及聚类过程的树状图“Dendrogram”。五、分层聚类命令语句CLUSTER聚类变量…/METHODBAVERAGE/MEASURE=SEUCLID/PRINTSCHEDULE/PLOTDENDROGRAM.六、变量聚类变量聚类又称为“R聚类”,是通过在样本空间中取值比较接近的变量的合并来减少变量的。其意义可以表述为:某几个变量对不同的样本取值都很接近,例如:用体形测量、水中测量和专用仪器测量运动员的体内各部脂肪成分比例的结果相似程度很高,通过变量聚类分析将可以将这三个变量合并为一个变量。对变量的并类实际就是降低描述样本的维度或减少描述样本的变量个数。分层聚类的对话窗口中选择单选项“Cluster”中的“Variables”,而不要选择“Cases”。就选定了变量的聚类分析。9.2快速聚类分析一、快速样本聚类的概念快速样本聚类的方法就是将聚类仅仅进行到指定的类数就停止。进行快速样本聚类分析应当确定最终聚类数,使聚类发生到该指定类数后停止。为了使聚类过程快速有效,还可以指定聚类中心点位置,这样将使聚类过程的叠代次数减少很多。快速聚类过程始终遵照所有样本空间的点与这几个类中心的距离取最小值原则,进行反复的叠代计算,最终将各个样本分配到各个类中心所在的类,叠代计算将停止。另外,系统还提供了一种更简单的方法,即:用户指定了初始类中心后,系统只负责分类,而不再更改这些初始类中心的位置,最终将各个样本点归类到各个初始类中心。二、快速样本聚类的操作执行[Statistics][Classify][K-MeansCluster]指定聚类变量到Variables如果要表明各个样本最后聚到哪一类,可以指定标识样本的标识变量,Labelcases。例如:姓名、地区、国家、编号等。标识变量可以是字符串型变量(string)。如果此项不选择,将由样本序号(CaseNumber)作为标识变量。在“NumberofClusters”指定聚类数,系统默认值为2。在“Method”指定聚类方法Iterateandclassify叠代并分类。此种方法是在用户指定的初始类中心的基础上经过K-means方法叠代计算,逐步调整聚类中心,使最后的样本聚类满足样本的点与其所属的类中心的距离取最小值,叠代停止,分类也就确定了。Classifyonly只分类不叠代。选择只分类方法后,就确定使用用户指定的初始类中心作为聚类中心,计算样本距离类中心的距离,但不再改变初始类中心的位置。“Centers”为对类中心文件的输入和输出。“Readinitialfrom”表示从某外部文件读入初始类中心。使用该选项必须有一个与当前数据文件相对应的文件,该文件应当具有当前做聚类分析的全部变量以及一个“Cluster_”变量。变量的值指示了各个聚类中心的“坐标”,而“Cluster_”变量指示了聚类中心的序号。“WriteFinalas”是将聚类结果存为一个磁盘文件。该文件可以作为下次聚类分析时使用以提高分析速度。“Iterate”用于指定最大叠代次数和收敛标准。“Maximum”用于指定最大叠代次数。即在聚类过程中,达到叠代次数后将停止叠代计算。系统默认的叠代次数为“10”次。“Convergence”用于指定叠代的收敛标准。该指定数值是“n”表示在两次叠代过程中,聚类中心调整的距离低于从初始类中心开始调整的距离的百分之“n”,叠代即停止。系统默认的收敛标准为“0”。“Userunningmeans”为使用即时平均数法。该选项表示在每次确定了一个样本隶属的类后立即计算新的类中心。若不选择该选项则当全部样本都被归类后再计算各个类中心的位置。显然,后者将节省计算时间。“Save”用于存储聚类产生的新变量。“Clustermembership”可以产生一个新的变量qcl_1。变量中的数值为聚类中心编号:123…等,它标志了每个样本所隶属的类别。“DistancefromClustercenter”可以产生一个新的变量qcl_2。变量中的数值为每个样本到达聚类中心的欧氏距离。“Options”用于输出描述统计量和缺失值处理。三、快速样本聚类举例对全国30个省、市、自治区的国民经济情况进行统计,分别测量了各个地区的国民生产总值GMSCZZ、国民收入GMSR、社会总产值SHZCZ、工农业总产值GNYZCZ和总人口ZRK等变量。指定初始类中心为5个点。四、命令语句QUICKCLUSTER变量名1变量名2…/MISSING=LISTWISE/CRITERIA=CLUSTER(5)MXITER(10)CONVERGE(0)/METHOD=KMEANS(NOUPDATE)/SAVECLUSTERDISTANCE/PRINTINITIAL.

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功