spss使用教程_聚类分析与判别分析

thefastworld
2 ℃
2020-06-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPSS16实用教程第8章聚类分析与判别分析聚类分析与判别分析的基本概念8.1层次聚类分析中的Q型聚类8.2层次聚类分析中的R型聚类8.3快速聚类分析8.4判别分析8.5本章介绍统计学中经常使用的分类统计分析方法——聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成Q型聚类和R型聚类。8.1聚类分析与判别分析的基本概念统计学研究这类问题的常用分类统计方法主要有聚类分析（clusteranalysis）与判别分析（discriminantanalysis）。其中聚类分析是统计学中研究这种“物以类聚”问题的一种有效方法，它属于统计分析的范畴。聚类分析的实质是建立一种分类方法，它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。对个案的聚类分析类似于判别分析，都是将一些观察个案进行分类。聚类分析时，个案所属的群组特点还未知。也就是说，在聚类分析之前，研究者还不知道独立观察组可以分成多少个类，类的特点也无所得知。变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于，因素分析在合并变量的时候，是同时考虑所有变量之间的关系；而变量的聚类分析，则采用层次式的判别方式，根据个别变量之间的亲疏程度逐次进行聚类。聚类分析的方法，主要有两种，一种是“快速聚类分析方法”（K－MeansClusterAnaly-sis），另一种是“层次聚类分析方法”（HierarchicalClusterAnalysis）。如果观察值的个数多或文件非常庞大（通常观察值在200个以上），则宜采用快速聚类分析方法。因为观察值数目巨大，层次聚类分析的两种判别图形会过于分散，不易解释。判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是，判别分析时，组别的特征已知。如银行为了对贷款进行管理，需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中，900个客户的贷款归还信誉度，据此可以将客户分成两组：可靠客户和不可靠客户。再通过收集客户的一些资料，如年龄、工资收入、教育程度、存款等，将这些资料作为自变量。通过判别分析，建立判别函数。那么，如果有150个新的客户提交贷款请求，就可以利用创建好的判别函数，对新的客户进行分析，从而判断新的客户是属于可靠客户类，还是不可靠客户类。8.2层次聚类分析中的Q型聚类层次聚类分析是根据观察值或变量之间的亲疏程度，将最相似的对象结合在一起，以逐次聚合的方式（AgglomerativeClustering），它将观察值分类，直到最后所有样本都聚成一类。层次聚类分析有两种形式，一种是对样本（个案）进行分类，称为Q型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析；另一种是对研究对象的观察变量进行分类，称为R型聚类。它使具有共同特征的变量聚在一起，以便从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。本节讲述Q型聚类的原理和SPSS的实现过程，下一节将讲述R型聚类的实现过程。定义：层次聚类分析中的Q型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析。8.2.1统计学上的定义和计算公式层次聚类分析中，测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算：一种是样本数据之间的亲疏程度，一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。计算公式如下。样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同，采用不同的测定亲疏程度的方法。样本若有k个变量，则可以将样本看成是一个k维的空间的一个点，样本和样本之间的距离就是k维空间点和点之间的距离，这反映了样本之间的亲疏程度。聚类时，距离相近的样本属于一个类，距离远的样本属于不同类。1．连续变量的样本距离测量方法（1）欧氏距离（EuclideanDistance）两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根，计算公式为（2）欧氏距离平方（SquaredEuclideanDistance）两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和，计算公式为（3）Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值，计算公式为（4）Block距离两个样本之间的Block距离是各样本所有变量值之差绝对值的总和，计算公式为（5）Minkowski距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和，再求p次方根。计算公式为（6）Customized距离（用户自定义距离）两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和，再求q次方根。计算公式为连续变量亲疏程度的度量，除了上面的各种距离外，还可以计算其他统计指标。如Pearson相关系数、Sosine相似度等。2．连续变量的样本亲疏程度的其他测量方法3．顺序或名义变量的样本亲疏程度测量方法对于此类变量，可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。4．样本数据与小类、小类与小类之间的亲疏程度测量方法SPSS默认的变量为Var00001、Var00002等，用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样，有一定的命名规则，具体内容如下。所谓小类，是在聚类过程中根据样本之间亲疏程度形成的中间类，小类和样本、小类与小类继续聚合，最终将所有样本都包括在一个大类中。在SPSS聚类运算过程中，需要计算样本与小类、小类与小类之间的亲疏程度。SPSS提供了多种计算方法（计算规则）。（1）最短距离法（NearestNeighbor）以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离。（2）最长距离法（FurthestNeighbor）以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离。（3）类间平均链锁法（Between-groupsLinkage）两个小类之间的距离为两个小类内所有样本间的平均距离。（4）类内平均链锁法（Within-groupsLinkage）与小类间平均链锁法类似，这里的平均距离是对所有样本对的距离求平均值，包括小类之间的样本对、小类内的样本对。（5）重心法（CentroidClustering）将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。（6）离差平方和法（Ward’sMethod）小类合并的方法：在聚类过程中，使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。研究问题对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的成绩。数据如表8-1所示。8.2.2SPSS中实现过程表8-1学生的数学成绩姓名数学入学成绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00实现步骤图8-1在菜单中选择“HierarchicalCluster”命令图8-2“HierarchicalClusterAnalysis”对话框（一）图8-3“HierarchicalClusterAnalysis：Method”对话框（一）图8-4“HierarchicalClusterAnalysis：Plots”对话框（一）图8-5“HierarchicalClusterAnalysis：Statistics”对话框（一）图8-6“HierarchicalClusterAnalysis：SaveNewVar”对话框由于本例中选中的选项较多，这里按照各个结果分别解释。（1）首先是层次聚类分析的概要结果，该结果是SPSS输出结果文件中的第一个表格，如下表所示。8.2.3结果和讨论（2）输出的结果文件中第二个表格如下表所示。（3）输出的结果文件中第三个表格为层次聚类分析的凝聚状态表，包括：（4）输出的结果文件中第四个表格如下表所示。（5）输出的结果文件中第五个表格如下表所示。（6）输出的结果文件中第六部分如图8-7所示。（7）由于对图8-6“HierarchicalClusterAnalysis:SaveNewVar”对话框进行了设置，将聚类成三类时，各个样本的类归属情况保存为一个变量，因此在SPSS数据编辑窗口中就新增了一个变量的值，如图8-8所示。图8-8层次聚类分析结果保存8.3层次聚类分析中的R型聚类8.3.1统计学上的定义和计算公式定义：层次聚类分析中的R型聚类是对研究对象的观察变量进行分类，它使具有共同特征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。计算公式：R型聚类的计算公式和Q型聚类的计算公式是类似的，不同的是R型聚类是对变量间进行距离的计算，Q型聚类则是对样本间进行距离的计算。研究问题对一个班同学的各科成绩进行聚类，分析哪些课程是属于一个类的。聚类的依据是4门功课的考试成绩，数据如表8-2所示。8.3.2SPSS中实现过程表8-2学生的四门课程的成绩姓名数学物理语文政治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00实现步骤图8-9在菜单中选择“HierarchicalCluster”命令图8-10“HierarchicalClusterAnalysis”对话框（二）图8-11“HierarchicalClusterAnalysis：Method”对话框（二）图8-12“HierarchicalClusterAnalysis：Plots”对话框（二）图8-13“HierarchicalClusterAnalysis：Statistics”对话框（二）（1）首先是层次R型聚类分析的结果，该结果是SPSS输出结果文件中的第一个表格。8.3.3结果和讨论（2）输出的结果文件中第二个表格如下表所示。（3）输出的结果文件中第三个表格如下表所示。（4）输出的结果文件中第四个表格如下表所示。（5）输出的结果文件中第五个表格如下表所示。（6）输出的结果文件中第六部分如下：8.4快速聚类分析SPSS层次聚类分析对计算机的要求比较高，在大样本的情况下，可以采用快速聚类分析的方法。采用快速聚类分析，得到的结果比较简单易懂，对计算机的性能要求也不高，因此应用也比较广。定义：快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类，然后逐步调整，得到最终分类。快速聚类分析的实质是K-Mean聚类。8.4.1统计学上的定义和计算公式和层次聚类分析一致，快速聚类分析也以距离为样本间亲疏程度的标志。但两者的不同在于：层次聚类可以对不同的聚类类数产生一系列的聚类解，而快速聚类只能产生固定类数的聚类解，类数需要用户事先指定。另外，在快速