18聚类分析

tdkjqqqmfk
1 ℃
2020-01-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

研究问题对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的成绩。数据如表13-1所示。表13-1学生的数学成绩姓名数学入学成绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00在菜单中选择“HierarchicalCluster”命令“HierarchicalClusterAnalysis”对话框（一）将参与层次分析的变量选入Variables框中；如果有标记变量，可以把字符型的标记变量选入LabelCasesby框中；在Cluster框中选择聚类类型，其中Cases表示Q型聚类，Variables表示R型聚类；在Display框中选择输出内容，其中Stastistics表示输出统计结果，Plots表示输出图形；把一个字符型变量作为标记变量选到labelcasesby框中Q型聚类，默认类型R型聚类输出聚类分析的相关统计量输出聚类分析的相关图形聚类方法Measure给出不同变量类型下个体距离的计算方法给出计算个体与小类，小类与小类间距离的方法适用于连续型定距变量适用于计数型变量适用于二值变量标准化变换如果参与聚类分析的变量存在数量级上的差异，应在transformvalues框中standardize选项中选择消除数量级差的方法输出聚类分析的凝聚状态表输出个体间的距离矩阵不输出样本所属类指定输出当分成n类是各样本所属类，是单一解指定输出当分成m至n类时各样本所属类13.2.3结果和讨论由于本例中选中的选项较多，这里按照各个结果分别解释。（1）首先是层次聚类分析的概要结果，该结果是SPSS输出结果文件中的第一个表格，如下表所示。（2）输出的结果文件中第二个表格如下表所示。（两两个体间欧氏距离矩阵）（3）输出的结果文件中第三个表格为层次聚类分析的凝聚状态表，包括：（4）输出的结果文件中第四个表格如下表所示。聚类归属表：根据样品分成3类的设定，表中列出了使用最近相邻法的最后聚类结果（1，10），（2，3，4，5，6，7，8）（9）各成一类（5）输出的结果文件中第五个表格如下表所示。（6）输出的结果文件中第六部分如图8-7所示。7）由于对ClusterAnalysis:SaveNewVar”对话框进行了设置，将聚类成三类时，各个样本的类归属情况保存为一个变量，因此在SPSS数据编辑窗口中就新增了一个变量的值，如图13-8所示。研究问题对一个班同学的各科成绩进行聚类，分析哪些课程是属于一个类的。聚类的依据是4门功课的考试成绩，数据如表13-2所示。表13-2学生的四门课程的成绩姓名数学物理语文政治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00实现步骤把一个字符型变量作为标记变量选到labelcasesby框中Q型聚类，默认类型R型聚类输出聚类分析的相R型聚类关统计量输出聚类分析的相关图形Measure给出不同变量类型下个体距离的计算方法给出计算个体与小类，小类与小类间距离的方法适用于连续型定距变量适用于计数型变量适用于二值变量如果参与聚类分析的变量存在数量级上的差异，应在transformvalues框中standardize选项中选择消除数量级差的方法图13-12“HierarchicalClusterAnalysis：Plots”对话框（二）图13-13“HierarchicalClusterAnalysis：Statistics”对话框（二）8.3.3结果和讨论（1）首先是层次R型聚类分析的结果，该结果是SPSS输出结果文件中的第一个表格。（2）输出的结果文件中第二个表格如下表所示。（3）输出的结果文件中第三个表格如下表所示。（4）输出的结果文件中第四个表格如下表所示。（5）输出的结果文件中第五个表格如下表所示。（6）输出的结果文件中第六部分如下：研究问题为研究不同公司的运营特点，调查了15个公司的组织文化、组织氛围、领导角色和员工发展4方面的内容。现要将这15个公司按照其各自的特点分成4种类型，数据如表13-3所示。表8-3不同公司的特点公司组织文化组织氛围领导角色员工发展Microsof80.0085.0075.0090.00IBM85.0085.0090.0090.00Dell85.0085.0085.0060.00Apple90.0090.0075.0090.00联想99.0098.0078.0080.00NPP88.0089.0089.0090.00北京电子79.0080.0095.0097.00清华紫光89.0078.0081.0082.00北大方正75.0078.0095.0096.00TCL60.0065.0085.0088.00娃哈哈79.0087.0050.0051.00Angel75.0076.0088.0089.00Hussar60.0056.0089.0090.00世纪飞扬100.00100.0085.0084.00Vinda61.0064.0089.0060.00在菜单中选择“K-MeansCluster”命令“K-MeansClusterAnalysis”对话框确定终止聚类的条件人为固定分类读写凝聚点K-MeansClusterAnalysis：Options”对话框输出初始类中心点以聚类分析产生的类为控制变量，以K个变量为观测变量进行单因素方差分析输出样本分类信息及距所属类中心点的距输出样本分类信息及距所属类中心点的距离离“K-MeansClusterAnalysis：Iterate”对话框“K-MeansClusterAnalysis：Iterate”对话框输入最大迭代次数输入类中心的偏移量每当一个样本被分配到一类时便立即重新计算新的类重新“K-MeansCluster:SaveNewVariable”对话框保存样本所属类的类号保存样本距各自类中心点的距离13.4.3结果和讨论（1）SPSS输出结果文件中的第一部分如下表所示。展示了3个类的初始中心的情况，4个类初始中心点的数据分别是（79，87，50，51），（60，56，89，90）………（2）输出的结果文件中第二部分如下表所示。展示了4各类中心每次迭代时的偏移情况，第一次迭代后4个类的中心点分别便宜了0，16.531，13.841（3）输出的结果文件中第三部分是快速聚类分析后的各个类包含样本的情况。（4）输出的结果文件中第四部分如下表所示。（5）输出的结果文件中第五个部分如下表所示。（6）输出的结果文件中第六个部分如下表所示。（7）输出结果的最后一个表格列出了4个类中分别包括的样本数，如下表所示。（8）在步骤5中曾指定了将样本所属类以及样本和类中心点的距离，作为样本的2个新变量保存到SPSS的数据编辑窗口中。SPSS运行后，数据编辑窗口如图8-21所示，其中我们可以看到新增加了两个变量（图中加深的两列），分别表示样本所属类以及样本和类中心点的距离。