管理统计-SPASS第12章-聚类分析与判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第12章聚类分析与判别分析12.1聚类分析12.1.1聚类分析的基本原理1、方法概述聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。所谓类,就是指相似元素的集合。2、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类样品聚类在统计学中又称为Q型聚类,即对事件(Cases)进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。12.1聚类分析(2)变量聚类变量聚类在统计学又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。思考:对我国32个省、市、自治区的8个经济指标进行聚类,应选取那种聚类方法?(1)对32个省、市、自治区聚类;(2)对8个经济指标聚类。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。12.1聚类分析3、距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。12.1聚类分析(1)距离如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:明氏(Minkowski)距离当q=1时即绝对距离当q=2时即欧氏距离当时即切比雪夫距离11()qpqijiajaadqxx1(1)pijiajaadxx1221(2)()pijiajaadxx1()maxijiajaapdxxq12.1聚类分析马氏(Mahalanobis)距离其中表示指标的协差阵,即:马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如将原数据作一线性交换后,马氏距离仍不变等等。21()()()ijijijdMXXXX()ijpp11()()i,j1,,p1nijijaiajaxxxxn1111xnnjiaiajaaxxxnn12.1聚类分析兰氏(Canberra)距离它是由Lance和Williams最早提出的,故称兰氏距离。此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。11()i,j1,,npiajaijaiajaxxdLpxx0ijx12.1聚类分析(2)相似系数顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:夹角余弦将任何两个样品Xi与Xj看成p维空间的两个向量,这两个向量的夹角余弦用表示。则当,说明两个样品Xi与Xj完全相似;接近1,说明Xi与Xj相似密切;,说明Xi与Xj完全不一样;接近0,说明Xi与Xj差别大。1ij2211cos1cos1piajaaijppiajaaaxxxxcosijcosijcos0ijcos1ij12.1聚类分析相关系数通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为:其中聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等。本节主要介绍使用较多的快速聚类法和系统聚类法。12211()()-11()()pijiajaaijijppijiajaaaxxxxrrxxxx1111ppijiajaaaxxxxpp12.1聚类分析12.1.2快速聚类法K-均值聚类法又称快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下:1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心点。3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。5、重复步骤4,直到达到一定的收敛标准。这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。12.1聚类分析•实例:全国环境污染程度分析为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。12.1聚类分析现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”、“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。•打开数据文件12-1.sav,选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【K-MeansCluster(K均值聚类)】命令,弹出【K-MeansClusterAnalysis(K均值聚类分析)】对话框。•在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【LabelCasesby(个案标记依据)】列表框中。•在【NumberofClusters(聚类数)】文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。•单击【Save(保存)】按钮,弹出【K-MeansClusterAnalysis:Save(K均值聚类分析:保存)】对话框;勾选【Clustermembership(聚类新成员)】和【Distancefromclustercenter(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框。•单击【Options(选项)】按钮,弹出【K-MeansClusterAnalysis:Options(K均值聚类分析:选项】对话框;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框,单击【OK(确定)】按钮完成操作。12.1聚类分析实例结果及分析(1)快速聚类分析的初始中心结果首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。快速聚类分析的初始中心12.1聚类分析(2)迭代历史表下表显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。迭代历史表12.1聚类分析(3)聚类分析结果列表通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。•第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。•第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。•第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。12.1聚类分析(4)最终聚类分析中心表如下表所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。最终聚类分析中心12.1聚类分析(5)最终聚类中心位置之间的距离如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。最终聚类中心位置之间的距离12.1聚类分析(6)方差分析表如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证了聚类分析结果的有效性。方差分析表12.1聚类分析(7)聚类数目汇总如下表所示是聚类数据汇总表,显示了聚类分析最终结果中各个类别的数目。其中第一类的数目最多,等于20;而第三类的数目最少,只有4个。聚类数目汇总表12.1聚类分析12.1.4系统聚类法系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。思考:对我校全部在校学生的各项健康指标进行聚类,应选取那种聚类方法?12.1聚类分析12.1.4系统聚类法同时根据聚类过程不同,又分为分解法和凝聚法。分解法:开始把所有个体(观测量或变量)都视为同属一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。12.1聚类分析在系统聚类中,当每个类别有多于一个的数据点构成时,就会涉及如何定义两个类间的距离问题。根据距离公式不同,可能会得到不同的结果,这也就进一步构成了不同的系统聚类方法。常用的方法有如下几种。Between-groupslinkage:组间平均距离法。Within-groupslinkage:组内平均距离法。Nearestneighbor:最短距离法。Furthestneighbor:最远距离法。Centroidclustering:重心法。Medianclustering:中间距离法。Ward'smethod:离差平方和法。12.1聚类分析实例:不同地区信息基础设施发展状况的评价1.实例内容要研究世界不同地区信息基础设施的发展状况,这里选取了发达地区、新兴工业化地区、拉美地区、亚洲地区中国家、转型地区等不同类型的20个国家的数据。描述信息基础设施的变量主要有六个。(1)Call—每千人拥有电话线数。(2)movecall—每千房居民蜂窝移动电话数。(3)fee—高峰时期每三分钟国际电话的成本。(4)Computer—每千人拥有的计算机数。(5)mips—每千人中计算机功率(每秒百万指令)。(6)net—每千人互联网络户主数。12.1聚类分析2.实例操作现在要分析世界各个地区的信息基础设施的发展状况,案例中选择了“每千人拥有电话线数”、“每千房居民蜂窝移动电话数”等六个指标来反映不同国家信息设施的发展情况,同时选择了近二十个地区的数据加以研究。这个问题也属于典型的多元分析问题,需要利用多个指标来分析地区之间信息基础设施发展的差异。因此,可以利用系统聚类法。12.1聚类分析3实例结果及分析(1)聚类过程表结果首先给出了进行系统聚类分析的过程表。下表中的的第一列“Stage”列出了聚类过程的

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功