第八章聚类分析.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

旅游与管理工程学院第八章聚类分析旅游与管理工程学院一、聚类分析和判别分析过程概述聚类分析是研究物以类聚问题的一种有效方法,它将一批样本数据按照其性质上的相近程度,在没有先验知识的情况下客观进行分类,该方法被视为是一种探索性的分析方法。判别分析是一种有效的分类方法,分析时各类的特征是事先已知,即根据判别,将新样本划分到不同的组中去。分类形成后相同的类就是一个具有相近个体的集合,不同类之间具有明显的区别。旅游与管理工程学院分类•物以类聚、人以群分;•但根据什么分类呢?•如要想把中国的县分类,就有多种方法•可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,•也可考虑收入、教育水准、医疗条件、基础设施等指标;•既可以用某一项来分类,也可以同时考虑多项指标来分类。旅游与管理工程学院聚类分析•对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。•当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。•本章要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。旅游与管理工程学院1、聚类分析的基本思想•是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.•相似样本或指标的集合称为类。旅游与管理工程学院2、聚类分析方法1)快速聚类(K-MeansCluster)是非系统聚类法中最常用的K-均值聚类法,只能用于对样本的快速聚类。2)分层聚类(HierarchicalCluster)提供了全面而强大的聚类分析功能,可以对多种数据类型进行样本或变量的聚类分析。3)判别分析(Discriminant)提供了全面的判别分析功能。旅游与管理工程学院凝聚式分解式以系统聚类法为例旅游与管理工程学院3、相似性度量•相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;•距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。•距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。•样本分类(Q型聚类)常以距离刻画相似性•指标分类(R型聚类)常以相似系数刻画相似性旅游与管理工程学院二、距离的计算样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。旅游与管理工程学院样本若有k个变量,则可以将样本看成是一个k维的空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同类。1.连续变量的样本距离测量方法旅游与管理工程学院(1)欧氏距离(EuclideanDistance)两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为:旅游与管理工程学院(2)欧氏距离平方(SquaredEuclideanDistance)两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为旅游与管理工程学院(3)切比雪夫(Chebychev)距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值,计算公式为旅游与管理工程学院(4)布洛克(Block)距离两个样本之间的Block距离是各样本所有变量值之差绝对值的总和,计算公式为旅游与管理工程学院(5)明可夫斯基(Minkowski)距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和,再求p次方根。计算公式为旅游与管理工程学院(6)Customized距离(用户自定义距离)两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和,再求q次方根。计算公式为旅游与管理工程学院连续变量亲疏程度的度量,除了上面的各种距离外,还可以计算其他统计指标。如Pearson相关系数、Sosine相似度等。2.连续变量的样本亲疏程度的其他测量方法旅游与管理工程学院旅游与管理工程学院3.顺序或名义变量的样本亲疏程度测量方法对于此类变量,可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院三、两个距离概念•按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。•点间距离有很多定义方式。最简单的是欧氏距离。•当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。旅游与管理工程学院•由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,•类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。•在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。旅游与管理工程学院最短距离(NearestNeighbor)x21•x12•x22•x11•13d旅游与管理工程学院最长距离(FurthestNeighbor)•••x11•x21••••12d旅游与管理工程学院••••••991dd组间平均连接(Between-groupLinkage)旅游与管理工程学院组内平均连接法(Within-groupLinkage)1234566ddddddx21•x12•x22•x11•旅游与管理工程学院重心法(Centroidclustering):均值点的距离••11,xy22,xy旅游与管理工程学院离差平方和法连接2,41,56,522(23)(43)222(65.5)(55.5)0.522(13)(53)8旅游与管理工程学院红绿(2,4,6,5)8.75离差平方和增加8.75-2.5=6.25黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=0故按该方法的连接和黄红首先连接。旅游与管理工程学院四、快速样本聚类过程快速样本聚类(QuickC1uster),也称逐步聚类或动态聚类,其基本思想是:开始按照一定方法选取一批凝聚点(聚心),其次让样本向最近的聚心凝聚形成初始分类,然后按最近距离原则修改不合理的分类,直到合理为止。该方法适合于大样本的Q型聚类分析。根据经验,若样本容量大于100,则可以考虑使用这种方法。旅游与管理工程学院•案例见饮料.sav旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院五、分层聚类分析分层聚类分析(HierarchicalClusterAnalysis),也叫系统聚类分析,是聚类分析中应用最广泛的一种方法。其聚类过程是:开始把参与聚类的每个样本(或变量)各视为一类,然后根据两类之间的距离或相似性逐步合并,直到所有的样本(或变量)合并为一个大类为止。仍依前例:旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院如分为三类,则结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。想想看,如分为两类,结果是什么?旅游与管理工程学院聚类要注意的问题:•聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。•相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。•另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。•但是,聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能的近,并且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。旅游与管理工程学院六、判别分析判别分析在分析之前就应该明确所研究的变量共有几个类别,该分析方法的目的就是从现有已知类别的样本数据中,利用某种技术建立起一个判别函数,以后再有未知类别的数据进入,就利用建立的函数来判断其类别。旅游与管理工程学院判别分析—步骤(1)选择自变量及组变量,并计算各组单变量描述统计量,对判别分析所要求的前提假定进行统计检验。(2)推导判别系数,给出标准化或末标准化的典则判别函数系数,并对函数显著性进行检验;(3)建立Fisher线性判别模型,根据Bayes规则或Fisher规则进行判别分组;(4)进行样本回判分析,分析判别函数的结果;(5)输出结果,结合研究对象的实际情况分析输出结果,作出结论。

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功