多元统计分析讲义(第二章)

baipingzi
1 ℃
2020-07-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲：统计学院许启发（xuqifa1975@163.com）统计学院应用统计学教研室SchoolofStatistics2004年9月注意电子文档使用范围第页1第二章聚类分析【教学目的】1．让学生了解聚类分析的背景、基本思想；2．掌握聚类分析的基本原理与方法；3．掌握聚类分析的操作步骤和基本过程；4．学会应用聚类分析解决实际问题。【教学重点】1．分类的统计量；2．各种聚类分析方法的阐述。§1概述一、什么是聚类分析1．研究背景在实际问题中，经常要遇到分类的问题。例如，在考古学中，要将某些古生物化石进行科学的分类；在生物学中，要根据各生物体的综合特征进行分类；在经济学中，为了研究不同地区城镇居民的收入及消费情况，往往需要划分为不同的类型去研究；在产品质量管理中，也要根据各产品的某些重要指标而将其分为一等品，二等品等等。总之，科学的分类方法无论在自然科学，还是在社会科学中，都有着极其广泛的应用。俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。随着人类社会的发展与科学技术的进步，对分类学的要求也越来越高。有时，只凭经验和专业知识还不能进行科学有效的分类，于是数学这一有力的工具被逐渐引入到分类学中，形成了一门新兴的学科——数值分类学。后来，随着多元分析方法的引进，从数值分析学中逐渐分离出了聚类分析这个分支。对于一个数据，人们既可以按照观测值对变量（或指标）进行分类(相当于对数据中的列分类)，也可以按照变量对观测值（事件，样品）来分类（相当于对数据中的行分类）。比如利用学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类。当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析（clusteranalysis）。有人称按照观测值对变量的分类为R型聚类，而称按照变量对观测值的分类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。聚类分析就是一种分类方法，它将一批样品、变量（或指标），按照它们在性质上相似、疏远程度进行科学的分类。而度量相似或疏远程度常有两种指标：距离和相似系数。2．基本思想哲学理念：物以类聚、人以群分聚类分析的基本思想是，从一批样品的多个指标变量中，定义能度量样品间或变量间相似程度（或亲疏关系）的统计量，在此基础上求出各样品（或变量）之间的相似程度度量值，按相似程度的大小，把样品（或变量）逐一分类，关系密切的类聚集到一个小的分类单位，关系疏远的类聚集到一个大的分类单位，直到所有的样品或变量都聚集完毕，把不同的类型一一划分出来，形成一个亲疏关系谱系图，用以更直观地显示分类对象（样品或变量）的差异和联系。一开始将要归类的n个变量（或个体）各自看成一类，然后按事先规定好的方法计算各类之间的归类指标（如某种距离或相似系数），根据指标值大小衡量两两之间关系的密切程度，将关系最密切的两类并第页2成一类，其余不变，即得1n类；又按事先规定的方法重新计算各类之间的归类指标（仍为某种距离或相似系数），又将关系密切的两类并成一类，其余不变，即得2n类；如此进行下去，每次归类都减少一类，直到最后，n个变量（或个体）都归成一类为止。这一归类过程可以用一张聚类图（或称谱系图）形象地表示出来，由谱系图来进行分类。可以看到，这种系统归类过程，显然与计算类与类之间的归类指标是什么有关系，同时也与归类的方法有关系。二、聚类分析方法值得一提的是聚类分析和第三章的判别分析都是研究分类问题，但二者有本质的区别。聚类分析一般上寻求客观分类的方法，事先对总体到底有几种类型无所知晓，而判别分析则是在总体类型划分已知，在各总体分布或来自各总体训练样本的基础上，对当前的新样品用统计的方法判定它们属于哪个总体。聚类分析的历史还很短，由于在其发展过程中首先是着重于实用，因此相对而言理论上还不够完善。无论聚类统计量还是聚类的方法，都还未最终定型。目前，聚类统计量种类繁多，聚类方法也五花八门，但由于聚类分析方法能广泛地应用于解决实际问题，它和回归分析，判别分析一起被称为多元分析的三大实用方法。本章将重点介绍一些常见的分类统计量和目前使用较为广泛的谱系聚类方法。关于其它聚类方法，如模糊聚类法，动态聚类法，有序样品聚类法，分解法，加入法等等，可以参看其它的文献。第页3§2聚类统计量聚类分析所研究的内容包括两个方面，一是对样品进行分类，设n个样品，每个样品均用p个指标的观测向量(1,2,,)ixin来表征，要根据ix间某种相似性度量，将这n个样品进行分类。如某班有n个学生，根据每个学生的期末各科考试成绩将该班学生分类（如分为优，良，中，差四类等）。另一方面是对变量进行分类，即对所考察的p个指标12,,,pXXXX，根据n个观测值12(,,,)iiipixxxx(1,2,,)in及某些相似性原则将这p个变量12,,,pXXX进行分类。如在服装设计中，往往要测量很多的指标（变量），如身高，上体长，臂长，肩宽，胸围，腰围等，有时需要对这些指标分类，以显示人体各部分的不同特点，以便于服装设计。对样品进行分类的方法称为Q型聚类法，所用的统计量用“距离”这一术语描述；对变量进行分类的方法，称为R型聚类法，所用的统计量用“相似系数”描述。下面分别介绍几种常用的距离和相似系数①。一、样品间的相似性度量——距离我们将不区分样品与它的指标观测值。设每个样品ix有p个指标，它们的观测值可表示为12(,,,)iiipixxxx(1,2,,)in这时，每个样品ix可看成p维空间中的一个点，n个样品就组成p组空间中的n个点，我们很自然地用各点之间的距离来衡量各样品之间的靠近程度。设(,)ijdxx为样品ix与jx之间的距离，则一般要求它满足下列三个条件②：下面介绍几种聚类分析中的常用距离。1．Minkowski距离1/1()0qpqijikjkkdqxxq（1）当1q时，1(1)pijikjkkdxx为绝对距离；（2）当2q时，1/221(2)pijikjkkdxx为欧氏距离；（3）当q时，1()maxijikjkkpdxx为Chebishov距离③。NOTE：明氏距离存在不足①它与各指标的量纲有关；②它没有考虑指标之间的相关性；③要求一个向量的n个分量是不相关的且具有相同的方差若考虑p个指标的相关性和异方差等问题，我们可以采用方差加权距离或Mahalanobis距离。2．方差加权距离①当变量为定性变量（如性别，职业，等级）时，也可定义样品间的“距离”和变量间的“相似系数”，在此不作深入讨论。②在聚类分析中，有时所用的距离并不满足第三条，我们在广义的角度上仍称它为距离。③可以利用不等式的缩放技术进行证明。第页41/2221()pikjkijkkxxd其中，2k为第k个指标的方差。3．Mahalanobis距离①21()ijijijdMxxxx其中，为p个指标的协方差矩阵。实际应用中，若2k与未知，可用观测数据对其估计，一般用2ˆk和样本协方差阵S作为其估计。4．兰氏（Lance-Williams）距离11()pikjkijkikjkxxdLpxxNOTE：此距离仅适用于一切0ijx的情况，该距离有助于克服各指标之间量纲的影响，但没有考虑指标之间的相关性。用聚类分析解决实际问题时，选用何种距离是十分重要的，这通常要结合有关专业的实际背景而定。距离的定义有很大的灵活性，有时可根据实际问题定义新的距离。二、变量间的“关联性”度量——相似系数当对p个指标（或变量）进行聚类时，用相似系数衡量变量间的关联程度。定义：一般地，称ijC为变量iX和jX之间的相关系数，如果对一切的1,ijp满足：①1ijC；②1iiC；③ijjiCC。ijC越接近于1，说明变量iX和jX之间的关系越密切。设12,,,iinixxx表示对变量(1,,)iXip的n个观测值，常用的相似系数有：1．夹角余弦（向量内积）12211(1)cos,1,2,,nkikjkijijnnkikjkkxxCijpxxNOTE：①若将变量iX的n个观测值12,,,iiiniXxxx和变量jX的n个观测值12,,,jjnjxxx看成n维空间中的两个向量，(1)ijC正好是这两个向量夹角的余弦，这个统计量在图像识别中非常有用；②当(1)1ijC时，说明完全相似；当(1)0ijC时，说明完全不一样。2．相关系数（相似系数）从统计角度看，两个随机变量的相关系数是描述这两个变量关联性（线性关系）强弱的一个很有用的特征数字。因此，用任意两个变量的n个观测值对其相关系数的估计可作为两个变量关联性的一种度量。其定义为12211(2),1,2,,nkiikjjkijijnnkiikjjkkxxxxCrijpxxxx其中，11pikikxxp，11pjkjkxxp。①由印度统计学家马哈拉诺比斯于1936年引入。ABCD第页5NOTE：①(,1,2,,)ijrijp其实就是12,,,pXXXX的样本相关矩阵中的各元素；②ijr就是零均值化后向量的夹角余弦；③如果将原始数据标准化，则0ix且0jx，这时有cosijijr。3．同号率(3),1,2,,ijnnCijpnn其中，n为指标iX和jX之间相应各分量取同号的个数；n为指标iX和jX之间相应各分量取异号的个数。第页6§3谱系聚类法（系统聚类）谱系聚类法是目前应用较为广泛的一种聚类方法。有关该方法的研究内容相当丰富，而且许多统计软件（如SPSS、STATISTICA、SAS）中都有专门的程序。谱系聚类法是根据古老的植物分类学的思想对研究对象进行分类的一种方法。我们知道，在植物分类学中，分类的单位：门、纲、目、科、属、种，其中种是分类的基本单位。分类单位越小它所包含的植物种类就越少，植物间的共同特征就越多。利用这种分类思想，谱系聚类法首先视各样品（或变量）自成一类，然后把最相似的样品（或变量）聚为小类，再将已聚合的小类按其相似性再聚合，随着相似性的减弱，最后将一切子类都聚合到一个大类，从而得到一个按相似性大小聚结起来的一个谱系关系。在谱系聚类法的合并过程中要涉及到两个类之间的距离（或相似系数）问题。类与类之间的距离有许多定义方式，不同的定义方式就产生了不同的谱系聚类法。本节中，我们首先引进八种类与类之间的距离，然后再详细介绍谱系聚类法。一、类与类之间的距离我们先就样品聚类的情形予以讨论，并为简单起见，以i,j等分别表示样品,ijxx，以ijd简记样品i与j之间的距离,ijdxx，用pG和qG表示两个类，它们所包含的样品个数分别记为pn和qn，类pG与qG之间的距离用,pqDGG表示。下面给出八种最常用的类与类之间距离的定义。1．最短距离法（1）定义类pG与qG之间的距离为两类中所有样品之间距离最小者minmin|,ipjqpqijijipjqxGxGDddxGxG最短距离法就是以pqD为准则进行聚类的方法。NOTE：类与类之间的最短距离有如下的递推公式，设rG为由pG与qG合并所得，则rG与其它类(,)kGkpq的最短距离为(,)min|,minmin|,,min|,rkrkijirjkijipjkijiqjkDGGDdxGxGdxGxGdxGxGmin(,),(,)pkqkDGGDGG（2）基本步骤STEP01：定义样品之间的距离，计算样品两两之间的