地质与环境学院CollegeofGeology&Environment俗话说:“物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的分类研究问题。分类是自然科学重要研究内容之一第五章聚类分析第一节概述第二节数据的规格化处理第三节相似性度量第四节系统聚类法第五节应用实例地质与环境学院CollegeofGeology&Environment合理的科学的分类,能够反映某类事物的最基本的特征以及同别类事物的区别,推动学科的发展和科学研究。第一节概述在地学领域:岩石、矿物、构造、地层、古生物等在环境领域:环境质量在经济领域:股市聚类分析:是一种分类技术,它是根据“物以类聚”的道理,对事物(样品或指标)进行分类的一种多元统计方法,又称“群分析、点群分析、簇群分析”。一、聚类分析的含义根据事物本身的特征分类,即,将事物性质相近的归为一类,将事物性质的差异较大的归在不同的类。所谓“类”,通俗地说就是相似元素的集合。分类,是将一个观测对象指定到某一类(组)。聚类分析特点:将事物性质相近的归为一类,将事物性质的差异较大的归在不同的类。当有一个分类指标时,分类比较容易。当有多个分类指标时,要进行分类就不是很容易了。由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,这样会忽视相对重要程度的问题。聚类分析的含义聚类分析方法的产生传统的分类方法起源很早,在古老的分类学中,人们主要靠经验和专业知识进行定性的分析,许多分类往往带有主观性和任意性,不能揭示客观事物的内在本质差别和联系。聚类分析方法的产生随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切的进行分类,特别是对于多因素、多指标的分类问题。数学工具引用到分类学中,形成数值分类学,后来又将多元分析的技术引入到数值分类学,逐步形成聚类分析这一数值分类方法。聚类分析方法的分类根据分类对象Q型:研究样品之间的关系,把不同的物体归类分群R型:研究同一物种不同变量之间的关系根据维数:1、2、多根据聚类的方法:系统聚类、分解法系统聚类法:最短距离法(近邻连接法)、最长距离法(远邻连接法)类平均法、重心法、离差平方和增量法二、聚类分析的对象类型R型聚类以分类对象为标准,可以将变量(指标)分类——R型聚类分析。如城镇居民消费水平通常用八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类等。在生产活动中不乏有变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。R型聚类是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究。因此需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。Q型聚类Q型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种。Q型、R型这两种聚类在数学上是对称的,没有什么不同。主要讨论Q型聚类分析问题。三、聚类分析的基本思想我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是:(1)根据一批样品的多个观测指标,具体找出一些能够度量样品或变量(指标)之间相似程度的统计量;与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,与回归分析、判别分析一起被称为多元分析的三大方法。(2)以这些统计量为分类的依据,建立一种分类方法,将一批样品或变量(指标),按照它们在性质上的亲疏、相似程度进行分类。第二节数据的规格化处理一、聚类分析的数据格式设有n个样品单位,每个样品测得m项变量(指标),原始资料阵为:nmnnmmijxxxxxxxxxxX212222111211)(第i个样品Xi为矩阵X的第i行所描述,任何两个样品Xk与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;nmnnmmijxxxxxxxxxxX212222111211)(xij(i=1,…n;j=1,…m)为第i个样品的第j个指标的观测数据。任何两个变量xk与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。nmnnmmijxxxxxxxxxxX212222111211)(xij(i=1,…n;j=1,…m)为第i个样品的第j个指标的观测数据。为了将样本进行分类,就需要研究样品之间的关系;为了将变量进行分类,就需要研究变量之间的关系。无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。二、变量测量尺度的类型通常,变量按照测量的尺度不同,可以分为三类:二、变量测量尺度的类型间隔尺度(定距尺度、定量变量):变量用连续的量表示,由测量、计数或统计所得到的量。如,长度、重量、经济统计数字、抽样调查数据等;间隔尺度、有序尺度、名义尺度有序尺度(定序变量、定性变量):用该变量度量时没有明确的数量表示,只有次序(等级)关系。如,产品质量,分为一等品、二等品等。名义尺度(定类变量、定性变量):具有该种特性的变量在度量时既没有数量表示,也没有次序关系,而只有性质上的差异(用一些类表示)。如,性别、职业等。不同类型的变量,在定义距离和相似系数时,其方法有很大差异。在实际应用中,研究比较多的是间隔尺度,本章主要讨论具有间隔尺度变量的样品聚类分析方法。数据的规格化处理为了使不同量纲、不同取值范围的数据能放在一起进行比较,通常需要对数据进行规格化处理,即将原始数据矩阵中的每个元素,按照某种特定的运算,把它变为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。第二节数据的规格化处理nmnnmmijxxxxxxxxxxX212222111211)(nijijniijijjjijijxxnxnxsxxz121)(1111、数据标准化nmnnmmijzzzzzzzzzzZ212222111211)(第二节数据的规格化处理常用的变换方法nijijjxxnS12)(11nmnnmmijxxxxxxxxxxX212222111211)(jjjijijxxxxzminmaxmin2、数据正规化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(niijijjijijxnxxxz113、中心化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)()log(ijijxz4、对数化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(jxzxniijijmax15、极大值规格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(jijijxxz6、均值规格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(nijijijjijijxxnxSxz12)(117、标准差规格化nmnnmmijzzzzzzzzzzZ212222111211)(第三节相似性度量聚类分析用于系统类群相似性的研究的实质,寻找一种能客观反映事物(样品或变量)之间亲疏(相近或相似)关系的统计量,根据这种统计量把事物(样品或变量)分成若干类。相似性度量:能够度量变量(或样品)之间相似性程度的数量指标。常用的有相似系数、相关系数、欧氏距离、斜交距离、离差(误差)平方和增量等。描述样品(或变量)间相近(亲疏)、相似程度的统计量很多,目前用得最多的聚类统计量是距离和相似系数,距离系数一般用于对样品分类,相似系数一般用于对变量聚类。距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,用距离来度量样品之间接近的程度,即两个样品间接近程度用p维空间中两点的距离来度量。距离在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。样品间相近性(亲疏程度)的测度首先我们看样本数据:距离个样品之间的距离个样品与第表示第设:jijidnmnnmmijxxxxxxxxxxX212222111211)(距离1、定义距离的准则定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件);0成立和对一切的jidij;0成立当且仅当jidij;成立和对一切的jiddjiij.成立和对于一切的jidddkjikij(样品i和样品j的各指标相同)(对称性)(三角不等式)2、常用距离的算法通常我们定义的距离一般是指欧氏距离(直线距离),几何平面上的点P(x1,x2)到原点o(0,0)的欧氏距离,依勾股定理xxpod2221),(距离Rp中两点X(x1,x2,…,xp)和Y(y1,y2,…,yp)之间的欧氏距离为:)()()()(,(2112)yxyxyxyxDpp2、常用距离的算法距离常用距离——明氏距离(Minkowski距离):11()qpqijikjkkdqxx(通用的距离测度公式)2、常用距离的算法距离2、常用距离的算法距离1(1)pijikjkkdxx1221(2)pijikjkkdxx(最直观的距离)当q=2时:欧氏距离(Euclidean)当q=1时:绝对值距离1()maxijikjkkpdxx当q=∞时:切比雪夫距离(Chebychev)①当量纲不一致时,往往突出数量级高的变量的作用,压低数量级低的变量作用→结果与实际有较大偏差②维数m增加使Dik变大,其变化无规律可循解决:①原始数据预处理②修正公式欧氏距离系数Dik大小受变量观测值量纲影响和变量个数(维数)的影响。量纲→原始数据预处理统一量纲变换:成为无量纲的、具有统一尺度的数据,使每个变量在同一水平上显示各自的作用。维数→修正公式消除维数影响,并将欧氏距离系数的变化范围限制在(0,1)之间。当两点距离越小↓,dik越大↑,两样品相似性愈大↑;反之,距离↑,dik↓,相似性↓变量样品,mjnkixxmdmjkjijik,,2,1,,2,1,1112例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。当长度为cm时:CDAB22CD22ABdd1250)(105)(0d1010)(110)(0d当长度为mm时:CDAB22CD22ABdd26000)(1050)(0d100010)(1100