第7章 聚类分析0

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析多元统计分析©谢中华,天津科技大学数学系.2020/2/12§1聚类分析原理介绍•什么是自然分组结构Naturalgrouping?•我们看看以下的例子:•有16张牌•如何将他们分为一组一组的牌呢?AKQJ多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍•分成四组•每组里花色相同•组与组之间花色相异AKQJ花色相同的牌为一副Individualsuits多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍•分成四组•符号相同的牌为一组AKQJ符号相同的的牌Likefacecards多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍•分成两组•颜色相同的牌为一组AKQJ颜色相同的配对Blackandredsuits多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍•分成两组•大小程度相近的牌分到一组AKQJ大配对和小配对Majorandminorsuits多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍•这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar•因此衍生出一系列度量相似性的算法AKQJ大配对和小配对Majorandminorsuits多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析的基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?聚类分析原理介绍多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍变量按测量尺度(MeasurementLevel)分类•间隔(Interval)尺度变量–连续变量,如长度、重量、速度、温度等•有序(Ordinal)尺度变量–等级变量,不可加,但可比,如一等、二等、三等奖学金•名义(Nominal)尺度变量–类别变量,不可加也不可比,如性别、职业等多元统计分析©谢中华,天津科技大学数学系.2020/2/12聚类分析原理介绍相似性Similar的度量(统计学角度)•距离Q型聚类(主要讨论)–主要用于对样本分类–常用的距离有(只适用于具有间隔尺度变量的聚类):•明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)•兰氏距离•马氏距离•斜交空间距离•相似系数R型聚类–用于对变量分类,可以用变量之间的相似系数cij的变形如dij2=1-cij2定义距离多元统计分析©谢中华,天津科技大学数学系.2020/2/12一、变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。§2距离和相似系数多元统计分析©谢中华,天津科技大学数学系.2020/2/12(2)有序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。多元统计分析©谢中华,天津科技大学数学系.2020/2/12二、数据的变换处理所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。1、中心化变换中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。设原始观测数据矩阵为:npnnppxxxxxxxxx212222111211X多元统计分析©谢中华,天津科技大学数学系.2020/2/12jijijxxx*),,3,2,1;,,3,2,1(pjni中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n—1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n—1)倍,所以这是一种很方便地计算方差与协方差的变换。),,3,2,1(11pjxnxniijj多元统计分析©谢中华,天津科技大学数学系.2020/2/122、极差规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:jniijijijRxxx,,2,1*)min(),,3,2,1;,,3,2,1(pjniniijijnijxxR,,2,1,,2,1)min()(max10*ijx多元统计分析©谢中华,天津科技大学数学系.2020/2/12经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。3、标准化变换标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:*ijjijjjxxxs),,3,2,1;,,3,2,1(pjni211()1njjijjisxxn多元统计分析©谢中华,天津科技大学数学系.2020/2/12经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据短阵中任何两列数据乘积之和是两个变量相关系数的(n-1)倍,所以这是一种很方便地计算相关矩阵的变换。4.对数变换对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:)log(*ijijxx多元统计分析©谢中华,天津科技大学数学系.2020/2/12三、样品间亲疏程度的测度研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。多元统计分析©谢中华,天津科技大学数学系.2020/2/12变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。多元统计分析©谢中华,天津科技大学数学系.2020/2/121.常用距离设和是第i和j个样品的观测值,则二者之间的明氏距离为:1(1)||pijikjkkdxx11()(||)pqqijikjkkdqxx21(2)()pijikjkkdxxipiixxx,,,21ix),,,(21jpjjxxxjx特别地,绝对值距离:(1)明氏距离(Minkowskidistance)欧氏距离:切比雪夫距离:jkikpkijxxd1max)(多元统计分析©谢中华,天津科技大学数学系.2020/2/12•明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。多元统计分析©谢中华,天津科技大学数学系.2020/2/12(2)兰氏距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:pkjkikjkikijxxxxLd1克服量纲的影响未考虑指标间相关性的影响0;1,2,,;1,2,,ijxinjp适用于变量之间互不相关的情形这是一个自身标准化的量多元统计分析©谢中华,天津科技大学数学系.2020/2/12(3)马氏距离这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为:克服量纲的影响克服指标间相关性的影响2()()()ijdM1ijijxxxx1/2()[()()]ijdM1ijijxxxx缺点:协方差矩阵难以确定多元统计分析©谢中华,天津科技大学数学系.2020/2/12马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度。多元统计分析©谢中华,天津科技大学数学系.2020/2/12(4)斜交空间距离由于各变量之间往往存在着不同的相关关系,用正交空间的距离来计算样本间的距离易变形,所以可以采用斜交空间距离。21112))((1phpkhkjkikjhihijxxxxpd当各变量之间不相关时,斜交空间退化为欧氏距离。多元统计分析©谢中华,天津科技大学数学系.2020/2/122、相似系数相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。变量与的相似系数用表示,满足以下三个条件:ixjxijc1,,(0)ijijcxaxbab当且仅当和是常数;1,ijc对一切i,j;,ijjicc对一切i,j。多元统计分析©谢中华,天津科技大学数学系.2020/2/12(1)相关系数设和是第和个变量的观测值,则二者之间的相关系数为:12,,,iinixxxix12(,,,)jjnjxxxjxij12211()()[()][()]nkiikjjkijnnkiikjjkkxxxxrxxxx多元统计分析©谢中华,天津科技大学数学系.2020/2/12(2)夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量niiiixxx,,,21xnjjjjxxx,,,21xnknkkjkinkkjkiijijxxxxc11221cos221ijijCd多元统计分析©谢中华,天津科技大学数学系.2020/2/121x2x3x4x5x6x名义变量的相似性度量:简单匹配系数(simplematching)=不配合的变量个数/(配合与不配合变量个数和)例:某高校举办一个培训班,从学员的资料中得到6个变量:性别(),取值男和女;外语语种(),取值为英、日、俄;专业(),取值为统计、会计、金融;职业(),取值为教

1 / 79
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功