2020年1月24日星期五9时38分40秒1系统聚类分析直观,易懂,速度慢;快速聚类快速,动态;有序聚类*保序;第二章聚类分析2020年1月24日星期五9时38分40秒2要点如何刻画样本点间的距离;如何刻画样本点和类之间的距离;如何刻画类和类间的距离;几种系统聚类的名称是以什么为依据定义的;系统聚类如何实现;快速聚类的思想和技术;有序聚类的思想和技术。2020年1月24日星期五9时38分40秒3例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1引言2020年1月24日星期五9时38分40秒42020年1月24日星期五9时38分40秒52020年1月24日星期五9时38分40秒6我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?2020年1月24日星期五9时38分40秒7聚类分析是根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为另一类的统计分析方法。例如对上市公司的经营业绩进行分类;根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。当对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。2020年1月24日星期五9时38分40秒8一、变量测量尺度的类型通常,变量按照测量它们的尺度不同,可以分为三类。(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。测量得到的数量是连续数量。2.2距离和相似系数2020年1月24日星期五9时38分40秒9(2)顺序尺度指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。2020年1月24日星期五9时38分40秒10(3)名义尺度指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。2020年1月24日星期五9时38分40秒11二、数据的变换处理所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值。2020年1月24日星期五9时38分40秒12中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。设原始观测数据矩阵为:npnnppxxxxxxxxx212222111211X1、中心化变换2020年1月24日星期五9时38分40秒13jijijxxx*),,3,2,1;,,3,2,1(pjni中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n—1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n—1)倍,所以这是一种标准化方法能很方便地计算方差与协方差的变换。2020年1月24日星期五9时38分40秒14规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:2、极差规格化变换2020年1月24日星期五9时38分40秒15jniijijijRxxx,,2,1*)min(),,3,2,1;,,3,2,1(pjniniijijnijxxR,,2,1,,2,1)min()(max10*ijx经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。2020年1月24日星期五9时38分40秒16标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:jjijijSxxx*),,3,2,1;,,3,2,1(pjni211()1njijjiSxxn3、标准化变换2020年1月24日星期五9时38分40秒17经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据矩阵中任何两列数据乘积之和是两个变量相关系数,所以这是一种很方便地计算相关矩阵的变换。2020年1月24日星期五9时38分40秒18三、样品间亲疏程度的测度研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。2020年1月24日星期五9时38分40秒19变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。2020年1月24日星期五9时38分40秒20一、定义距离的准则定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件);0成立和对一切的jidij;0成立当且仅当jidij;ijjiddij一切的和成立.成立和对于一切的jidddkjikij2020年1月24日星期五9时38分40秒21二、常用距离的算法设和是第i和j个样品的观测值,则二者之间的距离为:gpkgjkikijxxd11)||(pkjkikijxxd12)(ipiixxx,,,21ix),,,(21jpjjxxxjx明氏距离特别,欧氏距离(1)明氏距离测度2020年1月24日星期五9时38分40秒22明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关;②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合;2020年1月24日星期五9时38分40秒23(2)杰氏距离这是杰斐瑞和马突斯塔(Jffreys&Matusita)所定义的一种距离,其计算公式为:2112)()(pkjkikijxxJd2020年1月24日星期五9时38分40秒24(3)兰氏距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:pkjkikjkikijxxxxpLd11)(这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。2020年1月24日星期五9时38分40秒25(4)马氏距离这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为:)()(2ji1jixxxxijd分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。2020年1月24日星期五9时38分40秒2619.09.01,002N19.09.0119.011两点。和设)1,1()1,1(BA05.1)(MdA20)(MdB2)(UdA2)(UdB例如,假设有一个二维正态总体,它的分布为:2020年1月24日星期五9时38分40秒27(5)斜交空间距离由于各变量之间往往存在着不同的相关关系,用正交空间的距离来计算样本间的距离易变形,所以可以采用斜交空间距离。122111()()ppijihjhikjkhkhkdxxxxrp当各变量之间不相关时,斜交空间退化为欧氏距离。2020年1月24日星期五9时38分40秒28三、相似系数的算法设和是第和个样品的观测值,则二者之间的相似测度为:12,,,iinixxxix12(,,,)jjnjxxxjxij12211()()[()][()]nkiikjjkijnnkiikjjkkxxxxxxxx其中(1)相似系数2020年1月24日星期五9时38分40秒29(2)夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量niiiixxx,,,21xnjjjjxxx,,,21xnknkkjkinkkjkiijijxxxxc11221cos221ijijCd2020年1月24日星期五9时38分40秒30注:定性变量的相似系数一、交叉列联表通常用来对类别变量进行整理之后得到的一张二维表。交叉列联表可以用来进行行变量和列变量之间的独立性进行检验;可以通过计算相对数对数据的特征进行深层次的挖掘;可以进行对应分析,了解行变量和列变量的各个水平之间的关系。交叉列联表对于问卷调查的数据分析十分有用。2020年1月24日星期五9时38分40秒311.分类数据定类和定序数据都是定性数据,或称分类数据。分类数据表现为类别。例如:性别(男,女),各类别也可用符号或数字代码来表示。例如:1.男;2.女。饮料口感的好坏的等级。客户的信用等级。对定类或定序数据的描述和分析通常使用列联表,并采用2卡方检验。2020年1月24日星期五9时38分40秒322.列联表(contingencytable)的构造1)由两个或两个以上变量进行交叉分类的频数分布表。2)行变量的类别数用r表示,列变量的类别数用c表示。3)由行变量和列变量的所有可能组合的频数构成的表格,称为列联表。4)一个r行c列的列联表称为r×c列联表。2020年1月24日星期五9时38分40秒332×2列联表列行12合计12合计11211fff12222fff11211fff12222fff表示i行j列的观察频数,行合计1,1,2,,;ciijjffir1,1,2,,rjijiffjcijf列合计..11rcijijff.而样本容量11f12f21f22f..f2020年1月24日星期五9时38分40秒34列行12…c合计1…2…………………r…合计r×c列联表12cfff1f2frf..f12f11f1cf21fr1fr2f22fr2frcf2020年1月24日星期五9时38分40秒35起名为“波澜”恰当吗中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的名字,为此专门委托了当地的策划咨询公司,取了一个名字“波澜”。一个好的名字至少应该满足两个条件:1)会使消费者联想到正确的