主要内容绪论统计量、统计分布与统计比较回归与最小二乘分析比较试验设计与分析回归试验设计与分析动态试验指标的统计推断综合试验指标的统计推断ClusterAnalysis聚类分析(第1部分)一、简介聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。1.聚类的目的根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。2.聚类分析的应用例子同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎)根据疾病的若干临床表现,将病人分成轻、中、重三型在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类3.聚类的种类根据分类的原理可将聚类分析分为:•系统聚类与快速聚类根据分类的对象可将聚类分析分为:•系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)4.聚类分析数据格式k5.判别分析数据格式6.聚类分析与判别分析间的联系先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification)二、图示法聚类分析1.散点图(Scatterdiagrams)2.轮廓图(Profilediagram)三、距离与相似系数(一)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij1.欧式(Euclidian)距离1.1二维空间欧式距离1.2欧式距离的平方2.明氏(Minkowski)距离SPSS称为BLOCK实例计算品绝对值距离品Euclidian距离的平方Euclidian距离变量标准化作用:消除量纲的影响3.Mahalanobis距离Mahalanobis距离优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲缺点:样品协方差矩阵不变不合理。Mahalanobis距离实例4.Lance和Williams距离5.斜交空间距离21112))((1pkplklljlikjkirXXXXp可考虑变量间相关性问题6.配合距离适用于分类变量,尤其是名义尺度变量52322),,,,(),,,,(2121221==配合数不配合数配合数mmmdKFSMVXKTSQVX(二)相似系数研究样品间的关系常用距离,研究指标间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数1.夹角余弦(Cosine)2.Pearson相关系数四、系统聚类法(hierarchicalclusteringmethod)将n个样品各作为一类系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:计算n个样品两两之间的距离,构成距离矩阵合并距离最近的两类为一新类计算新类与当前各类的距离。再合并、计算,直至只有一类为止画聚类图,解释类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)类与类之间的距离8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)等。(一)最短距离法(singlelinkage,nearestneighbor)B2A2**B1A1**B3*样品间:欧氏距离类类间:两类间两两样品距离最短。即图中样品A2和B1之间的距离),min(LJKJMJDDD6个民族的粗死亡率与期望寿命待续!(二)最长距离法(completelinkage,furthestneighbor)B2A2**B1A1**B3*样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离),max(LJKJMJDDD(三)中间距离法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM2222412121KLLJKJMJDDDD(四)中间距离法的变形——可变法222221KLLJKJMJDDDD之间的数~通常情况下取-01,1(五)类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslinkageKLJM为各类中所含样品数为欧氏距离的平方其中.2..222nDDnnDnnDLJMLKJMKMJ(六)可变类平均法(flexible-betamethod)类平均法的变型KLJM25.0;1)1(2222软件预置为SASDDnnDnnDKLLJMLKJMKMJ(七)重心法(centroidmethod)B2A2**B1A1**B3*类类间的距离用各自重心间的距离表示)(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中间距离多(八)Ward最小方差法(Ward’minimumvariancemethod)先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。2222KLMJJLJMJLJKJMJKJMJDnnnDnnnnDnnnnD(九)八种系统聚类方法的统一以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:222222LJKJKLLJLKJKMJDDDDDD八种系统聚类法公式的参数系统聚类法的性质单调性中间距离法、重心法不具有单调性空间的浓缩与扩张不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。有关问题几种聚类方法获得的结果不一定相同指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。221ijijrd五、快速聚类法(quickclustermethodk-meansmodel)也叫动态聚类、逐步聚类、迭代聚类)样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,……直至分类达到稳定初始凝聚点initialclusterseeds;clustercenters自动选择必须给出允许分类的最大个数k(SAS中用MAXCLUSTERS=k(或MAXC=k))凭经验选择以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件六、变量聚类法原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。SAS中采用VARCLUS过程。七、小结与判别分析的区别(作用,数据要求?)聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识样品量大可采用快速聚类方法变量的形式?距离与相似系数?系统聚类常用方法?存在的问题分类数的确定专业知识聚类方法的选择试用多种方法,系统聚类与快速聚类相结合(一)SPSS聚类分析八、软件计算与实例分析1.系统聚类指定参与聚类的变量名和样品号Statistics聚类进度表相似矩阵样品或变量的分类情况Plot树状结构图冰柱图冰柱的方向Method聚类方法标准化变换亲疏关系指标Method将分类结果存入数据文件中2.快速聚类选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等(二)SAS聚类分析样品聚类:PROCCLUSTERpseudoRSQUARESTDMETHOD=(AVE,AVERAGE,CEN,CENTROID,COM,COMPLETE,DEN,DENSITY,EML,FLE,FLEXIBLE,MCQ,MCQUITTY,MED,MEDIAN,SIN,SINGLE,TWO,TWOSTAGE,WAR,WARD);IDnational;PROCTREEHORIZONTAL;IDnational;变量聚类:PROCVARCLUSCORRCENTROIDHIERARCHYMAXC=4;快速聚类:PROCFASTCLUSMAXC=4MAXITER=100;IDnational;资料预处理:PROCACECLUS;(ACECLUS(ApproximateCovarianceEstimationforCLUStering))如果要采用非欧式距离,SAS中可用宏程序(%distance)计算。或变换。数据为距离矩阵形式时,应在Data语句中说明,如“DATAa(TYPE=DISTANCE);”(见p202)221ijijrd