聚类分析流行病学与卫生统计学教研室分类学是人类认识世界的基础科学。聚类分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。聚类分析聚类分析概述聚类分析的统计量聚类分析常用的方法一、聚类分析概述聚类分析的目的:将相似的事物归类类:相似事物的集合聚类分析两种类型:样品聚类-Q型聚类变量聚类-R型聚类一、聚类分析概述聚类分析的基本思想寻找一种能够客观反映和评价事物间相似程度的统计量,然后根据这种统计量和规定的分类准则对事物进行分类二、聚类分析的统计量描述样品间的相似程度----距离描述指标间的相似程度----相似系数设有n个样品,每个样品有P个变量,原始资料如下:距离研究样品间的关系常用距离常用的距离绝对值距离欧式距离切比雪夫距离明式距离马氏距离绝对值距离欧式距离明式距离马氏距离例9.16个不同民族的标化死亡率与出生时的期望寿命数据。根据此计算描述样品间相近程度的距离(绝对值距离、欧氏距离)相似系数研究指标间的关系常用相似系数相关系数Pearson相关系数Spearman秩相关系数Pearson列联系数相似系数越大,指标间的相似程度越高三、常用的聚类方法系统/层次聚类(hierarchicalcluster)动态/逐步/快速聚类(K-meanscluster)1.系统聚类基本步骤:(1)构造n个类,每个类仅包含一个样品(2)计算n个样品两两间的距离(3)合并距离最近的两类为一新类(4)计算新类与当前各类的距离,若类的个数为1,转到第5步,否则转回第3步(5)画聚类图(6)决定类的个数,及各类包含的样品数类与类之间的距离最短距离:两类中最邻近的两个样品间的距离(过小的估计了类间距离)最长距离:两类中最远两个样品的距离(夸大了类间距离)中间距离重心法:各类重心就是类内各指标的均数向量,重心法的距离就是两个重心的距离。类平均法:类与类之间的距离平方为两类中各样品间距离平方的均值(系统聚类中较好的方法之一)例:使用最短距离法对例9.1进行聚类分析步骤如下:各民族之间的欧氏距离(标准化资料)满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110(最短距离法)D0D1满族朝鲜族蒙古族维吾尔族藏哈族G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}满G1={S1}0朝鲜G2={S2}1.2080蒙古G3={S3}1.7320.5260维吾尔G4={S4}3.5702.3741.8510藏哈G7={S5,S6}3.1731.9731.4480.4060D2满族朝鲜族蒙古族藏哈维族G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}满G1={S1}0朝鲜G2={S2}1.2080蒙古G3={S3}1.7320.5260藏哈维G8={S4,S5,S6}3.1731.9731.4480D3满族朝鲜蒙古族藏哈维族G1={S1}G9={S2,S3}G8={S4,S5,S6}满族G1={S1}0朝蒙G9={S2,S3}1.2080藏哈维G8={S4,S5,S6}3.1731.4480D4朝鲜蒙古满族藏哈维族G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480例9.1资料的谱系聚类图(最短距离法)藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4060.5261.2021.448例:使用最长距离法对例9.1进行聚类分析步骤如下:各民族之间的欧氏距离(标准化资料)D1满族朝鲜族蒙古族维吾尔族藏哈族G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}满G1={S1}0朝鲜G2={S2}1.2080蒙古G3={S3}1.7320.5260维吾尔G4={S4}3.5702.3741.8510藏哈G7={S5,S6}3.2242.0481.5390.4220D2满族朝鲜族蒙古族藏哈维族G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}满G1={S1}0朝鲜G2={S2}1.2080蒙古G3={S3}1.7320.5260藏哈维G8={S4,S5,S6}3.5702.3741.8510D3满族朝鲜蒙古族藏哈维族G1={S1}G9={S2,S3}G8={S4,S5,S6}满族G1={S1}0朝蒙G9={S2,S3}1.7320藏哈维G8={S4,S5,S6}3.5702.3740D4朝鲜蒙古满族藏哈维族G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}3.5700分类数的判定•根据专业需要,事先指定分类数•考察各分类样品的归属,利用专业知识判断其中较合理的分类情形。SPSS统计软件实现系统聚类分析指标的系统聚类上体长手臂长胸围颈围总肩宽前胸宽后背宽前腰节高后腰节高总体高身高下体长腰围臀围上体长1.000手臂长0.3701.000胸围0.2420.2351.000颈围0.2800.1960.5901.000总肩宽0.3600.3270.4760.4351.000前胸宽0.2810.2650.4830.4700.4521.000后背宽0.2450.2670.5400.4780.5340.6631.000前腰节高0.4480.3490.4520.4040.4310.3220.2661.000后腰节高0.4860.3710.3650.3570.4290.2830.2870.8201.000总体高0.6480.6680.2160.3160.4290.2830.2630.5270.5471.000身高0.6790.6880.2430.3130.4300.3020.2940.5200.5580.9571.000下体长0.4860.6420.1740.2430.3750.2900.2550.4030.4170.8570.8521.000腰围0.1330.1540.7320.4770.3390.3920.4460.2660.2410.0540.0990.0551.000臀围0.3760.2540.6760.5810.4410.4470.4400.4240.3720.3630.3760.3210.6271.000指标的系统聚类3454名成年女子14个部位的谱系聚类图(类平均法)上体长y1手臂长y2下体长y12总体高y10身高y11前腰节高y8后腰节高y9胸围y3腰围y13臀围y14颈围y4前胸宽y6后背宽y7总肩宽y5距离00.10.20.30.40.50.60.7相关系数10.90.80.70.60.50.40.31.系统/层次聚类:指标聚类2.动态聚类动态聚类(逐步聚类或快速聚类或K中心聚类)当样品数量较多时,采用快速聚类基本原理:先按某种原则选出一些凝聚点(clusterseeds),把每个凝聚点作为今后聚类的核心。接着把其余的样品按就近原则向凝聚点凝聚(即归在同一类),这样就得到一个初始分类方案。然后对此方案进行修改,直到分类比较合理,不必再继续修改为止。为了得到初始分类,必须选择一些凝聚点,让样品按某种原则想凝聚点凝聚。凝聚点是一些有代表性的点,以它们为基础进行初始分类。常用方法:◦经验选择◦人为分组◦密度法(较客观)密度法人为选定两个正数d1,d2(d2d1)。以每个样品为中心,d1为半径想象一个圆,落入样品数即为该样品密度密度最大的样品作为第一凝聚点考察密度次大的样品,若其与第一凝聚点距离d2,即为第二凝聚点再考察下一个密度次大的凝聚点,若其与第一、第二凝聚点距离均d2,即为第三凝聚点。一直进行下去,考察完所有样品例9.3对下列12个样品用逐步聚类法进行聚类第Ⅰ类为S1,S5,S6,S12,重心为(6,6.25,8.25)第Ⅱ类为S2,S7,S10,重心为(7.33,2,4.33)第Ⅲ类为S3,S11,重心为(3.5,3.5,13.5)第Ⅳ为S8,S9,重心为(19.5,7.5,10.5)第一轮修改后,第Ⅰ类为S1,S5,S6,S12,重心为(6,6.25,8.25)第Ⅱ类为S2,S4,S7,S10,重心为(7,2.75,3.75)第Ⅲ类为S3,S11,重心为(3.5,3.5,13.5)第Ⅳ为S8,S9,重心为(19.5,7.5,10.5)第二轮修改结果与第一轮相同,结束。小结聚类分析的目的聚类分析的统计量聚类分析的方法系统聚类快速聚类