3-2聚类分析ClusterAnalysis什么是聚类分析聚类分析是根据“物以类聚”的道理,对样品(观测量)或指标(变量)进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的:使类内对象的同质性最大化和类间对象的异质性最大化。原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。聚类分析的应用:无处不在早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?◦按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类◦这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)为什么这样分类?(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!如:对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?聚类分析的类型有:对样本分类,称为Q型聚类分析对变量分类,称为R型聚类分析Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。聚类分析的方法:系统聚类(层次聚类)非系统聚类(非层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等以系统聚类法为例样本或变量的相似性程度的数量指标:距离它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;样本分类(Q型聚类)常以距离刻画相似性指标分类(R型聚类)常以相似系数刻画相似性常用距离◦明考夫斯基距离(Minkowskidistance)◦明氏距离有三种特殊形式:绝对距离(Block距离):当q=1时11(||)pqqijikjkkdxx11pijikjkkdxx常用距离◦明氏距离有三种特殊形式:欧氏距离(Euclideandistance):当q=2时切比雪夫距离:当q=∞时12212()pijikjkkdxx1maxijikjkkpdxx明考夫斯基距离主要有以下两个缺点:◦明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。◦明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:其中为第j个变量的样本均值;为第j个变量的样本方差。*1,2,,1,2,,ijjijjjxxxinjps11njijixxn211()1njjijjisxxn二、相似系数相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。变量xi与xj的相似系数用cij表示,满足以下三个条件1,,(0)ijijcxaxbab当且仅当和是常数;1,ijcij对一切,;,ijjiccij对一切,。相似系数的表示方法夹角余弦:-1≤cosɑ≤1相关系数:-1≤rij≤1变量间的距离:利用相似系数来定义距离利用样本协差阵来定义距离把变量Xi的n次观测值看成n维空间的点,在n维空间中定义m个变量间的距离。相关系数设和是第i和j个样品的观测值,则二者之间的相似测度为:12,,...,iiiipxxxx12,,...,jjjjpxxxx12211()()[()][()]pikijkjkijppikijkjkkxxxxrxxxx相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令这里dij为第i个样品与第j个样品的距离,显然cij满足定义相似系数的三个条件,故可作为相似系数.11ijijcd系统聚类法是聚类分析诸方法中用得最多的一种。基本思想:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。常用的系统聚类方法:最短距离法最长举例法中间举例法重心法1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵3.构造个类,每类只含有一个样本;4.合并符合类间距离定义要求的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。ijdD例:为了研究辽宁等5省1991年城镇居民生活消费的分布规律,根据调查资料做类型分类,用最短距离做类间分类。资料如下:省份x1x2x3x4x5x6x7x8辽宁7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81将每一个省区视为一个样本:G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}采用欧氏距离:d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21根据5个省区之间的欧式距离,用D0表示距离矩阵(对称阵,故给出下三角阵)因此将3.4合并为一类,为类6,替代了3、4两类类6与剩余的1、2、5之间的距离分别为:d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21021.251.354.2380.12020.206.2412.13063.2480.13067.11054321543210青海甘肃河南浙江辽宁D得到新矩阵合并类6和类5,得到新类7类7与剩余的1、2之间的距离分别为:d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54054.2380.1221.25067.1106.242012.1310652161GGGGGGGGD得到新矩阵合并类1和类2,得到新类8此时,我们有两个不同的类:类7和类8。它们的最近距离d(7,8)=min(d71,d72)=min(12.80,23.54)=12.80067.1154.232080.121072172GGGGGGD得到矩阵最后合并为一个大类。这就是按最短距离定义类间距离的系统聚类方法。最长距离法类似!080.12807873GGGGD河南3甘肃4青海5辽宁1浙江2上述聚类过程可以画出一种树形图(谱系图,dendrogram):