第12讲聚类分析2

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

聚类分析2ClusterAnalysis分类•俗语说,物以类聚、人以群分。•但什么是分类的根据呢?•比如,要想把中国的省份成若干类,就有很多种分类法;•可以按照地域或自然条件来分,•比如考虑降水、土地、日照、湿度等各方面;•也可以考虑收入、教育水准、医疗条件、基础设施等指标;•既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析做什么?聚类分析•对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。•比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,•当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。聚类分析做什么?第四节Q型系统聚类法•系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。hierarchicalclusteringmethod聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。聚类分析1.聚类的目的使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),2.聚类的种类根据分类的原理可将聚类分析分为:•系统聚类与快速聚类根据分类的对象可将聚类分析分为:•系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)•设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:•Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。npnnppxxxxxxxxxX212222111211聚类分析概述3.聚类分析数据格式k饮料数据(drink.sav)•16种饮料的热量、咖啡因、钠及价格四种变量样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。(一)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dijQ型聚类统计量(距离)•把n个样本点看成p维空间的n个点•1、绝对距离(Block距离)•2、欧氏距离(Euclideandistance)pkjkikijxxd112112)(2pkjkikijxxdQ型聚类统计量(距离)•3、明考斯基距离(Minkowski)•4、兰氏距离•5、马氏距离•6、切比雪夫距离(Chebychev)qpkqjkikijxxd11)(pkjkikjkikijxxxxLd1211jijiijxxSxxMdjkikpkijxxd1max)(Q型聚类统计量(距离)2.明氏(Minkowski)距离实例计算品绝对值距离81775112112pkkkxxd52137113223pkkkxxdEuclidian距离的平方40)17()75()(222122112pkkkxxdEuclidian距离32.6)17()75()(22221122112pkkkxxd变量标准化后的Euclidian距离作用:消除量纲的影响67.2)04.128.1()06.126.0()(22221122112pkkkxxd4.Lance和Williams距离5.斜交空间距离21112))((1pkplklljlikjkirXXXXp可考虑变量间相关性问题6.配合距离适用于分类变量,尤其是名义尺度变量52322),,,,(),,,,(2121221==配合数不配合数配合数mmmdKFSMVXKTSQVX步骤:•1、对数据进行变换处理,消除量纲•2、构造n个类,每个类只包含一个样本计算•3、n个样本两两间的距离{dij}•4、合并距离最近的两类为一新类•5、计算新类与当前各类的距离,重复(4)•6、画聚类图•7、决定类的个数和类第四节Q型系统聚类法类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)类与类之间的距离8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)等。•最小距离法(singlelinkagemethod)–极小异常值在实际中不多出现,避免极大值的影响),min(LJKJMJDDD(一)最短距离法(singlelinkage,nearestneighbor)2A1A2B3B1B两类间两样本距离最短为A2与B1之间的距离•例:如下图所示•1、设全部样本分为6类,•2、作距离矩阵D(0)3G1G2G5G4G6Gxω1ω2ω3ω4ω5ω23ω314ω4748ω55262ω685913(一)最短距离法•3、求最小元素:•4、把ω1,ω3合并ω7=(1,3)•ω4,ω6合并ω8=(4,6)•5、作距离矩阵D(1)16431ddω7ω2ω8ω23ω874ω5522(一)最短距离法*3、求最小元素:*4、把ω8,ω5,ω2合并ω9=(2,5,4,6)5、作距离矩阵D(2)25825dd(一)最短距离法ω7ω93ω7=(1,3)枝状图15234678910最短距离法案例•以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}2112)(pkjkikijxxdd12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.2112345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南与甘肃的距离最近,先将二者(3和4)合为一类G6={G3,G4}d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54712D3=70112.800223.5411.670河南、甘肃与青海并为一新类G7={G6,G5}={G3,G4,G6}G8={G1,G2}最短距离法案例d78=min{d71,d72}=12.8078D4=70812.80河南3甘肃4青海5辽宁1浙江2最短距离法案例案例2.6个民族的粗死亡率与期望寿命待续!(习作1)最短距离法),min(LJKJMJDDD现有5个样品,每个只有一个指标,它们分别是1,2,4.5,6,8.试用最短距离把它们分类.G1={1},G2={2},G3={4.5},G4={6},G5={8}.025.36705.14505.25.3010)0(D(二)最长距离法(completelinkage,furthestneighbor)),max(LJKJMJDDD样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离离来计算。类与类的距离按最长距,所不同的是:距离的两类合并成一类合并也是按照对应最小2A1A2B3B1B最大距离法(completelinkagemethod)可能被极大值扭曲,删除这些值之后再聚类(三)中间距离法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM2222412121KLLJKJMJDDDD(四)中间距离法的变形——可变法222221KLLJKJMJDDDD之间的数~通常情况下取-01,1(五)类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslinkageKLJM为各类中所含样品数为欧氏距离的平方其中.2..222nDDnnDnnDLJMLKJMKMJ类平均法案例(六)可变类平均法(flexible-betamethod)类平均法的变型KLJM25.0;1)1(2222软件预置为SASDDnnDnnDKLLJMLKJMKMJ•类平均距离法(averagelinkagemethod)类间所有样本点的平均距离–该法利用了所有样本的信息,被认为是较好的系统聚类法(六)可变类平均法(flexible-betamethod)(七)重心法(centroidmethod)B2A2**B1A1**B3*类类间的距离用各自重心间的距离表示)(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中间距离多•重心法(centroidhierarchicalmethod)–类的重心之间的距离–对异常值不敏感,结果更稳定(七)重心法(centroidmethod)(八)Ward最小方差法(Ward’minimumvariancemethod)先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。2222KLMJJLJMJLJKJMJKJMJDnnnDnnnnDnnnnD离差平方和法(wardmethod)–D2=WM-WK-

1 / 140
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功