《模式识别》第二章聚类分析余莉22.1聚类的基本概念似圆度2.1.1聚类分析的基本思想ClusteringAnalysis据相似程度分类无监督分类(Unsupervised)1x2x32.1聚类的基本概念2.1.2特征量的类型物理量:直接反映特征的实际物理意义如:长度、重量、速度等。处理前需要离散化。次序量:按某种规则确定的只反映特征的次序关系或等级如:产品的等级、病症的级或期。已是离散量。名义量:反映样本的状态特征非数值的,如男性与女性、事物的状态、种类等。需要数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。42.1聚类的基本概念2.1.3方法的有效性(1)特征选取不当或不足使分类无效;(2)特征选取过多可能有害无益,且增加分析负担。x1(a)12213x1x2x2(b)52.1聚类的基本概念(3)特征量纲对聚类结果的影响财富(万)510年龄6030财富(十万)年龄603051062.1.4聚类准则对聚类结果的影响羊,狗,猫,鲨鱼蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙(a)繁衍后代的方式金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(b)肺的存在金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(c)生存环境金鱼蜥蜴,蛇,麻雀,海鸥,青蛙(d)繁衍后代的方式和是否存在肺鲨鱼羊,狗,猫,2.1聚类的基本概念2.1.5距离测度对聚类结果的影响2.1聚类的基本概念7数据的粗聚类是两类,细聚类为4类82.2模式相似性测度2.2.1距离测度2.2.2相似测度2.2.3匹配测度92.2.1距离测度(差值测度)Distance(orDissimilarity)Measure设特征矢量和的距离为则一般应满足如下公理x(,)0,(,)=0dxyxydxyxy当且仅当时等号成立,即y(,)dxy(,)dxy(,)=(,)dxydyx(,)(,)(,)dxydxzdzy(1)(2)(3)(triangularinequality)10(一)距离测度(差值测度)⑴欧氏(Euclidean)距离1212(,,,)'(,,,)'nnxxxxyyyy设,21/21(,)[()]niiidxyxyxy⑵绝对值距离(街坊距离或Manhattan距离)1(,)||niiidxyxy(3)切氏(Chebyshev)距离(,)max||iiidxyxy11(一)距离测度(差值测度)(4)明氏(Minkowski)距离1/1(,)[()]nmmiiidxyxy(5)Cambera距离(Lance距离、Willims距离)1||(,)(,0,0)||niiiiiiiiixydxyxyxyxy该距离能克服量纲的影响,但不能克服分量间的相关性。12(一)距离测度(差值测度)(6)马氏(Mahalanobis)距离21(,)()'()ijijijdxxxxVxx11()()'1miiiVxxxxm11miixxm其中(协方差矩阵的无偏估计)(均值向量的估计)性质:对一切非奇异线性变换都是不变的。即,具有坐标系比例、旋转、平移不变性,并且从统计意义上尽量去掉了分量间的相关性。13马氏距离具有线性变换不变性证明:设,有非奇异线性变换:则yAx111111nnniiiiiiyyAxAxAxmmm11111()()'11()()'11()()''11[()()']''1myiiimiiimiiimiixiVyyyymAxAxAxAxmAxxxxAmAxxxxAAVAm14故1111121112()'()()'()()''()()''(')()(,)(()'''()())),'(ijyijijyijijyijijxijijxijijxjiiyijxjyyVyyAxAxVAxAxxxAVAxxxxAAVAAxxxxAAVAAxdyydxxxVxxxx111{()}ABBA15马氏距离的一般定义设、是从期望矢量为、协方差矩阵为的母体G中抽取的两个样本,则它们间的马氏距离定义为当和是分别来自两个数据集中的样本时,设C是它们的互协方差阵,则它们间的马氏距离定义为21(,)()'()dxyxyxyxyxy21(,)()'()dxyxyCxy当、V、C为单位矩阵时,马氏距离欧氏距离。对于正态分布,等概率密度点轨迹是到均值矢量的马氏距离为常数的点所构成的超椭球面。16例2.1求点和至均值点的距离。解:由题设,可得从而马氏距离它们之比达倍。若用欧氏距离,则算得的距离值相同:由分布函数知,A、B两点的概率密度分别为010.9,00.91N1:1A1:1B0:0M10.90.91110.910.910.192110.2(,)110.191MdAM2113.8(,)110.191MdBM192(,)2EdAM2(,)2EdBM(1,1)0.2157p(1,1)0.00001658p已知一个二维正态母体G的分布为172.2.2相似测度•重点考虑两矢量的方向是否相近,而忽略矢量长度。(1)角度相似系数(夹角余弦)矢量之间的相似性可用它们的夹角余弦来度量1/2''cos(,)[(')(')]xyxyxyxyxxyy1/2()'()(,)[()'()()'()]xxyyrxyxxxxyyyy(2)相关系数数据中心化后的矢量夹角余弦性质:相关系数具有坐标系平移、旋转、比例不变性。18相关系数具有坐标系平移、旋转、比例变换不变性证明:(作业)yRxt设,有旋转、平移变换:其中,R是旋转变换矩阵(即正交矩阵),是平移矢量。则有t','RRRRI1122112211221122()'()[()()]'[()()]()''()()'()yyyyRxtRxtRxtRxtxxRRxxxxxx1122121/2111122221122121/211112222()'()(,)[()'()()'()]()'()(,)[()'()()'()]yyyyryyyyyyyyyyxxxxrxxxxxxxxxx设,有旋转、平移变换:其中,R是旋转变换矩阵(即正交矩阵),是平移矢量。则有19221()13(,)exp[]4niiiixyexyn性质:不受量纲变化的影响。(3)指数相关系数这里假设和的维数n相同、概率分布相同。是第i个分量的方差。xy2i20(三)匹配测度若特征只有两个状态:0=有此特征;1=无此特征。称之为二值特征。对于给定的二值特征矢量x和y中的某两个相对应的分量xi与yj若xi=1,yj=1,则称xi与yj(1-1)匹配;若xi=1,yj=0,则称(1-0)匹配;若xi=0,yj=1,则称(0-1)匹配;若xi=0,yj=0,则称(0-0)匹配。对于二值n维特征矢量可定义如下相似性测度:21(三)匹配测度(1)Tanimoto测度(1-1)匹配的特征数目(0-1)匹配的特征数目(1-0)匹配的特征数目(0-0)匹配的特征数目(1)(1)(1)(1)iiiiiiiiiiiiaxybyxcxyexy令'(,)'''axysxyabcxxyyxy注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。22(三)匹配测度(2)Rao测度(3)简单匹配系数(4)Dice系数(5)Kulzinsky系数'(,)axysxyabcen(,)aemxyn(1-1)匹配特征数目与特征总数之比22'(,)2''axymxyabcxxyy'(,)''2'axymxybcxxyyxy(1-1)匹配+(0-0)匹配/特征总数只对(1-1)匹配加权(1-1)匹配/(1-0)匹配+(0-1)匹配23例2.2设(1)Tanimoto测度(2)Rao测度(3)简单匹配测度(4)Dice系数(5)Kulzinsky系数(,1,0,,1,0)'(,0,011,,00,1)'1xy'3,'3,'1xxyyxy'1(,)6xysxyn111(,)63aemxyn2'21(,)''333xymxyxxyy'1(,)''2'4xymxyxxyyxy则'11(,)'''3315xysxyxxyyxy24小结一、影响分类的因数(1)分类准则;(2)特征量的选择;(3)量纲。二、模式相似性测度(一)距离测度(1)欧氏距离(2)马氏距离对坐标系平移、旋转、比例不变。(二)相似测度相关系数(特征矢量的方向)对坐标系平移、旋转、比例不变。(三)匹配测度(0-1)匹配系数21(,)()'()ijijijdxxxxVxx1/2()'()(,)[()'()()'()]xxyyrxyxxxxyyyy252.3类的定义与类间距离2.3.1类的定义类的划分具有人为规定性,这反映在类的定义的选取及参数的选择上。分类结果的优劣最后只能根据实际来评价。定义1设集合S中任意元素xi与xj间的距离dij有dijh其中h为给定的阈值,称S对于阈值h组成一类。11jijxSdhk定义2其中k为S中元素的个数。(类内平均距离)262.3.1类的定义定义3设集合S中任意元素xi与xj间的距离dij有其中k为S中元素的个数,称S对于阈值h,r组成一类。1(1)ijijxSxSijdhkkdr定义4xiS,xjS,使dijh成立,则称S对于阈值h组成一类。(最近距离)定义5若将集合S任意分成两类S1,S2,这两类间的距离D(S1,S2)h,则称S对于阈值h组成一类。272.3.2类间距离测度(一)最近距离两个聚类k和l之间的最近距离定义为式中,dij表示xik与xjl间的距离。如果l由p和q两类合并而成,则有递推公式,min[]klijijDdmin[,]klkpkqDDD282.3.2类间距离测度(二)最远距离递推公式,max[]klijijDdmax[,]klkpkqDDD292.3.2类间距离测度(三)中间距离递推公式2222111224klkpkqpqDDDDpqkpqkpqDkqDklDkpDl302.3.2类间距离测度(四)重心距离递推公式式中,和分别是i和j的重心,i,j=k,l,p,q。22222()klkpkqpqpqpqpqpqpqnnnnDDDDnnnnnn2()'()ijijijDxxxxixjx312.3.2类间距离测度(五)平均距离两类p和q间的距离平方定义为这两类元素两两之间的平均平方距离,即设l=pq,类平均距离的递推公式为22,1pqipjpijxxpqDdnn222klkpkqpqpqpqnnDDDnnnn322.3.2类间距离测度(六)离差平方和法设类t的重心是,t的类内离差平方和定义为设l=pq,则sl要变大。把两类合并所增加的离差平方和定义为两类平方距离,即,可以证明k与l=pq的离差平方和的递推公式2222klkpkqpqkpkqkklklklnnnnnDDDDnnnnnntx()'()ittititxsxxxx2pqlpqDsss2()'()pqpqpqpqpqnnDxxxxnn33类间距离递推公式(其中l=pq)222222klpkpqkqpqkpkqDDDDDDpq最近距离1/21/20-1/2最远距离1/21/2