第二讲模糊聚类分析一、基本概念及定理定义:设nnijrR)(是n阶模糊方阵,I是n阶单位方阵,若R满足(1)自反性:);1(ijrRI(2)对称性:);(jiijTrrRR(3)传递性:);}1)max{((2ijkjikrnkrrRR则称R为模糊等价矩阵。定理:设R是n阶模糊等价矩阵,则,10R所决定的分类中的每一个类是R所决定的分类中的某个子类。该定理表明,当时,R的分类是R分类的加细,当由1变到0时,R的分类由细变粗,形成一个动态的聚类图。例:设对于模糊等价矩阵},,,,,{54321xxxxxU16.05.04.05.06.015.04.05.05.05.014.08.04.04.04.014.05.05.08.04.01R当1时,分类为};{},{},{},{},{54321xxxxx当8.0时,分类为};{},{},{},,{54231xxxxx当6.0时,分类为};,{},{},,{54231xxxxx当5.0时,分类为};{},,,,{25431xxxxx当4.0时,分类为}.,,,,{54321xxxxx定义:设nnijrR)(是n阶模糊方阵,I是n阶单位方阵,若R满足(1)自反性:RI;(2)对称性:RRT;则称R为模糊相似矩阵。定理:设R是n阶模糊相似矩阵,则存在一个最小的自然数)(nkk,使得kR为模糊等价矩阵,且对一切大于k的自然数l,恒有.klRRkR称为R的传递闭包矩阵,记为).(Rt例:设有模糊相似矩阵13.02.03.011.02.01.01R213.02.03.012.02.02.01RRR).(13.02.03.012.02.02.01222RtRRR二、模糊聚类的一般步骤1、建立数据矩阵设论域},,,{21nxxxU为被分类对象,每个对象又由m个指标表示其性状:),,2,1(},,,{21nixxxximiii则得到原始数据矩阵为.)(mnijxX在实际问题中,不同的数据一般有不同的量纲,为了使有不同量纲的量能进行比较,需要将数据规格化,常用的方法有:(1)标准差标准化对于第i个变量进行标准化,就是将ijx换成ijx,即)1(mjSxxxiiijij式中:.)(11,1121mjiijimjijixxmSxmx(2)极差正规化}min{}max{}min{ijijijijijxxxxx(3)极差标准化}min{}max{ijijiijijxxxxx(4)最大值规格化jijijMxx其中:),,,max(21njjjjxxxM2、建立模糊相似矩阵(1)相似系数法①夹角余弦法mkjkmkikmkjkikijxxxxr12121②相关系数法mkjjkmkiikmkjjkiikijxxxxxxxxr12121)()(建立ix与jx相似程度),(jiijxxRr的方法主要有:(2)距离法一般地,取)),((1jiijxxdcr,其中,c为适当选取的参数,它使得.10ijr采用的距离有:①Hamming距离mkjkikjixxxxd1),(②Euclid距离mkjkikjixxxxd12)(),(③Chebyshev距离jkiknkjixxxxd1max),((3)贴近度法①最大最小法mkjkikmkjkikijxxxxr11)()(②算术平均最小法mkjkikmkjkikijxxxxr11)(21)(③几何平均最小法mkjkikmkjkikijxxxxr11.)(3、聚类并画出动态聚类图(1)模糊传递闭包法步骤:①求出模糊相似矩阵R的传递闭包)(Rt;②按由大到小进行聚类;③画出动态聚类图。例:考虑某环保部门对该地区5个环境区域},,,,{54321xxxxxX按污染情况进行分类。设每个区域包含空气、水分、土壤、作物4个要素,环境区域的污染情况由污染物在4个要素中的含量超过的程度来衡量。设这5个环境区域的污染数据为:).4,2,1,10(),3,7,5,40(),6,4,6,90(),4,6,1,50(),2,6,10,80(54321xxxxx试对X进行分类。解:由题设知特性指标矩阵为X*80106250164906464057310124采用最大值规格化法将数据规格化为X0.8910.860.330.560.100.860.6710.600.5710.440.510.50.110.100.290.67用最大最小法构造模糊相似矩阵得到138.037.053.024.038.0156.070.063.037.056.0155.062.053.070.055.0154.024.063.062.054.01R153.053.053.053.053.0162.070.063.053.062.0162.062.053.070.062.0163.053.063.062.063.01)(4RRt用平方法合成传递闭包将)(Rt中的元素从大到小编排如下:10.700.630.620.53取,得11000001000001000001000001)(1RtX被分成5类:}.{},{},{},{},{54321xxxxx取,得7.01000001010001000101000001)(7.0RtX被分成4类:}.{},,{},{},{54231xxxxx取,得63.01000001011001000101101011)(63.0RtX被分成3类:}.{},{},,,{53421xxxxx取,得62.01000001111011110111101111)(62.0RtX被分成2类:}.{},,,,{54321xxxxx取,得53.01111111111111111111111111)(53.0RtX被分成1类:}.,,,,{54321xxxxx画出动态聚类图如下:54321xxxxx0.70.630.620.531应用一:教师课堂教学质量评价数据标准化采取最大值规格化;相似矩阵的建立采取相关系数法.动态聚类图如下:148120023613141550000071000009110000当lamd=0.9200时,分类如下应用二:金融机构财务分析表1为2004年广东10个城市金融机构本外币存款、贷款的统计情况。试分析他们财务情况的相似性。数据标准化采取极差变换;相似矩阵的建立采取夹角余弦法.动态聚类图如下:lamd=0.9447100020003678459010000作业:企业综合竞争力评价分类5个公司6个指标的样品数据如下,试根据以下数据评价5个公司的综合竞争力。