第二节模糊聚类分析方法在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域12{,,,}nUxxx为被分类对象,每个对象又有m个指标表示其性状,即12{,,,}iiiimxxxx(1,2,,)in,于是,得到原始数据矩阵为111212122212mmnnnmxxxxxxxxx。其中nmx表示第n个分类对象的第m个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换:①平移·标准差变换ikkikkxxxs(1,2,,;1,2,,)inkm其中11nkikixxn,211()nkikkisxxn。经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的ikx还不一定在区间[0,1]上。②平移·极差变换111min{}max{}min{}ikikinikikikininxxxxx,(1,2,,)km显然有01ikx,而且也消除了量纲的影响。③对数变换lgikikxx(1,2,,;1,2,,)inkm取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域12{,,,}nUxxx,12{,,,}iiiimxxxx,依照传统聚类方法确定相似系数,建立模糊相似矩阵,ix与jx的相似程度(,)ijijrRxx。确定(,)ijijrRxx的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法①夹角余弦法12211mikjkkijmmikjkkkxxrxx。②最大最小法11()()mikjkkijmikjkkxxrxx。③算术平均最小法112()()mikjkkijmikjkkxxrxx。④几何平均最小法112()mikjkkijmikjkkxxrxx。以上3种方法中要求0ijx,否则也要做适当变换。⑤数量积法11,,1,,mijikjkkijrxxijM,其中1max()mikjkijkMxx。⑥相关系数法12211()()mikijkjkijmmikijkjkkxxxxrxxxx,其中11miikkxxm,11mjjkkxxm。⑦指数相似系数法221()13exp[]4mikjkijkkxxrms,其中211()nkikikisxxn,而11nkikixxn(1,2,,)km。(2)距离法①直接距离法1(,)ijijrcdxx,其中c为适当选取的参数,使得01ijr,(,)ijdxx表示他们之间的距离。经常用的距离有●海明距离1(,)mijikjkkdxxxx。●欧几里得距离21(,)()mijikjkkdxxxx。●切比雪夫距离1(,)mijikjkkdxxxx。②倒数距离法1,,,,(,)ijijijMrijdxx。其中M为适当选取的参数,使得01ijr。③指数距离法exp[(,)]ijijrdxx。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法①传递闭包法根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵*R。用二次方法求R的传递闭包,即()tR=*R。再让由大变小,就可形成动态聚类图。②布尔矩阵法[10]布尔矩阵法的理论依据是下面的定理:定理2.2.1设R是12{,,,}nUxxx上的一个相似的布尔矩阵,则R具有传递性(当R是等价布尔矩阵时)矩阵R在任一排列下的矩阵都没有形如11111001,,,10011111的特殊子矩阵。布尔矩阵法的具体步骤如下:①求模糊相似矩阵的截矩阵R.②若R按定理2.2.1判定为等价的,则由R可得U在水平上的分类,若R判定为不等价,则R在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的*R为等价矩阵。因此,由*R可得水平上的分类(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包()tR,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:①取11(最大值),对每个ix作相似类[]iRx,且[]iRx={|1}jijxr,即将满足1ijr的ix与jx放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现[]{,}iRikxxx,[]{,}iRjkxxx,[][]ijxx.此时只要将有公共元素的相似类合并,即可得11水平上的等价分类。②取2为次大值,从R中直接找出相似度为2的元素对(,)ijxx(即2ijr),将对应于11的等价分类中ix所在的类与jx所在的类合并,将所有的这些情况合并后,即得到对应于2的等价分类。③取3为第三大值,从R中直接找出相似度为3的元素对(,)ijxx(即3ijr),将对应于2的等价分类中ix所在的类与jx所在的类合并,将所有的这些情况合并后,即得到对应于3的等价分类。④以此类推,直到合并到U成为一类为止。二、最佳阈值的确定在模糊聚类分析中对于各个不同的[0,1],可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类②用F统计量确定最佳值。[11]设论域12{,,,}nUxxx为样本空间(样本总数为n),而每个样本ix有m个特征:12{,,,}iiiimxxxx,(1,2,,)in。于是得到原始数据矩阵,如下表所示,其中11(1,2,,)nkikixxkmn,x称为总体样本的中心向量。样本指标12km12inxxxxx111211212222121212()kmkmiiikimnnnknmkmxxxxxxxxxxxxxxxxxxxx设对应于值的分类数为r,第j类的样本数为jn,第j类的样本记为:()()()12,,,jjjjnxxx,第j类的聚类中心为向量()()()()112(,,,)jjjjmxxxx,其中()jkx为第k个特征的平均值,即()()11jnjjkikijxxn,(1,2,,)km,作F统计量()1()()11(1)()jrjjjnrjjijinxxrFxxnr,其中()()21()mjjkkkxxxx为()jx与x间的距离,()()jjixx为第j类中第i个样本()jx与其中心()jx间的距离。称为F统计量,它是遵从自由度为1r,nr的F分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,F值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。第一节雨量站问题一、问题的提出某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?2x7x1x4x5x10x6x8x11x3x9x2x7x1x4x5x10x6x8x11x3x9x图1雨量站分布图表1各雨量站10年间测得的降雨量年序号1x2x3x4x5x6x7x8x9x10x11x12763241594132922583113031752433202251287349344310454285451402307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371二、问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解假设为使问题简化,特作如下假设①每个观测站具有同等规模及仪器设备;②每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。三、问题的解决求解步骤:1、数据的收集原始数据如表1所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵1111)(r,其中ijr=2111221])()([|)(||)(|nknkjjkiiknkjjkiikxxxxxxxx其中ix=101101kikx,i=1,2,…,11。jx=nkjkxn11,j=1,2,…,11。取2,1ij,代入公式得21r=0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵1111)(r,具体程序如下#includestdio.h#includemath.hdoubler[11][11];doublex[11];voidmain(){inti,j,k;doublefenzi=0,fenmu1=0,fenmu2=0,fenmu=0;intyear[10][11]={276,324,159,413,292,258,311,303,175,243,320,251,287,349,344,310,454,285,451,402,307,470,192,433,290,563,479,502,221,220,320,411,232,246,232,243,281,267,310,273,315,285,327,352,291,311,502,388,330,410,352,267,603,290,292,466,158,224,178,164,203,502,320,240,278,350,258,327,432,401,361,381,301,413,402,199,421,453,365,357,452,384,420,482,228,360,316,252,158,271,410,308,283,410,201,179,430,342,