第三章判别分析与聚类分析在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或现象划分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相近程度,划分为若干种类型,这称为聚类分析;数量统计上,即分析众多的样本划分确认来自几个不同的总体。另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(火险等级1、2..5)将出现,则称为判别分析,也称为统计分辨法。判别分析与聚类分析均属数字分类。§3.1费歇(Fisher)判别准则与分析一、Fisher判别准则判别分析是已知有两个或更多的总体(类型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,使我们能将某个新的个体归属正确的总体,而事先并不知道该个体来自哪个总体。若需要判别的对象有两种可能的结局,则称为二级判别;有两种以上可能结局,则称为多级判别。二级判别又称简单判别。设x为与天气状况有关的变量,而天气状况分为A与B两种状况(晴,阴雨),x的样本空间由有利A的样本集合与有利B的样本集合组成。SBRARmm)()()/()/(xBPxAP越大时,判别效果越好,错判率越低。作为判别指标,)()()]/()/([)/()/()()()()()/()/()()()/()/()()/()()/(xfAPBxfAxfxBPxAPBPAPBPxfBxfxBPAPxfAxfxAPAdxPAxfdxxfxAP,有当同理根据概率乘法定理有)/()/(BxfAxf而取决于下列因素BAmm)/()/(BxfAxf1、指标x在两总体的期望值差异越大,则越大,判别时,错判概率越小2、x的离散程度越小,x来自两不同总体的概率差越大。)/()/(BxfAxf综上所述,离散程度小,期望值差异大,表明两总体样本重叠部分少,x出现时事件(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则:希望用一个综合指标y,它在两总体中方差最小,而条件期望值差异最大。max)(minmax,)()()()(BxAxBABxAxBASSxxSSxx2影响因子是复杂的,单个气象要素指标效果不佳,可采用多个的要素线性组合成一个综合指标:ppxcxcxcy2211称为Fisher判别函数,iC称为判别系数。利用历史资料,根据Fisher准则,推断判别系数。以2211xcxcy为例,说明其几何意义212112211xcccyxxcxcycc//1、2两总体均存在较大重叠部分,若将样本投影到直线l上,则两总体重叠部分显著减少,能相对最大分离。在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影后,两总体能够最大分离。二、线性Fisher判别方程的建立设有A出现条件下,X1…xm的N1次观测值,B出现条件下,X1…xm的N2次观测值构造判别方程按照Fisher准则,应有:mmxcxcy11maxmax)()()(FEyyyyyyNiBBiNiAAiBA2121122kkkkkkcFcEFcFEcEFcmkc10102,将BmmBBBmimBiBiAmmAAAmimAiAixcxcyxcxcyxcxcyxcxcy11111111,,代入mkddcdccExxddcdcxxcxxcyyEkmmkBkAkkmmBmAmmBABA121121121112,)()(,)()]()([][)())](()([))](()([)]()([)]()([kmmkBkBkiBmBmimBBiAkAkiAmAmimAAikBmBmimBNiBiNiAmAmimAAiwcwcxxxxcxxcxxxxcxxccFxxcxxcxxcxxcF111111112121112111222kkmmkmmkkkBkBkilBliAkAkiAlAliklBdddcdcwcwccFcExxxxxxxxw)())(())((11111由其中B与标号k无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响Ck之间的相对比例,因而不影响判别效果,故可令B=1。此时方程组为:mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw22112222212111212111求解方程组,解得判别系数,即可得FIsher判别函数:mmxcxcy11DCW建立判别函数后,可分别计算A、B出现时,判别函数的平均值:BjjBAjjAxcyxcy以它们的加权平均值2121NNyNyNyBAc作为判别事件A或B出现的临界值;出现的判断作出时则当若A,cBAyyyy反之亦然。三、判别临界值的确定3.1)()(BAklw)()(BA)()(BA)()(BA)()(BA)()(BA100343395528631026001550028686859713960163125971333065321321321............ccccccccc解得078100498053320321...ccc四、判别效果的显著性检验在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元变量在统计上差异不显著,判别就没有价值,因此判别效果显著性检验就是检验判别因子在各两总体的差异是否显著。22212121212121222102112kBkABkAkkBkABkAkkBkAsnsnxxnnnnnnnnnnsnsnxxtxxH)()()()(:则)(221nn1.对于判别方程中的单个因子xk的显著性,可用t检验的方法检验它在两个总体中的平均值是否显著。遵从自由度为的t分布。2.对于m个因子的共同的分辨效果,则采用马哈拉诺比斯距离作为两总体差异的指标。马氏距离BmBBAmAABABAmxxXxxXDSDXXSXXD11112)()(WnnSwnnxxxxxxxxnnsSklBlniBliBkBkiAlniAliAkAkikl)()()])(())(([)(2121212121211121计:协方差矩阵的无偏估mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw22112222212111212111BmAmBAmxxxxddD111由mccC1DSCnnDCSnnSnnWDCW1211-21212S22)(,)()(同乘代入将CnnDDSDDm)(22112代入mkkkmmcdnnccddnnCDnn121112121222)()()(mkkkmcdnnD12122)(221212121021101DmkkBkAkkDmnnmnnnnnnFmkDdEHmk)()(:则设分布),(121mnnmF遵从例由表所列资料,根据Fisher准则建立判别函数并检验效果。解:121237254432D3744X2532XBA,,122021nn,5683693691218W212121210183000430018300043012568369123691218xxycccccc...,.解出显著拒绝原假设,判别效果,,.),(.)(..)(.FFFDmnnmnnnnnnFcdnnDmkkkm33329252921136827120302050221212121212120210)()(:dEdEH§3.2Bayes判别准则与分析mxx1)(mxxX1由m个变量组成m维空间,用表示,XkkGGGG211GX即,来自K个总体已知每个总体发生的先验概率(气候概率)分别为,kPP1各总体的概率密度分别为)(),(XfXfk1设有K个不同的事件,有m个变量与事件发生有关。Bayes判别的几何意义是在m维空间中对应各总体寻找一个划分:),(,mkjikRDDDDDDD2110tXititiGXDXD则判定即中,,若样本落在Bayes判别准则,即在选择划分kDD1时,应使发生错判的概率为最小。错判率与什么有关?下图简单地以2维空间的两个总体为例x1ABx2DADBAO设A、B两总体,有一个划分DA、DB,对任意样本1)来自A而错判为B的条件概率BDAdxxfABP)()/(2)来自B而错判为A的条件概率ADBdxxfBAP)()/(总的错判率ABDBDABAdxxfBPdxxfAPBAPBPABPAPDDg)()()()()/()()/()(),(KijDiKiiKKijDiiDiKjiKjjjdxxfPDDgdxxfGdxxfDDijPGGD)()()(:,))();/(:)111121D总的误判率率而误判为其他总体的概来自的概率而误判为样本来自对应划分,G对K个总体,GK1iP)(xfiKDD1定理:当先验概率给定后,为:,总体分布Bayes判别的解KjiiiiKliijiiljllxfPhxfPhKjljxhxhxD111)()(,)()(:其中:KjiiiijxfPh1)(jKjlhh1minlGx即对任一X,分别计算,找出最小值,并作出判断。max)(min)()()(xfPhxfPxfPxfPhjjjKjiiKijjiiiij11)(xfPjjjjKjlfPx1max)(Bayes判别方法,即对某一给定样本X,分别计算,,将使的l作为X的划归类属。Bayes判别对多组判别具有较高分辨率,但条件是要已知P和fi(x),而多维f(x)不易获得。二、正态假设下的Bayes判别函数Bayes判别函数KkfPkkk1设有K个总体,遵从正态分布,且具有相同的协方差)}()(exp{)(),(~//kkmkkkXXfKkNG122112121mmmmmmmmmkkkmxxX11111111111,为计算方便,令:kkkkmkkkkXXXXpKkfP111122112121212121//)(lnlnlnkkXX11由协方差矩阵及逆矩阵的对称性,可知略去与K无关的项,合并同类项XPkkkkk1121