第六章判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

58第六章判别分析近年来,判别分析在植物分类、天气预报、经济决策与管理、社会调查、农业科研、科研数据整理分析中都得到了广泛的应用。判别分析是一种很有实用价值而且应用极其广泛的一种统计方法。本章介绍两种常用的判别方法:距离判别及Fisher判别。§1距离判别距离判别是先给出一个样品到某个总体的距离的定义,然后根据样品到各个总体的距离的远近,来判断该样品应归属于哪一个总体。本节先介绍多元分析中广泛应用的马氏距离的概念,然后,再介绍距离判别的方法。一、马氏距离1.概念距离是一个最直观的概念,多元分析中许多方法都可用距离的观点来推导,其中最著名的一个距离是印度统计学家Mahalanobis于1936年引进的,所以习惯上称之为马氏距离。下面我们很快会看到,马氏距离是我们熟知的欧氏距离的一种推广。定义:设P维总体G的均值向量为u,协差阵为V0(有V-10存在)X,Y是总体G的两个样品,则:(1)X与Y两点的马氏距离d(X,Y)为:211)]()[(),(YXVYXYXd(2)X与总体G的马氏距离为:211)]()[(),(uXVuXGXd2.性质很容易证明,马氏距离符合作为距离的三条基本公理:设X,Y,Z是总体G的三个样品,则有:(1)非负性:YXYXdYXd0),(,0),((2)对称性:),(),(XYdYXd(3)满足三角不等式:),(),(),(ZYdYXdZXd证:(2)),()]()[()]()[(),(211211XYdXYVXYYXVYXYXd其它性质不证。由马氏距离的定义知,当V=E时,X与Y的马氏距离就变成为欧氏距离:221121)()()]()[(),(ppyxyxYXYXYXd所以,马氏距离是欧氏距离的推广,欧氏距离是马氏距离的特例。有了马氏距离的概念,我们就可用马氏距离作为尺度来判别样品的归属。3.计算以二维为例介绍一下计算。设二维总体G的均值向量为0021,协差阵为5919.09.01V,求点11A和11B与总体G之间的欧氏距离与马氏距离。解:19.09.0119.01,19.09.011VV(1)欧氏距离2)01()01(22AGd2)01()01(22BGA(2)马氏距离192019.02.01119.09.0119.01)1,1(2AGd05.1AGd2019.08.31119.09.0119.01)1,1(2BGd47.4BGd二、判别规则下面介绍一下两个总体的距离判别规则设有两个P维总体G1与G2,对于给定的一个样品Z,要判断Z是来自哪一个总体。一般方法是:先计算出Z到G1与G2的两上马氏距离d(),1GZ与d(),2GZ,然后按下述规则进行判别:1GZ,当),(),(21GZdGZd2GZ,当),(),(21GZdGZd为便于应用,我们考察Z到G2的马氏距离的平方与Z到G1的马氏距离的平方之差:22112122111111112221111111112221221111112121212(,)(,)()()()()[2][2]2()2()()()2(2dZGdZGZVZZVZZVZZVVZVZZVVZVVVVVZVVZ112)()V令22160)()()(211VZZw则判别规则可写成:12()0()0wZZGwZZG当时,当时,(1)当V,,21已知时,令)(211Va,则a为已知的P维向量,这时)()()(ZaaZZw为Z的线性判别函数,a为判别系数。由12Va,求出a(2)当V,,21未知时,可求出相应的估计值,再代入上述函数)(Zw,求出a。估计值求法如下:211221111,1nkknkkynYxnX)(212121SSnnSV其中111))((nkkkXxXxS212))((nkkkYyYyS三、例题设从同协方差阵V的两个总体G1,G2中抽取了三个样品,测定A、B两个指标数据如表指标G1G2123123A71013156B151719357试用距离判别确定样品)9,6(U,)10,4(V的归属解:(1)求均值:记765531,19131710157YX613,)5,4(,)17,10(21nnyX(2)求协方差阵:45.55.581622223241810101482121841)(212121SSnnSV8121218222112111SSSSS8101014222112112SSSSS(3)求判别系数:令),()(211aaYXS即YXaaS21即12645.55.5821aa解得a1=-24,a2=36(4)求判别函数21212136242283624)11,7()2()(zzzzaaYXZZw(5)判别:12,036)(;,048)(;)10,4(,)9,6(GVVwGUUwVU§2Fisher判别现以两个总体为例,介绍Fisher判别的方法。设1,,,:211nXXXG,且),,1(,),,,(121nixxxXimiii]2,,,:212nYYYG,且),,1(,),,,(221njyyyYjmjjj现在研究待识样品),,,(21mzzzZ属于G1还是属于G2?62这里仅从样本出发,来估计总体的均值与协差阵,介绍一下Fisher判别的基本思想与计算方法。一、基本思想Fisher判别是借助于方差分析的思想来导出判别函数。这个判别函数可以是线性函数,也可能是其它函数,在正态母体、协差阵相等的情况下,可以导出一个线性判别函数,这里仅就此作一介绍。记)1ˆ(,))((1111SnVXXXXSii)1ˆ(,))((2222SnVYYYYSii并定义:组间协差阵))((21YXYXB组内协差阵)(212121SSnnE,即)ˆˆ(21221121VnVnnnE对一个固定的),,,(21mcccC,BCC值越大,组与组间相隔越远;ECC越小,组内样本间越靠近。于是可定义判别效率ECCBCCC)(欲判别效率最好,即使)(C取最大值,可得)(1YXEC为判别系数,判别函数为)()(1YXEZCZZf即)()()2()(12121YXSSZnnZf其中mmzczczcZf2211)(二、计算方法1.计算平均值),,(1mXXX1111nkkiixnX),,(1mYYY2121nkkiiynY),,(1mggG),,2,1(2121minnYnXngiii632.计算组内协差阵)(212121SSnnE即计算出差阵2121SSSS及,mmijSS)(111))((nkjkjikiijXxXxS212))((,)(nkjkjikiijmmijYyYySSSmmijijSSSSS)(21其中2112111,1nkkiinkkiiynYxnX3.求判别系数),,(1mccC)())(2(12121YXSSnnC或))(2()(2121YXnnCSS解方程组可得c1,…,cm4.建立判别函数,并计算临界值mmzczcCZZf11)(且计算临界值:mmgcgcGfR110)(mmXcXcXfR111)(mmYcYcYfR112)(比较210,,RRR,有201RRR或102RRR5.计算判别值:计算待识样品判别值并进行判别。对任一特征样品),,(1mzzZ计算判别值mmzzczcZfR11)(若zR位于R0的R1一边,则1GZ若zR位于R0的R2一边,则2GZ6.显著性检验:检验均值差异显著性)2()1(:0H64)1,(~)2(12122121mnnmFTmnnmnnF其中CYXnnnnYXcYXcnnnnTmmm)()]()([212111121212若FF,则拒绝H07.计算判别的正确率正确率=(新类与原类相同样品数/样品总数)100%三、例题从两总体G1,G2中分别抽了三个样品,各测定了A、B两个指标,数据如表总体样品号指标G1G2123123A71013156B151719357试用Fisher判别,确定样品)9,6(u,)10,4(v的归属解:(1)计算GYX,,1913171015719171513107X765531753651Y)11,7(117,)5,4(54,)17,10(1710GYX(2)求S1,S2及S1+S28101014,812121821SS1622223221SS(3)求判别系数),(21ccC65从方程组48241622223221cc解得:c1=-24,c2=36(4)建立判别函数并计算临界值213624)(zzZf经计算得:22811367)24()(0GfR372173610)24()(1XfR845364)24()(2YfR且102RRR(5)计算判别值1809366)24()(ufRu26410364)24()(vfRv有202),,(180GuRRRu110),,(264GvRRRv(6)显著性检验CYXnnnnT)(21212432]12366)24[(33332T162)2(1)3,2(22121TmnnmnnF而82.30)3,2(01.0F,且)3,2(01.0FF所以G1,G2两总体平均值向量差异显著(7)计算样品判别的正确率样品判别值:样品号G1G21372842372603372108样品判别值计算如下:66总体样品号指标G1G2123123A71013156B151719357f1=-24×7+36×15=372f’1=-24×1+36×3=84.由表可知,全部样品的新的分类与原分类相同,说明所求得的判别函数正确率很高。例2根据经验,今天与昨天的湿度差X1及今天的压温差(气压与温度差)X2是预报明天下雨或不下雨的两个重要因素。今测得X1=8.1,X2=2.0试问应预报明天下雨还是不下雨?资料矩阵为G1(雨天)G2(非雨天)X1X2X1X2-1.93.20.26.2-6.910.4-0.17.55.22.00.414.65.02.52.78.87.302.10.86.812.7-4.64.30.9-15.4-1.710.9-12.5-2.5-2

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功