SAS讲义 第三十八课判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage1of31第三十八课判别分析判别分析方法的任务是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用此判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析(DiscriminateAnalysis)是用以判别个体所属类体的一种统计方法。它产生于本世纪三十年代,近年来,在许多现代自然科学的各个分支和技术部门中得到广泛的应用。判别分析方法通常要给出一个判别指标——判别函数,同时还要指定一种判别规则。下面我们介绍:距离判别分析方法Fisher线性函数判别方法。一、距离判别分析如果假设每组内分布为多元正态分布,基于多元正态分布理论的参数法将导出一个线性或二次的距离判别函数。否则,将采用不基于任何分布假设的非参数方法。1.贝叶斯理论距离判别分析利用贝叶斯理论计算样品x属于每一组的先验概率已知,且在x处的组密度可以估计时,属于某组的后验概率。设有k个组kGGG,,,21,且组iG的概率密度为)(xfi,样品x来自组iG的先验概率为kipi,,2,1,,满足11kiip,那么根据贝叶斯理论,样品x属于组iG的后验概率为:kiiiiiixfpxfpxGp1)()()|((38.1)如果假设每组内p维样品x分布为p元正态分布情况,则有kiNGiipi,2,1),,(~(38.2)其中,i和i分别是第i组的均值和协方差阵。此时,样品x来自组iG的概率密度函数为:),(5.0exp)2()(22/12/iiipiGxdxf(38.3)其中,)()(),(12iiiiixxGxd的几何意义为x到i组均值的平方距离。将式(38.3)代入式(38.1)可得:kiiiiikiiiiiiiiiiGxDGxDGxdpGxdpxGp12212/122/12),(5.0exp),(5.0exp),(5.0exp),(5.0exp)|((38.4)1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage2of31其中,iiiihgxdxD)()(22(38.5)为从样品x至第i组的广义平方距离。这里全相等若各组协方差阵不全相等若各组协方差阵iiieig0log(38.6)全相等若各组先验概率不全相等若各组先验概率iiieippph0log2(38.7)一个样品x判归于第i组,是因为样品x在这个i组得到的后验概率)|(xGpi为最大值,或者这个样品x至第i组的广义平方距离)(2xDi为最小值。这种判别哪个样品归属于哪个组的判别准则称为最大后验概率准则。如果此最大后验概率小于指定的阈值(threshold),则将样品x判归于除k组以外的其他组。2.线性判别分析为简单起见,我们只考虑两个总体的情况。设有两个协方差V相同的正态总体1G和2G,它们的分布分别是),(1VuN和),(2VuN。现在对于一个新的样品y,我们要判断它来自哪个总体。最直观的方法就是计算y到两个总体的距离),(1Gyd和),(2Gyd,并按下述规则判断:如果),(),(21GydGyd,则1Gy;如果),(),(21GydGyd,则2Gy。那么关键的问题是这里的距离函数怎么选。多元统计分析中最著名的一个距离是由马哈拉诺比斯(Mahalanobis)提出的,习惯上称为马氏距离。即y到母体iG距离定义为)()(),(1iiiuyVuyGyd(38.8)那么)()2(2),(),(2112121uuVuuyGydGyd(38.9)若令)()2()(21121uuVuuyyw(38.10)上述判别规则可写成:当0)(yw时,1Gy;当0)(yw时,2Gy。1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage3of31若1u、2u和V已知时,则)(yw是y的线性函数,称为线性判别函数。3.非线性判别分析如果协方差不同,即两个正态总体1G和2G分别服从),(11VuN和),(22VuN。现在对于一个新的样品y,我们要判断它来自哪个总体。我们仍然按照样品至各母体的最近距离归类。即判别准则为:如果),(),(21GydGyd,则1Gy;如果),(),(21GydGyd,则2Gy。其中2,1,)()(),(1iuyVuyGydiiii(38.11)那么21221111212111121121)(2)(),(),(uVuuVuuVuVyyVVyGydGyd(38.12)这是一个二次项判别函数。这样判别准则就变成为判断式(38.12)是取正还是取负的问题了。可见当VVV21时,我们得到了线性判别函数,因此使用线性判别函数判别;当21VV时,我们得到了二次判别函数,因此使用二次判别函数判别。一般情况下,我们并不知道两个总体的特征,即1u、2u和1V、2V是未知的,只有从两个总体抽取的样品,假设从两个总体各抽取了1n和2n个样品1,,,21nxxx;2,,,21nyyy。使用线性判别函数还是二次判别函数进行判别分析取决于两个总体的方差。如果有VVV21,就利用线性判别函数进行判别分析,否则,就利用二次判别函数判别。这样检验1V与2V是否相等就极为重要了。假定:原假设210:VVH备选假设211:VVH则检验统计量M为1ln)1(2ln)2(212121iiiinSnnnSnnM(38.13)其中,S为估计合并协方差阵,iS为第i组内的估计协方差阵。勃克斯指出Md)1(近似服从自由度为f的卡方2分布,其中2/)1(ppf(38.14)1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage4of311613221111122121pppnnnnd(38.15)如果有2/1)1(2ppMd,则在显著性水平的意义下,拒绝原假设H0,而接受备选假设H1;反之,如果有2/1)1(2ppMd,则在显著性水平的意义下,接受原假设H0。在接受原假设H0的情况下,使用式(38.10)的线性判别函数进行判别分析;线性判别函数)(yw中的1u、2u和V可分别由其无偏估计值代替:)()2()(21121uuVuuyyw(38.16)其中,11111niixnu(38.17)21221niiynu(38.18)2112211121))(())((21niiiniiiuyuyuxuxnnV(38.19)在接受假设H1的情况下,使用二次判别函数进行判别分析;二次判别函数中的1u、2u和1V、2V可分别由其无偏估计值代替:11111niixnu(38.20)21221niiynu(38.21)111111))((11niiiuxuxnV(38.22)212222))((11niiiuyuynV(38.23)其实,可以很容易把距离判别推广到多个总体的情形。4.多类判别对于两类线性判别及非线性判别,都是求得一个判别函数,对于任一组样品(或待判别1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage5of31样品)将其代入判别函数,求得判别得分,再依判别分界点,而决定将其判属于哪一类。但是,许多实际问题所提出的可能是多类判别的问题。设有g类(2g),每类中有1n,2n,…,gn组样品,每组样品有p个指标,并记knnnn21。假设各组样品都是相互独立的正态随机变量,即kkkpikikiNXXX,~),,,(21(38.24)其中k是第k类的p个变量的数学期望(向量),矩阵k是相应于第k类的p个变量的协方差矩阵,假定这g个协方差矩阵是一样,即g21。我们要判别一组待判样品pXXXX,,,21应属于g类中的哪一类。与两类判别同理,计算X与各类的重心(平均向量)k之间的Mahalanobis距离为gkXXkkk,,2,1,12(38.25)若有2j为最小,则判X属于第j类。这里均值向量k的估计式为knikikkXnX11(38.26)协方差矩阵的估计为)()(1)(11)(XXXXgnSkigknikii(38.27)其中gknikikXnX111。则距离2k的估计就可以表为kkkXXSXXXd1)((38.28)对于判别准则:对于任一组待判样品X,利用式(38.28)计算gkXdk,,2,1,,记XdXdXdXdgj,,,min21(38.29)若Xdj为最小,则判样品X属于第j类。有两点值得注意:①我们这里的判别函数和判别规则并没有涉及分布的类型,只要二阶矩存在就可以了;②这种判别规则符合习惯,但不可能完全判别准确,会发生误判。5.误判的概率下面我们仍以正态总体为例简单讨论一下误判的概率。协方差相同的两个正态总体1G和1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage6of312G的分布分别是),(1VuN和),(2VuN。如果某样品X来自1G,但是确在221uuu的右边,那么根据判别函数)()2()(21121uuVuuyyw和判别规则将判断它来自2G,这时就发生了误判。见图38-1所示。图38-1二类判别误判概率图所谓误判概率的问题是:定义误判概率21,PP,1P表示原是第一类的样品,而误判为第二类的概率;2P表示原是第二类的样品,而误判为第一类的概率。误判概率为图中阴影部分的面积。它们为VuuPVuuP,,,,12211(38.30)这里是正态分布的累积分布函数。如果利用以上判别准则,对全部n1+n2组样品进行判别,记第一类中的样品,而被判入第二类的有m1个;第二类的而被判入第一类的有m2个,则误判概率可表示为:222111/,/nmPnmP(38.31)二、Fisher线性函数判别在分类判别问题中,关键问题之一是寻找一个合适的判别函数。如果判别函数比较复杂,那么在实际使用中就非常不方便,因此为方便起见,有时寻找在某种意义下为最优的线性判别函数。在判别分析中,Fisher准则下的线性判别函数就是一个只要利用总体的一、二阶矩就可求得的判别函数。设我们观察到的资料为一个p维向量),,,(21pxxxx。设ijkx代表第i组(ri,,2,1)中的第j个特征(pj,,2,1)的第k个观察值(ink,2,1)。因此,G1G21u2uux21,GGx被误判来自来自样品1587978385895商务数据分析电子商务系列上海财经大学经济信息管理系IS/SHUFEPage7of31(ipkkikixxx,,,21)便相当于第i组里面的第k个观察所测到的p个特性。同样,我们以两个总体为例来介绍Fisher准则下的线性判别函数,即2r。图38-2Fisher线性判别分析示意图见图38-2所示为2,2pr的情况,它是仅有两组且每组只有两个特性的简单情况,可以在平面上示意出来。符号“*”代表一组,而符号“+”则代表另一组。一个简单的想法是:我们不妨在这个平面上画一条直线L,能将两组尽可能地分开,一组为这条直线的这一边,另一组为这条直线的另一边。若有一个新来的点),,(21pzzzz,我们就

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功