第三章-判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三章判别分析本章首先说明判别分析(discriminantanalysis)的基本思想和意义,然后介绍两种常用的判别分析方法:距离判别和Bayes判别。§3.1判别分析的基本思想及意义在科学研究和实际工作中,经常会遇到这样的问题:某研究对象以某种方式已划分为若干类型(或组),每一类型有个指标,用维向量表示(从而不同类型的的观察值在某种意义上是有差异的)。当取得一个新样品(或个体)的关于的观察值时,要判断该样品属于已知类型的哪一个,这类问题通常称为判别分析。这就是说,判别分析就是根据个体的某些指标的观察值来推断该个体所属类型的一种统计方法。例如在经济分析中,可根据各国的人均国民收入、人均工农业产值和人均消费水平等多项指标来判定一个国家的经济发展程度所属类型。ppTpXXXX),,,(21X基本思想从统计的角度来看,判别分析问题可归结为:设有个总体,,每个总体的所有样品都测量了相同的个指标。总体的分布函数均为元分布函数。对于一个给定的新样品,要求判断该样品应属于这个总体中的哪一个。在实际应用中,要先取得各总体关于指标的样本,称为训练样本。判别分析通过提取训练样本中各总体的信息来构造判别准则,从而决定新样品的归属。ggGGG,,,21p)(,),(),(21xFxFxFgTpxxxx),,,(21gp判别分析的意义1.为决策提供参考例如,已收集到一些公司在破产前两年的某些重要的金融指标值。现在,要根据另一个同类公司的这些指标观察值,预测该公司是否会破产,这就是一种判别。这种判别可以帮助公司决策人员及早采取措施,防止该公司破产。2.避免破坏性测定有些产品只有通过破坏性测定才能取得相关指标值。例如,一只灯泡只有到用坏时才能知道其使用寿命.这时,可根据一些非破坏性测量指标来划分产品质量等级,这就需要采用判别分析方法。判别分析的意义3.减少获得直接分类信息的代价例如在医学诊断中,一些疾病需要用对患者造成损伤的手术得到确诊。这时也可根据一些便于观察的外部症状来诊断,这时也可采用判别分析方法。4.可在不能直接获得分类信息时作出判断例如要确定一篇未署名(或用化名)的文学作品是否出自某已故作家,那么也可采用判别分析方法作出判断。采用判别分析方法作判断时,可能会出现误判。判别分析根据训练样本提供的信息,建立在某种意义下最优的准则。§3.2距离判别距离判别是通过定义样品观察值(维)到各总体的距离,根据其大小来判定样品属于哪个总体。常用的距离是由马哈拉诺比斯(Mahalanobis)提出的“马氏距离”。设是维总体,数学期望(均值向量)为,协方差矩阵为,定义到总体的马氏距离为211)()(),(xxGxdT马氏距离不受单位影响,是一个无单位的数值。(3.2.1)xpGpxG3.2.1两总体的距离判别设维总体和的数学期望(均值向量)分别为和,协方差矩阵分别为和。是一个新样品(维)。现要判断来自哪个总体。距离判别是分别计算到和的马氏距离和,并按如下的判别准则进行判别:p1G2G1212xpxx1G2G),(1Gxd),(2Gxd),(),(,),(),(,212211GxdGxdGxGxdGxdGx(3.2.2)(当等号成立时,可将判给两总体中的任一个。对正态总体,等号成立的概率为零)。下面对总体协方差矩阵相等和不相等两种情况,分别讨论判别准则。1.Σ1=Σ2=Σ这时,平方马氏距离之差)()(212)()()(2)(222)()()()(),(),(21121211212111122111112122111111112122111112121222TTTTTTTTTTTTTTTTxxxxxxxxxxxxxGxdGxd)()(2211Tx(3.2.3)其中。)(2121判别函数)(xW)()()(211TxxW称为判别函数。则判别准则(3.2.2)可简化为)(xW0)(,0)(,21xWGxxWGx(3.2.4)(3.2.5)(3.2.6)令,则(3.2.4)中的判别函数可写为121)(TTa)()(xaxWT即当和已知时,判别函数是的线性函数。线性判别函数使用起来最方便,在实际应用中也最广泛。21,令xμ1、μ2和Σ的估计在实际问题中,和通常是未知的,这时可通过训练样本对和作估计。设21,21,)1()1(2)1(11,,,nxxx是来自的样本,样本容量为。而1G1n)2()2(2)2(12,,,nxxx是来自的样本,样本容量为(为维向量)。记2G2n)(kixp2,1,1ˆ1)()(kxnxknikikkk(3.2.7)则样本均值向量和分别可作为和的估计。而样本协方差矩阵为1ˆ2ˆ12Σ的估计2,1,11))((11)()(2)(1)(2)(22)(21)(1)(12)(111)()()()(kLLLLLLLLLnxxxxnSkppkpkpkpkkkpkkkniTkkikkikkk(3.2.8)其中kkniniktikktksksiktktiktspstxnxxxxxL11)()()()()()()(,,2,1,,1,))((则的联合无偏估计为2)1()1(ˆ212211nnSnSn(3.2.9)判别函数的估计于是,判别函数的估计为)ˆˆ(ˆ)ˆ()(ˆ211TxxW(3.2.10)其中。而判别准则为)ˆˆ(21ˆ210)(ˆ,0)(ˆ,21xWGxxWGx2.Σ1≠Σ2这时仍可用(3.2.2)作为判别准则。或选择判别函数为)()()()(),(),()(111121221222xxxxGxdGxdxWTT则0)(,0)(,21xWGxxWGx这时,判别函数为的二次函数。)(xWx(3.2.11)(3.2.12)判别函数的估计当和未知时,可由训练样本的和作出估计。从而得判别函数的估计为121,,2121,ˆ,ˆS2S)(xW)ˆ()ˆ()ˆ()ˆ()(ˆ11112122xSxxSxxWTT其中和由(3.2.7)和(3.2.8)给出。121,ˆ,ˆS2S(3.2.13)3.2.2多总体的距离判别比较这个距离,判定属于其距离最短的总体(若最短距离并不惟一,可判属于其中任一总体)。仍就总体协方差矩阵相等和不相等两种情况分别讨论。设有个维总体,数学期望(均值向量)为,协方差矩阵为。类似两总体的距离判别,计算新样品(维)到各总体的距离。到总体的平方马氏距离gpgGGG,,,21,1g,,2g,,,21xpxiGgixxGxdiiTii,,2,1,)()(),(12gx1.Σ1=Σ2=···=Σg=Σ根据(3.2.3),这时到和的平方马氏距离之差为xiGjG)()(212),(),(122jiTjiijxGxdGxd令)()(21)(1jiTjiijxxW那么到的距离最短,即xiG),(min),(212kgkiGxdGxd(3.2.14)(3.2.15)判别准则等价于对一切,有ij),(),(22ijGxdGxd或0)(xWij于是,判别准则为,iGx若对一切0)(,xWijij(3.2.16)判别函数的估计当和未知时,可利用训练样本作估计。设g,,,21)()(2)(1,,,knkkkxxx是来自的样本,样本容量为(为维向量).记kGkn)(kixpgkxnxknikikkk,,2,1,1ˆ1)()(gkxxxxnSkniTkkikkikk,,2,1,))((111)()()()((3.2.17)(3.2.18)判别函数的估计kˆk则可作为的估计,而的联合无偏估计为ggSnSnSngn)1()1()1(1ˆ2211其中。于是判别函数的估计为gkknn1)(xWij)ˆˆ(ˆ)ˆˆ(21)(ˆ1jiTjiijxxW(3.2.19)2.Σi不全相等),,2,1(gii不全相等时,可直接计算gixxGxdiiTii,,2,1,)()(),(12而判别准则为,iGx),(min),(212kgkiGxdGxd若(3.2.20)(3.2.21)同样,当未知时,可用(3.2.17)和(3.2.18)的和作为估计,代入(3.2.20)式计算到各总体的距离。),,2,1(,giiiiˆiSx3.2.3判别准则的评价利用判别函数进行判断,一般总会出现错判。一个判别准则的优劣,通常可以用它的误判概率来衡量。例如,对两总体和,误判概率就是当属但误判为,或属却误判为的概率。只有当总体分布完全已知时,才能精确地计算误判概率。在实际应用中,总体分布通常未知,这时可用训练样本来评价判别准则的优劣。下面以两个总体为例,介绍两种常用的方法。1G2G2Gx1Gx2G1G1.貌似误判率方法这种方法是通过训练样本中的各样品逐个回判,即把各样品代入判别准则,根据回判的误判率来衡量判别准则的优劣。具体方法如下:设是来自总体的样本容量为训练样本(=1,2)。对于已建立的判别准则(或判别函数),把训练样本的全部个样品逐个代入判别准则,即逐个回判。回判的结果列于下表。)()(2)(1,,,knkkkxxxkGknk21nn表3.2.1其中:属于的样品判为的个数.:属于的样品判为的个数.:属于的样品判为的个数.:属于的样品判为的个数.显然11n12n21n22n1G1G1G1G2G2G2G2G2222111211,nnnnnn回判结果实际归类合计21GG2111nn2212nn21nn1G2G两总体回判结果貌似误判率对全部个样品,误判的样品数为。称回判中误判的比例21nn2112nn212112ˆnnnn为貌似误判率。在一定程度上反映一个判别准则的误判率,并且方法简单,易于计算。但给出的估计通常偏低。这是由于构造判别准则的样本数据同时又用来评估这个判别准则,评估的结果就会有利于所构造的判别准则。ˆˆ2.刀切法刀切法也称交叉验证法(交叉确认法)。这种方法是每次先删除训练样本中的一个样品,然后利用其余的个样品建立判别准则(或判别函数),再用判别准则对删除的这个样品进行判别。对训练样本中的每个样品重复这种方法,以误判的比例作为误判概率的估计。具体步骤为(1)从总体的训练样本中删除一个样品,用其余的个样品和的个样品建立判别准则。(2)用(1)所建立的判别准则对删除的样品进行判别。(3)重复步骤(1)和(2),直到的全部个样品依次被删除和判别,用表示个样品中误判的样品数。121nn1G11n2G2n1G1n)(1JMn1n刀切法(4)对总体的样本重复步骤(1)、(2)和(3),并用表示个样品中误判的样品数。则误判的比例2G)(2JMn21)(2)(1ˆnnnnJMJMJ是误判概率的渐近无偏估计。刀切法的效果更好一些,但计算量也较大。Jˆ2n二点说明最后给出二点说明:(1)误判率与各总体之间的距离大小有关。总体之间离得愈远,就愈有可能建立有效的判别准则。而当总体靠得很近时,判别分析也就没有什么实际意义。(2)各总体的协方差矩阵是否相等,可以作检验。但这些检验往往比较复杂,在实际应用中,可分别按协方差矩阵相等和不相等情况分别作分析,根据貌似误判率或刀切法比较判别准则的优劣,从而选择一个较优的判别准则。例3.2.1在地震预报的研究中,遇到砂基液

1 / 104
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功