3.1引言《多元统计分析》判别分析的目标目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。1判别分类方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别等。判别分离方法:费希尔判别(它更多地是用于分离)。依据不完备信息进行判别分类要判定一个样品的归属,理想的情况似乎是能够获得完备的用于分类的信息,以作出准确的判断。但这往往是不太现实的,因为要获得完备的信息可能根本做不到(如想知道《红楼梦》后四十回的作者到底是谁)要做破坏性的试验(如欲获知某电子仪器的寿命)成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。本章讨论的是,依据不完备信息来进行判别分类,这难免会发生误判,好的判别分类方法应使发生误判的概率尽可能地小。2判别分类的例子有偿付力与无偿付力的财产责任保险公司。判别变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。新产品的速购者与迟购者。判别变量:教育,收入,家庭大小,过去更换品牌的次数。良好信用与不良信用风险。判别变量:收入,年龄,信用卡数目,家庭规模。3本章讨论的判别分类本章的讨论都是基于判别变量为定量变量(间隔变量)的判别分析。每组中所有样品的p维向量值构成了该组的(p元总体)分布。我们对新样品x进行的判别分类将在很大程度上依赖于各组的总体分布或其分布特征。例如,π1:小学生组,π2:大学生组依据身高x作判别归类。412,,,pxxxx下一章将会具体说明。(一般)判别规则v设组π1和π2的均值分别为μ1和μ2,协差阵分别为Σ1和Σ2(Σ1,Σ20),x是一个新样品(p维),现欲判断它来自哪一组。v(基于马氏距离的)判别规则:12211222212,,,,,,ddddxxxxxx若若Σ1=Σ2=Σ时的判别v其中。v令,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。22211121122111111111222,,222ddxxxμΣxμxμΣxμxΣxxΣμμΣμxΣxxΣμμΣμaxμ1121212,μμμaΣμμ省略的步骤见书中第115页。2211222212,,,,,,dddd若若xxxxxxWxaxμ12,0,0WW若若xxxx误判概率v误判概率v设π1~Np(μ1,Σ),π2~Np(μ2,Σ),则其中是两组之间的马氏距离。v可见,两个正态组越是分开,判别效果也就越佳;当两个正态组很接近时,作判别分析就没有什么实际意义了。3122|10|1|20|PPWPPWxxxx2|11|22PP11212()()μμΣμμ12,0,0WW若若xxxx抽取样本估计有关未知参数v设是来自组π1的样本,是来自组π2的样本,n1+n2−2≥p,则μ1和μ2的一个无偏估计分别为Σ的一个联合无偏估计为其中111121,,,nxxx221222,,,nxxx121122111211nnjjjjnnxxxx和112212112pnnnnSSS11,1,21iniijiijijiinSxxxx41121212WxaxμμμμaΣμμ,v实际使用的判别函数为这里。其相应的判别规则为v若π1和π2都为正态组,则P(2|1)和P(1|2)可估计为其中。Ø该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。5ˆˆWxaxx112121ˆ,2pxxxaSxx12ˆ,0ˆ,0WWxxxx若若ˆˆˆ2|11|22PP11212ˆpxxSxx1121212WxaxμμμμaΣμμ,112122|11|22PPμμΣμμ误判概率的非参数估计v若两组不能假定为正态组,则P(2|1)和P(1|2)可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:v(1)回代法Ø令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2而误判为π1的个数,则P(2|1)和P(1|2)可估计为Ø该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样本容量非常大时,偏低的影响可忽略。6122|11|2ˆˆ2|1,1|2nnPPnn出现误判率低估的原因v判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。同样的样本信息不是很合适地被重复使用了。7v(2)划分样本Ø将整个样本一分为二,训练样本——用于构造判别函数验证样本——用于对该判别函数进行评估Ø误判概率用验证样本的被误判比例来估计,其估计是无偏的。Ø该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数相比,前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,甚至可基本忽略。8v(3)交叉验证法(或称刀切法)Ø从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,⋯,n1。同样,从组π2中取出x2j,用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,⋯,n2。Ø令n*(2|1)——样本中来自π1而误判为π2的个数,n*(1|2)——样本中来自π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为v以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方法或判别情形,并且可类似地推广到多组的情形。9**122|11|2ˆˆ2|1,1|2nnPPnnΣ1≠Σ2时的判别v判别规则:v实际应用中,μ1,μ2和Σ1,Σ2一般都是未知的,可分别由代替。102211222212,,,,,,ddddxxxxxx若若1212xxSS,和,3.3多组距离判别《多元统计分析》(一般)判别规则v设有k个组π1,π2,⋯,πk,它们的均值分别是μ1,μ2,⋯,μk,协方差矩阵分别是Σ1(0),Σ2(0),⋯,Σk(0),x到总体πi的平方马氏距离为v判别规则为该判别规则不受变量单位的影响。121,,1,2,,iiiidikxxμΣxμ221,,min,lliikddxxx若Σ1=Σ2=⋯=Σk=Σ时判别规则的简化v此时,上述判别规则可简化。其中,判别规则简化为这里Ii′x+ci为线性判别函数。2111,,1,2,,2iiiiicikIΣμμΣμ211111,22iiiiiiiidcxxμΣxμxΣxμΣxμΣμxΣxIx1,maxllliiikccxIxIx若221,,min,lliikdd若xxxv当k=2时,可将上式写成v它等价于判别规则:因为31112221122,,ccccxIxIxxIxIx若若12,0,0WWxxxx若若1122WccxIxIx1121212W,xaxμμμμaΣμμ推导见书中习题5.1的解答。v实践中μ1,μ2,⋯,μk和Σ1,Σ2,⋯,Σk一般都是未知的,它们的值可由相应的样本估计值代替。v设是从组πi中抽取的一个样本。vμi可估计为(i=1,2,⋯,k)。vΣ1,Σ2,⋯,Σk的估计分如下两种情形:ØΣ1=Σ2=⋯=Σk=ΣØΣ1,Σ2,⋯,Σk不全相等412,,,iiiinxxx11iniijjinxxΣ1=Σ2=⋯=Σk=Σ的情形vΣ的联合无偏估计为其中n=n1+n2+⋯+nk,n−k≥p,为第i组的样本协差阵。v实际应用中使用的判别规则是其中111kpiiinnkSS11()()1iniijiijijinSxxxx1ˆˆˆˆ,maxllliiikccxIxIx若111ˆˆ,,1,2,,2ipiiipicikISxxSx5111,max1,2llliiikiiiiiccc若xIxIxIΣμμΣμΣ1,Σ2,⋯,Σk不全相等的情形vΣi可估计为Si(i=1,2,⋯,k)。v实际应用中使用的判别规则是其中221ˆˆ,,min,lliikddxxx若21ˆ,,1,2,,iiiidikxxxSxx6inp21,iiiidxxμΣxμ采用线性还是二次判别函数的策略v当Σ1=Σ2=⋯=Σk=Σ时,采用线性判别函数。v当Σ1,Σ2,⋯,Σk不全相等时,采用二次判别函数v实践中,Σ1,Σ2,⋯,Σk几乎不可能完全相等。7111ˆˆˆˆ,max1ˆˆ,,2llliiikipiiipicccnkp若xIxIxISxxSx22121ˆˆ,,min,ˆ,,lliikiiiiidddnp若xxxxxxSxxv两个简单且实用的策略:Ø(1)一般而言,如果各组的样本容量普遍较小,则选择线性判别函数应是一个较好的策略。相反地,如果各组的样本容量都非常大,则更倾向于采用二次判别函数。Ø(2)如果对使用线性还是二次判别函数拿不准,则可以同时采用这两种方法分别进行判别,然后用交叉验证法来比较其误判频率的大小,以判断到底采用哪种方法更为合适。v以上策略同样适用于其它的判别方法。8较小样本时的误判频率不够稳定。v例1(书中例5.2.3)对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1——现金流量/总债务x3——流动资产/流动债务x2——净收入/总资产x4——流动资产/净销售额Ⅰ组为破产企业,Ⅱ组为非破产企业。数据如下:9编号组别x1x2x3x4编号组别x1x2x3x41Ⅰ-0.45-0.411.090.4524Ⅱ0.380.113.270.352Ⅰ-0.56-0.311.510.1625Ⅱ0.190.052.250.333Ⅰ0.060.021.010.426Ⅱ0.320.074.240.634Ⅰ-0.07-0.091.450.2627Ⅱ0.310.054.450.695Ⅰ-0.1-0.091.560.6728Ⅱ0.120.052.520.696Ⅰ-0.14-0.070.710.2829Ⅱ-0.020.022.050.357Ⅰ0.040.011.50.7130Ⅱ0.220.082.350.48Ⅰ-0.07-0.061.370.431Ⅱ0.170.071.80.529Ⅰ0.07-0.011.370.3432Ⅱ0.150.052.170.5510Ⅰ-0.14-0.141.420.4333Ⅱ-0.1-0.012.50.5811Ⅰ-0.23-0.30.330.1834Ⅱ0.14-