第六章判别分析第一节引言第二节距离判别法第三节贝叶斯(Bayes)判别法第四节费歇(Fisher)判别法第五节实例分析与计算机实现§6.1引言判别分析的例子:1.有偿付力与无偿付力的财产责任保险公司。测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度3.两种野草。测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新产品的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。测量变量:收入,年龄,信用卡数目,家庭规模。判别分析要解决的问题是,在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。每一组(亦称类或总体)中所有样品的p维指标值构成了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品X是来自哪一组的。本章介绍三种常用的判别分析方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。12,,,pXXXX§6.2距离判别一、两组距离判别二、多组距离判别一、两组距离判别设组π1和π2的均值分别为μ1和μ2,协差阵分别为Σ1和Σ2(Σ1,Σ20),X是一个新样品(p维),现欲判断它来自哪一组。1.Σ1=Σ2=Σ时的判别2.Σ1≠Σ2时的判别1.Σ1=Σ2=Σ时的判别判别规则:则上述判别规则可简化为:称W(x)为两组距离判别的(线性)判别函数,称a为判别系数。2211222212,,,,,,xdxdxxdxdx若若22121111221121212,,WxdxdxxμΣxμxμΣxμaxμμμμaΣμμ其中,,1200,,xWxxWx若若误判概率误判概率设π1~Np(μ1,Σ),π2~Np(μ2,Σ),则其中是两组之间的马氏距离。可见,两个正态组越是分开(即Δ越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。12210120||||PPWxxPPWxx21122||PP11212μμΣμμ组之间是否已过于接近的界定我们可对假设H0:μ1=μ2,H1:μ1≠μ2进行检验,若检验接受原假设H0,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的;若检验拒绝H0,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),故此时还应看误判概率是否超过了一个合理的水平。例1设p=1,π1和π2的分布分别为N(μ1,σ2)和N(μ2,σ2),μ1,μ2,σ2均已知,μ1<μ2,则判别系数a=(μ1−μ2)/σ2<0,判别函数:判别规则:误判概率:误判概率图示:Wxax12,,xxxx若若12211222||PP抽取样本估计有关未知参数设是来自组π1的样本,是来自组π2的样本,n1+n2−2≥p,则μ1和μ2的一个无偏估计分别为Σ的一个联合无偏估计为其中111121,,,nxxx221222,,,nxxx121122111211nnjjjjxxxxnn和121212pSAAnn112,,iniijiijijAxxxxi估计的判别函数为这里。其判别规则为:若π1和π2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。ˆˆWxaxx1121212ˆ,pxxxaSxx1200ˆ,ˆ,xWxxWx若若21122ˆˆˆ||PP11212ˆpxxSxx误判概率的非参数估计若两组不能假定为正态组,则P(2|1)和P(1|2)可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:(1)令n(2|1)为样本中来自π1而误判为π2的个数,n(1|2)为样本中来自π2而误判为π1的个数,则P(2|1)和P(1|2)可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。1221122112||ˆˆ|,|nnPPnn出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,评估的结果自然就倾向有利于所构造的判别函数。事实上,在误判概率的估计中,构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)在构造判别函数时,只用了部分样本数据,损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比,该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。(3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价,造成不合理的信息重复使用,又几乎避免了构造判别函数时样本信息的损失。从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,⋯,n1。同样,从组π2中取出x2j,用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,⋯,n2。令n*(2|1)为样本中来自π1而误判为π2的个数,n*(1|2)为样本中来自π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。1221122112**||ˆˆ|,|nnPPnn2.Σ1≠Σ2时的判别判别规则也可采用另一种形式:选择判别函数为它是x的二次函数,相应的判别规则为221211111222,,WxdxdxxμΣxμxμΣxμ1200,,xWxxWx若若2211222212,,,,,,xdxdxxdxdx若若例2在例1中,设π1和π2这两个组的方差不相同,分别为,这时当μ1xμ2时,判别函数可简单地取为式中它是μ1与μ2的加权平均,常称为阈值点,如图所示。2212和,1,2iiixdxi,12121212211212121212*,,xxWxdxdxxx211212*判别规则为:实际应用中,μ1和μ2,Σ1和Σ2一般都是未知的,可由相应的样本值代替。12**,,xxxx若若方差不同时两组判别的阈值点二、多组距离判别设有k个组π1,π2,⋯,πk,它们的均值分别是μ1,μ2,⋯,μk,协方差矩阵分别是Σ1(0),Σ2(0),⋯,Σk(0),x到总体πi的平方马氏距离为判别规则为若Σ1=Σ2=⋯=Σk=Σ,则上述判别规则可作进一步简化。d2(x,πi)=(x−μi)′Σ−1(x−μi)=x′Σ−1x−2μi′Σ−1x+μi′Σ−1μi=x′Σ−1x−2(Ii′x+ci)其中,判别规则简化为:这里Ii′x+ci为线性判别函数。2112,,,,,iiiidxxμΣxμik221,,min,lliikxdxdx若111122,,,,,iiiiiIΣμcμΣμik1,maxllliiikxIxcIxc若当组数k=2时,可将上式写成此式等价于实践中μ1,μ2,⋯,μk和Σ1,Σ2,⋯,Σk一般都是未知的,它们的值可由相应的样本估计值代替。设是从组πi中抽取的一个样本,则μi可估计为(i=1,2,⋯,k)。1112221122,,xIxcIxcxIxcIxc若若12,,,iiiinxxx111iniijjxxn1200,,xWxxWx若若Σ1=Σ2=⋯=ΣK=Σ的情形Σ的联合无偏估计为其中n=n1+n2+⋯+nk,为第i组的样本协方差矩阵。实际应用中使用的判别规则是其中。111kpiiiSnSnk111()()iniijiijijiSxxxxn1ˆˆˆˆ,maxllliiikxIxcIxc若111122ˆˆ,,,,,ipiiipiISxcxSxikΣ1,Σ2,⋯,ΣK不全相等的情形Σi可估计为Si(i=1,2,⋯,k)。实际应用中使用的判别规则是其中221ˆˆ,,min,lliikxdxdx若2112ˆ,,,,,iiiidxxxSxxikΣ1,Σ2,⋯,ΣK是否假定为相等在实际应用中,Σ1,Σ2,⋯,Σk不太可能完全相等,我们需要关心的是,Σ1,Σ2,⋯,Σk之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定Σ1=Σ2=⋯=Σk=Σ,从而使用与此相应的判别规则。此时的判别函数为线性函数。如果对是否应该假定Σ1=Σ2=⋯=Σk=Σ拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较它们的误判概率,以决定采用何种判别规则进行判别。例3对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x4=流动资产/净销售额。数据列于表1,Ⅰ组为破产企业,Ⅱ组为非破产企业。编号组别x1x2x3x4编号组别x1x2x3x41Ⅰ-0.45-0.411.090.4524Ⅱ0.380.113.270.352Ⅰ-0.56-0.311.510.1625Ⅱ0.190.052.250.333Ⅰ0.060.021.010.426Ⅱ0.320.074.240.634Ⅰ-0.07-0.091.450.2627Ⅱ0.310.054.450.695Ⅰ-0.1-0.091.560.6728Ⅱ0.120.052.520.696Ⅰ-0.14-0.070.710.2829Ⅱ-0.020.022.050.357Ⅰ0.040.011.50.7130Ⅱ0.220.082.350.48Ⅰ-0.07-0.061.370.431Ⅱ0.170.071.80.529Ⅰ0.07-0.011.370.3432Ⅱ0.150.052.170.5510Ⅰ-0.14-0.141.420.4333Ⅱ-0.1-0.012.50.5811Ⅰ-0.23-0.30.330.1834Ⅱ0.14-0.030.460.2612Ⅰ0.070.021.310.2535Ⅱ0.140.072.610.5213Ⅰ0.0102.150.736Ⅱ0.150.062.230.5614Ⅰ-0.28-0.231.190.6637Ⅱ0.160.052.310.215Ⅰ0.150.051.880.2738Ⅱ0.290.061.840.3816Ⅰ0.370.111.990.3839Ⅱ0.540.112.330.4817Ⅰ-0.08-0.081.510.4240Ⅱ