《应用多元统计分析》第五版PPT(第五章)-简化版(JMP13.1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章判别分析§5.1引言§5.2距离判别§5.3贝叶斯判别§5.4费希尔判别1判别分析的目标目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。2§5.1引言要判定一个样品的归属,理想的情况似乎是能够获得完备的用于分类的信息,以作出准确的判断。但这往往是不太现实的,因为要获得完备的信息可能根本做不到(如《红楼梦》后四十回的作者到底是谁)要做破坏性的试验(如欲获知某电子仪器的寿命)成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。实践中往往是依据不完备信息来进行判别分类的。3判别分类的例子有偿付力与无偿付力的财产责任保险公司。测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度。4两种野草。测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。新产品的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。良好信用与不良信用风险。测量变量:收入,年龄,信用卡数目,家庭规模。5本章讨论的判别分析每一组中所有样品的p维指标值构成了该组的一个p元总体分布。我们对新样品x进行的判别归类将在很大程度上依赖于各组的总体分布或其分布特征。距离判别和贝叶斯(Bayes)判别只能用于分类。费希尔(Fisher)判别即可用于分类,也可用于分离,且更多地用于后者。这些都是基于判别变量为定量变量的。612,,,pxxxx§5.2距离判别一、两组距离判别二、多组距离判别7一、两组距离判别设组π1和π2的均值分别为μ1和μ2,协差阵分别为Σ1和Σ2(Σ1,Σ20),x是一个新样品(p维),现欲判断它来自哪一组。(基于马氏距离的)判别规则:1.Σ1=Σ2=Σ时的判别2.Σ1≠Σ2时的判别82211222212,,,,,,ddddxxxxxx若若1.Σ1=Σ2=Σ时的判别922121111221111111112221112111221121121211212,,==22=2=22222ddxxxμΣxμxμΣxμxΣxxΣμμΣμxΣxxΣμμΣμxΣμμμΣμμΣμxΣμμμμΣμμμμxΣμμxμaaxμ其中。令,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。Wxaxμ1121212μμμaΣμμ,12,0,0WWxxxx若若10(5.2.3)误判概率误判概率设π1~Np(μ1,Σ),π2~Np(μ2,Σ),则其中是两组之间的马氏距离。可见,两个正态组越是分开(即Δ越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。122|10|1|20|PPWPPWxxxx2|11|22PP11212μμΣμμ11组之间是否已过于接近的界定我们可对假设H0:μ1=μ2,H1:μ1≠μ2进行检验,若检验接受原假设H0,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的。若检验拒绝H0,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大,此时还应看误判概率是否超过了一个合理的水平。12例5.2.1设p=1,π1和π2的分布分别为N(μ1,σ2)和N(μ2,σ2),μ1,μ2,σ2均已知,μ1<μ2,则判别系数a=(μ1−μ2)/σ2<0,判别函数:判别规则:误判概率:误判概率图示:Wxax12,,xxxx若若122|11|222PP13抽取样本估计有关未知参数设是来自组π1的样本,是来自组π2的样本,n1+n2−2≥p,则μ1和μ2的一个无偏估计分别为Σ的一个联合无偏估计为其中111121,,,nxxx221222,,,nxxx121122111211nnjjjjnnxxxx和112212112pnnnnSSS11,1,21iniijiijijiinSxxxx14实际使用的判别函数为这里。其判别规则为若π1和π2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。ˆˆWxaxx112121ˆ,2pxxxaSxx12ˆ,0ˆ,0WWxxxx若若ˆˆˆ2|11|22PP11212ˆpxxSxx15(5.2.5)误判概率的非参数估计若两组不能假定为正态组,则P(2|1)和P(1|2)可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:(1)回代法令n(2|1)为样本中来自π1而误判为π2的个数,n(1|2)为样本中来自π2而误判为π1的个数,则P(2|1)和P(1|2)可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。122|11|2ˆˆ2|1,1|2nnPPnn16出现误判率低估的原因同样的样本信息被重复使用。判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。17(2)划分样本将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对该判别函数进行评估。误判概率用验证样本的被误判比例来估计,其估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数相比,损失了过多有价值的信息,其效用自然不如后者,表现为前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,甚至可基本忽略。18(3)交叉验证法(或称刀切法)从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,⋯,n1。同样,从组π2中取出x2j,用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,⋯,n2。令n*(2|1)——样本中来自π1而误判为π2的个数n*(1|2)——为样本中来自π2而误判为π1的个数则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。19**122|11|2ˆˆ2|1,1|2nnPPnn以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方法或判别情形,并且可类似地推广到多组的情形。202.Σ1≠Σ2时的判别判别规则:也可采用另一种形式:选择判别函数为它是x的二次函数,相应的判别规则为221211111222,,WddxxxxμΣxμxμΣxμ12,0,0WWxxxx若若2211222212,,,,,,ddddxxxxxx若若21(5.2.10)例5.2.2在例5.2.1中,设π1和π2这两个组的方差不相同,分别为,这时当μ1xμ2时,判别函数可简单地取为式中它是μ1与μ2的加权平均,常称为阈值点,如图5.2.2所示。2212和,1,2iiixdxi,121212*12211212121212,,xxWxdxdxxx*21121222判别规则为实际应用中,μ1和μ2,Σ1和Σ2一般都是未知的,可由相应的样本值代替。*1*2,,xxxx若若图5.2.2方差不同时两组判别的阈值点23二、多组距离判别设有k个组π1,π2,⋯,πk,它们的均值分别是μ1,μ2,⋯,μk,协方差矩阵分别是Σ1(0),Σ2(0),⋯,Σk(0),x到总体πi的平方马氏距离为判别规则为该判别规则不受变量单位的影响。若Σ1=Σ2=⋯=Σk=Σ,则上述判别规则可简化。d2(x,πi)=(x−μi)′Σ−1(x−μi)=x′Σ−1x−2μi′Σ−1x+μi′Σ−1μi=x′Σ−1x−2(Ii′x+ci)其中,判别规则简化为21,,1,2,,iiiidikxxμΣxμ221,,min,lliikddxxx若111,,1,2,,2iiiiicikIΣμμΣμ24这里Ii′x+ci为线性判别函数。当组数k=2时,可将上式写成它等价于(5.2.3)式的判别规则:因为1,maxllliiikccxIxIx若1112221122,,ccccxIxIxxIxIx若若25(5.2.14)(5.2.15)1122WccxIxIx12,0,0WWxxxx若若实践中μ1,μ2,⋯,μk和Σ1,Σ2,⋯,Σk一般都是未知的,它们的值可由相应的样本估计值代替。设是从组πi中抽取的一个样本,则μi可估计为(i=1,2,⋯,k)。12,,,iiiinxxx111iniijjnxx26Σ1=Σ2=⋯=Σk=Σ的情形Σ的联合无偏估计为其中n=n1+n2+⋯+nk,为第i组的样本协方差矩阵。实际应用中使用的判别规则是其中。111kpiiinnkSS11()()1iniijiijijinSxxxx1ˆˆˆˆ,maxllliiikccxIxIx若111ˆˆ,,1,2,,2ipiiipicikISxxSx27(5.2.17)Σ1,Σ2,⋯,Σk不全相等的情形Σi可估计为Si(i=1,2,⋯,k)。实际应用中使用的判别规则是其中221ˆˆ,,min,lliikddxxx若21ˆ,,1,2,,iiiidikxxxSxx28(5.2.18)判别分类是否有效除非各组均值向量之间有明显的差异,否则就不适合作判别分类。在各组数据满足一定的条件下,可先进行多元方差分析。如果检验没有发现均值间有显著差异,则此时再作判别分类将是白费精力如果检验结果有显著差异,则可考虑再进行判别分类,但并不意味着所作的判别一定有效,最终还得看一下误判概率。29采用线性还是二次判别函数的策略(1)一般而言,如果各组的样本容量普遍较小,则选择线性判别函数应是一个较好的策略。相反地,如果各组的样本容量都非常大,则更倾向于采用二次判别函数。(2)对Σ1,Σ2,⋯,Σk作齐次性检验,即检验假设H0:Σ1=Σ2=⋯=Σk,H1:Σ1,Σ2,⋯,Σk不全相等即使检验所需的正态性假定能够满足,检验的结果也只能作为重要的参考依据,而不宜作为决定性的依据,最终还是应视具体的情况而定。30(3)我们有时也凭直觉判断一下计算出的S1,S2,⋯,Sk是否比较接

1 / 74
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功