判别分析距离判别贝叶斯判别逐步判别典型判别例中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:§1什么是判别分析总负债率收益性指标短期支付能力生产效率指标类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。§2距离判别(一)马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。设是从期望μ=和方差阵Σ=的总体G抽得的两个观测值,则称为X与Y之间的Mahalanobis距离和),,,(21mxxxx),,,(21myyyy),,,(21m0mmij)()(),(2yxyxyx1dkiGdiii,,2,1)()(),(2xxx1样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:(二)两个总体距离判别法先考虑两个总体的情况,设有两个协差阵相同的p维正态总体和,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来指定判别规则,有:),(),(22121222222121GydGydGdGdGGdGdG如待判,,,如,,,,如,yyyyyy1、方差相等)()()()(),(),(1112121222yyyyyyGdGd22211yyy12)(2211y)()(21211)(]2)([221121y221令),,,()(21paaa211)2(111111yyy则前面的判别法则表示为0)(0021YWWGWG如待判,。)(如,,)(如,yyyy当和已知时,是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。21,)(211)yyy()()(W)()(111pppyayaμαyα例在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41劳动生产率40.729.840.2454.5811.67产品净值率10.76.221.4111.677.90854988.0025659.028276.0025659.0033129.002753.028276.002753.0119337.015.49.101.82145.825.3545.92/)(2183679.125362.060581.0)(211判别函数的系数73596.1883679.125362.060581.045.825.3545.9)(221121)判别函数的常数项(73596.1883679.125362.060581.0321xxxy)第一个新企业属于一类(00892.473596.186.983679.11.3925362.08.760581.01y)第二个新企业属于二类(02956.273596.189.683679.12.3425362.01.860581.02y线性判别函数:2、当总体的协方差已知,且不相等),(),(22121222222121GydGydGdGdGGdGdG如待判,,,如,,,,如,yyyyyy)()()()(),(),(111121221222yyyyyyGdGd当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体):(1)分别计算各组的离差矩阵S1和S2;(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,得分,判类。2ˆ2121nnSS2,,ˆ2121121,)(211判别函数的系数)(221121)判别函数的常数项(随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵Σi=Σ,各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数)(三)多总体的距离判别法)()(),(12iiiGdyyyiii1211yyy上式中的第一项Y’Σ-1Y与i无关,则舍去,得一个等价的函数iiiiYg12)(1y将上式中提-2,得)5.0(2)(1iiiiYg1y)5.0()(1iiiiYf1y令则距离判别法的判别函数为:判别规则为likilGyxfyf,则)(max)(1最大)5.0()(1iiiiYf1y注:这与前面所提出的距离判别是等价的.最小)()(),(122iiiGdyyy)5.0()(1iiiiYf1y令(四)对判别效果做出检验1、错判概率由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。)2()2()(2122221222XPXPXP错判概率:)2(2122XP)2(1212、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。ii1G2GkG1G11m12mkm11n2G21m22mkm22nkG1km2kmkkmkn判类原类合计kiikijjijmnp11简单错判率:加权错判率:设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为ikiipqP1距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。§3贝叶斯判别法)/()()/(//(坏人做好事坏人好人做好事好人好人做好事好人做好事)好人PPPPPPP82.02.05.09.05.09.05.0一、标准的Bayes判别)/()()/(//(坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人PPPPPPP18.02.05.09.05.02.05.0距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式)()|()()|()|(iiiiiBPBAPBPBAPABP设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0x),,2,1(kiGi)()()|(000xfqxfqxGPjjiii判别规则)()()|(000xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则判给。在正态的假定下,为正态分布的密度函数。0xlG)(xfi),(max)(100kiiillxfqxfq则判给。0xlG)]()(21exp[)2(1)()(1)(21