第七讲-判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七讲判别分析第一节什么是判别分析第二节距离判别法第三节典型判别法(Fisher)第四节贝叶斯判别法第五节逐步判别法※例中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:第一节什么是判别分析……判别分析得:聚类分析数据格式k一、判别分析数据格式判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于20世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。聚类分析与判别分析间的联系对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分析与聚类分析往往要结合起来使用。先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification)研究判别分析的方法很多,不同的研究方法有不同的分类:1、按判别的组数来分,有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型来分,有线性判别和非线性判别3、按判别对所处理的变量方法不同有逐步判别、序贯判别。4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则、最小平方准则、最大似然准则。二、判别分析方法用数学的语言来说,判别问题可以表述为:对于m类总体G1,G2,……,Gm,其分布函数分别为f1(y),f2(y),……fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。判别分析的方法与模型判别函数从研究角度考虑,我们可以把判别函数分为两大类,最佳型判别函数和固定型判别函数,一个最佳型的判别函数仅根据所采用的判别规则而定,而固定型判别函数的形式是由经验或部分经验选定的,所用的规则仅用来确定判别函数的未知参数。就函数类型而言,一般的判别函数有两类,即线性函数和非线性函数。比如,对于固定型判别函数,我们可以将其表示为:在求判别函数的未知参数Ci时,可由各种各样的最优规则,常用的有Fisher准则、Bayes准则、最小二乘准则等。nkkknnNXCXCXCXCXXXfy1221121),,,(三、判别分析步骤定义组建立判别函数估计判别函数检验判别函数(组间最优判别)检验判别变量(判别变量判别意义检验)将新元素分类(距离、Fisher、Bayes)第二节距离判别法距离判别法就是根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类(或总体)的分布,并无特别的要求。一、距离欧氏距离缺陷:①与总体的变异程度有关②受量纲变化的影响马氏距离)()(),(2YXYXYXd2(,)(dG-1xx-μ)Σ(x-μ)马氏距离的特点:1、马氏距离不受计量单位的影响2、马氏距离是标准化后的变量的欧式距离二、两个总体的距离判别法),(),(,),(),(,),(),(),(),(,),,,212122112121212121GXDGXDGXDGXDGXGXDGXDGXGXDGXDGGXXxxxXpnnGGp当待判当当,归类,则可以写成:,按距离最近原则判别和总体的距离,分别记为、到首先计算应判归那一类?问=(指标值为今取任一个样品,实测个指标。个样品,每个样品观测从第二个总体中抽取个样品,,从第一个总体中抽取、设有两个总体时==当、)()(211)(21)()(,(,()(,(,()2()1()2()1(112221222+=其中:)))的差有)与考察XGXDGXDXWGXDGXD若采用欧氏距离,则种情况:判别准则可分为以下两归类。大小,按最近准则判别,然后比较((((),(),())),())),(21)2()2(2)1()1(1GXDGXDXXXXGXDXXXXGXD:马氏距离2,1))(),()(1)(2212121iXXGXDGGiiii()=(即的均值向量与协方差。、分别为、,、设)()()()()(称为判别系数。为线性判别函数。称的线性函数。,,,是显然,)-=(则已知时,令、、当即=当待判即当即当,则判别准则可以写成:)()(aXWxxxXWxaaxaaXXWaaaaGXDGXDXWGXDGXDXWGXGXDGXDXWGXppppp)()()()()()(),,,()(),(),(,0)(,),(),(,0)(,),(),(,0)(2122111212)1(12)1(22122212222121)(ˆ)()()(21,))(()(21ˆ1ˆ,1ˆ21,,,)2()1(1)2()1(1)()()()(i212121i1)2()2(221)1()1(11i)()(2)(12)1(21XXXXXWXXXXXXXSGssnnGXXnXXniGXXXiintiitiitiniiniiinii线性判别函数为:其中:的无偏估计量。协差阵是总体的无偏估计量。,期望是总体==。,=的样本,来自设来估计。未知时,可以通过样本、、即当的,值和协差阵一般是未知在实际应用中,总体均)(。时,时,当。或的符号取决于,这时不妨设判别函数,和分布分别为时,若两个正态总体的当我们注意到:2121212212221,)(),(1))2(()(),(),(1GXXGXXXXXWXXWNNp我们看到用距离判别所得到的准则是比较合理的。但从下图又可以看出,用这个方法也会错判。如X来自G1,但却落入D2,被判为属于G2,错判的概率为图中阴影的面积,记为P(2/1),类似有P(1/2)。12)的概率,,而误判为来自表示用)的概率,,而误判为来自表示用22122112110)((0)((GxxWPeGGxeGxxWPeGGxeaaaaaaNyayWNpyGyGG)),于是令时即皆为正态组,则当,若212121211121(()().),(21(~)()(:),(~,122,2)0)((2221)()0)((),21(~)(212222eeyWPGyyWpyWPNyW故两个误判概率相同:时,同理,所以从而误判概率作出估计和对误判率可使用相互验证方法不能假定为正态组,则,若2121eeGG分析才有意义。显著性差异时,作判别有只有当两个总体的均值析是没有意义的,因此都很大,这时作判别分错判的概率,则无论用何种办法,-即当两总体靠的很近时()21时当、)()(212的二次函数。作为判别函数,它是仍然用当待判当当,类,类似的也有:按距离最近原则判别归XXXXXGXDGXDXWGXDGXDGXDGXDGXGXDGXDGX)()()()()()(),(),()(),(),(,),(),(,),(),()1(1)1()1()2(1)2()2(122221212211对全国30个省市自治区1994年影响各地区经济增长的制度变量:x1——经济增长率;x2——非国有化水平;x3——开放度;x4——市场化程度作判别分析。表1影响各地区经济增长差异的制度变量(1994)(%)序号地区X1X2X3X41辽宁11.257.2513.4773.422河北14.967.197.8973.09……27西藏15.621.4428.6246.0128江苏16.580.058.8173.0429安徽20.681.245.3760.4330陕西8.642.068.8856.37例1前11个样品假设为第一类地区,第12至27号为第二类地区。试以江苏、安徽、陕西做为试判样品做判别分析。0255.00020.00098.00126.00020.00059.00020.00123.00098.00020.00105.00231.00126.00123.00231.01686.0118.645136.9732.69461.55136.9034.2026656.12784.14732.696656.1056.212985.23461.5278.14985.238545.92)6995.15,9209.15,9219.24,1738.4()105.58,228125.9,10625.40,5625.11()80455.73,14909.25,02818.65,73636.15(111)2()1()2()1(==和而求出)计算样本协差阵,从(值)两类地区各变量的均(解:--XXXX为第二组。为第一组,,所以由于对已知类别的样品回判得解线性方程组)求线性判别函数(-0)(0)()4(7902.161765.00609.00443.01294.0))(21()()()1765.0,0609.0,0443.0,1294.0()()(3)2()1(54321)2()1()2()1(1)2()1(XWXWXXxxxxxXXXaXXaXWaXXaXXa样品序号W(X)原类号回判组别10.98011121.503111…………24-4.08742225-7.42312226-5.65042227-3.952322回判结果如下表:上述回判结果表明,第一组只有第10个样品回判组号与原组号不同,其余完全相同;第二组各样品回判组号与原组号完全相同。10号样品可能是属于分组时错分的样品,总的会代判对率为96.3%。(5)对待判样品判别分类样品序号W(X)判别类别282.32781290.4752130-3.31832待判样品中江苏、安徽被判为第一组,陕西为第二组。与实际情况较吻合。在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人;产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下:变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41劳动生产率40.729.840.2454.5811.67产品净值率10.76.221.4111.677.90现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?例21230.605810.253621.8367918.7359yxxx10.605817.80.2536239.11.836799.618.735964.08920y20.605818.10.2536234.21.836796.918.735962.29560y线性判别函数:观测值(7.8,

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功