fisher函数

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

66第六章判别分析§6.1什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常;在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。§6.2距离判别法基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法,对各类(或总体)的分布,并无特定的要求。1两个总体的距离判别法设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。今任取一个样品,实测指标值为),,(1pxxX,问X应判归为哪一类?首先计算X到G1、G2总体的距离,分别记为),(1GXD和),(2GXD,按距离最近准则67判别归类,则可写成:),(),(,),(),(,),(),(,21212211GXDGXDGXDGXDGXGXDGXDGX当待判当当G1总体:G2总体:变量样品1x2x…px变量样品1x2x…px)1(1x)2(11x)2(12x…)2(1px)2(1x)2(11x)2(12x…)2(1px)1(2x)2(21x)2(22x)2(2px)2(2x)2(21x)2(22x)2(2px)2(1nx)2(11nx)2(21nx…)2(1pnx)2(2nx)2(12nx)2(22nx…)2(2pnx均值)1(1x)1(2x…)1(px均值)2(1x)2(2x…)2(px记2,1,),,()()(1)(ixxXipii如果距离定义采用欧氏距离,则可计算出paaaxxXXXXGXD12)1()1()1(1)()(),(paaaxxXXXXGXD12)2()2()2(2)()(),(然后比较),(1GXD和),(2GXD大小,按距离最近准则判别归类。由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。设)1(、)2(,)1(、)2(分别为G1、G2的均值向量和协有效期阵。如果距离定义采用马氏距离即2,1)()()(),()(1)()(2iXXGXDiiii这时判别准则可分以下两种情况给出:(1)当)2()1(时考察),(22GXD及),(12GXD的差,就有:)2(1)2()2(1112222),(),(XXXXGXDGXD]2[)1(1)1()1(11XXX)()()(2)2()1(1)2()1()2()1(1X)()(212)2()1(1)2()1(X令)(21)2()1()()()()2()1(1XXW则判别准则可写成:68),(),(D0)(,),(),(D0)(,),(),(D0)(,12221222212221GXDGXXWGXDGXXWGXGXDGXXWGX即当待判即当即当当)2()1(,,已知时,令),,()(1)2()1(1paaa则pppxxaaXaaXXW),,()()()(111)()(111pppxaxa显然,W(X)是pxx,,1的线性函数,称W(X)为线性判别函数,a为判别系数。当)2()1(,,未知时,可通过样本来估计。设)()(2)(1,,,iniiiXXX来自Gi的样本,i=1,2。11)1()1(1)1(1ˆniiXXn21)2()2(2)2(1ˆniiXXn)(21ˆ2121SSnn其中intiitiitiXXXXS1)()()()())(()(21)2()1(XXX线性判别函数为:)(ˆ)()()2()1(1XXXXXW当p=1时,若两个总体的分布分别为),(21N和),(22N,判别函数)(1)2()(21221XXW,不妨设21,这时W(X)的符号取决于X或X。当X时,判1GX;当X时,判2GX。我们看到用距离判别所得到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为)1/2(P,类似有)2/1(P,显然)1/2(P=)2/1(P=2121。当两总体靠得很近(即|21|小),则无论用何种办法,错判概率都很大,这时作判别分69析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。(2)当)2()1(时按距离最近准则,类似地有:),(),(,),(),(,),(),(,21212211GXDGXDGXDGXDGXGXDGXDGX当待判当当仍然用),(),()(1222GXDGXDXW)()()()2(1)2()2(XX)()()()1(1)1()1(XX作为判别函数,它是X的二次函数。2多个总体的距离判别法类似两个总体的讨论推广到多个总体。设有k个总体G1,…,Gk,它们的均值和协差阵分别为kiii,,1,,)()(,从每个总体Gi中抽取ni个样品,i=1,…,k,每个样品测p个指标。今任取一个样品,实测指标值为),,(1pxxX,问X应判归为哪一类?G1总体:…Gk总体:变量样品1x2x…px变量样品1x2x…px)1(1x)1(11x)1(12x…)1(1px)(1kx)(11kx)(12kx…)(1kpx)1(2x)1(21x)1(22x)1(2px)(2kx)(21kx)(22kx)(2kpx)2(1nx)1(11nx)1(21nx…)1(1pnx)(2knx)(12knx)(22knx…)(2knpx均值)1(1x)1(2x…)1(px均值)(1kx)(2kx…)(kpx记向量kixxxXipiii,,1),,,()()(2)(1)((1)当)()1(k时此时k,1,i)()(),()(1)(2iiiXXGXD判别函数为:)],(),([21)(22ijijGXDGXDXWk,1,ji,)(21)()(1)()(jijiX相应的判别准则为:0)(W,,0)(W,ijijXijXGXi若有某一个待判对一切当当)1()1(,,,未知时可用其估计量代替,设从Gi中抽取的样本为kiXXinii,,1,,,)()(1,则)(ˆi,ˆ的估计分别为inaiaiiikiXnX1)()()(,,11ˆ70kiiSkn11ˆ其中inaiiaiiaiiXXXXSnnn1)()()()(1))((,为Gi的样本离差阵。(2)当)()1(,,k不相等时此时判别函数为:)(][)()()(1)()(jjjjiXVXXW)(][)()(1)()(iiiXVX相应的判别准则为:0)(W,,0)(W,ijijXijXGXi若某一个待判对一切当当),,1(,)()(kiii未知时,可用)()(,ii的估计量代替,即)()(ˆiiXkiSniii,,111ˆ)(例1人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP《人类发展报告》1995年。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。数据选自《世界经济统计研究》1996年第1期类别序号国家名称出生时的予期寿命(岁)x1成人识字率(%)1992x2调正后人均GDP1992x3第一类(高发展水平国家)12345美国日本瑞士阿根廷阿联酋7679.57872.173.899999995.977.753745359537252425370第二类(中等发展水平国家)678910保加利亚古巴巴拉圭格鲁吉亚南非71.275.37072.862.99394.991.29980.642503412339023003799待判样品11121314中国罗马尼亚希腊哥伦比亚68.569.977.669.379.396.993.890.31950284052335158本例中变量个数p=3,两类总体各有5个样品,即521nn,有4个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下:714.534308.9488.75)1(X2.343074.9144.70)2(X(2)计算样本协差阵,从而求出ˆinaaaXXXXS1)1()1()1()1(1))((2.1298724.25274.44824.252228.344022.5674.448022.56228.36类似地21)2()2()2()2(2))((naaaXXXXS8.208738454.1131674.489554.11316672.188682.11774.4895682.117812.86经计算210037278.11568444778.115689.5327

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功