经济管理学院程兰芳1第6章判别分析DiscriminateAnalysis§6.1判别分析的基本概念§6.2距离判别法§6.3贝叶斯(Bayes)判别法§6.4费歇尔(Fisher)判别法§6.5逐步判别法经济管理学院程兰芳2§6.1判别分析的基本概念它是判别一个样品属于哪一种类型的一种统计分析方法经济管理学院程兰芳3判别分析的应用十分广泛在生产、科研和日常生活中经常需要根据观测到的数据资料,对研究对象进行类别归属的判定。1.在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;2.在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;3.在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;经济管理学院程兰芳4判别分析的应用十分广泛4.在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;5.在气象学中,根据已有的气象资料(气温、气压、湿度等)来判断明天是阴天还是晴天。6.在医疗诊断中,根据某人多种体检指标(如体温、血压、白血球等)来判别此人是有病还是无病。再如,一个病人肺部有阴影,医生要判断他是患肺结核、肺部良性肿瘤还是肺癌?总之,在实际问题中需要判别的问题几乎到处可见。经济管理学院程兰芳5判别分析与聚类分析的区别聚类分析和判别分析有着相似之处,都是用来对样品进行分类,即分析每一个样品归属于哪一类。但是,判别分析是先已知某些样品的分类结果,然后总结出判别规则,是一种有指导的学习。即:判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行归类判别。而聚类分析则是有了一批给定的样品,而要划分的类型事先并不知道,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是一种无指导的学习。经济管理学院程兰芳6正因为如此,判别分析和聚类分析往往联合起来使用,例如,判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式,从而对新样品进行判别。判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样品去分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人根据其化验指标用这个判别公式进行诊断。经济管理学院程兰芳7判别分析适合解决的问题再例如:一个病人经胸透发现肺部有阴影,而肺结核、肺部肿瘤、肺癌这三种病,肺部都可能有阴影。大夫要依据这一症状以及有关信息,如阴影的大小、阴影的部位、边缘是否光滑、是否咳嗽、是否有痰、是否低烧等项指标,对该病人作出诊断。但问题是这三种病的症状并没有截然分明的界限,在没有进一步确诊之前,希望用统计推断的方法对其作出尽可能可靠的判断。经济管理学院程兰芳8判别分析适合解决的问题又如,根据已知的气象信息,如气温、气压、湿度、云图、风力、风速、风向等来判别明天是晴天还是阴天、是有雨还是无雨,这也是判别问题。经济管理学院程兰芳9抽象而概括地讲,判别分析的统计模型可以这样来描述:设有m个p元总体G1,G2,…,Gm分别服从一定的分布F1(x),F2(x),…,Fm(x),现在有一个新的p元样品,问:它最可能来自于这m个总体中的哪一个。即,该问题是要依据该样品的p项指标,判别它最可能来自哪一个总体?),...,(1pxxx经济管理学院程兰芳10针对上述肺病疾病问题,肺结核、肺肿瘤、肺癌就是三个总体,每一个总体的病人的p项指标都有一定的随机性,那个肺部有阴影的病人就是一个新的样品,已经测得其p项指标,需要判断它来自哪个总体,就意味着诊断出他患的是哪一种疾病。),...,(1pxxx经济管理学院程兰芳11判别分析的内容判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。处理判别问题常用的有四种统计方法:距离判别法、Bayes判别法、Fisher判别法和逐步判别法。下面进行简要的介绍。经济管理学院程兰芳12§6.2距离判别法基本思想:首先根据已知分好类的数据,分别计算各类的重心,即分组(类)的均值。判别准则是对任给的一次观测,即一个待判定样品,若它与第i类的重心距离最近,就认为它来自第i类。简言之,待判样品与哪一个类(即总体,或称为组)距离最近,就判定它属于哪一个类。距离判别法,对各类(或总体)的分布,并无特定的要求。经济管理学院程兰芳131、两个总体的距离判别法设有两个p元总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下表:今任取一个样品,实测指标值为X=(x1,…xp)’,问:该样品X应判归为哪一类?经济管理学院程兰芳14现在,既然是要用数学方法处理问题,就希望建立起客观的判别准则。一个自然的想法是客观合理地定义x到G1、G2的距离,分别记为D(X,G1)和D(X,G2)。然后,再按照距离最近的准则判别进行判别或归类。经济管理学院程兰芳15如果总体G1、G2的取值范围互相不重叠,那么只需要视样品落入哪个总体的取值范围,就可作出准确无误的判别。但问题往往是两总体的取值范围有重叠的部分(如前面的例子的图形),而新的样品正好落在这个重叠的部分上,这就使关于X的归属的判别难以做到绝对准确。这就是说,判别结论可能会是错误的,即后面将要讨论的判误概率。经济管理学院程兰芳16按照如下准则进行判别:经济管理学院程兰芳171.如果距离定义采用熟悉的欧氏距离,则点X到总体(或类)Gi的距离就用点X到总体均值向量u的距离来代表,而总体的均值向量u往往是未知的,只好用其样本均值作为其估计,即用点X到样本均值的距离来作为点到总体(或类)的距离的定义:然后比较D(X,G1)和D(X,G2)大小,按距离最近准则判别归类。X经济管理学院程兰芳18欧氏距离有明显的不足一方面,总体各分量的量纲可能不同,导致距离的量纲比较复杂(如学生体检时,要检查各种生理指标:身高、体重、白血球数,等,这些分量的量纲是不同的)。距离的大小关系可能会因为分量的量纲不同而发生相反的变化。下面两个例子可以说明这一点。经济管理学院程兰芳19另一方面,还应该考虑到G1、G2作为随机变量的总体的特殊性——取值的分散程度的差异(用方差来度量)对于取值很分散的总体,一个样品点X,即使距离它的“中心”很远,仍有可能是它的一个样本,而对于取值很集中的总体,该样品点即使距离它的均值不远,仍很可能不是它的样本。例如,一个平均成绩为9.5环的优秀射手与一个平均成绩为3环的业余射手,同时对一个靶子进行多次射击,其中有一个7环弹孔,我们需要判别是谁射的?经济管理学院程兰芳201.两个射手射击的例子若按照欧氏距离判别,7环当然是距离9.5更近,但优秀射手发挥通常是较稳定的,弹着点几乎都集中在9.5环的附近,打出7环的可能性较小;而业余射手的弹着点一般很分散,碰巧打出7环的可能性较大。这种情况说明,距离不仅仅要考虑均值,还要考虑到总体取值的分散程度,即方差因素。经济管理学院程兰芳21一元总体的情形:已知有两个类G1和G2,假如设备A生产的产品用G1表示,设备2生产的产品用G2表示,设备A生产的产品质量较高,比如用耐磨度来衡量质量的好与差,设备A生产的产品的平均耐磨度和反映耐磨度离散程度的量分别为,设备B生产的产品的耐磨度与耐磨度方差分别为现有一产品,测得其耐磨度x0=78,试判断该产品是哪一台设备生产的?25.0,8021)1(4,7521)1(2.判定产品由哪个设备生产的例子经济管理学院程兰芳22应将总体分布的离散性考虑进去直观地看,x0=78与(代表设备A生产的产品这个总体重心)的欧氏距离(一元情形就是绝对距离)更接近些,按照欧氏距离最近判别原则,应该将该产品判定为由设备A生产的。但是,更合适的度量距离应将总体取值的分散程度考虑进去,即采用相对距离,于是,该样品与这两个总体的相对距离的平方分别为80)1(25.24)7578()()(1625.0)8078()()(2222)2(00222212)1(0021xxdxxd经济管理学院程兰芳23因为d2(x0)=1.54=d1(x0),则按照距离准则,应判定x0为由设备B生产的。从下图中也可以看出,设备B生产的产品的耐磨度取值较为分散,出现x0=78的可能性较大,而设备A生产的产品耐磨度取值较集中,出现x0=78的可能性较小,因此,采用考虑了总体分散程度的马氏距离判定后,应判定x0=78为设备B生产的更为合理.经济管理学院程兰芳24经济管理学院程兰芳25总结:两个一元总体的马氏距离判别法经济管理学院程兰芳26在此例子中,因为只有一个指标,这时的判别函数为故判定*,7879*,)(0xxxyy,因且20Gx经济管理学院程兰芳27对于多元总体而言,上述对应的方差就成为协差阵Σ,为此,印度统计学家马哈拉诺比斯将欧氏距离修正,并推广到多元总体的情况,提出了样品x到总体Gi的马氏距离:可见,马氏距离无量纲,且与各分量的单位选取无关,从而克服了欧氏距离的缺陷。)()(),(1iiiixxGxD关于欧氏距离与马氏距离的优缺点,在上一章已经说明了。这里再一次强调。经济管理学院程兰芳28马氏距离的定义设总体G为p元总体(不一定是正态总体),均值向量与协方差阵分别为则样品X=(x1,x2,…,xp)’与总体G的马氏距离的平方定义为特别地,当p=1时,ppijp)(与),...,(21)()(),(12XXGXD2222)()()(),(xxxGxD经济管理学院程兰芳29下面用马氏距离对上述准则做较详细讨论分别为两个多元总体G1、G2的均值向量和协差阵。如果距离定义采用马氏距离,即:这时判别准则可分以下两种情况给出:设)2()1()2()1(,,,经济管理学院程兰芳30经济管理学院程兰芳31注意:这里的判别函数W(X)是带有常数项的xi的线性函数。经济管理学院程兰芳32经济管理学院程兰芳33经济管理学院程兰芳34两个总体情形下进行判别小结1.当两总体方差相等时,待判别的样品到两个总体的距离平方之差,此时是X的线性函数。此时,又分为两个总体的方差已知和未知两种情形。2.当两总体方差不相等时,待判别的样品到两个总体的距离平方之差,是X的二次函数。经济管理学院程兰芳352、多个总体的距离判别法经济管理学院程兰芳36由于这时两个协差阵是相等的,可以将其提取出来,从而能够化简成为上面的Wij(X)的形式。经济管理学院程兰芳37判别准则的含义这里的判别准则的含义为,对某个暂时固定的i,若对其他的所有的j,恒有Wij(X)0,则说明,该样品X到类Gi的距离平方比其他任何一类的距离平方都近,于是,就将该样品判别归入Gi类。经济管理学院程兰芳38经济管理学院程兰芳39由于这时两个协差阵是不相等的,从而就不能够继续化简成为很简单的Wij(X)的形式。经济管理学院程兰芳40例1:人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP《人类发展报告