EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲:统计学院许启发(xuqifa1975@163.com)统计学院应用统计学教研室SchoolofStatistics2004年9月注意电子文档使用范围第页1第三章判别分析【教学目的】1.让学生了解判别分析的背景、基本思想;2.掌握判别分析的基本原理与方法;3.掌握判别分析的操作步骤和基本过程;4.学会应用聚类分析解决实际问题。【教学重点】1.注意判别分析与聚类分析的关系(联系与区别);2.阐述各种判别分析方法。§1概述一、什么是判别分析1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标12,,,pXXXX来表征的,即不同类型的X的观测值在某种意义上有一定的差异。当得到一个新样本观测值(或个体)的关于指标X的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析(discriminantanalysis)是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。2.基本思想及意义用统计的语言来描述判别分析,就是已知有g个总体12,,,gGGG(每个总体iG可认为是属于iG的指标12,,,pXXXX取值的全体),它们的分布函数12(),(),,()gFxFxFx均为p维函数,对于任一给定的新样本观测值关于指标X的观测值12,,,pxxxx,我们要判断该样本观测值应属于这g个总体中的哪一个。在实际应用中,通常由取自各总体的关于指标X的样本为该总体的代表,该样本称为训练样本。判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的,因此对当前的新样本观测值,我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样本观测值的所属类型。概括起来,下述几个方面体现了判别分析的重要意义。第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将濒临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。第二,避免破产的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用第页2到判别分析。第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验和手术得到确诊,但通常人们往往更希望通过便于观测(从而也可能导致误诊)的一些外部症状来诊断,以避免过大的开支和对患有不必要的损伤。第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这时可以用这位已故作家署名作品的写作特点(用一些变量描述)为训练样本,用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。从以上例子也可以清楚地看到,如果不是利用直接明确的分类信息来判断某样本观测值的归属问题,难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小,或误判损失最小等)的准则来判定一个新样本属于哪一个总体。根据判别准则的不同,我们主要介绍距离判别、Fisher判别和Bayes判别。二、判别分析的分类及准则1.分类(1)按照判别组数分:两组判别和多组判别;(2)按照所用的数学模型分:线性判别和非线性判别;(3)按照处理度量的方法分:逐步判别和序贯判别。2.准则主要有:马氏距离最小准则,Fisher准则,平均损失最小准则,最小平方准则,最大似然准则,最大概率准则。并可由此提出判别方法:距离判别法,Fisher判别法,Bayes判别法,逐步判别法。三、判别分析与聚类分析判别分析是用以判别个体所属群体的一种统计分析方法,产生于20世纪30年代。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知样品进行判别分类。聚类分析,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。判别分析与聚类分析经常结合使用:通过聚类分析首先确定出几个类型,对难以分类的样品再使用判别分析,确定其类别归属。第页3§2距离判别法距离判别是通过定义样本指标X的观测值x(p维)到各总体的距离,以其大小判定样本观测值属于哪个总体。常用的距离是Mahalanobis距离(简称马氏距离),其定义如下:设G是p维总体,均值向量为,协方差矩阵为,定义p维样本x到总体G的马氏距离为1/2,dxGxx一、基本思想首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值。判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类总体分类并无特殊的要求。二、两个总体的距离判别法设有两个总体(或称两类)1G、2G,其均值向量和协差阵分别为(1)(2),和(1)(2),,从第一个总体中抽取1n个样品,从第二个总体中抽取2n个样品,每个样品测量p个指标。1G总体2G总体变量样品1x2xpx变量样品1x2xpx(1)1X(1)11X(1)12X(1)1pX(2)1X(2)11X(2)12X(2)1pX(1)2X(1)21X(1)22X(1)2pX(2)2X(2)21X(2)22X(2)2pX1(1)nX1(1)1nX1(1)2nX1(1)npX2(2)nX1(2)1nX1(2)2nX1(2)npX均值(1)1x(1)2x(1)px均值(2)1x(2)2x(2)px任取一样品(待判)X,实测指标值为12,,,pxxxx,问X应归并为哪一类?1.计算X到总体1G和2G的距离,分别记为:1(,)DXG和2(,)DXG;2.判别12112212(,)(,)(,)(,)(,)(,)DXGDXGXGDXGDXGXGDXGDXG则则则待判3.距离的定义(马氏距离)12()()()(,)1,2iiiiDXGXXi(1)当(1)(2)时此时,考察样品X到两总体的马氏距离的平方差,由于2221(,)(,)DXGDXG(2)1(2)(1)1(1)()()()()XXXX11(2)(2)1(2)11(1)(1)1(1)22XXXXXX1(1)(2)(2)1(2)(1)1(1)(1)1(2)(2)1(1)2()X1(1)(2)(1)(2)1(1)(2)2()X(1)(2)1(1)(2)122X1(1)(2)2X第页4其中,1212。令112()WXX,则判别准则可以简化为:12()0()0()0WXXGWXXGWX则则则待判更进一步,令112,则()WX可表示为:112212111(),,,ppppppXXWXXXXXX上式表明,当(1)(2),和均已知时,()WX是12,,,pXXX的线性函数,称之为线性判别,称之为判别系数。线性判别函数因其使用方便而得到广泛的应用。但在实际问题中,(1)(2),和通常是未知的,我们所具有的资料只是来自两个总体的训练样本。这时,可以通过训练样本对(1)(2),及作估计。设()()1,,iiinXX为来自iG的样本(每个(),1,2,,ikiXkn均为p维列向量),1,2i,则()()()11ˆiniiikkiXXn1,2i1122121212111ˆ22nVnVSSnnnn式中,()()()()1iniiiiikkkSXXXX,11iiiVSn为样本的协差阵。()ˆi和ˆ为无偏估计。这时,判别函数()WX的估计为112ˆˆˆˆˆ()WXX其中,1122ˆˆˆ。则12ˆ()0ˆ()0ˆ()0WXXGWXXGWX则则则待判NOTE:对于当1p维时,若两个总体的分布分别为21(,)N和22(,)N,属于多维的一种特例。教材P105给出该特例形式,并且给出了错判的概率。(2)当(1)(2)时正如本节开始所述,可由21(,)DXG和22(,)DXG的大小判定X属于哪个总体,或令221121222111(),,WXDXGDXGXXXX作为判别函数,这时判别函数()WX是X的二次函数。实际应用中,若(1)(2),和(1)(2),未知,可用总体的训练样本对它们作估计,从而得到判别函数()WX的估计为11222111ˆˆˆˆˆ()WXXVXXVX其中,(1)(2),与12,VV表达同上。三、多个总体的距离判别①设有k个p维总体12,,,kGGG,均值向量分别为(1)(2)(),,,k,协方差矩阵分别为(1)(2)(),,,k,从每个总体iG中抽取in个样品,每个样品测量p个指标(1,2,,ik)。类似两总体的距离差别,计算新①将两个总体的情况推广到多个总体。第页5样本观测值X到各总体的距离,比较这k个距离,判定X属于其距离最短的总体(若最短距离不惟一,则可将X归于具有最短距离总体中的任一个,因此,不妨设最短距离惟一)。下面仍就各协方差矩阵相等和不等的情况予以详细讨论。1.当(1)()k时此时,由前面的马氏距离定义知:12()()()(,)1,2,,iiiiDXGXXik,则判别函数为:22()()1()()121()(,)(,)2ijijijjiWXDXGDXGX则X到iG的距离最小等价于对所有的ji,有()0ijWX,从而判别准则可以写为()0,()0ijiijWXjiXGWX当对一切则若有某一个则待判当(1)(2)(),,,k和通常是未知的,可以利用各总体的训练样本对其进行估计,得到估计的判别函数。设()()1,,iiinXX为来自iG的样本(每个(),1,2,,itiXtn均为p维列向量),1,2,,ik,则()()()11ˆiniiittiXXn1,2,,ik1121ˆkiikSnnnk式中,(