第4章判别分析4.1判别分析简介1.判别分析:是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多元统计分析方法。又称识别分析,或归类分析。优秀良好中等样本数据?2.判别分析与聚类分析的区别有标签的分类无标签的分类1X2X3X1X2X3X1X2X3X判别分析:通过判别函数聚类分析:根据相似程度2.判别分析的原理根据已知分类的数据建立判别函数应用到未知分类的样本***3.判别方法分类距离判别法贝叶斯判别法费歇判别法逐步判别法4.2距离判别法思想:样品和哪个总体的距离最近,就判它属于哪个总体。1.两总体情况1G总体2G总体),(11),(22维的样品是一个px??定义判别函数:),,(),()(1222GxdGxdxW0)(xW,1Gx0)(xW,2Gx0)(xW,待定2,1),()(),(12ixxGxdiiii一般选择马氏距离:判别例:设两个总体G1和G2的均值向量和协方差阵分别为,6.71.21.28.5,1511122,23试用距离判别法判断样本x=(6,0)T属于那个总体?解:),,(),()(1222GxdGxdxW)()()()(11112122xxxx44.067.1所以x属于G1练习:)2,0(:21NG按距离判别法判断样品x=2.5属于哪一类?)1,3(:22NG设两个总体的分布分别为解:),,(),()(1222GxdGxdxW)()()()(11112122xxxx22222)05.2(1)35.2(03125.1样品x=2.5属于G221设),,(),()(1222GxdGxdxW2112122x212x距离判别法的合理性分析:)1/2(P)2/1(P结论:距离判别法是合理的,适用于任何总体;只有当两总体样本均值有显著差异时,距离判别分析才是有意义的。用这种判别方法是会发生误判的;先要对两总体的均值差异性进行检验落在附近的样品按上述判别规则虽可进行判断,但误判的可能性较大。说明:当两总体均值和协方差阵都未知可用样本来估计。:1G:2G)1()1(2)1(11,,,nxxx)2()2(2)2(12,,,nxxx)1(1ˆx)2(2ˆx11111ˆLn22211ˆLn时,21)(21ˆ2121LLnn案例分析:表中是10名健康人(1)和6名心肌梗塞患者(2)的三个心电图指标(x1,x2,x3)。试进行判别分析:现有1人三个心电图指标(420.30,32.42,1.98)判断是哪种?1G2G39.280.3408.337ˆ179.116.6051.465ˆ255.0205.155.4205.158.8452.38555.452.38553.2189ˆ1033.0425.111.10425.188.22098.75711.1097.75753.3859ˆ22.多总体情况别为均值向量和协方差阵分,元的总体个设有iGpkkiii,,2,1,,判别其归属类型。元样品,对任给一个p定义判别函数:)},({min),(212ikilGxdGxdlGx则)()(),(12iiiixxGxd其中:距离判别法回顾:别为均值向量和协方差阵分,元的总体个设有iGpkkiii,,2,1,,判别其归属类型。,元样品对任给一个xp定义判别函数:)},({min),(212ikilGxdGxdlGx则)()(),(12iiiixxGxd其中:)()(),(2xxGxdi或4.3贝叶斯判别法例:办公室新来一人,判断他是“好人”还是“坏人”好人:1G坏人:2G5.0)(好人P5.0)(坏人P先验概率:样本:一天小王做了件好事9.0)(好人做好事P2.0)(坏人做好事P82.02.05.09.05.09.05.0)(好事好人P18.02.05.09.05.02.05.0)(好事坏人P后验概率:思想:假定对研究对象已有一定的认识,先用先验概率描述这种认识,然后取得一个样本,用样本来修正已有的认识,得到后验概率。利用后验概率进行推断优点:即考虑每个总体出现的可能性大小(先验概率),又考虑错判带来的损失。如何确定先验概率:方法1:利用历史资料及经验进行估计;方法2:利用训练样本中各类样本占的比例nnqii例:某地患贫血,99.0)(1qP患01.02q方法3:假定kqqqk121一、最大概率后验准则分布密度:1G2GkG…)(1xf)(2xf)(xfk…1q2qkq…设有k个总体:先验概率:定义判别函数:kiiiiiikilxfqxfqxGPxGP11)()()(max)(则x属于总体Gl),(max)(1xfqxfqiikill例1:设三个总体G1,G2,G3,欲判断x0属于哪一类?,30.0,65.0,05.0321qqq已知,10.0)(01xf,63.0)(02xf,4.2)(03xf现利用后验概率准则计算:004.01345.1005.0)()()(31001101iiixfqxfqxGP361.01345.14095.0)()()(31002202iiixfqxfqxGP635.01345.172.0)()()(31003303iiixfqxfqxGPx0属于G3特别,总体服从正态分布的情形),(max)(1xfqxfqiikill则x判给总体Gl)]()(21exp[)2(1)(121iiiiixxxf若)]()(21exp[)2(1)(121iiiiiiiixxqxfqy则称yi为贝叶斯判别函数.,max1ikilyy则x判定属于总体Gl案例分析:表中是10名健康人(1)和6名心肌梗塞患者(2)的三个心电图指标(x1,x2,x3)。试进行判别分析:现有1人三个心电图指标x=(420.30,32.42,1.98)判断是哪种?1G2GSPSS实现:贝叶斯判断方差阵相等(W)方差阵不等(P)1/n(A)nk/n(C)3860.27990.340820.337ˆ17883.11617.605117.465ˆ2说明均值有显著性差异1ˆ2ˆˆ说明没有奇异阵说明协方差阵无显著性差异3860.27990.340820.337ˆ17883.11617.605117.465ˆ2矩阵判别法:133.0988.4136.25988.4190.285962.1291136.25962.1291806.6659ˆ)ˆ(ˆ)ˆ(),(11112xxGxd)ˆ(ˆ)ˆ(),(21222xxGxd98.142.3230.420x5784.117644.10判断该人属于G2),(),(1222GxdGxd753.185603.98578.046.03211xxxy076.175265.89551.0478.03212xxxy三个心电图指标(420.30,32.42,1.98)080.184708.184判断该人属于G2贝叶斯判别法:12yy)]ˆ()ˆ(21exp[)ˆ2(1)(121iiiiiiiixxqxfqy二、最小平均误判准则定义判别函数:)(:11xfG)(:22xfG)(:xfGkk…),(ijC设有k个总体:错判损失:kji,,2,1,0)(,0)(ijCiiC且,)()(jDidxxfijP错判概率:kiiq1),,(21kDDDECMmin求使ECM达最小的划分D1,D2,…,Dk作为判断的解。错判损失最小kiiq1),,(21kDDDECMdxxfijCqkjDkiiij11)()(dxxhkjDjj1)(min得到划分{D1,D2,…,Dk}})(min)({1xhxhxDjkjll含义:,)()()(1kiiijxfijCqxh当抽取了一个未知总体的样本x,要判断它属于哪个总体,只需先计算出k个加权的误判平均值:kj,,2,1然后比较其大小,选择其中最小的,则判定样本属于该总体。练习:)2,0(:21NG按距离判别法判断样品x=2.5属于哪一类?)1,3(:22NG设三个总体的分布分别为解:)5.0,2(:23NG,31321qqq取jijiijC,0,1)(,)()()(1kiiijxfijCqxh2787.0)5.2(31)5.2(31)5.2(321ffh1917.0)5.2(31)5.2(31)5.2(312ffh1478.0)5.2(31)5.2(31)5.2(213ffhx=2.5属于G34839.0)5.2(3521.0)5.2(0913.0)5.2(321fff