第5章 判别分析 fisher判别等

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

判别分析方法(Discriminantanalysis)Discriminantanalysis判别分析用于判别样本所属类型的统计分析方法基因识别:根据某一DNA序列的核苷酸组分、信号特征等指标,判别是否编码蛋白序列?医学诊断:某一病人肺部存在阴影,判别:肺结核?良性肿瘤?肺癌?人类考古学:根据头盖骨的特征,判别:民族、性别、生活年代?股票分析预测:气象分析预测:自然灾害分析预测:……Discriminantanalysis判别分析问题设有k个m维的总体G1,G2,…,Gk,(1).它们的分布特征已知,可以表示为F1(x),F2(x),…,Fk(x)(2).或者知道来自各个总体的样本(训练样本)。对于给定的一个未知样本X(检测样本),判别X属于哪个总体。多元的、复杂的、高度综合的统计分析问题DiscriminantanalysisFisher判别法距离判别法Bayes判别法逐步判别法……训练样本训练集检测样本检测集判别准则判别效率学习检测评价距离判别法距离判别的基本思想样本与哪一类总体的距离最近,就判别它属于哪一类总体。Discriminantanalysis马氏(Mahalanobis)距离定义:Mahalanobis距离设总体G为n维变量,即含有n个属性指标(x1,x2,…,xn)。已知总体G中的t个样本Xk(xk1,xk2,…,xkn),k=1,2,…,t。总体均值可用样本均值估计:)()(),(12XXSXXGXd则对于任一点X(x1,x2,…,xn),定义它与总体G的Mahalanobis距离为:nixtxtkkii,...,2,111Discriminantanalysisnjixxxxtstkjkjikiij,...,2,1,))((111其中,矩阵S=(sij)n×n为:矩阵S称为协方差矩阵(covariancematrix),反映属性指标中第i个分量与第j个分量的相关性。特别地,当n=1时,Mahalanobis距离为:2222)()()(),(xxxGXdDiscriminantanalysisxp(x)xp(x)|x-|G1:N(,1)G2:N(,2)21212)(),(xGXd22222)(),(xGXdDiscriminantanalysis两类总体的距离判别已知:考虑具有n个属性的两类总体G1、G2,已知G1的p个训练样本,G2的q个训练样本:)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11..........................................qnqqnnpnppnnxxxxxxxxxxxxxxxxxx问题:对于未知样本点X(x1,x2,…,xn),判别其类型?DiscriminantanalysisG1、G2的总体均值根据样本均值估计得到:nixqxxpxqkkiipkkii,...,2,1111)2()2(1)1()1(分别求出总体G1、G2的协方差矩阵S(1)、S(2):njixxxxpspkjkjikiij,...,2,1,))((111)1()1()1()1()1(njixxxxqsqkjkjikiij,...,2,1,))((111)2()2()2()2()2(Discriminantanalysis对于任一新样本X(x1,x2,…,xn),分别计算它到总体G1、G2的Mahalanobis距离:)1()1(22)1(111)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11)1()1(22)1(1112........................),...,,(),(nnnnnnnnnnxxxxxxsssssssssxxxxxxGXd)2()2(22)2(111)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)2()2(22)2(1122........................),...,,(),(nnnnnnnnnnxxxxxxsssssssssxxxxxxGXdDiscriminantanalysis构造判别函数W(X):),(),()(1222GXdGXdXW判别准则为:21时,0)(0)(GXXWGXXW时,Discriminantanalysis特例:考虑n=1的两类正态总体:G1:N(1,1)G2:N(2,2)p(x)xG1:N(1,1)G2:N(2,2)12Discriminantanalysis222111),(),(xGXdxGXd不妨设21,21,且检测值满足2x1,则:)()(21211122xxxxW其中212112于是,判别准则为:21时,0)(时,0)(GxxWGxxWDiscriminantanalysisp(x)xG1:N(1,1)G2:N(2,2)12*222111),(),(xGXdxGXdDiscriminantanalysis已知:考虑具有n个属性的m类总体Gl(l=1,2,…,m),每类总体已知tl(l=1,2,…,m)个训练样本:)()(2)(1)(2)(22)(21)(1)(12)(11)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11..................................................................222111mntmtmtmnmmmnmmntttnnntttnnmmmxxxxxxxxxxxxxxxxxxxxxxxxxxx问题:对于未知样本点X(x1,x2,…,xn),判别其类型?多类总体的距离判别Discriminantanalysis类似地,分别计算点X(x1,x2,…,xn)到每一类Gl的Mahalanobis距离d2(X,Gl)。)()(22)(111)()(2)(1)(2)(22)(21)(1)(12)(11)()(22)(112............................),(lnnlllnnlnlnlnlllnlllnnlllxxxxxxsssssssssxxxxxxGXd其中nixtxltklkilli,...,2,111)()(njixxxxtsltkljlkjlilkillij,...,2,1,))((111)()()()()(Discriminantanalysis比较找到其中的最小距离:),(min),(2,...,2,12lmliGXdGXd点X(x1,x2,…,xn)到类Gi的距离d2(X,Gi)最小,最后判别点X(x1,x2,…,xn)属于第i类。DiscriminantanalysisDiscriminantanalysisBayes判别法Bayes判别的基本思想在p维空间中找出一种分法,使得平均损失最小D1D2DjG1,G2…Gk12(),().....()kfxfxfxDiscriminantanalysis目标函数(平均损失)假定属于第i类,把它判为第j类造成的损失为造成这一损失的概率为D1D2DjG1,G2…Gk12(),().....()kfxfxfx12,.....,kqqqkk12kii=1j=1g(D,D,...,D)=qL(i,j)p(j/i)L(i,j)iDjp(j/i)=f(x)dxDiscriminantanalysis判别准则如果取能使平均损失达到最小判别函数D1D2DjG1,G2…Gk12(),().....()kfxfxfx12,.....,kqqqkiii=1()qf(x)L(i,)dxlhyl{|()(),1,2,...}lljDyhyhyjkDiscriminantanalysisFisher线性判别法Fisher判别的基本思想将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L)x1x2L:c1x1+c2x2-c=0令:F(x1,x2)=c1x1+c2x2F(x1,x2):判别函数c:判别值G1G2Fisher线性判别法Discriminantanalysis已知:数据属性有n个,每个数据点为n维向量X:),...,,(21nxxxX已知总体数据分为两类:G1和G2,总体G1有p个样本点,总体G2有q个样本点。属性(分量)12…n总体G1(i=1,…,p)1X1(1)x11(1)x12(1)…x1n(1)……………iXi(1)xi1(1)xi2(1)…xin(1)……………pXp(1)xp1(1)xp2(1)…xpn(1)总体G2(i=1,…,q)1X1(2)x11(2)x12(2)…x1n(2)……………iXi(2)xi1(2)xi2(2)…xin(2)……………qXq(2)xq1(2)xq2(2)…xqn(2)目标:求解在n维空间中总体G1和总体G2的最优分界平面。Discriminantanalysis定义线性判别函数为:nnnxCxCxCxxxF...),...,,(221121其中Ci(i=1,2,…,n)为常数(待定系数)。若判别值为C,对于任何未知数据点X(x1,x2,…,xn),代入判别函数,依据F(x1,x2,…,xn)与C值的比较,可以判别点X属于哪一类。1、确定待定系数Ci(i=1,2,…,n)2、确定判别值CDiscriminantanalysis将类G1的p个点、类G2的q个点分别代入判别函数:pixCxCxCyinniii,...,1...)1()1(22)1(11)1(qixCxCxCyinniii,...,1...)2()2(22)2(11)2()1()1(22)1(11)1(...nnxCxCxCy)2()2(22)2(11)2(...nnxCxCxCy其中,nixpxpkkii,...,2,111)1()1(nixqxqkkii,...,2,111)2()2(piiypy1)1()1(1qiiyqy1)2()2(1确定待定系数CiDiscriminantanalysis令:2)2()1()(yyAA与G1和G2两类点的几何中心的距离相关。显然,判别函数F(x1,x2,…,xn)应该使A值越大越好。令:qiipiiByyyy12)2()2(12)1()1(B与G1和G2两类点的相对于各自几何中心的离差相关。显然,判别函数F(x1,x2,…,xn)应该使B值越小越好。Discriminantanalysis构造函数I:qiipiiBAnyyyyyyCCCII12)2()2(12)1()1(2)2()1(21),...,,(选择合适的待定系数Ci(i=1,2,…,n),使得函数I(C1,C2,…,Cn)达到极大值。niCIi,...,2,10DiscriminantanalysisBABAIlnl

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功