蠓虫的分类

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

蠓虫的分类摘要本文通过对两类蠓虫的触角长和翅长数据进行分析,用画散点图的方法对两类蠓虫进行区分,利用判别分析建模方法对未知的三个样本进行识别,将它们分类。在生物学中,根据触角长和翅长来识别一只蠓虫标本是Af还是Apf是很重要的。本文为此提供了方法。在模型一中,本文通过画散点图,进而画出两条斜线将两类蠓虫分别划分在斜线的两侧,对它们进行分类。在模型二中,本文通过马氏距离判别法、贝叶斯判别法以及fisher判别法对未知的三个样本进行判别,并将它们归类。得出的结果为:三个未知样本均为Apf类。最后,本文对马氏距离判别法做了误差分析,通过回代误判率和交叉误判率对模型进行评价。计算结果为:回代误判率为0,交叉误判率为0.0667。说明模型判别方法较准确。本文从绘制散点图,利用判别分析建模方法角度对两类蠓虫进行识别,并对未知样本分类,进而利用误差分析对模型准确性予以预测,逐步深化,最后对模型进行评价与推广。关键词散点图马氏距离贝叶斯fisher回代误判交叉误判一、问题重述(一)背景知识两种蠓虫Af和Apf已由生物学家罗纳(w.L.Grogna)和维尔恩(W.W.Wirth)于1981年根据它们的触角长(mm)和翅长(mm)加以区分,6只Apf和9只Af蠓虫的触长,翅长数据如下:Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96);Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08)。在生物学中,根据触角长和翅长来识别一只蠓虫标本是Af还是Apf是很重要的。(二)要解决的问题1、根据给定的数据,制定一种方法,正确区分两类蠓虫;2、用我们的方法对触长、翅长分别为(1.24,1.80)、(1.28,1.84)、(1.40,2.04)的三个样本进行识别;3、假设Af是宝贵的传粉益虫,Apf是某种疾病的载体,在这种情况下我们是否应该修改所用的分类方法,且如何修改。二、问题的分析1、对问题一的分析对问题一,我们利用画出散点图,再画斜线的方法对给出的6只Apf和9只Af蠓虫进行区分。2、对问题二的分析对问题二,我们可以根据马氏距离判别分析法和fisher判别法对未知的三个样本进行识别,将它们分类。3、对问题三的分析对问题三,我们可以修改分类方法,用贝叶斯判别法对所给三个样本进行判别,将它们分类。三、模型的假设1、在问题一中,假设两类蠓虫的协方差矩阵是相等的;2、假设Apf与Af的总数相同或Apf占总数的156,Af占总数的159,这样在用贝叶斯判别法时,即可用按比例分配方法估计两个总体的先验概率;3、样本无性别差异。4、触角长与翅长作为指标同样重要。5、用触角长与翅长来判别蠓虫是充分的。6、问题二中)|()|(ijcjic。四、符号说明A………………………………………………Apf类蠓虫B………………………………………………Af类蠓虫m1………………………………………………A类的均值向量m2………………………………………………B类的均值向量S1………………………………………………A类的协方差矩阵S2………………………………………………B类的协方差矩阵n1………………………………………………A类样本的容量n2………………………………………………B类样本的容量(|)cij...............................................................将来自jG的样品误判来自于iG后带来的损失。特征向量是最大特征值,是的个样品类的第为第1|u|u0||))(()1()()(111iT*1*_)(__)(_11_)()(1_)()()(_)(_)()(1)(1__)(EuIBExxxxnBSnExxxxnSxuyxuyBEuxkxjxTiikiiikiiTiijnjiijiiiTiijTijikiiji五、模型的建立与求解1、问题一的建立与求解区分步骤:(1)利用Matlab软件,画出两类蠓虫分布的散点图如下:1.11.151.21.251.31.351.41.451.51.551.61.61.651.71.751.81.851.91.9522.052.1图1两类蠓虫分布的散点图ApfAf(2)由散点图我们可以画出两条斜线,由此区分两类蠓虫,如下所示:图2用斜线区分两类蠓虫(3)由图我们可以区分出两类蠓虫2、问题二的求解用马氏距离判别步骤:(1)计算A、B两类的均值向量与协方差矩阵;m1=mean(A),m2=mean(B),S1=cov(A),S2=cov(B);(2)计算总体的协方差矩阵2)1()1(212211nnsnsns;(3)计算未知样本x到A,B两类马氏平方距离之差:d=(x-m1)S-1(x-m1)’-(x-m2)S-1(x-m2)’;(4)若d0,则x属于A类;若d0,则x属于B类。(5)模型的求解:我们利用Matlab软件进行编程,可以求出三个样本到A类与B类的距离之差分别为d=-4.3279,-2.7137,-3.9604,三个均为负值,这说明三个样本到A类的距离要近一点,所以这三个样本都应归于Apf类。用贝叶斯判别步骤(1)判别总体的协方差矩阵是否相等;(2)总体是否服从正态分布:首先对每个指标进行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。(3)利用按比例分配方法估计两个总体的先验概率:两类蠓虫所占比例即为:p1=6/(6+9)=0.4;p2=9/(6+9)=0.6;(4)m1=mean(A);m2=mean(B);s1=cov(A);s2=cov(B);S=(5*s1+8*s2)/13;然后再利用Matlab软件进行编程计算,贝叶斯判别的准则即为后验概率最大准则,我们可以计算d,其中d为样本x到总体A,B的马氏距离平方。(5)模型的求解:计算可得结果为:d1=1.7585,d2=0.9514,d3=1.5747;全部大于零,即p1f1p2f2,所以待判的三个蠓虫均属于Apf类。Fisher判别步骤Fisher判别的思想是将多维的样品测量值x变换为1维的测量值y,并依据y来作判别。Fisher的具体做法是先引入一个与样品有相同维数的待定向量u,再将y取为x坐标的线性组合xuyT。而u的选取,要使同一类别产生的y尽量聚拢,不同类别产生的y尽量拉开。这样便可将样品x到某一类别G的距离定义为xuyT与xuyT之间的欧氏距离)(),(__xxuyyGxLT其中_x是G的中心。并由样品x距各类别距离的大小,判断样品x的所属类别。TuBE)258.0,930.2(,37.1058.0,134.0134.0,135.0174.0,086.0086.0,100.0**因此,对任一样品有;)04.2,40.1(;)84.1,28.1(;)80.1,24.1(605.4258.0930.2),(080.4258.0930.2),(AfxxApfxxApfxxwaAfxLwaApfxL时,判断当时,判断当时,判断当判断xAf。这个结果与距离判别的结果不一致,说明距离判别模型与Fisher判别模型都可能存在误判的情况。3、问题三的求解若Af是宝贵的传粉益虫,Apf是某种疾病的载体,显然将Apf判为Af的损失比将Af判为Apf的损失大,那么我们假设误判造成的损失相等就有问题了,因此有必要对模型改进一下。假设c(2|1)≠c(1|2),此时判别准则为:121122c(2|1)P(G|x)c(1|2)P(G|x),xGc(2|1)P(G|x)c(1|2)P(G|x),xG若则若则其中(|)iPGx为iG的后验概率,后验概率的估计为:222121ˆexp(())2ˆ{|}1,211ˆˆexp(())exp(())22jjdxPGxjdxdx()()21ˆ()()()ln||2ln(1,2)jjTjjjjdxxxSxxSpj3个待判样品的结果为:序号判别结果1(|)PGx2(|)PGx1Apf0.853020.146982Apf0.721390.278613Apf0.828460.17154我们将误判损失的比例定为c(2|1)=13c(1|2),即c(2|1)=0.25,c(1|2)=0.75,得到的结果回代和交叉估计都是全部判对,即误判率都是0,3个待判样品都是判为Apf。六、灵敏度分析本模型在对问题一的分析中,假设两个总体的协方差矩阵是相等的,而实际上,两个总体的协方差矩阵不一定相等,且两个总体的协方差矩阵是否相等对结果有较大影响。因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等。对本模型,我们需要进行误差分析。1、回代误判率估计设G1,G2为两个总体,X1,X2,…,Xm和Y1,Y2,…,Yn是分别来自G1,G2的训练样本,以全体训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于G1的样品被误判为属于G2的个数为N1个,属于G2的样品被误判为属于G1的个数为N2个,则误判率估计为:p=(N1+N2)/(m+n)。我们可以利用Matlab进行编程,然后可以计算出回代误判率,计算所得结果为:0。2、交叉误判率估计交叉误判率估计是每次剔除一个样品,利用其余的m+n-1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率。①从A样本开始,剔除其中一个样品,剩余的m-1个样品与B中的全部样品建立判别函数;②用建立的判别函数对剔除的样品进行判别;③重复步骤①,②,直到A中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12;④对B的样品重复步骤①,②,③直到B中的全部样品依次被删除又进行判别,其误判的样品个数记为n21;于是交叉误判率估计为:nmnmp2112我们利用Matlab进行编程,可以算出d分别为-2.3578,13.0063,25.6839,9.9036,3.9858,21.4866,21.5880,35.9855,5.0837。这说明有一个误判,即误判率为:p=1510.0667。通过回代误判率和交叉误判率我们可以说明本模型是较准确的。七、模型的评价与推广1、模型的优点本模型通过马氏距离判别法、贝叶斯判别法以及fisher判别法进行求解,对三个未知样本进行判别,在灵敏度分析中继而对误判率进行分析,得出的结果较准确,较具有现实意义。2、模型的缺点本模型用的是判别分析建模方法,模型中有一些假设,实际生活中可能不完全成立,所以有一定局限性。3、模型的推广本模型还可以用别的方法如人工神经网络法进行求解,假设条件也可以放宽,这样得出的结论才更准确。附件:1、用贝叶斯判别法判别蠓虫的程序:clearapf=[1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96];af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08];x=[1.24,1.8;1.28,1.84;1.4,2.04];p1=0.4;p2=0.6;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);S=(5*s1+8*s2)/13;fori=1:3,d(i,:)=log(0.4)-0.5*((x(i,:)-m1)*inv(S)*(x(i,:)-m1)'

1 / 13
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功