蠓的分类问题

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

蠓的分类问题摘要:早在1981年,两类蠓虫Af和Apf已由生物学家W.L.Grogna和W.W.Wirth根据它们的触角长度和翼长加以区分。根据翼长和触角长来识别一只标本是Af还是Afp是重要的。本文采用判别分析法讨论蠓的分类问题。针对问题一,采用Mahalanobis距离判别法,Fisher判别法,Bayes判别法来区别给定的蠓是Af类或Afp类。根据交叉确认估计法求得三种方法的误判率以及运用三种方法,得到问题二的最终判断结果如下表:问题三需要考虑各总体的先验概率和错判损失,故本文采用Bayes判别法,使得所带来的平均错判损失最小。最终判断结果为:[1代表x=(1.24,1.80);2代表x=(1.28,1.84);3代表x=(1.40,2.04)]文章中涉及的三种判别分析方法是相当成熟的,用它们讨论蠓的分类问题非常恰当。本文建立的模型便于修正,而且随着样品数量的增加,精度提高的很快,样本的期望值,标准差和相关函数也很容易重新计算。判别方法Mahalanobis距离判别法Fisher判别法Bayes判别法误判率0.06670.06670.0667判别结果1.24,1.801.28,1.841.40,2.04xAfxAfxAf1.24,1.801.28,1.841.40,2.04xAfxAfxAf1.24,1.801.28,1.841.40,2.04xApfxApfxApf分类比值k0.20.40.60.81.21.41.61.82Af1,2,31,2,31,3\\\\\\Apf\\21,2,31,2,31,2,31,2,31,2,31,2,3关键字:Mahalanobis距离判别法Fisher判别法Bayes判别法误判率错判损失先验概率一、问题重述两种蠓Af和Apf己由生物学家W.L.Grongan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分(见图89A-1),6只Af蠓用“●”标记,9只Apf蠓用“○”标记。问题一:给定一只Af或者Apf族的蠓,你如何正确地区分它属于哪一族?问题二:将你的方法用于触角长和翼长分别为(1.24,1.80)、(1.28,1.84)、(1.40,2.04)的三个标本。问题三:设Af是宝贵的传粉益虫,Apf是某种疾病的载体,是否应该修改你的分类方法,若需修改,怎么改?二、模型假设与符号说明2.1模型假设1、两种蠓虫的触角长和翼长服从二元正态分布。2、所给的样本数据是无误差的。2.2符号说明2.2.1问题一、二的符号说明Afx:Af族的均值向量Apfx:Apf族的均值向量AfS:Af族的协方差矩阵ApfS:Apf族的协方差矩阵X:待判样本空间1G:Af族的总体2G:Apf族的总体2.2.2文题三的符号说明:P总的误判概率;:L总的误判损失;(1/2):c把Apf误判为Af所引起的误判损失;(2/1):c把Af误判为Apf所引起的误判损失;1():fx类别Af的密度函数;2():fx类别Apf的密度函数;1:P类别Af的先验概率;2:P类别Apf的先验概率;三、问题分析3.1问题一、二的分析问题一要求根据某个个体的指标(触角长、翼长)值来判断该个体所属的类别。类似这样的问题数学上称之为判别问题。解决这类问题的方法很多,我们选取三种方法,1)距离判别方法2)“Fisher”判别方法。3)“Bayes”判别方法。对于问题二,运用这三种方法判断出的结果并不完全相同,那么哪个判别结果才是最优的呢?这就需要计算每种方法的误判率,通过比较,误判率小的当然是此问题的最佳解决方法,在该方法下得出的结果是最优的。3.2问题三的分析被判样本具有特殊性质,一类是的传粉益虫,一种是病毒载体,一旦误判可能造成严重损失。这种情况下,当然应该选择“Bayes”判别方法。四、模型建立与求解4.1问题一、二的模型建立与求解4.1.1Mahalanobis距离判别法提取训练样本的数据:96.130.100.228.100.226.186.120.196.118.178.114.1Af08.256.182.154.182.148.170.140.190.138.182.138.164.138.174.136.172.124.1Apf根据训练样本,求得(matlab实现):8044.14133.1Afx9267.12267.1Apfx0.00980.00810.00810.0169ApfS0.00390.00430.00430.0078AfS样品x到G的Mahalanobis距离为:1,TMdxGxVx其中V-1为V的逆。,V用样本均值代替。221211112211121112212121,,2222TTTTTTTdXGdXGXXXXXXX其中,112121,2将Mahalanobis距离用于判别模型,其判别准则为:若20TX,则判断2xG,若20TX,则判断2xG;若20TX,则可判断1xG也可判断2xG.求解过程由matlab编程实现:设任给一蠓虫,Txaw,判断结果为:1.24,1.801.28,1.841.40,2.04xAfxAfxAf交叉确认估计法求误判概率(求解过程由matlab编程实现):去掉1x,利用剩余的14个样本建立建立距离判别法,带入1x验证,一次循环检验15次,得到a次验证成功,15-a次验证失败,则误判概率。11515ap。求解结果为1p=0.6674.1.2“Fisher”判别方法1、由所给的15只样本计算各总体的样本均值ix向量和总的平均向量x。2、21TiiiiBnxxxx21TiiiiiiVnxxxx。3、求1V,1VB。4、求1VB的最大特征值及相应单位特征向量。5、判别函数Txx。6、,iiwwx将iw从小到大排序则1G,2G的阈值为12961,215cwwy。7、若(2,1)(1,2)ccywxy,判断则1xG,若2,11,2ccyxwy,则判断2Gx。求解过程由matlab编程实现:判断结果为:1.24,1.801.28,1.841.40,2.04xAfxAfxAf交叉确认估计法求误判概率(求解过程由matlab编程实现):去掉1x,利用剩余的14个样本建立Fisher判别法,带入1x验证,一次循环检验15次,得到b次验证成功,15-b次验证失败,则误判概率21515bp。求解结果为2p=0.6674.1.3“Bayes”判别方法由于两个总体的各指标服从一元正态分布,故总体服从二元正态分布。又协方差矩阵相等,即(1/2)(2/1)cc。此时有:212111111121122112211111221112211*(2/1)*(1/2)*()*()*()*()*()*()*()*()[()()]RRRRRRRRRPPPPPPfxdxPfxdxPfxdxPfxdxPfxdxPfxdxPPfxdxPfxdxPPfxPfxdx要使得总误差概率最小,则有2211()()0PfxPfx。故判别准则为:1221122211{:*()*()}{:*()*()}RxPfxPfxRxPfxPfx由已知可得出现的先验概率12()6/150.4;()9/150.4;pGpG结合相关知识我们可得概率密度函数为:222211(,)exp{[()2()()()]}2(1)21yyxxxxyyxyyuyuxuxufxy其中xu、yu、x、y、分别表示期望、方差和相关系数。再结合matlab软件运行可得相关参数为:(见附录3)auwuawAf1.22671.92670.06280.08820.7841Apf1.41331.80440.09900.12990.6285最终结果为:1.24,1.801.28,1.841.40,2.04xApfxApfxApf。交叉确认估计法求误判概率:去掉1x,利用剩余的14个样本建立Fisher判别法,带入1x验证,一次循环检验15次,得到c次验证成功,15-c次验证失败,则误判概率31515cp。求解结果为3p=0.667三种判别方法的误判率相同,所以可以用任意一种方法讨论蠓虫分类问题,各自得到的判断结果都有一定的意义。4.2问题三的模型建立与求解该问题继续用“Bayes”判别方法进行求解,此时协方差矩阵不相等,即(1/2)(2/1)cc。故有:21211111211221122111112211*(2/1)*(2/1)*(1/2)*(1/2)*(2/1)*()*(1/2)*()*(2/1)*()*(1/2)*()*(2/1)*()*(2/1)*()*(1/2)*()*(2/1)*(RRRRRRRLPcPPcPPcfxdxPcfxdxPcfxdxPcfxdxPcfxdxPcfxdxPPcfxdxPcfx1112211)[*(1/2)*()*(2/1)*()]RRdxPPcfxPcfxdx由于(1/2)(2/1)cc、并未给定,因此我们给定一系列(1/2)(2/1)ckc,所以要使得误差损失最小,则有2211**()*()0PkfxPfx。所以判别准则为:1221122211{:**()*()}{:**()*()}RxPkfxPfxRxPkfxPfx又由已知可得出现的先验概率12()6/150.4;()9/150.4;pGpG结合相关知识我们可得概率密度函数为:222211(,)exp{[()2()()()]}2(1)21yyxxxxyyxyyuyuxuxufxy其中xu、yu、x、y、分别表示期望、方差和相关系数。再结合matlab软件运行可得相关参数为:(见附录3)auwuawAf1.22671.92670.06280.08820.7841Apf1.41331.80440.09900.12990.6285分类比值k0.20.40.60.81.21.41.61.82P(1/2)0.0720.0510.0410.0350.0270.0250.0230.0210.020最终运行结果为:由表中可知:当k=0.2、0.4时,应该修改分类,分类结果变为:1.24,1.801.28,1.841.40,2.04xAfxAfxAf;当k=0.6时,应该修改分类,分类结果变为:(1.24,1.80);(1.28,1.84);(1.40,2.04);xAfxApfxAf。五、模型评价5.1模型优缺点距离判别及Fisher判别模型不涉及到各类别的分布情况,只要求均值、方差或协方差存在即可,使应用方便,。不足的是:不能计算误判概率从而考虑因误判引起的损失。Bayes判别模型依据各类别分布的信息,以考虑误判而引起的损失最小的角度出发,建立判别准则,有较大的实用价值。参考文献全国大学生数学建模组委会,《全国大学生优秀论文汇编(1992-2000)》,中国物价出版社,2002年三月出版附录:附录1%距离判别法clear;clc412194595P(2/1)0.00650.01060.01380.01660.02140.02340.02540.02720.0289P*0.03290.02680.02480.02400.02400.02

1 / 12
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功