5.5考察鸢尾属植物中三个不同品种的话的如下四个形状指标:1X:萼片长度;2X萼片宽度;3X:花瓣长度;4X:花瓣宽度。重这三个品种(记为1,2,3)各选取50株,测得上述指标的取值如表5.10所示。假如三个品种的着、这4个指标均服从4维正态分布,且先验概率相等,按下列要求进行Bayes判别分析:表5.10鸢尾属植物三个不同品种的话的形状数据编号品种1x2x3x4x编号品种1x2x3x4x1150331427626629461321463414377252273914314636102782603445164151331757925020351051553513280255243710614831162812582739127152341428226229431381493614183259304215914432132842602240101015035166852673147151114430132862632344131214732162872563041131314830143882632549151415138162892612847121514834192902642943131615030162912512530111715032122922572841131814330111932612947141915840122942562936132015138194952693149152114930142962552540132215135142972552340132315034164982663044142414632142992682848142515744154100267305017261503614210136428562227154341541023673156242815242151103363285115291554214210436931512330149311521053653052203115439174106365305518321503415210735827511933144291421083683259233414732132109362345423351463115211037738672236151341521113673357253715035133112376306621381493115111334925451739154371521143673052234015439134115359305118411513514311636325501942148341621173643253234314830141118379386420441452313311936733572145157381731203772867204615138153121363274918471543417212237232601848151371541233613049184915235152124361265614501533715212536428562151265284615126362284818522622245151273773061235325932481812836334562454261304614129358275119552602751161303723058165625625391113137130592157257284513132364315518582633347161333603048185927032471413436329561860264324515135377266923612612840131363602250156225524381113736932572363254304515138374286119642582640121393562849206525526441214037329631866250233310141367255818672673144141423653058226825630451514336931542169258274110144372366125702602945151453653251207125726351014636427531972257194213147368305521732492433101483572550207425627421314935828512475257304212150363336025(1)只考虑指标2X和4X,并假定各总体协方差矩阵不全相等,给出误判率的回代估计和交叉确认估计;(2)只考虑指标2X和4X,并假定各总体协方差矩阵相等,写出线性判别函数,给出误判率的回代估计和交叉确认估计并于(1)中结果作比较;(3)假定有新样品TToxxx)18,35(),(42,在(1),(2)之下,该样品非别被判归哪个总体?(4)利用全部4个指标重复(1)和(2)的分析,结果如何?是否所用指标越多,分类效果越好?在尝试其他几个指标组合,情况有如何?解:(1)误判率的回代估计:误判率的交叉确认估计:由以上结果可以看出,当只考虑指标2X和4X,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有7个误判:将第52号的样品由品种2误判为品种3;第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第100号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2;第124号的样品由品种3误判为品种2;第130号的样品由品种3误判为品种2。误判的回代估计*rp和交叉确认估计*cp为:0467.01507ˆˆ**crpp(2)当各总体协方差矩阵相等,即123,只需把程序中pool=no改为pool=yes,运行结果整理如下:线性判别函数为:42106379.238648.363828.56ˆxxW42276415.179074.141765.37ˆxxW42370086.345182.117687.60ˆxxW误判率的回代估计:误判率的交叉确认估计:由以上结果可以看出,当只考虑指标2X和4X,并假定各总体协方差矩阵相等的情况下,求出线性判别函数,并利用函数对样本进行回代估计和交叉确认估计,均误判现象,其中,用回代发法,共有5个误判现象:将第53号样品由品种2误判为品种3;第103号样品由品种3误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的回代估计为:0333.01505ˆ*rp用交叉确认法,共有6个误判现象:将第53号样品由品种2误判为品种3;第100号样品由品种2误判为品种3;第103号样品由品种32误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的交叉确认法为:04.01506ˆ*cp很显然,当各总体协方差矩阵相等时,误判率的回代估计和交叉确认估计都比各总体协方差矩阵不全相等时的低。(3)在各总体协方差矩阵不全相等情况下,新样品TToxxx)18,35(),(42被判归品种2;而在各总体协方差矩阵相等的情况下,新样品TToxxx)18,35(),(42被判归品种3。(4)首先是假设各总体协方差矩阵不全相等情况,考虑全部指标,结果如下:误判率的回代估计:误判率的交叉确认估计:由以上结果可以看出,考虑全部指标1X2X3X4X,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。误判的回代估计*rp和交叉确认估计*cp为:002.01503ˆˆ**crpp接着是假设各总体协方差矩阵相等情况,考虑全部指标,可求出其线性判别函数为:4321160979.166392.115311.21066.21184.84ˆxxxxW4321271657.050419.059094.060676.140277.72ˆxxxxW4321314831.226711.130428.026525.123783.104ˆxxxxW误判率的回代估计:误判率的交叉确认法:由以上结果可以看出,考虑全部指标1X2X3X4X,并假定各总体协方差矩阵相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。误判的回代估计*rp和交叉确认估计*cp为:002.01503ˆˆ**crpp由此可得,在考虑全部4个指标下,各总体协方差矩阵不全相等和相等情况下回代估计和交叉确认估计结果一样,而且,分类效果比只考虑2个指标要好。