§6蠓虫的分类模型两种蠓虫AF和APF已由有关专家根据它们的触角长度和翼长加以区分,现有9只AF和6只APF的触角长度1x和翼长2x的数据如下表所示:AF1x1.241.361.381.381.381.401.481.541.562x1.721.741.641.821.901.701.821.822.08APF1x1.141.161.201.261.281.302x1.781.961.362.002.001.96要求由上面数据建立一个判别准则,以便对任一个给定的蠓虫(已知其触角长度1x和翼长2x的数据),就能判别它是AF还是APF。判别分析问题可以这样描述:设有总体mGGG,,,21,每个总体都有指标pxxx,,,21,通过来自总体),,2,1(miGi的样品)()(2)(1,,,iniiixxx,建立判别函数),,,(21pxxxf。对任一待判样品Tpxxxx),,,(21,只要将其指标值代入判别函数,根据它的函数值,便可判断x是属于这m个总体中的哪个总体。模型1距离判别模型设有总体mGGG,,,21,它们的样本均值向量分别为m,,,21,样本协方差矩阵分别为mVVV,,,21。可以通过来自总体),,2,1(mkGk的样本)()(2)(1,,,knkkkxxx按下式分别对它们做估计:mkxxnknikikkk,,2,1,1ˆ)(1)((1)mkxxxxnVTkkinikkikkk,,2,1,)()(11ˆ)()(1)()((2)定义样品x到总体),,2,1(mkGk的马氏(Mahalanobis)距离为mkxVxGxdkkTkk,,2,1,)ˆ(ˆ)ˆ(),(1(3)若ikmkiGxGxdGxd则判),,(min),(1。在本问题中,我们把AF类记成1G,APF类记成2G。利用上面样本可求得,927.1223.1ˆ,804.1413.1ˆ210078.00042.00042.00044.0ˆ,0169.00081.00081.00097.0ˆ21VV设Txxx),(21是任一只给定的蠓虫,则它到AF类和APF类的马氏距离分别为212121222111111)4082.2457891.1251098.1858906.165473.994.171()ˆ(ˆ)ˆ(),(xxxxxxxVxGxdT212121222121222)055.4852558.4027656.1753596.502789.2636259.467()ˆ(ˆ)ˆ(),(xxxxxxxVxGxdT两距离判别公式的样品回代检验结果见下表,可见回代正确率为100%。AF),(1Gxd1.880.641.480.531.231.010.771.562.05),(2Gxd3.635.567.484.793.726.966.918.195.78结论AFAFAFAFAFAFAFAFAFAPF),(1Gxd3.434.443.163.543.312.70),(2Gxd1.671.790.810.830.911.34结论APFAPFAPFAPFAPFAPF模型2Fisher判别模型这里我们再介绍一种把多维问题化为一维问题,而且用线性判别函数来解决多个总体判别问题的费歇尔(Fisher)判别法。设Tpxxxx),,,(21为p维空间中的一个点,pxxx,,,21的线性判别函数即为xuxuxuxuyTpp2211因为向量Tpuuuu),,,(21表示p维空间中的一个方向(轴),xuyT即x在u轴上的投影,选择判别函数从几何上看就是选择一个合适的投影轴u,把样品观测值投影到这个轴上得一组投影值,然后根据投影值进行判别,选择好的投影方向是为了更好地分辨,也是要使各总体的投影值有显著差异。按照方差分析的原理,投影方向的选取应使投影值所形成的组间差与组内差有尽可能大的比值,这便是Fisher判别法的基本思想。费歇尔(Fisher)判别法的具体步骤如下:1、由已知的样本观测矩阵计算出各总体的样本均值向量)(ix及总平均向量x。mixnxiniii,,2,1,11)()(miniixnx11)(1其中miinn12、计算组间离差阵])()[()(1)(TimiiixxxxnB3、计算组内离差阵TiiminiixxxxEi)()()()(11)()(4、计算矩阵BE1的最大特征值对应的特征向量u。5、定义样品x到总体),,2,1(miGi的距离mixxuGxLiTi,,2,1,)(),()(为判别函数。若kimikGxGxLGxL则判),,(min),(1。下面用费歇尔(Fisher)判别法建立蠓虫种类的判别准则。在本问题中,我们把AF类记成1G,APF类记成2G。利用上面样本可求得,927.1223.1,804.1413.1)2()1(xx,174.0086.0086.0100.0,0577.01335.01335.01354.0EB2579.09300.2u设Txxx),(21是任一只给定的蠓虫,则它到AF类和APF类的距离分别为6053.42579.093.2)(),(21)1(1xxxxuGxLT0804.42579.093.2)(),(21)2(2xxxxuGxLT样品回代检验结果见下表,可见回代正确率为14/15=93.3%。AF),(1GxL0.530.170.140.930.070.070.200.380.50),(2GxL0.010.350.390.430.450.460.730.901.03结论APFAFAFAFAFAFAFAFAFAPF),(1GxL0.810.700.610.400.340.29),(2GxL0.280.180.080.130.190.23结论APFAPFAPFAPFAPFAPF在科学研究、生产实践、社会生活中,经常会遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题。例如,在医学诊断中,一个病人肺部有阴影,医生要根据测得的指标(阴影的大小、边缘是否光滑、体温多少等)判断他是肺结核、肺部良性肿瘤还是肺癌。在气象学中,根据已有的气象资料(气温、气压、湿度等)来推断明天是天晴、阴天还是雨天。在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度,是发达国家、中等发达国家还是发展中国家。在考古学中,要根据挖掘出来的人头盖骨的高、宽等特征来判断其性别。在环境科学中,要根据某地区的多种大气污染元素浓度来判断该地区是属严重污染、中度污染还是无污染。在体育运动中,根据运动员的多项运动指标来判定某游泳运动员是适合蛙泳、仰泳、蝶泳还是自由泳。