2判别分析

jinpeng85
2 ℃
2020-01-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

判别分析根据萼片和花瓣的四个度量对鸢尾花分类，实验数据来源例4-1.“1”代表Setosa鸢尾花，“2”代表Versicolor鸢尾花，“3”代表Virginica鸢尾花，将萼片长(SL)，萼片宽(SW)，花瓣长(PL)，花瓣宽(PW)四个作解释变量。实验输出结果及分析：（表1）分析案例处理摘要未加权案例N百分比有效150100.0排除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计0.0合计150100.0（表2）组统计量品种均值标准差有效的N（列表状态）未加权的已加权的1花瓣长5.0060.352495050.000花瓣宽3.4280.379065050.000萼片长1.4620.173665050.000萼片宽.2460.105395050.0002花瓣长5.9360.516175050.000花瓣宽2.7700.313805050.000萼片长4.2600.469915050.000萼片宽1.3260.197755050.0003花瓣长6.5880.635885050.000花瓣宽2.9740.322505050.000萼片长5.5520.551895050.000萼片宽2.0260.274655050.000合计花瓣长5.8433.82807150150.000花瓣宽3.0573.43587150150.000萼片长3.75801.76530150150.000萼片宽1.1993.76224150150.000（表3）组均值的均等性的检验Wilks的LambdaFdf1df2Sig.花瓣长.381119.2652147.000花瓣宽.59949.1602147.000萼片长.0591180.1612147.000萼片宽.071960.0072147.000如上3个表分析的是各组的描述统计量和对各组均值是否相等的检验。表1反映的是有效样本量及变量缺失的情况。表2是各组变量的描述统计分析。表3是对各组均值是否相等的检验。由表3可以看出，在0.01的显著水平上，我们拒绝变量萼片长，萼片宽，花瓣长和花瓣宽在三组的均值相等的假设，即认为这四个变量在三组的均值是有显著差异的。协方差矩阵的均等性的箱式检验（表4）对数行列式品种秩对数行列式14-13.06724-10.87434-8.927汇聚的组内4-9.959打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。（表5）检验结果箱的M146.663F近似。7.045df120df277566.751Sig..000对相等总体协方差矩阵的零假设进行检验。如上输出结果是对各组协方差矩阵是否相等的箱式检验。表4反映协方差矩阵的秩和行列式的对数值，由行列式值可以看出，协方差矩阵不是病态矩阵表5是对各总体协方差矩阵是否相等的统计检验。由F值及其显著水平，我们在0.05的显著水平下拒绝原假设，即拒绝假定各总体协方差矩阵相等。典型判别式函数摘要（表6）特征值函数特征值方差的%累积%正则相关性132.192a99.199.1.9852.285a.9100.0.471a.分析中使用了前2个典型判别式函数。（表7）Wilks的Lambda函数检验Wilks的Lambda卡方dfSig.1到2.023546.1158.0002.77836.5303.000输出结果分析的是典型判别函数。表6反映判别函数的特征根，解释方差的比例和典型相关系数。第一判别函数解释了99.1%的方差，第二判别函数解释了0.9%的方差，两个判别函数解释了全部方差。表7是对两个判别函数的显著性检验，由Wilks`Lambda检验，认为两个判别函数在0.05的显著水平上是显著的。(表8)标准化的典型判别式函数系数函数12花瓣长-.427.012花瓣宽-.521.735萼片长.947-.401萼片宽.575.581（表9）结构矩阵函数12萼片长.706*.168花瓣宽-.119.864*萼片宽.633.737*花瓣长.223.311*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性（表10）典型判别式函数系数函数12花瓣长-.829.024花瓣宽-1.5342.165萼片长2.201-.932萼片宽2.8102.839(常量)-2.105-6.661非标准化系数（表11）组质心处的函数品种函数121-7.608.21521.825-.72835.783.513在组均值处评估的非标准化典型判别式函数输出结果显示的是判别函数，判别载荷和各组的重心。表8是标准化的判别函数，表示为：y1=-0,427SL*-0,521SW*+0,947PL*+0,575PW*y2=0.012SL*+0.735SW*-0.401PL*+0.581PW*这里*表示标准化变量，表9是结构矩阵，即判别载荷，由判别权重和判别载荷可以看出花瓣长和花瓣宽这两个解释变量对判别函数的贡献较大，表10是非标准化的判别函数，表示为：y1=-2.105-0.829SL-1.534SW+2.201PL+2.810PWy2=-6.661+0.024SL+2.165SW-0.932PL+2.839PW根据判别函数计算每个观测值的判别Z得分表11是反映判别函数在各组的重心。根据结果，判别函数在y=1这一组的重心为（-7.608，0.215），在y=2这一组的重心为（1.825,0.513）。这样就可以根据每个观测的判别Z得分对观测进行分类。分类统计量(表12)分类处理摘要已处理的150已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中150（表13）组的先验概率品种先验用于分析的案例未加权的已加权的1.3335050.0002.3335050.0003.3335050.000合计1.000150150.000（表14）分类函数系数品种123花瓣长23.54415.69812.446花瓣宽23.5887.0733.685萼片长-16.4315.21112.767萼片宽-17.3986.43421.079(常量)-86.308-72.853-104.368Fisher的线性判别式函数（表15）分类结果a,c品种预测组成员合计123初始计数150005020482503014950%1100.0.0.0100.02.096.04.0100.03.02.098.0100.0交叉验证b计数150005020482503014950%1100.0.0.0100.02.096.04.0100.03.02.098.0100.0a.已对初始分组案例中的98.0%个进行了正确分类。b.仅对分析中的案例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。c.已对交叉验证分组案例中的98.0%个进行了正确分类。图1表12概括了分类过程，说明150个观测都参与分类。表13说明各组的先验概率。表14是分类函数，由表中的结果可以说明：y=1这组的分类函数是f1=-86.308+23.544SL+23.588SW-16.431PL-17.398PWy=2这组的分类函数是f2=-72.853+15.698SL+7.073SW+5.211PL+6.434PWy=3这组的分类函数是f3=-104.368+12.466SL+3.685SW+12.767PL+21.079PW这样就可以计算出每个观测在各组的分类函数值，然后将观测分类到较大的分类函数值中。表15是分类矩阵表，由该表可以看出，通过判别函数预测，有147个观测是分类正确的，其中，y=1组50个观测全部被判对，y=2组50个观测中有48个观测被判对，y=3组50个观测中有49个观测被判对，从而147/150=98%的原始观测被判对。图1是分类结果图，从图中可以看到，Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以清晰地区分开，而Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域，即存在误判。