1第四章判别分析一、填空题1.进行判别分析时,通常指定一种判别准则,用来判定新样本的归属,按照判别准则的不同,又有多种判别方法,其中常用的方法有____________、_____________、、和。2.判别分析按判别的组数来区分,有和;按区分不同总体的所用的数学模型来分,有和。3.Fisher判别是借助于的思想,来导出和建立判别准则。4.判别分析是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立和。5.在进行距离判别时,通常采用的距离是,它的基本公式为:。二、判断题1.在正态等协差阵的条件下,Bayes线性判别函数等价于距离判别准则。()2.费歇判别和距离判别都对判别变量的分布类型没有要求。()3.只有当两个总体的均值有显著差异时,做判别分析才有意义。()4.如果x是费歇判别准则的判别函数,则对于任何与任意常数来说,x也都是它的线性函数。()5.Bayes判别不仅考虑了各个总体出现的先验概率,而且也考虑到了错判所造成的损失。()6.在进行两类判别时,两总体的协差阵如果相等,那么费歇判别与距离判别是等价的。()7.逐步判别法中筛选变量的过程实质上就是作假设检验,通过检验找出显著变量,剔除不显著变量。()8.在进行距离判别时,通常采用的是马氏距离。()9.设kRR,,1为p维空间pR上的k个子集,而且要求互不相交,它们的和集为pR,则称kRR,,1为pR的一个划分。而Bayes判别实质上就是找这个划分。()三、简答题1.判别分析和聚类分析有何区别与联系?22.距离判别分析的基本思想是什么?假设有两个总体G1和G2,如果能够定义样品x到它们的距离D(x,G1)和D(x,G2),那么判别规则是怎样的?请描述这个准则的数学模型。3.简述逐步判别法的基本思想。4.距离判别、贝叶斯判别和费歇判别有何异同?5.进行聚类分析往往要先对数据进行标准化变换,进行判别分析是否也需要先进行标准化变换?为什么?四、计算题1.已知观测向量321,,xxxx在两类上的均值向量分别为35,100,301和30,90,262,两类的共同协差阵为:1000200400020060试用距离判别法建立判别函数和判别规则。现有一样品31,90,35x,问此样品应属于哪一类?(1)求出共同协方差矩阵的逆矩阵和两类均值向量的离差向量分别为:01071.0000357.000025.0000357.0001786.028030280104001028010561240000800005600080000400002240000115104303590100263021(2)求出判别系数向量为:03927.0025.005359.0510401071.0000357.000025.0000357.0001786.0211a(3)两类均值向量的平均数向量为:35.3295283035901002630212121(4)线性判别函数为:1518.503927.0025.005359.05.32952803927.0025.005359.0321321xxxxxxxaxw(5)相应的判别规则为:00,0,21xwxwGxxwGx待判,若若若(6)该样品的判别函数值为:019122.01518.53103927.090025.03505359.0xw由此可以判断,该样品应属于第一类。2.例:某种产品的生产厂商有很多个,有些厂商的产品在市场上比较受欢迎,而有些厂商的产品在市场上不大受欢迎,批发商店现有12家厂商的产品,其中7家是受欢迎的,5家属于不太受欢迎的。该商店对这12家厂商的产品就其式样、包装和耐久性进行了评估,评分采用10分制,评估结果如下表所示。某种产品各品牌的各项评分畅销的产品滞销的产品厂家产品特性厂家产品特性式样x1包装x2耐久性x3式样x1包装x2耐久性x3123456797889878675995768537612345436214634246352合计564942合计1619204同时已知两类的共同协差阵的逆矩阵为:试用费歇判别准则建立判别函数和判别规则。现有一新厂商推销其产品,产品特性评分为式样6分,包装4分,耐久性5分,问该厂商的产品是否受消费者欢迎?3.某地市场上销售的收录机有多种牌号,该地某商场从市场上随机抽取了13种牌号的收录机,其中有4种畅销,有5种销售一般,有4种滞销。所调查的各种收录机的质量评分、功能评分和销售价格资料如下表所示:某地各种收录机的销售状况销售状态产品序号质量评分功能评分销售价格(元)畅销ABCD8.39.58.07.43746290680390540平销EFGHI9.28.07.66.47.387965820670900530480滞销JKLM6.06.46.85.22453200390480290试根据该资料建立贝叶斯判别函数和判别准则。假设有一新厂商来推销其产品,其产品的质量评分为7.0,功能评分为7.0,销售价格为660元,问该厂产品的销售前景如何?4.下图是SPSS统计分析软件的一个对话框,请问是什么分析过程?解释GroupingVariable、Independents:、“Enterindependenttogether”、“UseStepwise04427.001614.001089.001614.004748.001990.001089.001990.006197.01S5method”等按纽的含义。五、证明题1.在两总体判别分析时,当两总体协差阵相等并且判别变量服从正态分布时,试证明距离判别与贝叶斯判别是等价的。2.设1G、2G为两个总体,其密度分别为,1pN,,2pN0,已知1、2、时,试证明Bayes判别准则为:dxvdxvGxdxvGx若待判若若21其中:xfxfxv21,1/22/112CqCqd五、SPSS操作题1.一个城市的居民家庭,按其有无割草机分为两组,有割草机的一组记为G1,另一组记为G2。割草机工厂欲判断一些家庭是否习割草机,从G1和G2分别随机抽取12个样本单位,调查两项指标:x1=家庭收入,x2=房前房后土地面积。资料如下表,试用Fisher判别法建立判别函数。G1有割草机家庭G2无割草机家庭X1(千美元)X2(平方千英尺)X1(千美元)X2(平方千英尺)20.028.59.28.425.017.69.810.4621.620.529.036.736.027.623.031.017.027.010.810.411.89.68.811.210.010.411.010.021.614.428.016.419.822.015.811.017.021.08.610.28.88.88.09.28.29.47.07.42.胜利油田某地段三条地震测线提供构造指标x1,x2,及速度变量x3,x4,x5共5个指标。表中给出的有油气显示的5个指标数据(共10组数据)设为G1类,表中给出的无油气显示的5个指标数据(共11组数据)设为G2类。已知G1类与G2类的协方差阵,试判别给定的三组数据归属哪一类。G1类—有油气显示的数据表构造指标速度指标X1X2X3X4X51234567891020202020202015322736212124273030444744444444442142222212221244444144157G2类—无油气显示的数据表构造指标速度指标X1X2X3X4X5123456789101120203232322032152032211836171753213244301144114841441847710171270457404744601