东北大学秦皇岛分校统计软件课程设计报告鸢尾花亚属类型的判别分析学院数学与统计学院专业数学与应用数学学号5122121姓名殷晓娟指导教师马世美张子选成绩教师评语:指导教师签字:2014年7月6日数学与统计学院课程设计报告第1页1绪论1.1课题的背景鸢尾花为法国的国花,是一类具有较高观赏价值的多年生草本植物。鸢尾属花卉属于鸢尾科,setosa、versicolor和virginica是三种有名的鸢尾花。1935年,埃德加·安德森(EdgarAnderson)从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据(Anderson,E.,1935),并在统计学上形成了一类多重变量分析的Fisher鸢尾花数据集。每个样本含有四个特征,它们分别是花萼和花瓣的长度和宽度,这些特征可被用作样本的定量分析。基于这四个特征的集合,罗纳德·费雪(RonaldAylmerFisher)作为判别分析的一个例子,发展了一个线性判别分析以确定其属种(Fisher,R.A,1936)。由此,该数据集被广泛运用到统计学中。1.2SAS简介SAS(StatisticsAnalysisSystem)是世界上最著名的统计分析系统之一,具有完备的数据访问、管理、分析和呈现功能,被誉为国际标准统计分析系统。1966年它最初由美国北卡罗莱纳州立大学(NorthCarolinaStateUniversity)的两位生物统计学研究生编制而成。1976年正式成立SAS软件研究所,开始SAS系统的开发、维护、销售和培训工作,真正实现了这一软件的商业化。SAS内含30余个模块,功能上覆盖了包括医药、金融等各行各业数据管理和数据分析的各个应用领域。就常见的统计分析任务而言备选的一个专门模块是SAS/STAT。它主要包括:方差分析、回归分析、属性数据分析、非参数分析、多变量分析、判别分析、聚类分析、生存分析、得分方法等近70个过程,从而组成了一个庞大而完整的统计方法集[2]。1.3判别分析法简述判别分析是用于判断样品所属类型的一种统计分析方法。在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题。判别分析是应用性很强的一种多元统计方法,已渗透到各个领域。常用的判别分析方法有距离判别法、贝叶斯判别法和费希尔判别法。1.3.1距离判别法马氏距离:设总体G为m维总体(考察m个指标),均值向量为',,,2,1m,协数学与统计学院课程设计报告第2页方差阵为Σ=(σij),则样品X=(x1,x2,…,xm)′与总体G的马氏距离定义为)()(),(12XXGXd分别计算样品X到两个总体的距离d21(X)和d22(X)(或记为d2(X,G1)和d2(X,G2)),并按距离最近准则判别归类,即判别准则为:判X∈G1,当d2(X,G1)d2(X,G2)判X∈G2,当d2(X,G1)d2(X,G2)时;待判,当d2(X,G1)=d2(X,G2)时。1.3.2贝叶斯判别法贝叶斯的统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识.然后我们抽取一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布。各种统计推断都通过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯判别法。贝叶斯判别准则主要有两种:1.按后验概率最大进行归类:X属于第t组的后验概率为kiilxDxDXtP122)5.0exp()5.0exp()(在正态假设下按后验概率最大进行归类的准则,等价于按广义平方距离最小准则进行归类。2.按错判平均损失最小进行归类:设有k个总体:kGGG,,21,已知iG的联合密度函数为)(Xfi,先验概率为iq(i=1,…,k),错判损失为L(j|i)。则贝叶斯判别的解},,,{**2*1*kDDDD为:),,2,1}(,2,1,),()({*ktkjtjXhXhXDtll,其中kiiitXfitLqXh1)()|()(1.3.3费希尔判别法费希尔判别的基本思想是投影.将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。费希尔判别准则下线性判别函数u(X)=a'X的解a为特征方程01IBA的最大特征根1所对应的满足1'11All的特征向量l1;且相应的判别效率Δ(1l)=1[1]。1.4课题研究目的依据鸢尾花亚属中典型个体的不同性状特征(花萼和花瓣的长度和宽度),对未知鸢数学与统计学院课程设计报告第3页尾花个体进行所属类型的判别分析,以探究距离判别法在鸢尾属的分类中应用。2鸢尾花亚属类型的判别分析2.1判别分析过程各取setosa、versicolor和virginica三种鸢尾花各45个,通过三种判别分析法分别建立判别准则,然后对剩余的15个研究对象进行判别归类,数据见参考文献[3]。2.1.1距离判别法的实现datadywh;inputx1-x4group$;cards;5.13.51.40.2Iris-setosa4.93.01.40.2Iris-setosa4.73.21.30.2Iris-setosa………5.13.81.90.4.5.72.94.21.3.4.83.01.40.3.6.73.05.22.3.6.32.55.01.9.6.53.05.22.0.4.63.21.40.2.6.22.94.31.3.5.33.71.50.2.5.03.31.40.2.5.73.04.21.2.5.12.53.01.1.5.93.05.11.8.6.23.45.42.3.5.13.81.60.2.optionsps=60ls=75;procprintdata=dywh;run;procdiscrimdata=dywhsimplewcovpcov数学与统计学院课程设计报告第4页wsscppsscpdistancelist;classgroup;varx1-x4;run;2.1.2贝叶斯判别法的实现datadywh;inputx1-x4group$;cards;5.13.51.40.2Iris-setosa4.93.01.40.2Iris-setosa4.73.21.30.2Iris-setosa………5.13.81.90.4.5.72.94.21.3.4.83.01.40.3.6.73.05.22.3.6.32.55.01.9.6.53.05.22.0.4.63.21.40.2.6.22.94.31.3.5.33.71.50.2.5.03.31.40.2.5.73.04.21.2.5.12.53.01.1.5.93.05.11.8.6.23.45.42.3.5.13.81.60.2.procdiscrimdata=dywhpool=nodistancelist;classgroup;*priors'1'=0.33333'2'=0.33333'3'=0.33333;varx1-x4;run;quit;2.1.3费希尔判别法的实现数学与统计学院课程设计报告第5页datadywh;inputx1-x4group$;cards;5.13.51.40.2Iris-setosa4.93.01.40.2Iris-setosa4.73.21.30.2Iris-setosa………5.13.81.90.4.5.72.94.21.3.4.83.01.40.3.6.73.05.22.3.6.32.55.01.9.6.53.05.22.0.4.63.21.40.2.6.22.94.31.3.5.33.71.50.2.5.03.31.40.2.5.73.04.21.2.5.12.53.01.1.5.93.05.11.8.6.23.45.42.3.5.13.81.60.2.proccandiscdata=dywhout=canywh1ncan=2distancesimple;classgroup;varx1-x4;run;goptionsftext='宋体';symbol1cv=redv=squareh=2;symbol2cv=bluev=starh=2;symbol3cv=greenv=doth=2;procgplotdata=canywh1;plotcan2*can1=group;run;procprintdata=canywh1;数学与统计学院课程设计报告第6页run;procdiscrimdata=canywh1distancelist;classgroup;varcan1can2;run;procdiscrimdata=canywh1pool=testdistancelist;classgroup;varcan1can2;run;quit;2.2判别结果分析2.2.1距离判别法结果分析1.合并样本组内离差阵和合并样本协方差阵PooledWithin-ClassSSCPMatrixVariablex1x2x3x4x136.9133333313.2744444422.802444445.31577778x213.2744444416.003111117.533333334.75155556x322.802444447.5333333324.659111115.91200000x45.315777784.751555565.912000005.87288889PooledWithin-ClassCovarianceMatrix,DF=132Variablex1x2x3x4x10.27964646460.10056397310.17274579120.0402710438x20.10056397310.12123569020.05707070710.0359966330x30.17274579120.05707070710.18681144780.0447878788x40.04027104380.03599663300.04478787880.044491582产生的合并样本协方差阵用来计算马氏距离。2.三个亚属间的马氏距离SquaredDistancetogroupFromgroupIris-setIris-verIris-virIris-set088.70237175.34029Iris-ver88.70237016.30151Iris-vir175.3402916.301510从表中可以得出setosa和versicolor的马氏距离为88.70237,setosa和virginica的马氏数学与统计学院课程设计报告第7页距离为175.34029,versicolor和virginica的马氏距离为16.30151。3.线性判别函数的建立LinearDiscriminantFunctionforgroupVariableIris-setIris-verIris-virConstant-79.15786-68.87393-99.95391x121.3610914.1654210.97183x222.511536.319003.16207x3-14.654796.6640914.40262x4-17.251565.3755418.46390从表中可得线性判别函数为:43213432124321118.46390X14.40262X3.16207X10.97183X99.95391-)(X5.375546.66409X6.31900XX14.16542-68.87393)(17.25156X-14.65479X-22.51153X21.36109X-79.15786)(XYXYXY4.判别归类结果FromClassifiedObsgroupintogroupIris-setIris-verIris-vir136Iris-set*1.00000.00000.0000137Iris-ver*0.00000.99990.0001138