SAS判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

课程:SAS判别分析部门:创新业务部-徐宝莲时间:2015/1/16内容概要:1、判别分析的简单介绍2、一般判别分析——PROCDISCRIM3、典型判别分析——PROCCANDISC4、逐步判别分析——PROCSTEPDISC1、判别分析的简单介绍判别分析是一种应用性很强的统计方法。它通常是根据已有的数据资料,来建立一种判别方法,然后再来判断一个新的样品归属哪一类。判别分析的SAS过程所处理的数据集要求具有一个分类变量和若干个数值型变量。SAS中进行判别分析的具体目标可以分为以下三条:建立判别函数,以便用来判别某一新的观测值的所属类别;寻找一组数值型变量的线性组合,使得其能够很好地反映各类别之间的差别;筛选出某些能反映类别间差别的变量。2、一般判别分析——PROCDISCRIM2.1距离判别法距离判别法是通过计算距离函数来进行判别,即样品与哪个总体之间的距离最近,则判断它属于哪个总体。如何衡量样品与总体间的这种抽象的距离?我们一般利用马氏距离来描述。对于两总体的情形,设𝐺1和𝐺2是两个P维总体,样品X到𝐺1的距离为𝑑2(𝑋,𝐺1),样品X到𝐺2的距离为𝑑2(𝑋,𝐺2),则我们按照下面的准则对样本X进行判别归类:1)若𝑑2(𝑋,𝐺1)𝑑2(𝑋,𝐺2),则判定X属于𝐺1;2)若𝑑2(𝑋,𝐺1)𝑑2(𝑋,𝐺2),则判定X属于𝐺2;3)若𝑑2(𝑋,𝐺1)=𝑑2(𝑋,𝐺2),则X有待于进一步判定。2.2Bayes判别法Bayes判别法是基于Bayes统计的思想,即假定事先对所研究的对象有一定的了解,并通过先验概率分布来进行描述,当抽取样本后,用样本来修正先验概率分布,并得到后验概率分布,然后根据后验概率分布进行各种统计推断。Bayes判别法首先计算给定样品属于各个总体的条件概率,然后比较这些概率值的大小,将样品判归于条件概率最大的总体。PROCDISCRIMDATA=数据集名选项;CLASS变量名列表;PRIORS概率值;BY分组变量名;RUN;语句说明:1)PROCDISCRIM语句用来调用DISCRIM过程。DATA:此选项用于指定输入的“训练数据集”,即已知类别的若干样品所组成的数据集,一般的数据集和特殊类型的数据集均可以;TESTDATA:指定用于进行判别分析的检验数据集。METHOD:指定判别分析方法,可以设置为“method=normal”(参数法)或者“method=npar”(非参数法)。POOL:说明按各个总体协方差相等与否的模型进行计算。当”POOL=YES”时,指定总体协方差矩阵相同,计算协方差矩阵估计值;当”POOL=NO”时,指定总体协方差矩阵不同,计算协方差矩阵估计值。2)CLASS语句是DISCRIM过程中所必须的一条语句,用于说明分类变量,该分类变量的值用于决定每条观测属性的类别。3)PRIORS语句是用来指定各类别的先验概率。有三种先验概率设定方式的语句格式。格式一:priorsequal,表示设定的各类别先验概率相等。格式二:priorsproportional,表示设定的各类别先验概率等于训练样本中各类别所占得比例。格式三:priors“1”=0.2“2”=0.6“3”=0.2;或者priorsa=0.2b=0.3c=0.4d=0.1.空格为区分符,前面的语句说明分类变量取1,2,3的类的先验概率是0.2,0.6,0.2;后面语句说明分类变量取a,b,c,d类的先验概率为0.2,0.3,0.4,0.1.此种方法适合自定义各个类别的先验概率。当使用PRIORS语句时,DISCRIM过程计算样品属于某一类的后验概率,同时给出判别函数。当“POOL=YES”时,判别函数是线性函数;当”POOL=NO”时,判别函数是二次函数。实例演练:某市气象站测得了半个月以内的空气质量数据,并评定了相应的空气质量等级,见下表:空气中悬浮颗粒物二氧化硫氮氧化物空气质量等级0.2080.0510.06420.1960.0920.05720.2890.2060.06830.2990.1870.08230.2770.090.0722根据上表建立判别分析准则,并判定下表三天的空气质量等级:空气中悬浮颗粒物二氧化硫氮氧化物0.2540.1840.0710.2430.0540.0320.1850.1020.0573典型判别分析——PROCCANDISC3.1Fisher判别法典型判别分析采用了与主成分分析和典型相关分析类似的降维技术,以找到能最概括类别区分的变量的线性组合。降维时要求同一类中的区别尽可能小,而不同类之间的区别尽可能大。Fisher判别是利用方差分析的思想,从各总体中抽取P维的训练样本来构造一个判别函数:U(X)=𝑎1(𝑥)+𝑎2(𝑥)+⋯+𝑎𝑝(𝑥)=𝑎′𝑋称为Fisher判别函数或典型判别函数。其中,系数a=(𝑎1,𝑎2,⋯,𝑎𝑝)′的确定原则是使得同一总体中的离差最小,而不同总体间的离差最大。PROCCANDISCDATA=数据集名选项;CLASS分类变量名;VAR变量名列表;BY分组变量名;RUN;实例演练:医院根据病人的多项病理指标来确定当前是否适合进行手术治疗。下表1给出了一组病理指标数据以及对是否适合手术的判断,其中0表示不符合手术条件,1表示符合手术条件,2表示有待于进一步住院观察,试进行典型判别分析,并对下表2中的数据做判别归类。表1病人手术治疗前的病理指标数据指标1指标2指标3指标4是否符合手术条件18.248.363.769.5214.5816.256.177.7218.0412.167.032.36014.4812.4310.2326.61214.6712.325.743.48012.9212.975.536.922表2待判定是否符合手术条件的数据指标1指标2指标3指标418.1612.1420.6311.0225.713.1411.5737.6711.1817.088.3523.5217.8211.176.618.6618.48.572.9118.324、逐步判别分析——PROCSTEPDISC逐步判别分析考察了P维指标(即p个变量)对总体的区分能力是否显著,对判别分类不起作用的变量则予以删除,优化了判别的效果。逐步判别的基本思想:在建立判别函数时逐个引入变量,每一步选择都一个判别能力最显著的变量进入判别函数,同时对已有的变量也进行检验,将不显著的变量剔除。直到在可选的变量中,既没有变量被选入也没有变量被删除为止。这样在最后得到的判别函数中,所有变量都是显著的。通过使用逐步判别法,提高了判别样品的能力,也增强了判别函数的稳定性。PROCSTEPDISCDATA=数据集名选项;CLASS分类变量名;VAR变量名列表;BY分组变量;RUN;实例演练:在某矿区采了15块岩石标本,其中7块含矿,8块不含矿,经过分析,每块岩石标本中各种相关元素的含量如表1所示,表中在类型一栏中0表示该岩石不含矿,1表示该岩石含矿。试根据利用逐步判别法建立判别函数,并对表2中的新采的岩石标本进行分类。表1已知类型的岩石标本铜铁银钙铝铋类型2.7218.550.6610.426.590.8812.6724.711.336.185.611.0213.717.711.2111.217.07112.9723.131.348.724.930.7313.4516.491.166.198.80.7512.8818.191.2911.569.951.1112.7520.861.7112.763.530.3212.248.811.8312.286.070.9802.179.931.929.134.771.1502.099.011.7710.465.471.2302.118.81.5812.746.880.8402.0714.821.56.976.641.8302.8710.551.4613.096.871.1102.318.11.98.948.421.6501.8612.381.916.617.421.290表2未知类型的岩石标本铜铁银钙铝铋3.7416.291.016.468.910.813.1614.251.2711.519.951.322.318.521.997.786.171.16

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功