SAS学习系列29方差分析Ⅱ—ANOVA,GLM过程步

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

28.方差分析Ⅱ—ANOVA,GLM过程步SAS提供了ANOVA和GLM过程步进行方差分析。ANOVA过程步主要处理均衡数据(分类变量的每个水平的观察数是相等),该过程考虑到均衡设计的特殊构造,处理起来速度更快更省内存,也可以处理拉丁方设计、若干不完全的均衡区组设计数据等。若试验设计不均衡,也不是前面几种实验设计数据,则应该使用GLM过程。(一)PROCANOVA过程步一、基本语法PROCANOVAdata=数据集可选项;CLASS分类变量列表;MODEL因变量=效应变量列表/可选项;MEANS效应变量列表/可选项;TESTH=效应变量列表E=效应变量列表;说明:(1)CLASS语句是必不可少的,必须放在MODEL语句之前,用来指定分类、区组变量(单因素方差分析只有一个变量);(2)MODEL语句也是必不可少的,该语句用来规定因变量和自变量效应(单因素方差分析的自变量就是分类变量)。若没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为0.Model语句的主要形式有4种:①主效应模型modely=abc;②含有交叉因素的模型modely=abca*ba*cb*ca*b*c;③嵌套模型modely=abc(ab);④包含嵌套、交叉和主效应的模型modely=ab(a)c(a)b*c(a);(3)MEANS语句必须出现在MODEL语句之后,用来计算在效应变量所对应的因变量均值,但这些均值没有针对模型中的效应进行修正。若要计算修正的均值需要用GLM过程步的LSMEANS语句;(4)MEANS语句的可选项主要有两个内容,一是选择多重比较的检验方法,二是设定这些检验的参数(只能用于主效应);bon——对所有主效应均值之差进行Bonferroni的t检验;duncan——对所有主效应均值进行Duncan的多重极差检验;smm|gt2——当样本量不等时,基于学生化最大模和Sidak不相关t不等式,等到Hochberg的GT2方法,对主效应均值进行两两对比检验;snk——对所有主效应均值进行Student-Newman-Keuls的多重极差检验;t|lsd——对所有主效应均值进行两两t检验,它相当于在单元观察数相等时Fisher的最小显著差检验;tukey——对所有主效应均值进行Tukey的学生化极差检验;waller——对所有主效应均值进行Waller-Duncan的k比率检验;……alpha=p——设置显著水平;clm——对变量的每个水平的均值按置信区间形式输出;e=效应变量——指定在多重对比检验中所使用的误差均方。默认使用残差均方。指定的效应变量必须是在model语句中出现过的;kratio=值——给出Waller-Duncan检验的类型1/类型2的误差限制比例。Kratio的合理值为50、100(默认)、500,大约相当于两水平时alpha值为0.1、0.05、0.01.hovtest——要求输出组间方差齐性的Levene检验;……(5)TEST语句指定效应变量(H=)和误差变量(E=)做F检验,误差变量必须要指定且只能指定1个效应变量。默认是用残差均方作为误差项对所有平方和(SS)计算F值。例1来自四个地区少女篮球队队员身高的数据,变量包括地区、身高(C:\MyRawData\GirlHeights.dat):读入数据,做单因素(身高)方差分析,判断她们的身高是否存在显著性地区差异。代码:dataheights;infile'c:\MyRawData\GirlHeights.dat';inputRegion$Height@@;run;*UseANOVAtorunone-wayanalysisofvariance;procanovadata=heights;classRegion;modelHeight=Region;meansRegion/SCHEFFE;titleGirls'HeightsfromFourRegions;run;运行结果及说明:CLASS语句中分类变量有4个不同的水平值,共64个观测值;因变量Height的方差分析表,因变量的总平方和(1030.000)、属于模型部分的平方和(196.625)、属于误差部分的平方和(833.375),自由度为(3,60,63),模型的均方MS(65.541667),误差的均方MSE(13.889583),F值=MS/MSE=4.72,P值=0.0051α=0.05,否定原假设,即不同地区Height的均值不全相等(至少有两个不相等)。R2=196.625/1030.000=0.90898,变异系数CV=6.134771=100×根MSE/Height均值(%),因变量的标准差(根MSE)为3.726873效应变量Region的方差分析表,同因变量的方差分析表中“模型”行。下面是默认输出的盒形图:Levene的方差齐性检验结果(0.45140.05)表明:不能拒绝不同地区身高的方差是相等的原假设。MEANS语句中的SCHEFFE选项,比较不同区域的平均身高,Scheffe分组A、B,在显著水平α=0.05下,认为同组内身高没有差异。例2接例1四个地区的Height均值不同,但可能存在某2个或某3个或地区的身高均值相同。除了用SCHEFFE选项,还可以对均值做多重比较和置信区间分析。代码(部分):procanovadata=heights;classRegion;modelHeight=Region;meansRegion/DUNCAN;meansRegion/LSDCLMCLDIFF;运行结果及说明:DUNCAN选项,输出组间均值比较的多重极差检验,各组均值按从小到大排列,3个均值间的比较,就看3个地区最大和最小均值之差是否大于临界值2.773,North、East、West均值之差60.750-58.688=2.0622.773,故这三个地区均值没有显著差异(α=0.05)各地区Height均值t检验的置信区间:均值±1.863714.LSD最小显著差检验,0.05显著水平下,两两比较的最小显著差为2.6357,若显著则被标上“***”,例如,South与North均值之差为2.7502.6357,故有显著差异。(二)PROCGLM过程步GLM过程步分析符合一般线性模型(GeneralLinearModels)的数据,因此取名GLM。可用在简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等。GLM过程步的语法与ANOVA过程步基本相同。区别是GLM过程多了些MODEL模型,并可以多三条语句:contrast、estimate和lsmeans.1.MODEL模型(a、b、c表示分类变量;y1、y2、x1、x2代表连续变量):Modely=x1;——线性回归Modely=x1x2;——多元线性回归Modely=x1x1*x1;——多项式回归Modely1y2=x1x2;——多元回归Modely=a;——单因素方差分析Modely=abc;——主效应模型Modely=aba*b;——交叉因素模型Modely=ab(a)c(ba);——嵌套模型Modely1y2=ab;——多元方差分析模型Modely=ax1——协方差分析模型……e1/e2/e3/e4——输出模型中每一效应的类型1/类型2/类型3/类型4的可估函数,并计算相应的平方和;ss1/ss2/ss3/ss4——对每个效应,输出与类型1/类型2/类型3/类型4的可估函数相关的平方和;cli/clm——打印每一观察的预测值/预测均值的置信限,两者不能同时使用;p——打印自变量没有缺失值的每一观察值、预测值、残差值,以及Durbin-Waston统计量;2.contrast语句用来检验均值的线性组合关系的原假设。有三个基本参数,一是标签,二是分类变量名,三是效应均值线性组合的系数表(系数的次序是匹配分类变量按字母数字次序的水平值)。示例:contrast'USvsNON-U.S.'brand222-3-3;检验H0:2μ1+2μ2+2μ3-3μ4-3μ5=03.estimate语句用来估计效应均值的线性组合的值,格式同contrast语句。示例:(分数系数的表示)estimate'1/3(a+b)-2/3c'Man11-2/divisor=3;4.lsmeans语句用来计算效应变量修正后的均值,最小二乘均值(LSM),这是针对非均衡数据设计的。可选参数:stderr——输出LSM的标准差和H0:LSM=0的概率值;tdiff——输出假设检验H0:LSM(i)=LSM(j)的t值和相应的概率值;slice=效应变量——通过规定的这个效应来分开交叉的LSM效应。例如,假定交叉项A*B是显著的,如果想对B的每个效应检验A的效应,使用下面语句:lsmeansA*B/slice=B;例3考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试,每种品牌的材料做四次试验,且都是采用的同一种磨损措施,所有的试验都是在完全随机的顺序下在相同的机器上完成的。品牌ACMX、AXAX和CHAMP来自美国制造商,而品牌TUFFY和XTRA来自非美国制造商。我们想要比较美国品牌的均值与非美国品牌的均值是否有差异。代码:dataveneer;inputbrand$wear@@;datalines;ACME2.3ACME2.1ACME2.4ACME2.5CHAMP2.2CHAMP2.3CHAMP2.4CHAMP2.6AJAX2.2AJAX2.0AJAX1.9AJAX2.1TUFFY2.4TUFFY2.7TUFFY2.6TUFFY2.7XTRA2.3XTRA2.5XTRA2.3XTRA2.4;run;procglmdata=veneer;classbrand;modelwear=brand;contrast'USvsNON-U.S.'brand222-3-3;estimate'USvsNON-U.S.'brand222-3-3;title'WearTestsforfivebrands';run;运行结果:程序说明:(1)根据题意,原假设H0:(μACME+μAJAX+μCHAMP)/3=(μTUFFY+μXTRA)/2等价于H0:2(μACME+μAJAX+μCHAMP)-3(μTUFFY+μXTRA)=0,故contrast语句的系数表为2,2,2,-3,-3.(注意到均值对应关系是按字母顺序排列);(2)美国品牌均值与非美国品牌均值比较的平方和为0.27075,F值为13=0.27075/0.020833,P值=0.0026α=0.05,拒绝原假设H0,说明美国品牌均值与非美国品牌均值是不同的;(3)效应线性组合的参数估计为-1.425=3×(2.325+2.050+2.375)-2×(2.600+2.375)对于原假设H0参数是否为0的t检验,t值=-3.60,P值=0.0026α=0.05,拒绝原假设(注意到t检验的p值与F检验的p值相同,这是因为两种检验是相同的,F值等于t值的平方)。例4(随机单位组试验设计的方差分析)某食品公司对一种食品设计了四种包装。为了考察哪种包装最受欢迎,选了10个有近似相同销售量的商店作试验,其中两种包装各指定两个商店,另两种包装各指定三个商店销售。在试验期间各商店的货架排放位置、空间都尽量一致,营业员的促销方法也基本相同。观察在一定时期的销售量(数据见下表)。试比较四种包装的销售量是否一致。表四种包装在10个商店中的销售量包装类型(treat)商店(block)商店数n123A112182A21412133A31917213A424302注意,包装类型A1和A4在商店3里没有进行试验,所以这是有不平衡数据集的随机区组设计。代码:datapack;inputtreat$n;doblock=1ton;inputy@@;output;end;datalines;A121218A23141213A33191721A422430;ru

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功