7-1DATAnew;DOi=1TO4;DOtrt=1TO3;INPUTy@@;OUTPUT;END;END;DROPtrt;CARDS;0.0780.1330.1280.0840.1390.1340.0730.1280.1230.0650.1200.115PROCANOVA;CLASSI;MODELy=I;MEANSI/DUNCAN;RUN;§7.4.1组内观察值数目相等的单向分组资料的方差分析例7.5研究6种氮肥施用法(K=6)对小麦的效应,每种施肥法种5盆小麦(n=5),完全随机设计,最后测定它们的含氮量(mg),其结果见表10.1,试作方差分析。表10.16种施肥法小麦植株的含氮量(mg)12312.914.012.610.514.614.012.313.83.210.814.613.312.213.813.410.714.413.712.513.613.410.814.413.512.713.613.010.514.413.7由于组内观测值数目相等,故采用ANOVA过程分析。程序如下8.959.228.648.818.928.708.798.849.018.788.918.811.程序及说明/*数据来源:南京农业大学,田间试验和统计方法,P102*/DATAnew;DOi=1TO3;7-2DOtrt=1TO4;INPUTy@@;OUTPUT;END;END;DROPi;/*删除临时变量I*/CARDS;8.958.929.01PROCANOVA;/*调用ANOVA过程作方差分析*/CLASStrt;/*规定以trt为分类变量*/MODELy=trt;MEANStrt/DUNCAN;/*选用新复极差法作多重比较*/RUN;2.输出结果及说明AnalysisofVarianceProcedure方差分析过程ClassLevelInformation处理水平信息ClassLevelsValues处理因素变量名水平数具体值TRT6123456Numberofobservationsindataset=30数据集中有30个观察值DependentVariable:Y依变量名为ySumofMeanSourceDFSquaresSquareFValuePrF变异来源自由度平方和均方F值概率值PModel544.463000008.89260000164.170.0001Error241.300000000.05416667CorrectedTotal2945.76300000R-SquareC.V.RootMSEYMean所用模型的决定系数变异系数剩余标准差依变量均数0.9715931.7861650.23273713.0300000SourceDFAnovaSSMeanSquareFValuePrF变异来源自由度平方和均方F值概率值PTRT544.463000008.89260000164.170.0001AnalysisofVarianceProcedureDuncan'sMultipleRangeTestforvariable:Y用DUNCAN法测验NOTE:ThistestcontrolsthetypeIexperimentwiseerrorrate7-3underthecompletenullhypothesisbutnotunderpartialnullhypotheses.Alpha=0.05df=24MSE=0.054167α水平为0.05,自由度为24,MS误差为0.054167NumberofMeans23456CriticalRange0.30380.31910.32890.33580.3410两两比较时的界值,两平均数之差大于该界值时则两组有统计学差异Meanswiththesameletterarenotsignificantlydifferent.标有相同字母的两平均数间无差异DuncanGroupingMeanNTRT测验结果各组均数例数组别A14.480055B13.760052B13.640056C13.120053D12.520051E10.660054在输出结果中,找CLASS语句指出的变量的PrF(概率)值。此例中,P≤0.0001,可得出各种施肥法间有极显著差异。说明6种施氮法的植株含氮量是显著不同的。用DUNCAN新复极差法测验结果表明,除第2种施肥法和第6种施肥法之间的差异不显著外,其余各种方法间的差异均达到Alpha=0.05水平,其中第5种施肥法的效果最好,其次是第2和第6种施肥法较好。第7章方差分析摘要:多组资料均数比较一般采用方差分析的方法,SAS中方差分析的功能非常全面,能实现方差分析功能的过程有ANOVA过程和GLM过程。对于两个平均数的假设测验,一般采用t测验来完成,对于多个平均数的假设测验,若采用t测验两两进行,不仅非常麻烦,而且容易犯第一类错误。方差或称均方,即标准差的平方,它是一个表示变异程度的量。在一项试验或调查中往往存在着许多种影响生物性状变异的因素,这些因素有较重要的,也有较次要的。方差分析就是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度;而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。当试验结果受到多个因素的影响,而且也受到每个因素的各水平的影响时,为从数量上反映各因素以及各因素诸水平对试验结果的影响,可使用方差分析的方法。7-4SAS系统用于进行方差分析的过程主要有ANOVA过程和GLM过程,对于均衡数据的分析一般采用ANOVA过程,对于非均衡数据的分析一般采用GLM过程。方差分析和协方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOVA过程和GLM过程。前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大,我们做协方差分析时就要用到GLM过程。本章将首先介绍方差分析所用数据集的建立技巧,然后重点介绍这两个程序步。§7.1方差分析概述一、方差分析的应用场合、基本思想和前提条件1.应用场合当影响因素是定性变量(一般称为分组变量或原因变量),观测结果是定量变量(一般称为结果变量或反应变量),常用的数据处理方法是对均数或均值向量进行假设检验。若只有一个原因变量,而且其水平数k≤2,一元时常用U检验、t检验、秩和检验,多元时用多元检验(T2检验或wilks’^检验);若原因变量的水平数k≥3或原因变量的个数≥2,一元时常用下检验,也叫一元方差分析(简写成ANOVA)或非参数检验,多元时用多元方差分析(简写成MANOVA,其中最常用的是Wilks’^检验)。2.基本思想方差分析的基本思想可概述为:把全部数据关于总均数的离均差平方和分解成几个部分,每一部分表示某一影响因素或诸影响因素之间的交互作用所产生的效应,将各部分均方(即方差)与误差均方相比较,依据下分布作出统计推断,从而确认或否认某些因素或交互作用的重要性。由于试验设计的类型多种多样,不同的设计类型往往需用不同的方差分析模型去处理,因此,用来作为度量影响因素作用大小的尺子——误差的均方,也就不是一成不变的了。这就出现了误差固定的设计类型及其定量资料的统计分析方法和误差变动的设计类型及其定量资料的统计分析方法。3.前提条件无论是进行ANOVA还是MANOVA,严格他说,都要求资料满足正态性和方差齐性的。要求,但方差齐性有时较难满足,此时可采用有关的非参数检验或对数据作某种变换后使之满足前提条件。此处仅给出一元情形时,如何用SAS程序实现对资料的正态性和方差齐性检验。例7.1为了研究轻度和重度再障贫血患者血清中可溶性CD,抗原水平(U/ml)与正常人有无显著性差别,以反映患者免疫状态紊乱而导致造血功能障碍的程度。从三种人群中分别随机地抽取了10人,测得CD8抗原水平如下,试对下列三组资料作正态性和方差齐性检验。7-5正常组:234,318,402,382,621,408,243,141,42,98。轻度组:509,518,555,758,845,712,585,448,753,896。重度组:851,562,918,631,653,843,659,849,762,901。【分析与解答】①关于正态性检验:H。:三组资料分别取自正态分布的总体;H1:三组资料并非取自正态分布的总体;α=0.05。②关于方差齐性检验:H。:三组资料所取自的总体的方差相等;H1:三组资料所取自的总体的方差不相等或不全相等;α=0.05。【SAS程序】DATAaa;DOg=1TO3;INPUTX@@;OUTPUT;END;CARDS;2345098513185185624025559183827586316218456534087128432435856591414488494275376298896901PROCSORTDATA=aa;BYg;PROCPRINT;RUN;二、方差分析数据集的建立技巧1.方差分析的数据集格式统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的。一般来说,数据集中应至少有一个结果变量,用于记录不同处理因素水平下观察值的大小;至少有一个处理因素变量,用于记录处理因素的类型及其水平数。以单因素方差分析为例,就应有一个结果变量和一个处理因素变量;而两因素的方差分析应有一个结果变量和两个处理因素变量。例A某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定,请给出数据集的结构。解:数据集中应有两个变量,x和group。x记录肺活量的大小;group取值为1、2或3,分别代表石棉肺患者、可疑患者及非患者。例B某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度,请给出数据集的结构。解:数据集中应有三个变量,x、group和worker。x记录尿氟浓度;group取值为1、2或3,分别代表工前、工中及工后;worker取值为1到10,分别代表10名工人。7-62.方差分析数据集的建立方法可见方差分析的数据集其变量取值有一定的规律,因此可以利用循环语句和判断语句来简化输入。例7.2请建立例B的数据集。解:此例中数据较有规律,各组的例数均相等,这可正是循环语句大显身手的时候。dataNEW;dogroup=1to3;doworker=1to10;inputX@@;output;end;end;cards;90.5388.4347.37......105.2758.95procprint;run;§7.2ANOVA(AnalysisofVariance)过程如果实验的每种组合安排相同数目的实验单位,则这种实验设计称为平衡设计。由于数据是平衡的,则平方和的计算可以简化。这样的方差分析可用ANOVA过程,不必用占机时更多的GLM过程。ANOVA过程可进行单向分组资料的方差分析、随机区组试验及拉丁方试验的统计分析等。一、过程格式PROCANOVA选择项;CLASS变量表;必需,指定要分析的处理因素MODEL依变量表=效应表/选择项;必需,给出分析用的方差分析模型MEANS效应表/选择项;指定要两两比较的因素及比较方法FREQ变量名;TESTH=效果名称E=效果名称;指定多元方差分析的选项MANOVAH=效果名称E=效果名称M=变量的转换式PREFIX=新变量的名称代号MNAMES=新变量名表/选择项;REPEATED重复变量的名称组名变量转换/选择项;BY变量表;7-7二、语句说明程序中CLASS语句和MODEL语句是必需的,而且CLASS语句必须出现在MODEL语句之前。如果选用TEST和MANOVA语句,则必须放在MODEL语句之后。MEANS、TEST和MANOVA语句可以重复使用,其他语句只能使用一次。1.PROCANOVA语句选择项DATA=数据集指定用来分析的数据集名,若缺省,则使用最新建立的数据集。MANOVA要求PROCANOVA语句将含一个或一个以上依变量缺失值的观察值剔除。当使用交互式进行方差分析时,最好指定