第9章方差分析StatisticalAnalysisSystem本章主要内容•概述•Anova过程(方差分析)•Plan过程(试验设计)•单因素完全随机设计的方差分析•Glm过程(广义线性模型)•单因素完全随机设计的非参数统计•单因素随机区组设计的方差分析(相当于双因素)•系统分组(巢式)设计的方差分析•双因素无重复设计的方差分析•析因设计的方差分析(完全随机、随机区组设计、多因素)•拉丁方设计的方差分析•裂区设计的方差分析•重复度量设计的方差分析•正交设计的方差分析StatisticalAnalysisSystem概述•在科学试验中,有很多研究多个处理(变量)之间差异显著性的问题。•对多个变量均数采用两两比较的方法进行假设测验,分别作出统计推断,表面看是可行的。但实际上存在着三方面的缺陷:–从统计上夸大了变量间的差异;–割裂了变量间内在的联系(特别是对试验误差);–加大了统计工作量。•基于以上考虑,1923年英国著名统计学家费休(R.A.Fisher)提出了方差分析(ANOVA,ANalysisOfVariance)的统计方法。StatisticalAnalysisSystem概述•方差是一个表示变异的量,在一项试验或调查中往往存在着许多造成生物性状变异的因素,这些因素有较重要的,也有较次要的。•方差分析就是将总变异分裂为各因素相应的变异,作出其数量估计,从而发现各因素在变异中所占的重要程度;•而且除了可控因素引起的变异,剩余变异可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。•因此,方差分析在统计分析中占有十分重要的地位,特别是在多因素试验中,它可以帮助我们发现起主要作用的变异因素,从而抓住主要矛盾或关键措施。StatisticalAnalysisSystem概述•SAS中常用的方差分析过程有ANOVA过程和GLM过程。•ANOVA过程运算速度较快,但功能较为有限;•GLM过程运算速度较慢,但功能强大,我们做协方差分析时也要用到GLM过程。StatisticalAnalysisSystem概述•方差分析的数据集至少应有一个依变量(反应变量、结果变量),用于记录不同处理因素水平下的观测值;•至少有一个处理因素变量,用于记录处理因素的类型和水平数。–以单因素方差分析为例,应有一个依变量和一个处理因素变量;–两因素的方差分析应有一个依变量和两个处理因素变量。StatisticalAnalysisSystemAnova过程•anova过程的主要功能就是进行方差分析。•anova过程用以对平衡实验设计资料进行分析,不能用于对非平衡实验设计资料的方差分析。平衡实验设计资料:各分组因素各水平的所有组合具有相同的样本量或观察值。StatisticalAnalysisSystemAnova过程•anova过程的一般格式如下:PROCANOVAoptions;CLASSvariables;MODELdependents=effects/options;ABSORBvariables;BYvariables;FREQvariable;MANOVAtest-options/detail-options;MEANSeffects/options;REPEATEDfactor-specification/options;TESTH=effectsE=effect;Run;StatisticalAnalysisSystemAnova过程•anova过程的Options:选项功能和用法Data=指定分析的数据集。ORDER=指定anova过程对分类变量(class语句指定的变量)各水平的排序方式,可选值:DATA——按照原始数据中的顺序;FORMATTED——输出格式值的顺序;FREQ——各水平观察值频数多少的顺序;INTERNAL——内部值的顺序。MANOVA在多变量分析时,去掉有缺失值的变量。MultiPass在必要时重新读入数据,而不是将数据写入某个中间文件,对大样本数据处理时非常有用。NoPrint禁止将分析结果输出到Output窗口。NameLen=指定效应名称字符串的长度(20-200的整数),默认值为20。OutStat=指定存储方差分析表的数据集。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句:–格式:MODELdependents=effects/options;–dependents代表依变量(即分析变量、因变量),可以是输入数据集中的一个或多个数值型变量,多个变量间以空格相分隔。–effects为方差分析模型的效应项,是由自变量(分组变量)以特定方式组合而成的表达式,一个模型表达式中可以同时包含多个效应项。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句:–如果没有指定任何自变量,则模型中仅包含常数项,此时检验的内容是依变量的均数是否为零。–model语句中指定的自变量必须是class语句中声明过的分类变量,anova过程不允许自变量中有连续型变量(数值变量),而依变量则必须是数值型变量。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句:–自变量表达式可以有三种不同的效应模型,模型的表达方式如下(假定依变量为y,模型中包含三个自变量:a,b,c):(1)主效应(MainEffect)模型:y=abc;(2)交互效应(Crossedeffect或Interaction)模型:y=abca*ba*cb*ca*b*c;(3)嵌套效应(Nestedeffect)模型:y=abc(ab);其中c因素为a、b两因素各种组合下的二级因素。效应(Effect):指用分类变量说明依变量的关系。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句:–model语句末尾的选项可以设置为“intercept”和“nouni”;–intercept指定SAS进行关于常数项(截距)的假设检验。默认情况下,模型中包括截距,但并不显示有关截距项的假设检验结果。–nouni在多变量方差分析(或重复测量资料方差分析)时禁止有关单变量统计结果的输出,但它不影响repeated语句所产生的有关单变量分析结果的显示。StatisticalAnalysisSystemAnova过程•Anova过程的absorb语句:–对于仅发挥主效应的因素,absorb语句指定SAS消除此变量的作用,只对其余变量进行分析,起到大幅度减少计算机资源和时间消耗的作用。–应用此功能时,须先对指定变量排序,且此变量不能再出现在class语句和model语句中,否则将导致离均差平方和计算错误。StatisticalAnalysisSystemAnova过程•Anova过程的manova语句:–当有多个依变量时,此语句控制anova过程进入多元方差分析模式,其后的选项用以指定多元方差分析时的各项指标。StatisticalAnalysisSystemAnova过程•Anova过程的means语句:–通过使用means语句,anova过程可对model语句所定义的效应计算各水平下依变量的均值、标准差–Means语句通过选项的设置可以实现对指定主效应的组间多重比较(anova过程不能执行模型中交互效应的组间多重比较)。–可用时使用多条means语句,但均必须位于model语句之后。StatisticalAnalysisSystemAnova过程•means语句的选项(部分):选项功能和用法Alpha=指定均数多重比较的显著性水平,默认为0.05。Bon对全部主效应执行组间多重比较的Bonferronit检验。Duncan对全部主效应执行组间多重比较的Duncan’s检验(新复极差法,又叫邓肯法,1955年由Duncan提出)。Dunnett对全部主效应执行各组与对照组间多重比较的双侧Dunnett’st检验。默认情况下,各效应的第一个水平将被作为对照组。Dunnettl对全部主效应执行各组与对照组间多重比较的单侧Dunnett’st检验。Gabriel对全部主效应执行Gabriel’s组间多重比较的过程。T在样本量相等的情况下,执行组间均数的两两t检验过程,等同于Fisher的最小显著差异(LSD,leastsignificantdifference)检验。StatisticalAnalysisSystemAnova过程•means语句的选项(部分):选项功能和用法E=指定在多重比较中用来作误差项的效应,所指定的效应必须为Model语句中所饮食的效应,否则以默认值替代。默认情况下残差均方作为误差项。Lsd同“T选项。(费歇尔LSD检验)Snk对全部主效应执行Student-Newman-Keuls组间多重比较过程。Tukey对全部主效应执行Tukey’sHSD组间多重比较过程。Scheffe对全部主效应执行Scheffe多重比较。Waller对全部主效应执行组间多重比较的Waller-Duncant检验过程。Welch执行Welch方差加权的单因素方差分析过程。在方差齐性的前提条件下,此方法比一般的方差分析方法更为稳健。设置Welch选项时,Model语句必须为单因素模型,否则将忽略该选项。StatisticalAnalysisSystemAnova过程•Anova过程的repeated语句:–如果依变量为重复测量数据,此语句用以指定anova过程进入重复测量数据方差分析模式。–其中的变量名代表重复测量因素(如测量时间等),其后水平数代表重复测量的次数,如果需指定重复测量各次的具体标识,可在其后按顺序列出,并用圆括号括起来。StatisticalAnalysisSystemAnova过程•Anova过程的test语句:–用以进行其他类型的f检验,这种检验不同于通常方差分析中以误差均方为分母的f检验;–选项“h=”用以指定作为分子的变量表达式(必须在model语句中出现过);–选项“e=”用以指定一个作为分母的变量。StatisticalAnalysisSystemPlan过程•随机化(randomization)是将实验对象的实验顺序及分组进行随机分配。这是保证非处理因素均衡的一个重要手段。•常用的随机化分组方法有抽签法和随机数字表法。•SAS软件中用于试验设计的SAS过程称为试验设计(PLAN)。SAS的PLAN过程基本语法格式如下:ProcPlanoptions;Factorsrequirements/noprint;Treatmentsrequirements;OutputOut=Sas-dataset[DATA=Sas-dataset][试验因子值设定];Run;StatisticalAnalysisSystemPlan过程•PLAN语句有2个选项:–Seed=n:用于设定种子数,n为一个5、6或7位的奇数,缺省时利用系统时钟时间作种子数。–Ordered:要求因子组以1,2,…,m给出,与Factors语句联用。•FACTORS语句指明试验处理因子的抽样方式,格式是:–因子=m[OFn][抽样方式]–m和n为数字,且m≤n。–例如:unit=6,表示对试验因子unit产生1,2,3,4,5,6的一个排列。unit=6OF8,表示从8个中挑选出6个。–抽样方式包括RANDOM、ORDERED和CYCLIC。缺省为RANDOM。StatisticalAnalysisSystemPlan过程–RANDOM为随机排列,从1,2,…,m中随机抽出;–ORDERED为顺序排列,顺序产生1,2,…,m序列;–CYCLIC为循环排列,格式:CYCLIC[(初始排列)][增量]。因子水平依1,2,…,m或原始区组循环排列。如GROUP=5CYCLIC,产生排列1,2,3,4,5;GROUP=5CYCLIC2,产生排列1,2,3,4,5,以后每次增量为2。•TREAT