第9章方差分析.

gz小铿
1 ℃
2019-12-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第9章方差分析StatisticalAnalysisSystem本章主要内容•概述•Anova过程（方差分析）•Plan过程（试验设计）•单因素完全随机设计的方差分析•Glm过程（广义线性模型）•单因素完全随机设计的非参数统计•单因素随机区组设计的方差分析（相当于双因素）•系统分组（巢式）设计的方差分析•双因素无重复设计的方差分析•析因设计的方差分析（完全随机、随机区组设计、多因素）•拉丁方设计的方差分析•裂区设计的方差分析•重复度量设计的方差分析•正交设计的方差分析StatisticalAnalysisSystem概述•在科学试验中，有很多研究多个处理（变量）之间差异显著性的问题。•对多个变量均数采用两两比较的方法进行假设测验，分别作出统计推断，表面看是可行的。但实际上存在着三方面的缺陷：–从统计上夸大了变量间的差异；–割裂了变量间内在的联系（特别是对试验误差）；–加大了统计工作量。•基于以上考虑，1923年英国著名统计学家费休（R.A.Fisher）提出了方差分析（ANOVA，ANalysisOfVariance）的统计方法。StatisticalAnalysisSystem概述•方差是一个表示变异的量，在一项试验或调查中往往存在着许多造成生物性状变异的因素，这些因素有较重要的，也有较次要的。•方差分析就是将总变异分裂为各因素相应的变异，作出其数量估计，从而发现各因素在变异中所占的重要程度；•而且除了可控因素引起的变异，剩余变异可提供试验误差的准确而无偏的估计，作为统计假设测验的依据。•因此，方差分析在统计分析中占有十分重要的地位，特别是在多因素试验中，它可以帮助我们发现起主要作用的变异因素，从而抓住主要矛盾或关键措施。StatisticalAnalysisSystem概述•SAS中常用的方差分析过程有ANOVA过程和GLM过程。•ANOVA过程运算速度较快，但功能较为有限；•GLM过程运算速度较慢，但功能强大，我们做协方差分析时也要用到GLM过程。StatisticalAnalysisSystem概述•方差分析的数据集至少应有一个依变量（反应变量、结果变量），用于记录不同处理因素水平下的观测值；•至少有一个处理因素变量，用于记录处理因素的类型和水平数。–以单因素方差分析为例，应有一个依变量和一个处理因素变量；–两因素的方差分析应有一个依变量和两个处理因素变量。StatisticalAnalysisSystemAnova过程•anova过程的主要功能就是进行方差分析。•anova过程用以对平衡实验设计资料进行分析，不能用于对非平衡实验设计资料的方差分析。平衡实验设计资料：各分组因素各水平的所有组合具有相同的样本量或观察值。StatisticalAnalysisSystemAnova过程•anova过程的一般格式如下：PROCANOVAoptions;CLASSvariables;MODELdependents=effects/options;ABSORBvariables;BYvariables;FREQvariable;MANOVAtest-options/detail-options;MEANSeffects/options;REPEATEDfactor-specification/options;TESTH=effectsE=effect;Run;StatisticalAnalysisSystemAnova过程•anova过程的Options：选项功能和用法Data=指定分析的数据集。ORDER=指定anova过程对分类变量（class语句指定的变量）各水平的排序方式，可选值:DATA——按照原始数据中的顺序；FORMATTED——输出格式值的顺序；FREQ——各水平观察值频数多少的顺序；INTERNAL——内部值的顺序。MANOVA在多变量分析时，去掉有缺失值的变量。MultiPass在必要时重新读入数据，而不是将数据写入某个中间文件，对大样本数据处理时非常有用。NoPrint禁止将分析结果输出到Output窗口。NameLen=指定效应名称字符串的长度（20-200的整数），默认值为20。OutStat=指定存储方差分析表的数据集。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句：–格式：MODELdependents=effects/options;–dependents代表依变量（即分析变量、因变量），可以是输入数据集中的一个或多个数值型变量，多个变量间以空格相分隔。–effects为方差分析模型的效应项，是由自变量（分组变量）以特定方式组合而成的表达式，一个模型表达式中可以同时包含多个效应项。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句：–如果没有指定任何自变量，则模型中仅包含常数项，此时检验的内容是依变量的均数是否为零。–model语句中指定的自变量必须是class语句中声明过的分类变量，anova过程不允许自变量中有连续型变量（数值变量），而依变量则必须是数值型变量。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句：–自变量表达式可以有三种不同的效应模型，模型的表达方式如下（假定依变量为y，模型中包含三个自变量：a,b,c）：（1）主效应(MainEffect)模型：y=abc;（2）交互效应(Crossedeffect或Interaction)模型：y=abca*ba*cb*ca*b*c;（3）嵌套效应(Nestedeffect)模型：y=abc(ab);其中c因素为a、b两因素各种组合下的二级因素。效应（Effect）：指用分类变量说明依变量的关系。StatisticalAnalysisSystemAnova过程•Anova过程的Model语句：–model语句末尾的选项可以设置为“intercept”和“nouni”;–intercept指定SAS进行关于常数项（截距）的假设检验。默认情况下，模型中包括截距，但并不显示有关截距项的假设检验结果。–nouni在多变量方差分析（或重复测量资料方差分析）时禁止有关单变量统计结果的输出，但它不影响repeated语句所产生的有关单变量分析结果的显示。StatisticalAnalysisSystemAnova过程•Anova过程的absorb语句：–对于仅发挥主效应的因素，absorb语句指定SAS消除此变量的作用，只对其余变量进行分析，起到大幅度减少计算机资源和时间消耗的作用。–应用此功能时，须先对指定变量排序，且此变量不能再出现在class语句和model语句中，否则将导致离均差平方和计算错误。StatisticalAnalysisSystemAnova过程•Anova过程的manova语句：–当有多个依变量时，此语句控制anova过程进入多元方差分析模式，其后的选项用以指定多元方差分析时的各项指标。StatisticalAnalysisSystemAnova过程•Anova过程的means语句：–通过使用means语句，anova过程可对model语句所定义的效应计算各水平下依变量的均值、标准差–Means语句通过选项的设置可以实现对指定主效应的组间多重比较（anova过程不能执行模型中交互效应的组间多重比较）。–可用时使用多条means语句，但均必须位于model语句之后。StatisticalAnalysisSystemAnova过程•means语句的选项（部分）：选项功能和用法Alpha=指定均数多重比较的显著性水平，默认为0.05。Bon对全部主效应执行组间多重比较的Bonferronit检验。Duncan对全部主效应执行组间多重比较的Duncan’s检验（新复极差法，又叫邓肯法，1955年由Duncan提出）。Dunnett对全部主效应执行各组与对照组间多重比较的双侧Dunnett’st检验。默认情况下，各效应的第一个水平将被作为对照组。Dunnettl对全部主效应执行各组与对照组间多重比较的单侧Dunnett’st检验。Gabriel对全部主效应执行Gabriel’s组间多重比较的过程。T在样本量相等的情况下，执行组间均数的两两t检验过程，等同于Fisher的最小显著差异（LSD，leastsignificantdifference）检验。StatisticalAnalysisSystemAnova过程•means语句的选项（部分）：选项功能和用法E=指定在多重比较中用来作误差项的效应，所指定的效应必须为Model语句中所饮食的效应，否则以默认值替代。默认情况下残差均方作为误差项。Lsd同“T选项。（费歇尔LSD检验）Snk对全部主效应执行Student-Newman-Keuls组间多重比较过程。Tukey对全部主效应执行Tukey’sHSD组间多重比较过程。Scheffe对全部主效应执行Scheffe多重比较。Waller对全部主效应执行组间多重比较的Waller-Duncant检验过程。Welch执行Welch方差加权的单因素方差分析过程。在方差齐性的前提条件下，此方法比一般的方差分析方法更为稳健。设置Welch选项时，Model语句必须为单因素模型，否则将忽略该选项。StatisticalAnalysisSystemAnova过程•Anova过程的repeated语句：–如果依变量为重复测量数据，此语句用以指定anova过程进入重复测量数据方差分析模式。–其中的变量名代表重复测量因素（如测量时间等），其后水平数代表重复测量的次数，如果需指定重复测量各次的具体标识，可在其后按顺序列出，并用圆括号括起来。StatisticalAnalysisSystemAnova过程•Anova过程的test语句：–用以进行其他类型的f检验，这种检验不同于通常方差分析中以误差均方为分母的f检验；–选项“h=”用以指定作为分子的变量表达式（必须在model语句中出现过）；–选项“e=”用以指定一个作为分母的变量。StatisticalAnalysisSystemPlan过程•随机化（randomization）是将实验对象的实验顺序及分组进行随机分配。这是保证非处理因素均衡的一个重要手段。•常用的随机化分组方法有抽签法和随机数字表法。•SAS软件中用于试验设计的SAS过程称为试验设计（PLAN）。SAS的PLAN过程基本语法格式如下：ProcPlanoptions;Factorsrequirements/noprint;Treatmentsrequirements;OutputOut=Sas-dataset[DATA=Sas-dataset][试验因子值设定];Run;StatisticalAnalysisSystemPlan过程•PLAN语句有2个选项：–Seed=n：用于设定种子数，n为一个5、6或7位的奇数，缺省时利用系统时钟时间作种子数。–Ordered：要求因子组以1,2,…,m给出，与Factors语句联用。•FACTORS语句指明试验处理因子的抽样方式，格式是：–因子=m[OFn][抽样方式]–m和n为数字，且m≤n。–例如：unit=6，表示对试验因子unit产生1,2,3,4,5,6的一个排列。unit=6OF8，表示从8个中挑选出6个。–抽样方式包括RANDOM、ORDERED和CYCLIC。缺省为RANDOM。StatisticalAnalysisSystemPlan过程–RANDOM为随机排列，从1,2,…,m中随机抽出；–ORDERED为顺序排列，顺序产生1,2,…,m序列；–CYCLIC为循环排列，格式：CYCLIC[(初始排列)][增量]。因子水平依1,2,…,m或原始区组循环排列。如GROUP=5CYCLIC，产生排列1，2，3，4，5；GROUP=5CYCLIC2，产生排列1，2，3，4，5，以后每次增量为2。•TREAT