SAS协方差分析实验设计课件•当定量的影响因素对观察结果有难以控制的影响,甚至还有交互作用时,采用协方差分析,这些影响变量称为协变量,扣除(或消除)协变量的影响,可以得到修正后的均值估计一、协方差分析概述•协方差分析(analysisofcovariance)又称带有协变量的方差分析(analysisofvariancewithcovariates),是将回归分析与方差分析结合起来使用的一种分析方法。•在各种试验设计中,对主要变量y研究时,常常希望其他可能影响和干扰y的变量保持一致以到达均衡或可比,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。•但是有时,这些变量难以控制,或者根本不能控制。•为此需要在试验中同时记录这些变量的值,把这些变量看作自变量,或称协变量(covariate),建立因变量y随协变量变化的回归方程,这样就可以利用回归分析把因变量y中受协变量影响的因素扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均值之间是否有显著性的差别。•简单地说,协方差分析是扣除协变量的影响,或者将这些协变量处理成相等,再对修正的y的均值作方差分析。协方差分析的假定•①各样本来自具有相同方差的正态分布总体,即要求各组方差齐性。•②协变量与主要变量y间的总体回归系数不等于0。•③各组的回归线平等,即回归系数。•如果上述的假定满足,就作协方差分析。前述的各种试验设计,如完全随机化设计、随机区组设计、析因设计、拉丁方设计等,都可以带一个或多个协变量,按设计方案扣除协变量的影响后,对主要变量y的修正均值作比较,得出统计结论。协方差分析的模型最简单的单因素一元协方差分析的模型,是由单因素效应模型加上协变量的影响因素而得出:其中为协变量,为协变量在分类水平i和j上的记录值,为所有协变量的平均值,为相关的回归系数。设为平均截距。上式可以化简成设,,上式可以化简成(26.3)很明显是第i组回归线的截距,等于回归线的平均截距加上本组的效应。这个式揭示了,观察值的模型可以表示成一组相似的回归线,且各组具有共同的回归系数,和各组自己的截距。ijijiijxxay)(ijijiijxay0ijiijay)(xxijxijxxx0iia00ijijiijxy0i00iaijyiia00SAS协方差分析模型•用SAS中的glm过程进行协方差分析时,要注意不同试验设计时class语句和model语句的写法。设分类变量为A、B,协变量为X,观察值为Y,则有:•①单因素k水平设计的协方差分析模型–classA;–modelXA;•②随机区组设计的协方差分析模型–classAB;–modelXAB;•③两因素析因设计的协方差分析模型–classAB;–modelXABA*B;实例分析•一元协方差分析•多元协方差分析一元协方差分析•例1研究牡蛎在不同温度的水中不同位置上的生长情况。有人做了如下试验:分别在通向发电站的入口处(温度较低)不同位置(底部和表层)和出口处(温度较高)不同位置(底部和表层)及电站附近的深水处(底部和表层的中间)总共5个不同位置点上,随机地各放4袋牡蛎(每袋中有10个),共5×4=20袋。在将每袋牡蛎放入位置点之前,先洗干净称出每袋的初始体重,放在5个不同点一个月后再称出最后体重。试验结果数据见表26.1所示。表1牡蛎在不同温度和位置上的生长数据位置trt重复数rep(x为初始体重,y为最后体重)1234xyxyxyxy1(入口底部)27.232.632.036.633.037.726.831.02(入口顶部)28.633.826.831.726.530.726.830.43(出口底部)28.635.222.429.123.228.924.430.24(出口顶部)29.335.021.827.030.336.424.330.55(附近中部)20.424.619.623.425.130.318.121.8SAS程序•datagrowth;•dotrt=1to5;•dorep=1to4;•inputxy@@;•output;•end;•end;•cards;•27.232.632.036.633.037.726.831.0•28.633.826.831.726.530.726.830.4•28.635.222.429.123.228.924.430.2•29.335.021.827.030.336.424.330.5•20.424.619.623.425.130.318.121.8•;•Run;•procanovadata=growth;•classtrt;•modely=trt;•procglmdata=growth;•classtrt;•modely=trtx/solution;•meanstrt;•lsmeanstrt/stderrtdiff;•contrast'trt12vstrt34'trt-1-1110;•estimate'trt1adjmean'intercept1trt10000x25.76;•estimate'trt2adjmean'intercept1trt01000x25.76;•estimate'adjtrtdiff'trt1-1000;•estimate'trt1unadjmean'intercept1trt10000x29.75;•estimate'trt2unadjmean'intercept1trt01000x27.175;•estimate'unadjtrtdiff'trt1-1000x2.575;•Run;定性变量trt的5个不同位置点对y可能有较大的影响,class语句中分组变量为trt,先选用anova过程进行方差分析牡蛎的初始体重x对牡蛎的最后体重y可能也有一定的影响,故适合选用glm过程进行协方差分析,在model语句中不仅包括分组变量trt,而且应包括协变量x。选择项solution要求输出回归系数的估计值及其标准误差和假设检验等结果means和lsmeans语句要求输出分组变量trt各水平下y的未修正均值和修正后的均值,选择项stderr要求输出y的修正均值的标准误差、各修正均值与0比较的假设检验结果;选择项tdiff要求输出y的各修正均值之间两两比较所对应的t值和p值。Contrast语句是用来比较入口处底部和顶部均值之和与出口处底部和顶部均值之和是否相等。前三条estimate语句是用来估计入口处底部和顶部调整后的均值及它们之差,并假设检验是否为0,后三条estimate语句是用来估计入口处底部和顶部未调整的均值及它们之差,并假设检验是否为0。程序输出的主要结果见表26.2(a)(b)(c)所示。结果分析•TheSASSystem•AnalysisofVarianceProcedure•DependentVariable:Y•SourceDFSumofSquaresMeanSquareFValuePrF•Model4198.4070000049.601750004.640.0122•Error15160.2625000010.68416667•CorrectedTotal19358.66950000•R-SquareC.V.RootMSEYMean•0.55317510.597063.2686643630.84500000•SourceDFAnovaSSMeanSquareFValuePrF•TRT4198.4070000049.601750004.640.0122结果分析:对分组变量trt的方差分析表明,即使当初始体重x不考虑,各分组最后体重均值的区别也统计显著(0.01220.05),其中分组变量trt的平方和为198.40700000。结果分析•TheGLMProcedure•DependentVariable:y•Sumof•SourceDFSquaresMeanSquareFValuePrF•Model5354.447176770.8894353235.05.0001•Error144.22232330.3015945•CorrectedTotal19358.6695000•R-SquareCoeffVarRootMSEyMean•0.9882281.7804380.54917630.84500•SourceDFTypeISSMeanSquareFValuePrF•trt4198.407000049.6017500164.47.0001•x1156.0401767156.0401767517.38.0001•SourceDFTypeIIISSMeanSquareFValuePrF•trt412.08935933.022339810.020.0005•x1156.0401767156.0401767517.38.0001结果分析•而在协方差分析中,分组变量trt的类型1的平方和等于方差分析中的平方和198.40700000,分组变量trt的类型3的平方和为12.08935928,大大小于类型1的平方和,是因为类型3的平方和反映了经过共同的协变量x调整后的平方和,减去了协变量的影响,所以平方和大幅减小。•类型1是一种未经过调整的平方和,因为它的优先级高于协变量的调整。•更进一步分析,我们注意到方差分析中均方误差为10.68416667,而协方差分析中却缩小到0.30159452,相应地分组变量trt的F统计量从4.64增加到10.02,说明包含了协变量后分组的区别更加显著,原因是简单方差分析中,大多数的误差是由于初始体重x的变异造成的。•Standard•ParameterEstimateErrortValuePr|t|•Intercept2.494859769B1.027862872.430.0293trt1-0.244459378B0.57658196-0.420.6780trt2-0.280271345B0.49290825-0.570.5786•trt31.654757698B0.429430363.850.0018•trt41.107113519B0.471751122.350.0342trt50.000000000B...•x1.0831798190.0476205122.75.0001选择项solution的输出结果,对模型中的截距、各分组变量和协变量的回归系数进行估计和检验,在这个单因素trt的情况下,估计是以最后一个水平trt5(trt=5)为对照组,并且设置它的系数为0,因此截距intercept的估计值是分组trt5的估计值。其他四个分组trt的系数估计是每一个与trt5进行比较而得到的。注意,出口处的trt3和trt4分组是不同与trt5分组。协变量x的系数是合并各组内y和x所得到的回归系数,即是由5个独立的trt分组,分别回归y和x后得到回归系数然后加权平均。协变量x的系数估计值表明,初始体重变动1个单位最后体重y相关地要变动1.083179819单位。表2(b)未调整均值和调整均值及均值之间的比较有计划的均值对比和参数估计否为0进行假设检验,结果却为非常显著。因此,我们可以看到使用调整后均值进行估计是必要的。多元协方差分析•例2研究男女儿童的体表面积是否相同。考虑到儿童的身高和体重对表面积可能有影响,在某地测量了男女各15名初生至3周岁儿童的身高、体重和体表面积,得到测量数据见表26.3所示。表2周岁男女儿童的身高、体重和体表面积男(male)女(female)身高(x1)体重(x2)表面积(y)身高(x1)体重(x2)表面积(y)54.03.002446.254.03.002117.350.52.251928.453.02.252200.251.02.502094.551.52.501906.256.53.502506.751.03.001850.352.03.00