32.协方差分析(一)原理一、基本思想在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得到不正确的结论。这种影响的变量称为协变量(一般是连续变量)。例如,研究3种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。协方差分析回归分析与方差分析的结合,在做两组和多组均值之间的比较前,用直线回归的方法找出各组因变量Y与协变量X之间的数量关系,求得在假定X相等时的修正均均值,然后用方差分析比较修正均值之间的差别。简单来说,协方差分析就是扣除协变量的影响,或者将这些协变量处理成相等,再对修正的Y的均值作方差分析。根据协变量的个数的不同,协方差分析分为一元协方差分析和多元协方差分析。二、协方差分析需要满足的条件(1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差;(2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。否则,就有可能犯第一类错误,即错误地接受虚无假设;(3)自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除;(4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。三、基本理论1.观测值=均值+分组变量影响+协变量影响+随机误差.即()ijiijijyutxx(1)其中,X为所有协变量的平均值。注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。用协变量进行修正,得到修正后的yij(adj)为(adj)()ijijijiijyyxxut就可以对yij(adj)做方差分析了。关键问题是求出回归系数β.2.总离差=分组变量离差+协变量离差+随机误差,(1)计算总离差平方和时,记11()()knxyijijijTxxyy211()knxxijijTxx总离差平方和:211()knyyijijTyy最终要检验分组自变量对因变量有无显著作用。原假设H0:无显著作用。假设检验是在H0为真条件下进行,可认为ti=0,则()ijTijijyuxx按最小二乘法原理线性回归可得到β的估计值ˆxyTxxTT记修正的总离差平方和(残差平方和)为Tyy(adj),则22(adj)ˆTxyyyyyxxyyxxTTTTTT,自由度为n-2注:2ˆTxxT为回归平方和,若ˆ0T(回归线为水平线),表示协变量x对y无作用,用方差分析就可以解决了。(2)计算组内离差平方和时,记11()()knxyijiijiijExxyy211()knxxijiijExx组内总离差平方和:211()knyyijiijEyy根据协方差分析的基本假设:各组内回归系数相等(做协方差分析时需要检验这一点),得到组内回归系数βw的估计值ˆxywxxEE记修正的组内总离差平方和(组内残差平方和)为Eyy(adj),则22(adj)ˆxyyyyywxxyyxxEEEEEE,自由度为n-k-1其中,2ˆwxxE为组内回归平方和,当1ˆˆwwk时,组内总离差平方和认为完全是由随机因素引起的,Eyy(adj)就是随机为误差。这里的ˆw是1ˆˆ,,wwk的加权平均值。(3)计算分组变量离差平方和Byy(adj),它反映的是各个水平之间的差异。2(adj)(adj)(adj)(adj)ˆTyyyyyyyyxxyyBTETTE即,分组变量离差=总离差-协变量离差-随机误差。于是,就可以进行组间无差异检验了:(adj)(adj)/1/1yyyyBkFEnk3.因此,在做协方差分析前,需要依次做两个假设检验:(1)协变量对因变量的影响对与各组来说都是相同的,即各组回归系数相等:1ˆˆˆ:wwkw;步骤:①先按回归系数相等和不相等分别表示模型()ijiwijijyutxx()ijiwiijijyutxx并计算出误差平方和2(adj)yyyywxxEEE211ikyywixxiSEE其中,1ikyyyyiEE.②计算F值(adj)11/1/2yyESkFSnk若F值小于临界值Fα,则说明各组回归系数无显著差异(相等)。(2)这些相等的回归系数ˆ0w.即采用一元线性回归的显著性检验,2(adj)/1=//(1)wxxyyEFEnk回归平方和/自由度残差平方和自由度2222/(1)(/)/(1)xyxxxyyyxyxxyyxxxyEEEnkEEEnkEEE4.协方差分析的步骤(1)检验数据是否满足假设条件:正态分布性、方差齐性、线性相关性、平行性;(2)检验效应因子的显著性;(3)估计校正的组均值;(4)检验校正的组均值之间的差异。(二)PROCGLM过程步用PROCGLM过程步进行协方差分析,需要注意是不同试验设计时class语句和model语句的写法。设分类变量为A、B,协变量为X,因变量为Y,则有:(1)单因素k水平设计的协方差分析模型classA;modelAX;(2)随机区组设计的协方差分析模型classAB;modelABX;(3)两因素析因设计的协方差分析模型classAB;modelABA*BX;例1为了研究两种药物对癫疯病菌的治疗效果,将30名病人随机分成3组,一组使用抗生素A,一组使用抗生素D,另一组作为对照组使用安慰剂。治疗前和治疗后分别对病人身体的癫疯病菌数量进行了检测,病菌的数量是由每一个病人身体上六个部位病菌感染的程度而定的。试对该试验研究进行统计分析。这是完全随机设计资料。用x表示治疗前病菌数;y表示治疗后病菌数;drug表示用药方式,取值为’A’,’D’,’F’(安慰剂).代码:dataTreatments;doid=1to10;dodrug='A','D','F';inputxy@@;output;end;end;dropid;datalines;116601613806213105273111814881951911181821236484161210131914125618912161185171301591220;run;procsortdata=Treatments;bydrug;run;procprintdata=Treatments;run;procunivariatedata=Treatmentsnormal;*检验正态性;vary;bydrug;run;procdiscrimdata=Treatmentspool=test;*检验方差齐性;classdrug;vary;run;procregdata=Treatments;*检验线性相关性;modely=x;bydrug;run;procglmdata=Treatments;*用glm过程,选项drug*x检验平行性;classdrug;modely=drugxdrug*x;run;procglmdata=Treatmentsplot=meanplot(cl);classdrug;modely=drugx/solution;*选项solution输出回归系数的估计值及其标准误差和假设检验等;lsmeansdrug/stderrpdiffcovout=adjmeans;run;procprintdata=adjmeans;run;运行结果及说明(部分):Obsdrugxy1A1162A803A524A148Obsdrugxy5A19116A64部分原始数据drug=A正态性检验检验统计量p值Shapiro-WilkW0.924307PrW0.3943drug=D正态性检验检验统计量p值Shapiro-WilkW0.869627PrW0.0990drug=F正态性检验检验统计量p值Shapiro-WilkW0.96944PrW0.8856正态性检验,样本量2000,SAS建议采用W检验,三个P值都大于α=0.05,故接受原假设H0,即都满足正态性。DISCRIM过程分类内协方差矩阵的齐性检验卡方自由度Pr卡方1.55100520.4605用DISCRIM过程步进行方差齐性检验,P值=0.4605α=0.05,故接受原假设H0(方差相等),即满足方差齐性。drug=A方差分析源自由度平方和均方F值PrF模型1113.34841113.3484111.230.0101drug=D方差分析源自由度平方和均方F值PrF模型1283.16532283.1653239.240.0002drug=F方差分析源自由度平方和均方F值PrF模型1201.02832201.028326.210.0374用REG过程步(线性回归),检验线性相关性,三个P值都小于α=0.05,故拒绝原假设H0(线性无关),即都线性相关。源自由度I型SS均方F值PrFdrug2293.6000000146.80000008.860.0013x1577.8974030577.897403034.89.0001x*drug219.64464519.82232260.590.5606源自由度III型SS均方F值PrFdrug28.50258454.25129230.260.7757x1564.5675283564.567528334.08.0001x*drug219.64464519.82232260.590.5606在GLM过程步的MODEL语句自变量位置加上drug*x,检验平行性(注意前面要有classdrug;否则会报错)。P值=0.5606α=0.05,故接受原假设H0(斜率相等)。GLM过程(因变量:y)源自由度平方和均方F值PrF模型3871.497403290.49913418.10.0001误差26417.20259716.046254校正合计291288.700000R方变异系数根MSEy均值0.67626150.706044.0057787.900000模型的总体检验P值0.0001α=0.05,R2=0.676261,说明模型有统计学意义,即x和drug对y的联合作用是显著的。源自由度I型SS均方F值PrFdrug2293.6000000146.80000009.150.0010x1577.8974030577.897403036.01.0001I型检验结果(只考虑排第一位的drug对y的影响效应,而没有用x进行修正)P值=0.0010α=0.05,表明不考虑用药前后的病情情况,三种治疗方法是有显著区别的。源自由度III型SS均方F值PrFdrug268.553710634.27685532.140.1384x1577.8974030577.897403036.01.0001III型检验结果(检验drug对y的影响效应时,考虑其它变量x对y的影响,即用x对y做修正)P值=0.1384α=0.05,表明校正了治疗前的病情状况后,这三种治疗方法是没有显著性区别。参数估计值标准误差t值Pr|t|Intercept-0.434671164B2.47135356-0.180.8617参数估计值标准误差t值Pr|t|drugA-3.446138280B1.88678065-1.830.0793drugD-3.337166948B1.85386642-1.800.0835drugF0.000000000B...x0.9871838110.164497576.00.0001参数估计表给出了广义回归模型(GLM)的系数,得到回归方程如下:0