第11章协方差分析StatisticalAnalysisSystem本章主要内容概述单因素完全随机设计的协方差分析两因素析因设计的协方差分析多因素设计的协方差分析StatisticalAnalysisSystem概述协方差分析有二个意义:–一是对试验进行统计控制–二是对协方差组分进行估计StatisticalAnalysisSystem概述对试验进行统计控制–为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这叫试验控制。–但在有些情况下,即使作出很大努力也难以使试验控制达到预期目的。例如:研究几种配合饲料对猪的增重效果,希望试验仔猪的初始重相同,因为仔猪的初始重不同,将影响到猪的增重。StatisticalAnalysisSystem概述对试验进行统计控制–经研发现:增重与初始重之间存在线性回归关系。但是,在实际试验中很难满足试验仔猪初始重相同这一要求。这时可利用仔猪的初始重(记为x)与其增重(记为y)的回归关系,将仔猪增重都矫正为初始重相同时的增重,于是初始重不同对仔猪增重的影响就消除了。–由于矫正后的增重是应用统计方法将初始重控制一致而得到的,故叫统计控制。StatisticalAnalysisSystem概述对试验进行统计控制–统计控制是试验控制的一种辅助手段。经过这种矫正,试验误差将减小,对试验处理效应估计更为准确。–若y的变异主要由x的不同造成(处理没有显著效应),则各矫正后的y'间将没有显著差异(但原y间的差异可能是显著的)。–若y的变异除掉x不同的影响外,尚存在不同处理的显著效应,则可期望各y'间将有显著差异(但原y间差异可能是不显著的)。–此外,矫正后的y'和原y的大小次序也常不一致。所以,处理平均数的回归矫正和矫正平均数的显著性检验,能够提高试验的准确性和精确性,从而更真实地反映试验实际。–这种将回归分析与方差分析结合在一起,对试验数据进行分析的方法,叫做协方差分析(analysisofcovariance)。StatisticalAnalysisSystem概述估计协方差组分–相关系数–分子、分母同除自由度22)()())((yyxxyyxxr1)(1)(1))((22nyynxxnyyxxrStatisticalAnalysisSystem概述估计协方差组分–其中是x的均方MSx,它是x的方差的无偏估计量;是y的均方MSy,它是y的方差的无偏估计量;1)(2nxx2x1)(2nyy2yStatisticalAnalysisSystem概述估计协方差组分称为x与y的平均的离均差的乘积和,简称均积,记为MPxy,即1))((nyyxx1))((1))((nnyxxynyyxxMPxyStatisticalAnalysisSystem概述估计协方差组分–与均积相应的总体参数叫协方差(covariance),记为COV(x,y)或。统计学证明了,均积MPxy是总体协方差COV(x,y)的无偏估计量,即EMPxy=COV(x,y)。–于是,样本相关系数r可用均方MSx、Msy、均积MPxy表示为:xyyxxyMSMSMPrStatisticalAnalysisSystem概述估计协方差组分–相应的总体相关系数ρ可用x与y的总体标准差、,总体协方差COV(x,y)或表示如下:xyxyyxxyyxyxCOV),(StatisticalAnalysisSystem概述均积与均方具有相似的形式,也有相似的性质。在方差分析中,一个变量的总平方和与自由度可按变异来源进行剖分,从而求得相应的均方。统计学已证明:两个变量的总乘积和与自由度也可按变异来源进行剖分而获得相应的均积。这种把两个变量的总乘积和与自由度按变异来源进行剖分并获得相应均积的方法亦称为协方差分析。StatisticalAnalysisSystem概述协方差分析的应用条件–理论上要求各组资料都来自方差相同的正态总体;各组的总体直线回归系数相等,且都不为0。–因此,严格地说,在对资料作协方差分析之前,应先对这两个前提条件作假设检验,若资料符合上述两个条件,或经变量变换后符合上述条件,方可进行协方差分析。StatisticalAnalysisSystem单因素完全随机设计的协方差分析设有k个处理、n次重复的双变量试验资料,每处理组内皆有n对观测值x、y,则该资料为具kn对x、y观测值的单向分组资料。StatisticalAnalysisSystem单因素完全随机设计的协方差分析示例11a01(四川农业大学《生物统计附试验设计》CAI课件):–为了寻找一种较好的哺乳仔猪食欲增进剂,以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:–试验设对照、配方1、配方2、配方3共4个处理,重复12次,选择初始条件尽量相近的长白种母猪的哺乳仔猪48头,完全随机分为4组进行试验,结果见下表,试作分析。–数据文件SasData11a01.txtStatisticalAnalysisSystem单因素完全随机设计的协方差分析对照配方1配方2配方3初重x150日龄重y1初重x250日龄重y2初重x350日龄重y3初重x450日龄重y411.5012.401.3510.201.1510.001.2012.4021.8512.001.209.401.1010.601.009.8031.3510.801.4512.201.1010.401.1511.6041.4510.001.2010.301.059.201.1010.6051.4011.001.4011.301.4013.001.009.2061.4511.801.3011.401.4513.501.4513.9071.5012.501.1512.801.3013.001.3512.8081.5513.401.3010.901.7014.801.159.3091.4011.201.3511.601.4012.301.109.60101.5011.601.158.501.4513.201.2012.40111.6012.601.3512.201.2512.001.0511.20121.7012.501.209.301.3012.801.1011.00StatisticalAnalysisSystem单因素完全随机设计的协方差分析/*SasProg11a01.Sas*/datad11a01;infile'E:\SAS\SasData\SasData11a01.txt';doi=1to12;dogroup=1to4;inputxy@@;output;end;end;PROCUNIVARIATEdata=d11a01NORMAL;vary;classgroup;run;•建立数据集;•正态性检验。StatisticalAnalysisSystem单因素完全随机设计的协方差分析/*SasProg11a02.Sas*//*对定量观测指标y作单因素4水平(即group)方差分析(不考虑x的影响)*/procanovadata=d11a01;classgroup;modely=group;meansgroup;run;•不考虑x的影响时,group各水平下y的未修正均数之间没有显著性差别。StatisticalAnalysisSystem单因素完全随机设计的协方差分析/*SasProg11a03.Sas*//*了解定性的影响因素group独自对因变量y的影响大小*/procglmdata=d11a01;classgroup;modely=groupxgroup*x/SS1;run;/*了解定量的影响因素x独自对因变量y的影响大小*/procglmdata=d11a01;classgroup;modely=xgroupx*group/SS1;run;选择项SS1:即TypeISS(未修正的),意味着结果与变量在MODEL语句中的先后顺序有关。在这两个过程步中都含有group与x的乘积项,其目的是检验定性的影响因素处于不同水平时,y随x变化的直线回归方程的斜率是否相等,因为各组斜率相等是进行协方差分析的重要条件之一。StatisticalAnalysisSystem单因素完全随机设计的协方差分析结果:–第一个glm过程:单独group对y的影响,F=4.75,p=0.0063,有显著性意义。–第二个glm过程:y与x之间的直线关系(效应),F=47.40,p0.0001,有非常显著性意义。–x与group之间的交互作用无显著性,即可认为4条直线回归方程的总体斜率相等。若资料不满足正态性要求,或x*group有显著性意义,则需采取适当的变量变换法,使资料满足条件后再作协方差分析。StatisticalAnalysisSystem单因素完全随机设计的协方差分析/*SasProg11a04.Sas*/procglmdata=d11a01;classgroup;modely=xgroup/solutionss1ss3;lsmeansgroup/stderrpdiff;lsmeansgroup/stderrpdiff=control('1');lsmeansgroup/adjust=dunnettstderrpdiff;run;•Model语句的选项:Solution:指定给出标准方程的解(即参数估计值)。当模型中不包含分组变量时,该部分是默认给出的。因此,仅在模型中包含分组变量时,该选项才有必要使用。SS1、SS3:给出效应的第I、III型离差平方和;StatisticalAnalysisSystem单因素完全随机设计的协方差分析Lsmeans语句的选项:–Stderr:要求给出ls均数的标准误,以及该ls等于0的概率p值。–Pdiff:要求给出ls组间比较的p值。该选项还可设置为“pdiff=difftype”的形式,等号后有关比较类型的关键字可以是All(默认):给出全部组间两两比较的p值;Control:表示将某个对照组与其他各组的比较结果给出,对照组的指定方法是,将相应水平对应的格式化值以单引号括起来置于选项后的圆括号中;controll、controlu:与control有相同的比较方式。不同的是,它们进行单侧比较,前者检验各组是否小于对照组,后者检验各组是否大于对照组。–Adjust=:ls均数多重比较时,指定p值以及可信区间校正的方法。该选项影响tdiff和pdiff两个选项的输出结果。Adjust=dunnett将执行各组与对照组间的两两比较。StatisticalAnalysisSystem单因素完全随机设计的协方差分析结果解释:–TypeIIIModelANOVA:结果表明,定量的X变量和定性的变量group对y都有显著性影响;–Solution:自变量x的t检验概率值p0.0001,所以x的回归系数不为0,x的回归系数是显著的。初重对50日龄重的预测方程为:y=0.8669+7.1998x。–Leastsquaremeans:最小二乘均数假设测验和多重比较。Lsmeans:最小二乘均数及其显著水平,本例各处理p0.0001,说明组内均值是有差异的。DifferenceMatrix:“H0:各处理平均数相等”假设的最小二乘均数两两比较矩阵。StatisticalAnalysisSystem两因素析因设计的协方差分析示例11b01(胡良平.《现代统计学与SAS应用(附SAS程序)》):–在棉花产量(LINT)的研究中,考虑两个定性因素,VARIETY(棉花品种,37号和213号)、SPAC(播种行距,30和40cm);还考察一个定量因素BOLL(棉籽重量)。按两因素析因设计安排试验,VARIETY与SPAC共有4中不同的水平组合,4种条件下重复试验的次数分别为9、16、8