第六章方差分析(一)第一节方差分析的基本概念一、目的:AnalysisofvarianceANOVA用于检验两个或两个以上样本均数间差别有无统计意义二、样本均数间差别的原因(变异的来源):1、总变异:全部试验数据大小不等。用观察值与总均数的离均差平方和sumofsquaresofdeviationsfrommean表示,记为SS总,或l总;总的自由度总=N-12、组间变异:各处理组的样本均数大小不一,用各组均数与总均数的离均差平方和表示,记为SS组间或l组间,组间自由度组间=k-1。MS组间=l组间/组间组间变异反映的是处理因素的作用,同时也包括随机误差均方:meansquare,MS3、组内变异:各处理组内部观察值大小不等,用各处理组内部每个观察值与组均数的离均差平方各表示,记为l组内。组内=(n1-1)+…+(nk-1)=N-kMS组内=l组内/组内组内变异反映的观察值的随机误差,如个体差异和随机测量误差4、三种变异的关系l总=l组间+l组内总=N-1=(k-1)+(N-k)=组间+组内组内组间总llxxxxnxxxxxxlkikinjiijiikinjiiijkinjijiii11221212)()()]()[()(三、方差分析的基本思想:总变异可分解为组间变异和组内变异两个部分,相应的总自由度也分解为组间自由度和组内自由度。如果各样本均数来自同一总体,即各组之间无差别,则组间变异和组内变异均只反映随机误差,这时若计算组间均方与组内均方的比值,F=MS组间/MS组内,应接近1。反之,若各样本均数不是来自同一总体,组间变异较大,F值将明显大于1。要大到多大程度才有统计学意义?这个程度就是与随机误差而言。即以随机误差进行衡量,若处理组间的变异明显大于组内变异,则不能认为组间的变异仅反映随机误差,也就是说处理因素有作用。R.A.Fisher于20世纪20年代推导出在无效假设成立的情况下,统计量F的分布规律。1934年G.W.Snedecor以Fisher的名字命名了这一分布,称F分布,故ANOVA又称F检验。F(组间,组内)查表基本思想:根据资料变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数间的变异SS组间,可由处理因素的作用加以解释,通过比较不同变异来源的均方,用F分布作出统计推断,从而了解该因素对观察指标有无影响。注意:1、ANOVA与试验设计类型联系在一起,并非任何变异都有适当的分解。2、数据要求:①各次观察独立,即任何两个观察值间均不相关;②每一水平下的观察值xij分别服从总体均数为ij的正态分布;③各总体的方差相等,即方差齐性homogeneityofvariance.(任何观察值都是独立地来自具有等方差的正态总体)第二节完全随机设计的单因素ANOVA(one-wayANOVA)按完全随机化的原则将受试对象随机分配到一个研究因素的多个水平中去,然后观察试验效应。目的:比较不同水平下,各组均值间的差别是否具有统计学意义基本步骤:P59,例6-1为例1、建立检验假设和确定检验水准:Ho:4种衣料吸附硼氢量的总体均数相等,即1=2=3=4H1:4种衣料吸附硼氢量的总体均数不全相等=0.052、计算检验统计量F值:如下表NxCkinjij1121)(成组设计方差分析计算表变异来源SSνMSF组间kiinjijCnxi112)(k-1SS组间/组间MS组间/MS组内组内SS总-SS组间N-kSS组内/组内总kinjijCxi112N-1以P59表6-1实例进行计算:先计算基本数据结果,再代入上表的公式计算:C、SS、MS、F等一般将计算结果列为表6-2的形式,见P613、确定P值和作出统计推断结论按计算所得F值:11.1644,查附表6-2,表中1指分子均方的自由度,2为分母均方的自由度。F=11.164F0.01(3,16)=5.29,故P0.01。认为四组均数间差别有高度统计学意义各组样本含量相等和各组样本含量不等时,计算的基本方法完全一样,只是在计算l组间时有所不同,相等时将ni直接用n计算即可。举例:P61,例6-2第三节随机区组设计的ANOVATwo-wayANOVA一、概念:1、随机区组设计randomizedblockdesign,亦称配伍组设计:应用分层的思想,事先将受试对象按某种或某些特征分为若干个区组block,使每个区组内的观察对象的特征尽可能的相近。每个区组内的观察对象数与研究因素的水平数相等,分别使每个区组内的观察对象随机地接受研究因素某一水平的处理。2、此外,同一受试对象不同时间点上的观察,或同一样本给予不同处理的比较,亦当作随机区组设计进行分析。3、由于区组内个体特征比较一致,减少了个体间变异对结果的影响,统计效率高,易检出组间的差别。4、用两因素方差分析two-wayANOVA,两因素指研究因素和区组因素。研究因素有k个水平,共n个区组。5、当k=2时,两因素方差分析等价于配对t检验,且F=t2二、随机区组设计方差分析中变异的分解:总变异分解为:处理组间变异、误差、区组间变异(新增的,用ss区组l区组表示,大小为各区组均数与总均数的离均差平方和)。ss总=ss处理+ss区组+ss误差自由度分解:总=处理+区组+误差N-1=(k-1)+(n-1)+(k-1)(n-1).k为处理组数,n为区组数,N为总例数三、分析计算步骤:例6-3,P631、建立检验假设和确定检验水准H0:放置不同时间的血糖浓度相等,即1=2=3=4H1:放置不同时间的血糖浓度不全相等=0.052、计算检验统计量F值,根据下表计算公式计算随机区组方差分析计算公式变异来源SSνMSF处理间kinjijCxn112)(1k-1SS处理/ν处理MS处理/MS误差区组间njkiijCxk112)(1n-1SS区组/ν区组MS区组/MS误差误差SS误差=SS总-SS处理-SS区组(k-1)(n-1)SS误差/V误差总kinjijCx112N-13、确定P值和作出推断结论放置时间的F值=0.9681/0.0125=77.44受试者间的F值=0.3569/0.0125=28.55查附表6-2,1(处理)=3,2(误差)=21,F0.05(3,21)=3.07,F0.01=4.87;当1(区组)=7,2(误差)=21,F0.05(7,21)=2.49,F0.05=3.64F均F0.01,P0.01,说时放置时间长短对血糖浓度的变化是有影响的。另外,不同受试者间血糖浓度亦有差别。第四节均数间的相互比较一、几点说明1、ANOVA并不能回答哪几个均数间差别有统计学意义,需进一步做两两间的多重比较multiplecomparison2、两两比较,不可用t检验,因为会增加第一类错误的概率。k个样本均数可做k!/[2!(k-2)!]次比较,如:5个样本→10次,不犯第一类错误的概率为(1-0.05)10=0.5987,〔正确接受全部10次无效假设的概率〕,一类错误概率为1-0.5987=0.4013二、常用的多重比较的方法1、LSD-t检验:称最小有意义差别(leastsignificantdifference)t检验,检验k组某一对或某几对在专业上有特殊意义的均数dAB=XA-XB的总体水平是否为0。误为比较两组差值的标准为两对比组的样本均数、误差ABABABdBABAddBASxxnnMSSSxxt)11(算得的t值以误差自由来查t值表与前述t检验的的不同:举例说明计算过程:t0.001(16)=4.015误差误差组内自由度用误差自由度代替或用中的,MSMSSnnscBAc22)11(0914.53174.0412.2028.43174.0522518.0)11(ABABdBAdSxxtnnMSS府绸尼龙误差LSDt检验对比组A与B两均数之差两均数之差标准误LSDt值t临界值P值棉与府棉与的棉与尼府与尼府与的的与尼2、Dunnett-t检验用于k-1个实验组与一个对照组均数差别的多重比较:P66,例6-5界值表查,检验水准组数值,误差自由度,试验根据算得的误为比较两组差值的标准为对照组的均数个试验组的均数,为第误差tDunnettktSxixnnMSSSxxtiidiididi1)11(000Dunnett检验对比组A与B两均数之差两均数之差标准误t值处理数Tt临界值0.05t临界值0.01P值棉与府棉与的棉与尼3、Student-Newman-Keuls法SNK法,检验统计量为q,通常称q检验用于多个样本均数间的两两比较nMSSnnMSSSxxqdBAddBA误差误差当各组例数相等时:)11(2SNKq检验对比组A与B两均数之差两均数之差标准误q值处理数Tq临界值0.05q临界值0.01P值棉与府棉与的棉与尼府与尼府与的的与尼比较时应将均数按大小顺序排列,一般先比较相关最大的两个均数q的分布与两比较组间跨度a及自由度有关。组间跨度a(对比组内包含组数a)是指XA与XB之间涵盖的均数个数,包括XA与XB自身在内MS误差为误差均方或组内均方依q值、组间跨度a(处理数Ti)、误差自由度及检验水准查q值表,q≥qα(a,ν)时,有统计学意义(P553,附表6-4)两两比较方法选用1、在研究设计阶段未预先考虑或预料到,经假设检验得出多个总体均数不全相等的提示后,才决定的多个均数的两两事后比较(posthoccomparisons/unplannedcomparisons),常用于探索性研究exploratoryresearch,两两比较用:SNK法、Bonfferonit检验、Sidakt检验2、在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较(plannedcontrasts/comparisons)或称事前beforehand比较,常用于事先有明确假设的证实性研究confirmatoryresearch,如多个处理组与对照组的比较、某一对或某几对在专业上有特殊意义的均数间的比较,用Dunnett-t检验、LSD-t检验,也可用Bonfferonit检验(该方法最保守)或Sidakt检验第五节拉丁方设计资料的方差分析*一、拉丁方设计latinsquaredesign:设计因素(标志)两个以上,各因素的水平数相同,可用此设计。拉丁方是以拉丁字母排列的方阵的简称。二、分析步骤:,例6-6,P681、求C2、求l总3、求l受试者4、求l日期5、求l防护服6、求l误差7、自由度:总格子数减1为总变异自由度,防护服间、受试者间、试验日期间均为n-1=5-1=4;误差自由度=总自由度-防护服间-受试者间-试验日期间=24-4-4-4=128、列拉丁方分析表,见P70,表6-169、查表,判断结果优点:可以从较少的实验数据获得较多的信息,比随机区组设计来得优越。(控制受试者间个体的差异,及实验日期间的差异)缺点:各因素间有交互作用时,不适用。实施时,要求各因素的水平数相等,实际中不易办到。拉丁方可由统计书中查到,亦可自己编写。第七节方差齐性检验检验多个样本的方差齐性用Bartlett法一、各组样本含量相等时:P71,例6-7卡方值略大于某一临界值时,应计算校正卡方值,公式见P72为样本数为各样本含量,数时的常数为常用对数化成自然对查附表自由度knkSSkn3026.276,1)lglg)(1(3026.2222二、各样本含量不等时:P72,例6-8Bartlett法在各样本含量相等时是不敏感的。所以各组样本含量相差不大,各组S2相差不过大,可不必进行Bartlett检验。为样本数为各样本含量,数时的常数为常用对数化成自然对查附表自由度knkSnnSiiii3026.27