第六章方差分析(ANOVA)•前面所介绍的t检验法适用于样本均数与总体均数及两样本均数间的差异显著性检验。•但经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:•—计算量大,检验过程烦琐;•—无统一的试验误差,误差估计的精确性、检验的灵敏性降低;•—推断的可靠性低,检验的Ⅰ型错误率大。•因此,多个均数的差异显著性检验不宜用t检验,须采用本章所介绍的方差分析法。•方差分析法是将k个处理的观测值作为一个整体看待,把观察值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源的总体方差估计值;通过计算这些估计值的适当比值,就能检验各样本所属总体均值是否相等。•方差分析实质上是关于观测值变异原因的数量分析。•几个常用术语•1、试验指标(experimentalindex)•为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目。•2、试验因素(experimentalfactor)•试验中所研究的影响试验指标的因素•—单因素试验(当试验中考察的因素只有一个)•—两因素或多因素试验•同时研究两个或两个以上的因素对试验指标的影响。试验因素常用大写字母A、B、C、…等表示。•3、因素水平(leveloffactor)•试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。•因素水平用代表该因素的字母加足标1,2,…,来表示(如A1、A2等)。•4、试验处理(treatment)•事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。•进行单因素试验时,试验因素的一个水平就是一个处理。•在多因素试验时,试验因素的一个水平组合就是一个处理。•5、试验单位(experimentalunit)•在试验中能接受不同试验处理的独立的试验载体•6、重复(repetition)•在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。本章主要内容•第一节方差分析的基本原理•第二节单因素试验资料的方差分析•第三节数据转换第一节方差分析的基本原理•一、线性模型与基本假定•二、平方和与自由度的剖分•三、F分布与F检验•四、多重比较•五、方差分析的基本步骤本节结合单因素试验结果的方差分析介绍其原理与步骤。一、线性模型与基本假定假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。第一节方差分析的基本原理表6-1k个处理每个处理有n个观察值的数据模式处理观察值合计xi.平均总体均数处理效应iA1x11x12…x1j…x1nx1.µ1µ1-µA2x21x22…x2j…x2nx2.µ2µ2-µ……………………………Aixi1xi2…xij…xinxi.µiµi-µ……………………………Akxk1xk2…xkj…xknxk.µkµk-µ合计x..µ.ix.1x.2x.ix.kx..x•注意:在本章我们采用了黑点符号体系法,黑点表示对该位置的脚标求和。•表示第i个处理n个观测值的和;•表示全部观测值的总和;•表示第i个处理的平均数;•表示全部观测值的总平均数;njijixx1.kiikinjijxxx111...nxnxxinjiji/./.1knxknxxkinjij/../..11•ijiijxiiijiijxai是第i个处理的效应,表示处理i对试验结果产生的影响;εij是试验误差,相互独立,且服从正态分布N(0,σ2)单因素试验的线性模型(数学模型)•在这个模型中xij表示为总平均数μ、处理效应αi、试验误差εij之和。•单因素试验的数学模型可归纳为:•效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。•这也是进行其它类型方差分析的前提或基本假定。•若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构用样本符号来表示,则ijiiijiijetxxxxxxx........)()(μ的估计值αi的估计值εij的估计值•故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分•二、平方和与自由度的剖分•在方差分析中是用样本方差即均方(meansquares)来度量资料的变异程度。•总变异=处理间的变异+处理内的变异总均方(MST/S2T)处理间均方(MSt/S2t)处理内均方(MSe/S2e)总均方(MST/S2T)处理间平方和+处理内平方和SST=SSt+SSe分子—总平方和(SST)分母—总自由度(dfT)处理间自由度+处理内自由度dfT=dft+dfe•(一)总平方和的剖分•在表6-1中,反映全部观察值总变异的总平方和是各观察值与总平均数的离均差平方和,记为SST。即•因为kinjijTxxSS112..)(kinjkinjiijiijxxxxxx111122.)(..).(..)(kinjiijiijiixxxxxxxx1122.)(.)..)(.(2..).(kinjiijnjiijkikiiixxxxxxxxn1121112.)(].)(..).[(2..).(kinjkikinjiijiijxxxxnxx111112.2...2..)()()(njiijxx1.0)(•为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SSt,即kiixxn12..).(kiitxxnSS12..).(•为各处理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即kinjiijxx112.)(kinjiijexxSS112.)(•三种平方和的简便计算公式如下:•其中,称为矫正数。CxnSSCxSSikitijnjkiT2.12111tTeSSSSSSknxC/2..•(二)总自由度的剖分•各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为MST(或ST2)、MSt(或St2)和MSe(或Se2),tTetTdfdfdfkdfkndf11•即MST=ST2=SST/dfT•MSt=St2=SSt/dft•MSe=Se2=SSe/dfe•注意:在方差分析中不涉及总均方的数值,所以一般不必计算;总均方一般不等于处理间均方加处理内均方。•方差分析表变异来源自由度平方和均方F处理间k-1SStMSt处理内(误差)k(n-1)SSeMSe总变异kn-1SSTetMSMS/•【例6.1】某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。•表6-2饲喂不同饲料的鱼的增重(单位:10g)饲料鱼的增重(xij)合计xi.平均131.927.931.828.435.9155.931.184902.63224.825.726.827.926.2131.426.283458.62322.123.627.324.925.8123.724.743076.31427.030.829.024.528.5139.827.963931.14合计x..=550.815368.7.ix2ijx•这是一个单因素试验,处理数k=4,重复数n=5。各项平方和和自由度计算如下:•矫正数C=x2../kn=550.82/(4×5)=15169.03•总平方和•处理间平方和•=1/5(155.92+131.42+123.72+139.82)-C•=15283.3-15169.03=114.27•处理内平方和SSe=SST-SSt=85.4067.19903.151697.153682CxSSijTCxnSSit2.1•总自由度dfT=kn-1=5×4-1=19•处理间自由度dft=k-1=4-1=3•处理内自由度dfe=dfT-dft=19-3=16•因为方差分析中不涉及总均方的数值,所以不必计算之。34.516/40.85/09.383/27.114/eeetttdfSSMSdfSSMS三、F分布与F测验•(一)F分布(F-distribution)•设想作这样的抽样试验,即在一正态总体N(0,2)中随机抽取样本含量为n的样本k个,将各样本观察值整理成表6—1的形式。•由每一样本算出St2和Se2,以Se2为分母,St2为分子,求其比值。统计学上把两个方差之比值称为F值。即•F=St2/Se2•F具有两个自由度:•df1=dft=k-1•df2=dfe=k(n-1)•若在给定的k和n的条件下,继续从该总体进行一系列抽样,则可获得一系列的F值。•这些F值所具有的概率分布称为F分布。F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图6—1所示。F分布的取值范围是(0,+∞),其平均值F=1。几种自由度的F分布•附表4列出的是不同df1和df2下,P(F≥Fα)=0.05和P(F≥Fα)=0.01时的F值,即右尾概率α=0.05和α=0.01时的临界F值,一般记作和。•其中df1=dft,df2=dfe。•(二)F测验•用F值出现概率的大小推断两个方差是否相等的方法称为F检验(F-test)。),(05.021dfdfF),(01.021dfdfF•在方差分析中所进行的F检验目的在于推断处理间的差异是否存在。•在计算F值时总是以被检验因素的均方作分子,以误差均方作分母。•实际进行F检验时,是将由试验资料所算得的F值与根据df1=dft(大均方,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表4所得的临界F值相比较,作出统计推断。•若F<,即P>0.05,不能否定H0,可认为各处理间差异不显著;•若≤F<,即0.01<P≤0.05,否定H0,接受HA,认为各处理间差异显著,标记“*”;•若F≥,即P≤0.01,否定H0,接受HA,认为各处理间差异极显著,标记“**”。),(05.021dfdfF),(01.021dfdfF),(01.021dfdfF),(05.021dfdfF不同鱼饲料增重试验的方差分析表变异来源dfSSMSFF0.05F0.01处理间3114.2739.097.13**3.245.29处理内1685.405.34总变异19199.67四、多重比较•F值显著或极显著,否定了无效假Ho,表明试验中各处理平均数间存在显著或极显著差异。•但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些没有显著差异。•因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。•统计上把多个平均数两两间的相互比较称为多重比较。•多重比较的方法甚多,常用的有最小显著差数法(LSD法)和最小显著极差法(LSR法)。•一、最小显著差数法(LSD法)•此法的基本原理是:在处理间F检验显著的前提下,先计算出显著水平为α的最小显著差数LSDα,然后将任意两个处理平均数的差数的绝对值与其比较,作出结论。•当LSDα,即为在α水平上差异显著;反之,即为在α水平上差异不显著。最小显著差数由下式计算。..jixx..jixx•显著水平取0.05和0.01时,从t值表查出和代入上式得:•利用LSD法进行多重比较时,步骤如下:..)(jiexxdfStLSDnMSSexxji2..)(05.0edft)(01.0edft..)(01.001.0..)(05.005.0..