第4章方差分析学习目标方差分析的基本思想和原理单因子方差分析多重比较双因子方差分析的方法试验设计方法与数据分析警惕过多地假设检验。你对数据越苛求,数据会越多地向你供认,但在威逼下得到的供词,在科学询查的法庭上是不容许的。——StephenM.Stigler统计名言用A、B、C、D4种不同的配合饲料饲养30日龄的小鸡,10天后计算平均日增重,得到下表的数据,问4种饲料的效果是否相同?饲料日增重(g)A5549624551B6158526870C7165567359D8590767869方差分析问题的提出t检验可以判断两组数据平均数间的差异显著性,而方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。有人说,我们可以把多组数据化成n个两组数据(化整为零),用n次t检验来完成这个多组数据差异显著性的判断。对多个处理进行平均数差异显著性检验时,采用t检验法的缺点:1.检验过程烦琐。试验包含4个处理t检验:C42=6次缺点缺点2.无统一的试验误差,误差估计的精确性和检验的灵敏性低。t检验:C42=6次需计算6个标准误误差估计不统一误差估计精确性降低缺点3.推断的可靠性低,检验时犯α错误概率大。t检验:C42=6次H0的概率:1-α=0.956次检验相互独立6次都接受的概率(0.95)6=0.735犯α错误的概率=1-0.735=0.265犯α错误的概率明显增加例如我们用t检验的方法检验4个样本平均数之间的差异显著性弃真方差分析(Analysisofvariance,ANOVA)又叫变量分析,是英国著名统计学家R.A.Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。方差分析的定义方差分析的基本功能对多组样本平均数差异的显著性进行检验试验指标(experimentalindex):为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。常用的试验指标有:身高、体重、日增重、酶活性、DNA含量等等。试验因素(experimentalfactor):试验中所研究的影响试验指标的因素叫试验因素。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。几个常用术语:因素水平(leveloffactor):试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。试验处理(treatment):事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。试验单位(experimentalunit):在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。重复(repetition):在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。第一节方差分析的基本原理二、数学模型一、方差分析的基本思想、目的和用途三、平方和与df的分解四、统计假设的显著性检验五、多重比较观测值不同的原因处理效应(treatmenteffect):处理不同引起试验误差:试验过程中偶然性因素的干扰和测量误差所致。方差:又叫均方,是标准差的平方,是表示变异的量。在一个多处理试验中,可以得出一系列不同的观测值。方差分析的基本思想总变异处理效应试验误差根据变异的来源,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某些特定因素的作用加以解释。通过比较不同来源变异的方差(也叫均方MS),借助F分布做出统计推断,从而判断某因素对观察指标有无影响。方差分析的目的通过比较不同来源变异的方差(也叫均方MS),借助F分布做出统计推断,从而判断某因素对观察指标有无影响。-------确定各种原因在总变异中所占的重要程度。处理效应试验误差相差不大,说明试验处理对指标影响不大。相差较大,即处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。方差分析的用途1.用于多个样本平均数的比较2.分析多个因素间的交互作用3.回归方程的假设检验4.方差的同质性检验1.用于多个样本平均数的比较2.分析多个因素间的交互作用二、数学模型假定有k组观测数据,每组有n个观测值,则共有nk个观测值平均T=∑xijTk.…Ti.…T2.T1.总和xk1xk2…xkj…xkn………………xi1xi2…xij…xin………………x21x22…x2j…x2nx11x12…x1j…x1n12…j…nk…i…21处理重复x..X1.X2.Xi.xk…用线性模型(linearmodel)来描述每一观测值:xij=μ+τi+εij(i=1,2,3…,kj=1,2,3…,n)μ-总体平均数τi-处理效应(tau)εij-试验误差xij-是在第i次处理下的第j次观测值要求εij是相互独立的,且服从标准正态分布N(0,σ2)二、数学模型对于由样本估计的线性模型为:xij=x+ti+eijx-样本平均数ti-样本处理效应eij-试验误差二、数学模型xij=μ+τi+εij总体根据的τi不同假定,可将数学模型分为以下三种:固定模型随机模型混合模型二、数学模型(一)固定模型(fixedmodel)指各个处理的效应值τi是固定值,各个的平均效应τi=μi-μ是一个常量,且∑τi=0。就是说除去随机误差以后每个处理所产生的效应是固定的。二、数学模型实验因素的各水平是根据试验目的事先主观选定的而不是随机选定的。不同离子对木聚糖酶活性的影响(mg/ml)0.000.250.500.751.001.250.000.060.120.180.240.300.000.400.801.201.602.000.000.400.600.801.001.20固定模型Na+K+Cu2+Mn2+二、数学模型在固定模型中,除去随机误差之后的每个处理所产生的效应是固定的,试验重复时会得到相同的结果方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论扩展到未加考虑的其它水平上。固定模型二、数学模型(二)随机模型(randommodel)指各处理的效应值τi不是固定的数值,而是由随机因素所引起的效应。这里τi是一个随机变量,是从期望均值为0,方差为σ2的标准正态总体中得到的随机变量。得出的结论可以推广到多个随机因素的所有水平上。二、数学模型随机模型美国的黑核桃品种对不同地理条件的适应情况气候、水肥、土壤无法人为控制河南北京广州江苏新疆二、数学模型如果实验条件不能人为控制,那么这个样本对所属总体作出推断就属于随机模型。随机模型在随机模型中,水平确定之后其处理所产生的效应并不是固定的,试验重复时也很难得到相同的结果方差分析所得到的结论,可以推广到这个因素的所有水平上二、数学模型固定模型与随机模型的比较1.两者在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所不同。其平方和与df的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是不同的。2.模型分析的侧重点也不完全相同,方差期望值也不一样,固定模型主要侧重于效应值的估计和比较,而随机模型则侧重效应方差的估计和检验。3.对于单因素方差分析来说,两者并无多大区别。二、数学模型(三)混合模型(mixedmodel)指多因素试验中既有固定因素又有随机因素时所用的模型.在实际应用中,固定模型应用最多,随机模型和混合模型相对较少二、数学模型方差是离均差平方和除以自由度的商σ2=∑(x-μ)2N∑(x-x)2s2=n-1要把一个试验的总变异依据变异来源分为相应的变异,首先要将总平方和和总df分解为各个变异来源的的相应部分。方差分析的基本思想:将引起观测值出现变异分解为处理效应的变异和试验误差的变异。……平均T=∑xijTk.…Ti.…T2.T1.总和xk1xk2…xkj…xkn………………xi1xi2…xij…xin………………x21x22…x2j…x2nx11x12…x1j…x1n12…j…nk…i…21处理重复xx1.x2.xi.Xk.处理间平均数的差异是由处理效应引起的:处理内的变异是由随机误差引起:平方和(x..-xi.)(xi.–x..)根据线性可加模型,则有:平方和(xi.–x..)(xij–x..)(x..-xi.)+(xij-x)2=[]2(xij-xi.)+(xi.–x..)k个处理n个观测值离均差平方和累加:=(xij-xi.)2+2(xij-xi.)(xi.–x..)+(xi.–x..)20=总平方和SST处理内或组内平方和SSe处理间或组间平方和SSt平方和即,把k个处理的离均差平方累加,得kinjkikinjiijiijxxxxnxx111112.2...2..)()()(平方和总平方和=处理间平方和+处理内平方和SST=SSt+SSeSST==∑x2-T2kn(∑xij)2kn=∑xij2-SST=∑x2-C令矫正数C=,则:T2kn平方和总平方和:SST=∑x2–C=SSt+SSe处理间平方和:SSt=∑Ti2-Cn1处理内平方和:SSe=SST-SSt平方和自由度总自由度也可分解为处理间自由度和处理内自由度:dfT=dft+dfe总df处理间df处理内df自由度剖分dfT=nk-1dft=k-1dfe=dfT-dft=nk-1-(k-1)=nk-k=k(n-1)……平均T=∑xijTk.…Ti.…T2.T1.总和xk1xk2…xkj…xkn………………xi1xi2…xij…xin………………x21x22…x2j…x2nx11x12…x1j…x1n12…j…nk…i…21处理重复xx1.x2.xi.Xk.根据各变异部分的平方和和自由度,可求得处理间方差(st2)和处理内方差(se2):st2=SStdftSSedfese2=平方和自由度方差处理间处理内总变异nkTC2CxSST2tTeSSSSSSCTnSSit211nkdfT1kdft)1(nkdfeeeedfSSs2tttdfSSs2总结某猪场对4个不同品种幼猪进行4个月增重量的测定,每个品种选择体重接近的幼猪4头,测定结果列于下表,试进行方差分析。=27.227.924.125.830.9T=434.4111.496.2103.2123.6Ti.27.030.829.024.622.223.026.724.324.825.726.825.931.924.031.835.91234沈花沈黑沈白大白品种重复xi.xk=4,n=4,nk=16例=27.227.924.125.830.9T=434.4111.496.2103.2123.6Ti.27.030.829.024.622.223.026.724.324.825.726.825.931.924.031.835.91234沈花沈黑沈白大白品种重复xi.x4个不同品种猪4个月的增重量(kg)(1)平方和的计算:T2knC==434.4216=11793.96SST=∑x2-C=31.92+24.02+…+24.62-C=213.3SSt=∑Ti2-Cn1=1/4×(123.62+103.22+…+111.42)-C=103.94SSe=SST-SSt=213.3-103.94=109.36例(2)自由度的计算:dfT=nk-1=16-1=15dft=k-1=4-1=3dfe=k(n-1)=4×3=12(3)方差计算:st2=SStdft=103.9423=34.647SSedfese2==109.36212=9.113四、统计假设的显著性检验——F检验确定各种原因(处理效应、试验误差)在总变异中所占的重要程度。处理间的方差(st2)可以