第八章方差分析第一节方差分析的基本问题第二节单因素方差分析第三节双因素方差分析第一节方差分析的基本问题一.方差分析的内容二.方差分析的原理三.F分布ANOVA由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称F检验(Ftest)。用于推断多个总体均数有无差异什么是方差分析?表7-1该饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表7-1。试分析饮料的颜色是否对销售量产生影响。1.检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同2.设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的平均销售量,也就是检验下面的假设H0:1234H1:1,2,3,4不全相等3.检验上述假设所采用的方法就是方差分析1、方差分析的实质:检验多个总体均值是否相等。通过对样本各观察数据差异来源的分析判断多个总体均值的差异是否具有统计学上的意义。2.变量构成:定类-定距(比例)3.用于分析完全随机化试验设计方差分析的基本思想和原理方差分析的基本假设前提1、观测变量各总体应服从正态分布。2、观测变量各总体的方差应相同(方差齐性)。3、随机抽样。为什么必须进行方差齐性检验?方差分析的前提假设是该因素在各组之间的方差相同,所以才可以构造F统计量.否则无法证明残差Se和组内平方和Sr分别服从自由度是r和n-r的卡方分布,也就无法检验.一组数据同时都减少或增加相同数值,其方差不变。方差分析的基本思想和原理方差分析认为导致观测值变化的因素有两类:(一)控制因素不同水平产生的影响;(组间变异)(二)随机因素所产生的影响。(组内变异)方差分析的基本思想和原理组间变异总变异组内变异单因素方差分析单因素方差分析的数学模型:),...,2,1;,...,2,1(rjkiaxijiij方差分析的基本思想和原理总变异(Totalvariation):全部测量值Yij与总均数间的差异组间变异(betweengroupvariation):各组的均数与总均数间的差异组内变异(withingroupvariation):每组的每个测量值Yij与该组均数的差异YYiYiY方差分析的基本思想和原理组间变异SSA反映了各组均数的变异程度组间变异=①随机误差+②处理因素效应df组间=k-1(k为变量水平数)组内变异SSE用各组内各测量值Xij与其所在组的均数差值的平方和来表示,反映随机误差的影响。df组内=N-k(N为样本总数)总变异SSTdf总=df组间+df组内=N-1ix三种“变异”之间的关系组间变异SSA:处理因素+随机误差组内变异SSE:随机误差且总变异SSESSASST,总变异总离差平方和组间变异组间离差平方和组内变异组内离差平方和方差分析的基本思想和原理(计算均方MS)1.各离差平方和的大小与观察值的多少有关,为了消除观察值多少的影响,需要将其平均,计算方法是用离差平方除以相应的自由度,即平均离差平方和,也就是方差。2.三个离差平方和的自由度分别是:SST的自由度为n-1,其中n为全部观察值的个数SSA的自由度为k-1,其中k为因素水平的个数SSE的自由度为n-k方差分析的基本思想和原理(计算均方差MS)1.SSA的平均离差平方和也称组间方差,记为MSA,计算公式为1kSSAMSA2.SSE的平均离差平方和也称组内方差,记为MSE,计算公式为knSSEMSE方差分析的基本思想和原理(计算检验的统计量F)将MSA和MSE进行对比,即得到所需要的检验统计量F,F服从分子自由度为k-1、分母自由度为n-k的F分布,),1(~knkFMSEMSAFkndfkdfknkFkknSSESSAF211),1(~1)(方差分析的基本思想和原理1.如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机差异,而没有系统差异。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1.2.如果不同的水平对结果有影响,在组间方差中除了包含随机差异外,还会包含有系统差异,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1.3.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异.单因素方差分析的步骤(一)提出假设(二)构造检验统计量(三)计算F值(四)统计决策(一)提出假设1.一般提法H0:1=2=…=k(因素有k个水平)H1:1,2,…,k不全相等2.对前面的例子H0:1=2=3=4•颜色对销售量没有影响H1:1,2,3,4不全相等•颜色对销售量有影响如果虚无假设成立,即H0:1=2=3=4四种颜色饮料销售的均值都相等,没有系统差异Xf(X)1234如果研究假设成立,即:H1:i(i=1,2,3,4)不全相等至少有一个总体的均值是不同的,有系统差异。Xf(X)3124单因素方差分析的数据结构观察对象(j)因素(A)i水平A1水平A2…水平Ak12::nx11x12…x1kx21x22…x2k::::::::xn1xn2…xnk(二)构造检验的统计量为检验H0是否成立,需要计算1、各水平的均值2、全部观察值的总均值3、离差平方和4、方差(MS)1、计算各水平的均值计算xi公式为:),,2,1(1kinxxinjijii式中:ni为第i个总体的样本观察值个数xij为第i个总体的第j个观察值2、计算全部观察值的总均值计算公式为:kkiiikinjijnnnnnxnnxxi21111式中:表8-2四种颜色饮料的销售量及均值超市(j)水平A(i)无色(A1)粉色(A2)橘黄(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观察值个数x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值X=28.73(1)计算总离差平方和SST全部观察值与总平均值的差的平方。计算公式为:ijxxkinjijixxSST112前例的计算结果:SST=(26.5-28.695)2+(28.7-28.695)2+…+(32.8-28.695)2=115.92953(2)计算误差项离差平方和SSE组内离差平方和,反映的是随机误差的大小。计算公式为kinjiijixxSSE112前例的计算结果:SSE=39.0843(3)计算组间离差平方和SSA各组平均值与总平均值的离差平方和。计算公式为:kiiikinjixxnxxSSAi12112前例的计算结果:SSA=76.8455),,2,1(kixix4、计算平均离差平方和MS1.MSA计算公式为:1kSSAMSA2.MSE计算公式为:knSSEMSE6152.25148455.76MSA前例的计算结果:4428.2420084.39MSE前例的计算结果:(三)计算检验的统计量F将MSA和MSE进行对比,即得到所需要的检验统计量F计算公式为:),1(~knkFMSEMSAF486.104428.26152.25F前例的计算结果:F分布与拒绝域如果均值相等,F=MSA/MSE1aF分布Fa(k-1,n-k)0拒绝H0不能拒绝H0F不同自由度df1和df2的F分布曲线如图F(8,)F(8,50)F(8,10)F(8,4)F(df1,df2)统计决策将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出接受或拒绝原假设H0的决策根据给定的显著性水平a,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fa若FFa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若FFa,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响单因素方差分析表(基本结构)离差平方和来源平方和SS自由度df均方MSF值组间(因素影响)组内(误差)总和SSASSESSTk-1n-kn-1MSAMSEMSAMSETotal2,101100.002+Sibling1125.33100.001Sibling69032.8494.67NoSibling1,29961.8361.83sibsFreq.PercentCum..tabsibs1、单因素方差分析Bartlett'stestforequalvariances:chi2(2)=16.0986Probchi2=0.000Total638587.7751885338.773355Withingroups631885.3681883335.573748Betweengroups6702.4063123351.203169.990.0000SourceSSdfMSFProbFAnalysisofVariance.onewayweightsibs单因素方差分析的进一步分析:方差齐性检验与多重比较检验方差分析输出表格下方有这样一行话:bartlettstestforequalvariances:chi2(2)=16.0523probchis=0.000scheffe:采用Scheffe的方法,提供多重组间比较结果。0.0570.9072+Sibli-4.63584-.8826430.0001Siblin-3.7532ColMeanNoSibli1SiblinRowMean-(Scheffe)ComparisonofWeightofChildrenbysibsBartlett'stestforequalvariances:chi2(2)=16.0986Probchi2=0.000Total638587.7751885338.773355Withingroups631885.3681883335.573748Betweengroups6702.4063123351.203169.990.0000SourceSSdfMSFProbFAnalysisofVariance.onewayweightsibs,scheffe多因素方差分析多因素方差分析一.双因素方差分析的基本问题二.双因素方差分析的数据结构三、双因素方差分析的步骤四、一个应用实例多因素方差分析两个以上控制变量对观测变量是否产生显著影响;不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。两个控制变量的饱和模型SST=SSA+SSB+SSAB+SSE三个控制变量的饱和模型SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSE双因素方差分析双因素方差分析的数学模型设控制变量A有m个水平,B有n个水平,每个交叉水平下均有Lij个样本。那么,在控制变量A的水平Ai和控制变量B的水平Bj下的k个样本值可以定义为:),...2,1;,...,2,1;,...,2,1()(lknjmiabbaxijkijjiijkijkx