方差分析举例一、什么是方差分析例1:某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表10-1。表10-1该饮料在五家超市的销售情况单位:箱超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3问饮料的颜色是否对销售量产生影响。解:从表10-1中看到,20个数据各不相同,其原因可能有两个方面:一是销售地点不同的影响。即使是相同颜色的饮料,在不同超市的销售量也是不同的。但是,由于这五个超市地理位置相似、经营规模相仿,因此,可以把不同地点产品销售量的差异看成是随机因素的影响。二是饮料颜色不同的影响。即使在同一个超市里,不同颜色的饮料的销售量也是不同的。哪怕它们的营养成分、味道、价格、包装等方面的因素都相同,但销售量也不相同。这种不同,有可能是由于抽样的随机性造成的,也有可能是由于人们对不同颜色的偏爱造成的。于是,上述问题就归结为检验饮料颜色对销售量是否有影响的问题。我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量,检验它们是否相等。如果检验结果显示μ1、μ2、μ3、μ4不相等,则意味着不同颜色的饮料来自于不同的总体,表明饮料颜色对销售量有影响;反之,如果检验结果显示μ1、μ2、μ3、μ4之间不存在显著性差异,则意味着不同颜色的饮料来自于相同的总体,可认为饮料颜色对销售量没有影响。这就是一个方差分析问题。在方差分析中常用到一些术语。1.因素因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。如:例1中,我们要分析饮料的颜色对饮料的销售量是否有影响,在这里,“饮料的颜色”是所要检验的对象,它就是一个因素。在有的书中把因素称为“因子”。2.水平因素中的内容称为水平,它是因素的具体表现。如:例1中“饮料的颜色”这一因素中的水平有四个,即饮料的四种不同颜色:无色、粉色、桔黄色、绿色;它们是“饮料的颜色”这一因素的四种具体表现。因素的每一个水平可以看作是一个总体,比如:无色、粉色、桔黄色、绿色饮料可以看作是四个总体。3.控制变量在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量;如:例1中,“饮料的颜色”对于饮料的销售量而言,是能够人为控制的影响因素,称为控制变量。4.随机变量在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量;如:例1中,“人们对不同颜色的偏爱”对于饮料的销售量而言,是人为很难控制的影响因素,称为随机变量。5.观察变量与观察值在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。在每个水平下得到的样本数据称为观察值。如:例1中,销售量是观察变量,在每个饮料颜色下得到的样本数据(即表10-1中的数据)就是观察值。二.方差分析的原理从方差分析的目的来看,是要检验各个水平的均值μ1、μ2、…、μm是否相等(m为水平个数),而实现这个目的的手段是通过方差的比较(即考察各观察数据的差异)。在变量的观察值之间存在着差异。差异的产生来自于两个方面。一个方面是由因素中的不同水平造成的,称之为系统性差异(或系统性误差)。如:饮料的不同颜色带来不同的销售量。另一个方面是由于抽选样本的随机性而产生的差异,称之为随机性差异(或随机性误差)。如:相同颜色的饮料在不同的商场销售量也不同。两个方面产生的差异可以用两个方差来计量。一个叫组间方差,即水平之间的方差,是衡量不同总体下各样本之间差异的方差。在组间方差里,既包括系统性误差,也包括随机性误差。如:在例1中,不同颜色的饮料在不同地点(超市)产品销售量之间的差异既有系统性误差(即由于人们对不同颜色的偏爱造成的差异),也有随机性误差(即由于抽样的随机性造成的差异)。不同颜色的饮料在不同地点(超市)产品销售量之间的方差即为组间方差。另一个叫组内方差,即水平内部的方差,是衡量同一个总体下样本数据的方差。在组内方差里仅包括随机性差异。如:在例1中,可以把同一个颜色的饮料在不同地点(超市)产品销售量之间的差异看成是随机因素的影响,同一个颜色的饮料在不同地点(超市)产品销售量之间的方差即为组内方差。如果不同的水平对结果没有影响,如:饮料的不同颜色对销售量无影响,那么在水平之间的方差中,就仅仅有随机因素影响的差异,而没有系统性因素影响的差异。这样一来,组间方差与组内方差就应该非常接近,两个方差的比值就会接近于1;反之,如果饮料的不同颜色对销售量有影响,在组间方差中就不仅包括了随机性误差,也包括了系统性误差,这时,组间方差就会大于组内方差,两个方差的比值就会大于1。当这个比值大到某种程度时,我们就可以作出判断,说不同水平之间存在着显著性差异。一次,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。如:例1中,判断饮料的不同颜色对销售量是否有显著性影响的问题,实际上也就是检验销售量的差异主要是由于什么原因所引起的。如果这种差异主要是系统性误差,我们就说饮料的不同颜色对销售量有显著性影响。三、单因素方差分析为说明问题方便,我们以例2为例,阐述单因素方差分析的基本步骤如下:例2:已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表10-2。表10-2四种不同饲料配方下小鸡的增重情况饲料配方i小鸡序列j38周后小鸡个体增重(克)ijy123456行合计iy配方1配方2配方3配方43704204504904903804003905004103303404003804704104804004203804101730257019202500列合计jy160016201650168013508208720试分析四种饲料配方对小鸡增重的影响是否不相同。解:在这里,“饲料”是一个因素,因素中的水平有四个,即小鸡增重的四种饲料配方。不同的饲料是小鸡饲养随机试验的不同条件,因此,四组不同的数据应分别看作四个不同总体即四个随机变量y1、y2、y3、y4各自的样本。在水平(配方)1下有4个样本水平值,n1=4;在水平(配方)2下有6个样本水平值,n2=6;在水平(配方)3下有5个样本水平值,n3=5;在水平(配方)4下有6个样本水平值,n4=6;所以,我们现在的问题是要检验方差相等的四个正态随机变量y1、y2、y3、y4的均值(期望值)μ1、μ2、μ3、μ4是否相等。有时,人们还会使用另外的提法:增重与饲料配方是否有关。其实,回答了均值是否相等的问题,自然也就回答了增重与饲料配方是否有关的问题。因为如果试验条件的差别没有使均值产生差异,自然说明该试验条件不是变量的影响因素,即说明试验条件与变量相互独立。对于类似本例的问题,一般地,把随机变量分组的数目记作m,本例m=4。(一)建立假设我们可建立下列假设。原假设H0:μ1=μ2=…=μm;备择假设H1:μ1、μ2、…、μm不全相等。式中,μi为第i个总体(水平)的均值。可见,单因素方差分析的原假设0H是假设在控制变量的不同水平下,各总体均值无显著差异。即控制变量的不同水平对观察变量没有产生显著的影响。而备择假设1H是假设在控制变量的不同水平下,各总体均值有显著差异。就例2来讲,提出的假设是:原假设H0:μ1=μ2=μ3=μ4;即假设四个配方的小鸡增重均值是相等的。备择假设H1:μ1、μ2、μ3、μ4不全相等;即假设四个配方对小鸡增重有显著影响。怎样判断配方对小鸡增重是否有显著影响呢?这就需要通过对数据误差来源的分析,判断各总体均值是否相等。首先需要考察各观察数据的误差。在同一种配方(同一个总体)下,小鸡增重是不同的。因此,可以把不同小鸡增重的差异看出是随机因素的影响,即这种差异是由于抽样的随机性所造成的,称为随机误差。在不同配方下(不同总体)下,小鸡增重也是不同的。这种差异可能是由于抽样的随机性造成的,也可能是由于配方本身造成的。由于配方本身所形成的误差是由系统性因素造成的,称为系统性误差。衡量同一种配方下样本数据的方差,叫组内方差,显然组内方差只包含随机误差。衡量不同种配方下各样本之间的方差,叫组间方差。而组间方差既包括随机性误差,也包括系统性误差。如果不同配方对小鸡增重没有影响,则组间方差中只包含随机性误差。这时组间方差与组内方差的比值就会接近于1。反之,如果不同配方对小鸡增重有影响,则组间方差中既有随机性误差,也有系统性误差,这时组间方差与组内方差的比值就会大于1。当这个比值大到某个程度时,我们就可以说不同配方之间存在显著性差异,从而说明配方对小鸡增重有显著影响(二)计算水平均值假定从第i个总体中抽取一个容量为ni的简单随机样本,则有:第i组样本平均数iy=injijnyi1(i=1、2、…、m)式中,ni为第i个总体的样本观察值个数,ijy为第i个总体的第j个观察值。就例2来讲,配方1的小鸡增重均值1y=(370+420+450+490)÷4=432.5克配方2的小鸡增重均值2y=(490+380+400+390+500+410)÷6=428.33克配方3的小鸡增重均值3y=(330+340+400+380+470)÷5=384克配方4的小鸡增重均值4y=(410+480+400+420+380+410)÷6=416.6克(三)计算全部观察值的总均值总的样本平均数y=nyminjiji11=miimiiinyn11;式中,ni为第i组的数据个数,n1+n2+…+nm=n。就例2来讲,全部小鸡平均增重y=8720÷21=415.24克n=n1+n2+n3+n4=4+6+5+6=21(四)计算离差平方和方差分析采用的统计推断方法是计算F统计量,进行F检验。因此,为了构造检验的统计量,需要计算三个离差平方和。方差分析将观察变量总的离差平方和,记为SST,并将它分解成两个部分:一部分是由控制变量引起的离差,记为SSR,即水平项离差平方和(也称为组间离差平方和BetweenGroups),;另一部分是由随机变量引起的离差,记为SSE,即误差项离差平方和(也称为组内离差平方和WithinGroups)。于是有:SST=SSR+SSE式中:总离差平方和miinjijyySST112)(组间离差平方和miiimiinjiyynyySSR12112)()(组内离差平方和miinjiijyySSE112)(以上三式中的总样本平均数定义为:miinjijmiimiiiynnyny11111各组样本平均数定义为:injijiyiny11ni是各组样本观测值的个数,n为所有样本观测值的个数,m是分组数目。就例2来讲,(参见表10-2中数据)总离差平方和SST=211)(yyminjiji=(370-415.24)2+(420-415.24)2+…+(380-415.24)2+(410-415.24)2=46923.809组间离差平方和SSR=211)(yyminjii=21)(yynmiii=4×(432.5-415.24)2+6×(428.33-415.24)2+5×(384-415.24)2+6×(416.5-415.24)2=7112.142{或采用SSR=21ynynmiii=[4×(432.5)2+6×(428.33)2+5×(384)2+6×(416.6)2]-[21×(415.24)2]=7112.142}组内离差平方和SSE=2