1第8章方差分析【学习目标】了解方差分析的含义及其分类。理解单因素方差分析的基本原理。理解双因素方差分析的步骤。掌握SPSS中单因素方差分析的操作方法。掌握SPSS中双因素方差分析的操作方法。【引导案例】不同运动队的平均成绩之间是否有显著差异?在奥运会女子团体射箭比赛中,每个队有3名运动员,进入最后决赛的团队需要进行四轮射击,每个队员进行两次射击。这样,每个组共射出6箭,4轮共射出24箭。在2012年7月29日第30屆伦敦奥运会女子团体射箭比赛中,获得前三名的运动队最后决赛的成绩如表8-1所示:表8-1三国射箭队的决赛成绩(单位:环数)轮韩国(金牌)中国(银牌)日本(铜牌)1786878789991010779882710999998991089910971038109881099981091088108949109108108999899999910每队的24箭成绩可以看作该队射箭成绩的一个随机样本。现在的问题是,获得金牌、银牌和铜牌的各队之间的射箭成绩是否有明显差异呢?如果采用第六章平均数分析和T检验的方法,需要通过独立样本T检验做两两比较,总共比较3次。这样做不仅繁琐,而且每次检验犯第Ⅰ类错误的概率都是,多次检验会使犯第Ⅰ类错误的概率相应地增加,检验完成时,犯第Ⅰ类错误的概率会大于。同时,随着检验次数的增加,随机因素导致差异的可能性也会增加。本章介绍的方差分析方法可以解决这个问题,它可以同时考虑所有的样本数据,一次检验即可判断多个总体的平均数是否相同,这不仅排除了犯第Ⅰ类错误的累积概率,也提高了检验的效率。28.1方差分析的原理8.1.1方差分析的概念1.什么是方差分析方差分析(analysisofvariance,ANOVA)是检验多个(两个或两个以上)样本来自的总体其平均数之间是否存在显著差异的一种方法。例如,不同教育水平(高中、本科、研究生)的员工收入是否有显著差异;不同地区(东部、中部、西部)的经济增长水平是否有显著差异;几种药物对一种疾病的治疗效果是否有显著差异等。需要注意的是,方差分析不是检验方差的差异,而是通过比较方差的方法检验平均数的差异。2.方差分析的类型方差分析可以分为单因素方差分析(one-wayanalysisofvariance)和多因素方差分析(multi-wayanalysisofvariance)两大类。单因素方差分析是研究一个定类或定序变量与一个数值型变量之间的关系,即通过定类或定序变量进行分组,然后比较每个组数值型变量平均数的差异。例如上面的例子都属于单因素方差分析。多因素方差分析是研究两个及两个以上定类或定序变量与一个数值型变量之间的关系,它不仅能分析多个定类或定序变量对数值型变量的独立影响,还能分析多个定类或定序变量的交互作用能否对数值型变量的产生显著影响。例如,研究不同教育水平(高中、本科、研究生)和不同工作岗位(技术人员、管理人员、销售人员)的员工收入是否存在显著差异时,采用多因素方差分析既可以分别考查教育水平和工作岗位对员工收入的独立影响,还可以考查教育水平和工作岗位的交互作用对员工收入的影响。方差分析中的定类或定序变量常被称为自变量,数值型变量被称为因变量,自变量对因变量的影响称为自变量效应。下面我们将以单因素方差分析为例来介绍方差分析的基本原理,在多因素方差分析中,我们介绍最简单的双因素方差分析(two-wayanalysisofvariance)。8.1.2方差分析的基本原理下面通过一个实例来介绍方差分析的基本原理。【例8-1】某公司采用四种促销方式销售产品,为检验不同促销方式销售产品的效果,在不同的销售点随机抽取一些样本进行分析,得到了四种促销方式的产品销售量,见表8-2。表8-2四种促销方式的产品销售量方式一方式二方式三方式四销售量7795718086927684817868798896817083897482水平平均数831x902x743x794x3总平均数5.812082818677x要分析四种促销方式的销售效果否有显著差异,也就是要判断“促销方式”对“销售效果”是否有显著影响,判断的方法就是检验这四种促销方式下的销售量的平均数是否相等。若平均数相等,则意味着“促销方式”对“销售量”没有影响,即四种促销方式的销售效果没有显著差异;若平均数不全相等,则意味着“促销方式”对“销售量”有影响,即四种促销方式的销售效果有显著差异。因此提出以下检验假设:43210:H(四种促销方式对销售量没有显著影响);43211,,,:H不全相等(四种促销方式对销售量有显著影响)。1.常用术语下面以例8-1为例,先介绍方差分析中的常用术语。(1)因素或因子(factor):即方差分析中的定类或定序变量,也就是自变量,或所要检验的对象。例如,分析不同促销方式对销售量的影响,促销方式是要检验的因素。(2)水平(level)或处理(treatment):即因素的每个取值。例如,分析不同促销方式对销售量的影响,因素促销方式的四个取值,方式一、方式二、方式三和方式四就是水平,所以因素促销方式有四个水平。(3)试验:例8-1只涉及一个因素,因此称为单因素四水平的试验。(4)总体:因素的每一个水平可以看作是一个总体。例如采用促销方式一得到的5个销售量就形成一个总体,共有四种促销方式,因此形成四个总体。(5)观察值:每个因素水平下得到的样本数据。例如,商品在四种促销方式下的销售量就是观察值。2.方差分解方差分析的原理是认为不同组的平均数之间的差异来源于两个方面:(1)组内方差:每个总体内部各观察值之间的差异,例如,同一促销方式里产品的销售量之间的差异,这种差异主要是由随机因素导致的,称为随机误差。(2)组间方差:不同总体之间观察值平均数的差异,例如,不同促销方式之间产品的销售量之间的差异,这种差异既可能是由于抽样的随机性造成的,也可能是由于促销方式不同造成的,后者所形成的误差主要是由系统性因素造成的,称为系统误差或处理误差。若组间方差远远大于组内方差,说明系统因素的影响确实存在,即组与组之间有明显差异。若组间方差和组内方差差异不大,说明系统因素的影响不明显或不存在,即组与组之间没有太大差异。3.两类误差在方差分析当中,我们将反映全部观察值的误差称为总误差(totalerror)。总误差可能是由于不同处理(如不同的促销方式)造成的,也可能是又由于随机因素(如抽样的随机性)造成的。前者就是处理误差,后者就是随机误差,所以有:4总误差=处理误差+随机误差总方差=组内方差+组间方差4.平方和(1)在统计中,数据的误差通常使用平方和来表示,记为SS。反映全部数据总误差大小的平方和称为总平方和,记做SST,它反映全部观察值的离散状况,其计算公式是:211kinjijixxSST(8.1)根据表8-2的数据进行计算可知:11835.81825.81815.81865.81772222SST(2)反映同一水平下数据误差的平方和称为组内平方和,记为SSE,它只包含随机误差,反映的是每个总体各观察值的离散状况,计算公式是:211kinjjijixxSSE(8.2)根据表8-2的数据进行计算可知:促销方式一的组内平方和是:748383838883818386837722222促销方式二的组内平方和是:2109089909690789092909522222促销方式三的组内平方和是:987474748174687476747122222促销方式四的组内平方和是:1168280797079797984798022222所以有:4981169821074SSE(3)反映不同水平之间数据误差的平方和称为组间平方和,记做SSA,它既包括随机误差,也包括系统误差,反映的是四个总体的样本平均数之间的差异程度,计算公式是:211kinjiixxSSA(8.3)根据表8-2的数据进行计算可知:6855.817955.817455.819055.818352222SSA总平方和SST、组内平方和SSE、组间平方和SSA三者之间的关系是:SSASSESST(8.4)即有:1183=498+6855.均方平方和的大小与观察值的多少有关,为消除观察值的个数对平方和大小的影响,需要将5其平均,这就是均方(meansquare),也称为方差。所以,均方由平方和除以相应的自由度求得。SST的自由度为1n,其中n为全部观察值的个数;SSA的自由度为1k,其中k为因素水平(总体)的个数;SSE的自由度为kn。6.方差分析的检验——F统计量根据上面介绍的误差、平方和以及均方的概念可以构造方差分析的检验统计量F,如表8-3所示。表8-3方差分析表误差来源平方和自由度均方检验统计量F显著性水平随机误差SSEknknSSEMSEMSEMSAP处理误差SSA1k1kSSAMSA总误差SST1n所以,方差分析的检验的步骤是:第一步:提出原假设和备择假设:原假设:不同的组都来自具有共同方差和相同平均数的正态总体,即不同组的平均数没有显著差异,即:43210:H。备择假设:不同的组来自不同的正态总体,即不同组的平均数有显著差异,即:43211,,,:H不全相等。第二步:选择显著性水平,可以是0.01,0.05,0.1。第三步:根据计算出的F值及其P值(即SPSS中的.Sig)与进行比较,做出判断:若p,拒绝原假设0H,认为不同组的平均数有显著差异;若p,不拒绝原假设0H,认为不同组的平均数没有显著差异。8.1.3方差分析的基本假定采用方差分析进行统计推断需要满足一些基本假定,包括:1.正态性:即每种水平所对应的总体都应服从正态分布,即每种水平的观察值都是来自正态分布总体的简单随机样本。2.方差齐性:即每种水平所对应的总体方差都应相等。若每种水平观察值的方差不等则不适用方差分析。3.独立性:即每种水平的观察值都是从相互独立的总体中抽取的。8.2单因方差分析如前所述,单因素方差分析是研究一个定类或定序变量与一个数值型变量之间的关系,即通过定类或定序变量进行分组,然后比较每个组数值型变量平均数的差异。在SPSS中进行单因素方差分析的操作如下:61.单因素方差分析的方法(1)打开单因素方差分析对话框单击【分析】→【均值比较】→【单因素ANOVA】,打开单因素方差分析对话框,如图8-1所示。图8-1单因素方差分析对话框(2)选择因变量和自变量从左侧源变量窗口选择要分析的数值型变量进入【因变量列表】窗口,选择一个定类或定序变量作为自变量进入【因子】窗口。(3)确定统计输出结果单击【选项】按钮,打开单因素选项对话框,如图8-2所示,该对话框包括三项内容:①【统计量】选项栏,主要包括:【描述性】输出描述统计结果,如个案数、平均数、标准差、标准误差、最小值、最大值、各组中因变量的95%的置信区间。【固定和随机效果】输出确定性影响因素和随机影响因素的选项。【方差同质性检验】进行等方差性检验。【Brown-Frosythe】进行各组平均数是否相等的检验。Brown-Frosythe分布近似于F分布,进行Brown-Frosythe检验不要求方差相等,因此,当因变量分布不满足方差齐性要求时,采用该检验方法比方差分析更稳妥。【Welch】进行各组平均数是否相等的检验。Welch分布也近似于F分布,进行Welch图8-2单因素分析选项对话框7检验不要求方差相等,因此,当因变量分布不满足方差齐性要求时,采用该检验方法比方差分析更稳妥。②【均值图】根据各组平均数输出因变量的分布图。③【缺失值】确定缺失值的处理方法。【按分析顺序排除个案】只剔除分析变量为缺失值的个案;【按列表