第5章方差分析方差分析是统计学的一个重要范畴,是对观察结果的数据作分析的一种常用的统计方法,目的是检验两个或多个样本均数间差异的显著性意义。这种命名是因为在检验均数间差异是否具有统计学意义的过程中,我们实际上是通过比较方差而得到结果的。方差分析主要用于均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用和方差齐性检验。方差分析具有广泛的用途,例如医学界研究几种药物对某种疾病的疗效可以用方差分析方法去解决。方差分析的概念在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间差异。方差分析是检验两个或多个样本均数间差异是否具有统计意义的一种方法。1.方差分析原理方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:(l)随机误差,例如测量误差造成的差异,称为组内差异。用变量在各组的均值与该组内变量值之偏(离均)差平方和的总和表示。记作SS组内。(2)实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏(离均)差平方和的总和表示。记作SS组间。SS组间、SS组内除以各自的自由度得到其均方值即组间均方和组内均方。一种情况是处理没有作用,即各样本均来自同一总体。MS组间/MS组内=l。考虑抽样误差的存在,则有MS组间/MS组内≈l。另一种情况是处理因素确实有作用。组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,组间均方会远远大于组内均方。MS组间>>MS组内。MS组间/MS组内比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。2.方差分析的假设检验假设有m个样本,如果原假设H0:样本均数都相同μ1=μ2=μ3==μm=μ,m个样本有共同的方差σ2。则m个样本来自具有共同的方差σ2和相同的均数μ的总体。如果经过计算结果组间均方远远大于组内均方的F>F0.05(f组间,f组内),(括号中的两个f是自由度)则p<0.05,推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异,有统计意义。否则,F<F0.05(f组间,f组内),P>0.05承认原假设,样本来自相同总体,处理无作用。方差分析中的术语方差分析中常用的术语有以下几个:1.因素与处理因素是影响因变量变化的客观条件;处理是影响因变量变化的人为条件。也可以通称为因素。例如影响农作物产量的因素有气温、降雨量、日照时间等;研究不同肥料对不同种系农作物产量的影响时农作物的不同种系可称为因素,所施肥料可视为不同的处理。一般情况下Factors与Treatments在方差分析中可作相同理解。在要求进行方差分析的数据文件中均作为分类变量出现。即它们的值只有有限个取值。即使是气温、降雨量等平常看作是连续变量的,在方差分析中如果作为影响产量的因素进行研究,就应该将其数值用分组定义水平的方法事先变为具有有限个取值的离散变量。2.水平因素的不同等级称作水平。例如,性别因素在一般情况下只研究两个水平:男、女。化学实验或生物实验中的“剂量”必须离散化为几个有限的水平数。如:lml、2ml、4ml三个水平。应该特别注意的是在SPSS数据文件中,作为因素出现的变量不能是字符型变量,必须是数值型变量。例如性别变量SEX,定义为数值型,取值为0、l。换句话说,因素变量的值实际上是该变量实际值的代码,代码必须是数值型的。可以定义值标签F、M(或Female、male)来表明0、l两个值的实际含义,以便在打印方差分析结果时使用。使结果更加具有可读性。3单元(Cell)在方差分析中Ce11指各因素的水平之间的每个组合。例如研究问题中的因素有性别Sex,取值为1、2;有年龄,分三个水平1(10岁)、2(11岁)、3(12岁)。两个变量的组合共可形成六个单元:[1,l]、[l,2]、[1,3]、[2,l]、[2,2]、[2,3],代表两种性别与三种年龄的六种组合。4.因素的主效应和因素间的交互效应这是在科学实验中常常遇到的问题。举例说明之:有A、B两种药物治疗缺铁性贫血,患者12例,分为4组。实验方案是:第一组用一般疗法;第二组在一般疗法基础上加用A药;第三组在一般疗法基础上加用B药,第四组在一般疗法基础上A、B两药同时使用。一个月后观察红细胞增加数。要求分析两种药物的疗效(数据见表12-l)。数据来源于《医用统计方法》(金丕焕,人民卫生出版社)。表12-1实验数据(红细胞增加数百万/m3)第一组第二组第三组第四组0.81.30.92.10.91.21.12.20.71.11.02.0各组平均值0.81.21.02.1这是个双因素方差分析的问题,因素A与因素B。每个因素均有用该药与不用该药两个水平,研究药物A和B是否对红细胞的增加有显著影响是对红细胞增加数的均值作以下比较:(l)比较第二组的均值与第一组的均值是否有显著性差异。(2)比较第三组的均值与第一组的均值是否有显著性差异。前两项研究的是A、B两因素的主效应。(3)除了比较第四组的均值与第一组的均值是否有显著性差异外还要研究A药对B药的疗效是否有影响。若A药对B药疗效无影响,那么除抽样误差外,第四组与第二组均值之差应该等于第三组均值减去第一组均值。但是实际上(2.1-1.2)=0.9;(1.0-0.8)=0.2。竞相差0.7,该差值几乎与第一组均值相同。0.7的差值包括抽样误差和A、B药的相互作用。这种因素之间的相互作用在统计学上称之为交互效应。如果交互效应存在,说明两个因素不是相互独立的。5.均值比较均值的相对比较是比较各因素对因变量的效应的大小的相对比较。例如研究A、B效应之和是否等于它们的交互效应。或者研究A、B对红细胞增加数的效应是否相等,等。均值的多重比较是研究因素单元对因变量的影响之间是否存在显著性差异,例如例题中研究A、B药物对红细胞增加数的疗效是否存在显著性差异。6.协方差分析在一般进行方差分析时,要求除研究的因素外应该保证其他条件的一致。作动物实验往往采用同一胎动物分组给予不同的处理,研究各种处理对研究对象的影响就是这个道理。例如研究身高与体重的关系时要求按性别分别进行分析。这样消除性别因素的影响。不同年龄的身高对体重的关系也是有区别的,被测对象往往是不同年龄的。要消除年龄的影响,应该采用协方差分析。7.重复测量(略)在社会学研究中常常遇到的问题是,研究社会某些条件对人类特定方面的特性的影响,社会调查、数据采集量相当大。往往是在某一个地区采样100,另一个地区采样100…。两个地区的社会条件对研究对象来说可能是独立的,但同一地区的100个个体同处于相同社会条件下,彼此并不独立。进行方差分析时修正条件不独立造成的误差,或者比较组间因素与组内因素的效应,以便得出正确的分析结论,使用重复测量的方差分析。方差分析过程SPSS提供的方差分析过程有:1.Oneway过程Onewny过程就是单因素简单方差分析过程,它在Analyze菜单中的CompareMeans过程组中,用One-WayANOVA菜单项调用,可以进行单因素方差分析、均值多重比较和相对比较。单因素方差分析单因素方差分析也称作一维(元)方差分析。它检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。还可以对该因素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析即进行均值的多重比较。one-WayANOVA过程要求因变量属于正态分布总体、如果因变量的分布明显的是非正态,不能使用该过程,而应该使用非参数分析过程。如果几个因变量之间彼此不独立,应该用RepeatedMeasure命令调用GLM过程。举例一(data12--01)用四种饲料喂猪,共19头猪分为四组,每组用一种饲料。一段时间后称重。猪体重增加数据如下:饲料比较数据资料饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6Fodder变量:数值型,取值1、2、3、4分别代表A、B、C、D四种饲料。Weight变量:数值型,其值为猪体重的增加数。应该特别注意,不能把A、B、C、D定义为四个变量。操作步骤:(1)读取数据data12-01。(2)按Analysis→CompareMeans→One-WayANOVA顺序,展开One-WayANOVA主对话框。(3)指定因变量:Weight;因素变量:fodder;表1即为单因素变量饲料fodder对猪体重weight的影响分析结果。表的左上方是因变量weight。(1)输出结果说明第一栏:方差来源,包括组间变差BetweenGroups;组内变差:WithinGroups和总变差Total。第二栏:离差平方和,组间离差平方和为20538.698,组内离差平方和为652.159总离差平方和为21190.258,是组间离差平方和与组内离差平方和相加之和。第三栏:自由度,组间自由度为3;组内自由度为15;总自由度为18。第四栏:均方差,是第二栏与第三栏之比。组间均方差为6846.233。组内均方差为43.4770第五栏:F值,是组间均方与组内均方之比。第六栏:F值对应的概率值。针对假设H0:组间均值无显著性差异,即四种饲料对猪体重的增加的平均值无显著性差异)。计算的F值157.4668,对应的概率值为O.000。(2)结果分析根据输出的p值为O.000可以看出,无论临界值取0.05,还是取O.01,p值均小于临界值。因此否定H0假设,四种饲料对猪体重均数有显著性意义,结论是四种饲料对猪体重的增加明显作用不同。根据该结论选择饲料,犯错误的概率几乎为O。(3)存在问题与解决方法①本例只考虑了猪体重的增加量,对其均值进行了比较但实际工作中的问题往往不是这样简单,例如是否应该考虑每头猪的进食量对体重增加的影响,去除这个影响比较猪体重的增加会对饲料比较得出更切合生产实际的结论。这个问题应该使用ANOVA过程的协方差分析功能去解决。③使用系统默认值进行单因素方差分析只能得出是否有显著性差异的结论,本例数据量少,哪两组之间差别最大,哪种饲料使猪体重增加更快,几乎是可以看出来的。实际工作中往往需要两两的组间均值比较。这就需要使用one-WnyANOVA进行单因素方差分析时使用选择项从而获得更丰富的信息,使分析更深入。单因素方差分析的选择项单因素方差分析的选择项分为三类:Contrasts功能按钮,可以指定一种要用t检验来检验的Priori对比;PostHoc功能按钮,可以指定一种多重比较检验;option功能按钮,可以指定要输出的统计量,指定处理缺失值的方法。分别使用主对话框中的三个按钮打开相应的对话框,然后进行选择。1.进行均值的多项式比较的选择项在主对话框中,鼠标单击Contrasts按钮,打开Contrasts对话框。均值的多项式比较是包括两个或更多个均值的比较。单因素方差分析的onewayANOV过程允许进行高达5次的均值多项式比较。多项式的系数需要由读者自己根据研究的需要输入。具体的操作步骤如下:(1)选中polynomial复选项,该操作激活其右面的Degree参数框。(2)单击Degree参数框右面的向下箭头展开阶次菜单,可以选择Linear线性、Quadratic二次、Cubic三次、4th四次、5th五次多项式。(3)为多项式指定各组均值的系数。方法是在Coefficients框中输入一个系数,单击Add按钮,Coefficients框中的系数进入下面的方框中。依次输入各组均值的系数,在方形显示框中形成一列数值。因素变量分为几组,输入几个系数,多出的无意义。如果多项式中只包括第一组与第四组的均值的系数,必须把第二个、第三个系数输入为O值。如果只包括第一组与第二组的均值,则只需要输入前两个系数,第三、四个系数可以不输入。可以同时建立多个多项式。一个多项式的一级系数输入结束,激活Next按钮,单击该按钮后Coefficients框中清空,