第九章方差分析第一节方差分析的基本原理第二节单因素完全随机设计的方差分析第三节单因素随机区组设计的方差分析第四节平均数间的多重比较第五节多因素方差分析习题第一节方差分析的基本原理一、方差分析的逻辑思想二、方差分析的基本条件三、方差分析的一般步骤1、提出假设2、计算平方和与自由度3、计算F值4、确定显著性水平并查F临界值表5、列方差分析总表一、方差分析的逻辑思想1、方差分析是一种综合的检验方法方差分析是对引起方差变化的各种因素进行统计分析,检验引起各样本差异的主要原因(或因素),并与理论值比较,以判断其显著性。如果把研究获得的全部观测值视为一个总体,则总体中各观测值间总是参差不齐。造成这种变异(方差)的原因是多方面的,有些可能是由被控制的各组平均数的差异(即组间差异)产生的,有些可能是由随机抽样及其它未知的原因(即组内差异)所造成。2、方差分析的逻辑思想首先将总体变异分解成样本组间变异和由抽样误差等其它原因产生的组内变异,然后分析变异各组成部分的关系。如果样本组间变异比抽样误差等其它原因产生的变异显著地大,则认为样本组间有本质性的差异,否则,认为样本组间无本质差异。在方差分析中,观测值之间的差异情况用离差平方和表示,符号为SS。方差分析首先是把总体平方和分解为组间平方和和组内平方和,即:式中,SST为总平方和;SSB为组间平方和;SSW为组内平方和。WBTSSSSSS下面举一个简单例子说明什么是总平方和、组间平方和和组内平方和以及这三者之间的关系。某小学科研组为研究教师对学生的态度是否影响学习成绩,在三年级的四个班中进行数学教学实验。一班采用表扬的方法,二班用责备的方法,三班用放任的方法,四班作为控制班。一段时间以后进行测验。从各班中分别随机抽取几份成绩,如下表。问教师对学生的态度是否影响学生的学习成绩?82.64138782788680四班控制64.7581.285.5259406342Σ85687981818290367383748788三班放任二班责备一班表扬jX1420X89.78tX总体平方和是指总体中各观测值与总体平均数间的离差平方和,上例为:组间平方和是指各样本平均数与总体平均数间的离差平方和,上例为:028.107089.786.82589.7875.64489.7867.81589.785.8542222)()()()(BSSTSSBSS778.248989.788789.788389.7888222TSS组内平方和是指组内每个观测值与本组平均数间的离差平方和,反映了由抽样误差或其它未知原因引起的差异,上例为:从结果中可看出2489.778=1070.028+1419.75,即WBTSSSSSS75.14196.82876.828075.64742.81875.8588SS22222W总平方和、组间平方和、组内平方和之间的关系:当总体平方和一定时,SSB越大,SSW就越小,反之亦然,这是进行方差分析的理论基础。如果用表示实验中的各个分数,表示第组的平均数,表示总体平均数,则SST、SSB、SSW可表示为:ijXjXjtXnikjtijTXXSS112)(kjtjjBXXnSS12)(nikjjijWXXSS112)(式中,为各观测值;为第个样本的平均数;为总体平均数;ijXjXjtX为第个样本的容量;=1、2、3、……(为样本容量);=1、2、3、……(为样本个数)jnjinnjkk同理,总体自由度也可分解为组间自由度和组内自由度:总体自由度为:=nk-1=N-1;组间自由度:=样本个数-1=k-1;组内自由度:=k(n-1)(各样本的n相等时)或=(n1-1)+(n2-1)+……+(nk-1)=N-k(n不相等时)。TdfBdfWdfWdf有了平方和和自由度,就可以求出组间均方和组内均方。组间平方和与组内平方和分别除以各自的自由度,则得到组间均方和组内均方,即:BBBdfSSMSWBWWBBMSMSdfSSdfSSF//kuuuH210:原假设为:各样本所来自的总体平均数等备择假设为:其中至少有一对平均数不等。如果检验结果拒绝原假设,则说明多个平均数中至少有一对是不相等的。但究竟哪一对不等,还须进一步进行统计分析。1、变异的可加性2、总体服从正态分布3、方差齐性4、样本相互独立,随机抽取二、方差分析的基本条件:三、方差分析的一般步骤在方差分析基本原理的讨论中,我们初步介绍了方差分析的基本过程,现对其检验的具体步骤概括如下:1、提出假设H0:各样本所来自的总体平均数相等,即μ1=μ2=……=μkH1:其中至少有一对平均数不相等。2、计算平方和与自由度,即求出:总平方和组间平方和组内平方和以及相应的总自由度dfT=nk-1、组间自由度dfB=k-1和组内自由度dfW=k(n-1)。nikjtijTXXSS112)(kjtjjBXXnSS12)(nikjjijWXXSS112)(3、计算F值自由度为(dfB,dfW)4.确定显著性水平并查F临界值表5.列方差分析总表即将方差分析的过程和结果用表格表示出来,如表9-1:WBWWBBMSMSdfSSdfSSF//表9-1方差分析表BSS1kBBBdfSSMS/WBMSMSFWSSkNTSS1N变异来源平方和SS自由度df均方F组间组内总体如果F值达到0.05水平的临界值,则在表中F值的右上角标*,说明P0.05,各平均数间差异显著;如果F值达到0.01水平的临界值,则在F值的右上角标**,说明P0.01,各平均数间差异非常显著。对于上例,其检验步骤为:(1)提出假设H0:μ1=μ2=μ3=μ4,H1:至少有一对平均数不等。(2)计算有关的统计量SST=2489.778,SSB=1070.028,SSW=1419.75,dfT=18-1=18,dfB=4-1=3,dfW=18-4=14(3)计算F值。WBWWBBMSMSdfSSdfSSF//52.3411.101676.35614/75.14193/028.1070(4)确定显著性水平和F临界值取α=0.05,查F分布表得。由于计算的F=3.523.34,P0.05,所以拒绝原假设,接受备择假设,认为各组平均数中至少有一对不相等。即四个班的教学效果是不一样的。(5)列方差分析表34.3)14,3(05.0F)14,3(05.0F方差分析总表差异来源平方和自由度均方F组间组内总体1070.0281419.752489.77831417356.676101.4113.52*第二节单因素完全随机设计的方差分析一、实验设计与方差分析二、单因素完全随机设计方差分析方法(一)依据原始数据进行方差分析(二)根据已知样本统计量进行方差分析一、实验设计与方差分析实验中的自变量称为因素。只有一个自变量的实验设计称为单因素实验设计,有两个或两个以上自变量的实验设计称为多因素实验设计。某一个因素的不同情况称为因素的水平。对单因素实验结果进行的方差分析称单因素方差分析。单因素方差分析方法可分为:单因素完全随机设计的方差分析单因素随机区组设计的方差分析对包括两个或两个以上因素实验结果进行的方差分析称多因素方差分析。例如,为了比较三种复习方法对小学生的学习效果产生的影响是否有显著差异,将40名学生分成三组,让A组学生用集中复习法,B组学生采用间隔复习法,C组学生用回忆法。这里,复习方法是实验中唯一的自变量,所以此实验为单因素实验,三种复习方法是复习方法的三种不同水平;如果要研究两种教学方法在理解力不同的三个小组中的实验效果是否有显著性差异,这一实验设计就是双因素实验设计,教学方法和理解力是两个因素,前者有两种水平,后者有三种水平。二、单因素完全随机设计方差分析方法(一)依据原始数据进行方差分析例1.某研究者为了研究学习环境对小学生学习成绩的影响,从三年级中随机抽取20名学生,随机分成四组,在四种环境下进行学习,其效果如表9—2。问四种不同的学习环境对学习成绩的影响是否有显著差异?表9—2四种不同学习环境实验结果jX四种不同的环境甲组乙组丙组丁组被试12345781872126996667010721282228020862670106557010721262266680207515731377177515Σ559035801118716解:为了计算简便,用表中的原数据都减去一个假定平均数60,然后再进行统计检验。(1)提出假设。H0:μ1=μ2=μ3=μ4,H1:至少有一对平均数不等。(2)求相关的统计量。先计算各平方和:组间平方和:=[(11-13)2+(18-13)2+(7-13)2+(16-13)2]×5=370kjtjjBXXnSS12)(组内平方和:=(18-11)2+(12-11)2+……+(12-18)2+……+(10-18)2+(5-7)2+……+(6-7)2+(20-16)2+……+(15-16)2=356nikjjijWXXSS112)(总平方和:=370+356=726WBTSSSSSS计算自由度:;;=16+3=19求均方:,3141kdfB16454kkndfWBBBdfSSMS3.122337025.2216356(3)计算F值:50.525.223.122WBMSMSFWBTdfdfdf(4)确定显著性水平和F临界值。取α=0.01,3,16,查F分布表得:F0.01=5.29。由于计算的F=5.50F0.01,P0.01,所以在0.01水平上拒绝原假设,接受备择假设。结论为四种学习环境对学生的学习成绩的影响有极其显著的差异,它们中至少有一对平均数不相等。BdfWdf(5)列方差分析表。方差分析概要表差异来源平方和自由度均方F组间组内总体37035672631619122.322.255.50**为第个样本的容量;为观测值总数目用原始观测值直接求平方和:只要根据,把用各离差求平方和的公式展开并整理即可:2)(XXSSNTXXXSSijTijT222)(NTnTXXnSSjjtjjB222)(jjijjWnTXXXSS222)(式中,为每个样本中各观测值的平方之和;为观测值总和;为第个样本的观测值之和;2ijXTjTjjnjN所以,用原始观测值求平方和,可先求出、、这三项,然后分别将其代入各公式,即可求出各平方和。NT22ijXjjnT2例2.随机抽取23名学生,分成三组,进行记忆实验。问三种记忆方式的效果有无显著性差异?数据表如下表9-323名学生测验成绩nXX2X2)(nXTXNT2X学生记忆方式ABC123456783158465038625362587673564263526580824474566075840050208822000074206026042252008536673712235912=59,=8+7+8=23=400+420+536=1356=84046提出假设。H0:μ1=μ2=μ3,H1:至少有一对平均数不等.求平方和。将表中各值分别代入相应公式得:NTXSSijT224101231356840462NTnTSSjjB221167231356)853674208400(222229348536742084008404622222jjijWnTXSS求自由度和均方。dfB=k-1=3-1=2,dfW=N-k=23-3=20,dfT=N-1=23-1=22,5.58321167BBBdfSSMS7.146202934