第九章方差分析方差分析:analysisofvariance,ANOVA由斯内德克提出(GeorgeSnedector)探讨一个因变量和一个或多个自变量之间的关系主要功能在于分析实验数据中不同来源的变异对总体变异的贡献大小主要内容第一节方差分析的基本原理及步骤第二节完全随机设计的方差分析第三节随机区组设计的方差分析第四节事后检验第一节方差分析的基本原理及步骤一、方差分析的基本原理:综合的F检验(omnibusnullhypothesis)(一)综合虚无假设和部分虚无假设方差分析主要处理两个以上平均数之间的差异检验问题综合虚无假设:即总虚无假设,样本所属的所有总体的平均数都相等:H0:μ1=μ2=μ3部分虚无假设:即组间的虚无假设,如H0:μ1=μ2如果H0被拒绝,须用事后检验方法确定哪两组之间存在差异(二)方差(Variance)的可分解性平方和=观测数据与平均数离差的平方总和。方差的性质:方差具有可加性,即可分解性方差分析把实验数据的总变异分解为若干个不同来源的分量即将总平方和(sumofsquares)分解为几个不同来源的平方和举例:探讨噪音对解决数学问题的影响作用。噪音是自变量,划分三个水平。因变量是解决数学问题时产生的错误频数。随机抽取12名被试,再随机分配到三个实验组中,带耳机进行不同噪音人工干预,数学测试完毕后,计算每位被试的错误频数。k=3表三种实验条件,n=4表每种实验条件中有4个被试,总人数为k×n=12;Xj表第j组,Xij表第j组的第i个被试图中三组平均数A、B、C彼此间存在差异,每一组内的4个数据相互也有差异,这两部分的差异合起来即为实验结果的总的差异即每一个数据与总平均数t的差异(SST总差异total)等于它与本组平均数之差(SSW组内差异withingroups)加上小组平均数与总平均数之差(SSB组间差异betweengroups)。以平方和表示观测数据与平均数离差的平方和则,总变异被分解成组间变异合组内变异两部分SST=SSB+SSWSST=SSB+SSWSST表总平方和,指实验中产生的总变异SSB表组间平方和,指由于不同的实验处理而造成的变异SSW表组内平方和,指由实验误差(包括个体差异)造成的差异实验设计的关键:缩减样本内部的变异(SSW),使样本平均数真正的差异(SSB)显示出来平方和除以自由度所得的样本方差可作为其总体方差的无偏估计则,组间方差和组内方差为:组内组间公式9-6公式9-7自由度组间自由度dfB=k-1组内自由度dfW=k(n-1)总自由度dfT=nk-1在方差分析中,组间变异与组内变异的比较必须用各自的方差,不能直接比较各自的平方和,因为平方和的大小与项数有关检验两个方差之间的差异用F检验,但在方差分析中关心的是组间均方是否显著大于组内均方,因此用单侧检验,将组间均方放在分子位置,将F值与1比较大小F1,说明数据总变异由分组不同所造成的变异只占很小的比例,大部分为实验误差或个体差异造成,表明实验处理基本无效F=1,说明实验处理之间的差异不够大F1,且落入F分布的临界区域,说明不同实验处理之间存在显著差异组内组间MSMSF二、方差分析的基本过程与步骤以表9-1为例(一)求平方和24792816)(.367.258126400792)()(.267.282126400816)(.1222222nXXSSnkXnXSSnkXXSSWBT总和。均数之间的离差的平方是各被试的数值与组平组内平方和和平均数的离差的平方总是几个组的平均数与总组间平方和数的离差的平方总和是所有观测值与总平均总平方和(二)计算自由度组间自由度dfB=k-1=3-1=2组内自由度dfW=k(n-1)=3×(4-1)=9总自由度dfT=nk-1=3×4-1=11(三)计算均方(四)计算F值67.292434.129267.258WBMSMSF(五)查F值表进行F检验并做出决断单侧检验查F0.05(2,9)=4.26;F0.01(2,9)=8.02;FF0.01P0.01拒绝H0;可认为三组处理之间总体均数的差别有统计学意义参考各组的平均数,进一步做事后检验,可以确定究竟是哪一对平均数之间有显著差异(六)陈列方差分析表一般在实验报告中的结果部分,不需要列出统计检验的过程,只需列出方差分析表。三、方差分析的基本假定1.总体正态分布(一般无须检验)2.变异的相互独立性(一般都可满足)3.各实验处理内的方差要一致要进行组内方差齐性检验,用哈特莱最大F比率法,即几个组内方差中的最大值与最小值的比显著差异样本方差两两之间均无就可认为几个要比较的小于表中相应的临界值),当算出的临界值表(附表查maxmax2min2maxmax5FFssF【例9-1】以表9-1中的数据为例进行方差齐性检验齐性答:可以认为各组方差即,=时,,当查附表==代入:和把三组各自的方差为:解:计算)()(05.0maxmax05.0max2min2maxmax222225.1531,35105.055,.5,5,,FFFndfkssFsssssCBABACBA四、与方差分析有关的实验设计问题t检验:对两组样本平均数之间的差异显著性检验。适用于只有两组样本的实验设计F检验:比较两组以上的样本平均数之间的差异。它同时对所有平均数差数进行显著性检验。与F检验相关的实验设计类型:组间设计、组内设计和混合设计只涉及到一个自变量的单因素方差分析组间设计被试分成几个组,每组只接受自变量一个水平的处理;组数和自变量水平相对应,由于被试是随机取样并随机分组安排到不同的实验处理中,因此又叫完全随机设计。完全随机分组后,各实验组的被试之间相互独立,因此又称“独立组设计”或“被试间设计”。结果处理:由于此类设计各个组别在接受实验处理前各方面相同,因此若实验结果中组与组之间有显著差异,就说明差异是由不同实验处理造成的。当对这类设计中各实验组和控制组的数据进行方差分析时,统计结果显著,就表明实验处理是有效的。组内设计也称“被试内设计”,“重复测量设计”和“随机区组设计”一组被试,接受所有自变量水平的处理。此时每个被试组都要接受所有实验处理,单组中的每个被试只随机地接受一种实验处理;通常把这样的被试组叫做区组混合设计:涉及两个以上自变量,其中每个自变量的实验设计各不相同,有组内设计,也有组间设计第二节完全随机设计的方差分析即单因素组间设计的方差分析(one-waybetween-subjectsanalysisofvaricace)自变量只有一个,而且每组被试只接受一种实验处理一、各实验处理组样本容量相同各实验处理组样本容量相同时,对于每一种实验处理而言,它们被重复进行的次数是相同的。即n1=n2=...=nk直接用上述公式处理例9-2有人研究自尊与对个人表现的反馈类型之间的关系。让15名被试参加一项知识测验,每组各5名被试。在积极反馈组,不管被试在测验中的实际表现如何,都告诉他们水平很高。对消极反馈组的被试,告诉他们表现很差。对控制组的被试,不管测验分数如何,都不提供任何反馈信息。最后,让所有的被试都参加一个自尊测验,测验总分为10分,得到的分数越高,表示自尊心越强。实验结果如下表所示,试检验不同反馈类型与自尊之间的关系如何?解:原始数据与计算的中间结果如下表设虚无假设和备择假设分别如下H0:μp=μn=μcH1:μp≠μn≠μcpnc组间效应也被称为“因素效应”组内效应也写作“误差效应”方差分析表中可以不用列出p值这一列,直接在F值上用*号表示即可,但要用表注对星号代表的意义进行说明二、各实验处理组样本容量不同和等重复的计算方法类似只是把n分布看待,公式9-11中的n用ni表示,总数据个数nk用n表示NXnXSSiB22)()(例9-3用不同强度的光做视觉反应时(毫秒)实验,光照强度分为1、2、3三个等级,被试随机分成三组,随机分配分别做某一种光强的反应时实验。由于某些原因,各组人数没能相同。下表是不同光强下被试视反应测试结果。试问从表中结果能否得出不同强度光的反应时有显著不同?37.108.141343.1939192212112221327.30727)(42.26848)(85.3878)()(58.990951618225009384160071822500)(73.987072224660)(466013501960135010178003121004398002659002222222222wwBBWTBTiWiBidfSSdfSSFdfdfdfNXXSSnXXSSNXnXSSnXNXXX三、利用样本统计量进行方差分析kjjkjjWnijijkjtjBitiiisnsnSSXXXXnSSnXXnsX121212212)()(,全加起来的总和平方和组内平方和是每一组的方和数与总平均数离差的平组间平方和是各组平均征值进行方差分析此时可以直接用这些特始数据等样本特征值,没有原及当只有各组的【例9-5】把20名被试随机分成A,B,C,D四个组,每组(5人)各接受一种教学方法。教学效果评估后,每组平均数依次为5,5.4,8,7.2;方差依次为1.99,1.04,1.20,1.76。问四种教法是否有显著差异16)15(4314.230)76.120.104.199.1(58.30])4.62.7()4.68()4.64.5()4.65[(5)(4.64.112122222214321WBkjjkjjWkjtjBtdfdfsnsnSSXXnSSXXXXX自由度求平方和5.方差分析表存在非常显著的差异所以四种教学方法之间,,小于=表,查==检验求均方),(01.029.548.5875.1267.10.4875.11630267.1038.30.316301.0pFFFFFMSMSWB30.8310.2675.480.0130161.87560.819第三节随机区组设计的方差分析1.适用条件研究中对一个自变量(p≥2)感兴趣,但还有一个特别需要控制的额外变量(大部分情况下,该变量是一个机体变量,即被试的某种稳定特征)2.设计方案(1)从总体中抽取一部分被试(2)将这部分被试在额外变量上进行匹配,形成n个相对同质的小组,每个小组称为一个区组。每个区组内的被试应该是p或p的倍数;所以一般找n*kp个被试(3)将每个区组随机分成p个小组,每个小组随机接受一个自变量水平的处理标题不同水平ABCD1X11X21X31X412X12X22X32X423‥‥‥‥4‥‥‥‥5‥‥‥‥6X16X26X36X46随机区组设计由于同一区组接受所有实验处理,使实验处理之间有相关,因此又称之为相关组设计。与完全随机设计相比,其最大的优点是考虑到个别差异的影响。由于被试之间性质不同导致的差异称为区组效应即随机区组设计将区组效应从组内变异中分离出来,这时总平方和被分解为三部分:组间平方和,区组平方和和误差平方和公式9-14例9-6为了测查刺激呈现的时间长短在记忆过程中的作用,一名认知心理学家把10个无意义音节以不同长度的时间呈现给被试。每种情况下这组音节呈现30妙,中间间隔10分钟,要求被试完成一些简单的数学题,以避免被试练习记忆无意义音节,然后要求被试在60妙内尽可能多的回忆他记住的音节。下表是7个被试的实验结果,问呈现时间长短是否显著影响无意义音节的回忆量。注意【例9-7】五名被试在四种不同的环境下参