作者俊平统计学(第三版)(第三版)2008年8月警惕过多地假设检验。你对数据越苛求,数据会越多地向你供认,但在威逼下得到的供词,在科学询查的法庭上是不容许的。——StephenM.Stigler统计名言第7章方差分析与实验设计7.1方差分析的基本原理7.2单因子方差分析7.3双因子方差分析7.4实验设计初步7-4统计学STATISTICS(第三版)2008年8月学习目标方差分析的基本思想和原理单因子方差分析多重比较双因子方差分析的方法实验设计方法与数据分析7-5统计学STATISTICS(第三版)2008年8月不同运动队的平均成绩之间是否有显著差异?奥运会女子团体射箭比赛,每个对有3名运动员。进入最后决赛的运动队需要进行4组射击,每个队员进行两次射击。这样,每个组共射出6箭,4组共射出24箭在2008年8月10日进行的第29届北京奥运会女子团体射箭比赛中,获得前3名的运动队最后决赛的成绩如下表所示7-6统计学STATISTICS(第三版)2008年8月不同运动队的平均成绩之间是否有显著差异?每个队伍的24箭成绩可以看作是该队伍射箭成绩的一个随机样本。获得金牌、银牌和铜牌的队伍之间的射箭成绩是否有显著差异呢?如果采用第6章介绍的假设检验方法,用分布做两两的比较,则需要做次比较。这样做不仅繁琐,而且每次检验犯第Ι类错误的概率都是,作多次检验会使犯第Ι类错误的概率相应地增加,检验完成时,犯第Ι类错误的概率会大于。同时,随着检验的次数的增加,偶然因素导致差别的可能性也会增加采用方差分析方法很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率方差分析方法就很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率7.1方差分析的基本原理7.1.1什么是方差分析?7.1.2从误差分析入手7.1.3在什么样的前提下分析?第7章方差分析与实验设计7.1.1什么是方差分析?7.1方差分析的基本原理7-9统计学STATISTICS(第三版)2008年8月什么是方差分析(ANOVA)?(analysisofvariance)1.方差分析的基本原理是在20世纪20年代由英国统计学家RonaldA.Fisher在进行实验设计时为解释实验数据而首先引入的2.检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等3.研究分类型自变量对数值型因变量的影响一个或多个分类型自变量两个或多个(k个)处理水平或分类一个数值型因变量4.有单因子方差分析和双因子方差分析单因子方差分析:涉及一个分类的自变量双因子方差分析:涉及两个分类的自变量7-10统计学STATISTICS(第三版)2008年8月什么是方差分析?(例题分析)【例】确定超市的位置和竞争者的数量对销售额是否有显著影响,获得的年销售额数据(单位:万元)如下表因子水平或处理样本数据7-11统计学STATISTICS(第三版)2008年8月什么是方差分析?(例题分析)1.如果只考虑“超市位置”对销售额是否有显著影响,实际上也就是要判断不同位置超市的销售额均值是否相同若它们的均值相同,意味着“超市位置”对销售额没有显著影响;若均值不全相同,则意味着“超市位置”对销售额有显著影响“超市位置”就是分类自变量,“销售额”则是数值因变量。“超市位置”是要检验的对象,称为因子(factor),商业区、居民小区、写字楼是因子的3个取值,称为水平(level)或处理(treatment)。每个因子水平下得到的销售额为样本观测值2.方差分析要解决的问题就是判断超市的位置对销售额是否有显著影响。设商业区、居民小区和写字楼3个位置超市的销售额均值是否相同7.1.2从误差分析入手7.1方差分析的基本原理7-13统计学STATISTICS(第三版)2008年8月方差分析的基本原理(误差分解)1.总误差(totalerror)反映全部观测数据的误差称所抽取的全部36家超市的销售额之间差异2.随机误差(randomerror)—组内误差(within-grouperror)由于抽样的随机性造成的误差反映样本内部数据之间的随机误差3.处理误差(treatmenterror)—组间误差(between-grouperror)不同的处理影响所造成的误差反映样本之间数据的差异7-14统计学STATISTICS(第三版)2008年8月方差分析的基本原理(误差分解)1.数据的误差用平方和(sumofsquares)表示,记为SS2.总平方和(sumofsquaresfortotal)记为SST反映全部数据总误差大小的平方和抽取的全部36家超市销售额之间的误差平方和3.组内平方和(within-groupsumofsquares)记为SS组内反映组内误差大小的平方和•比如,每个位置超市销售额的误差平方和只包含随机误差4.组间平方和(between-groupsumofsquares)记为SS组间反映组间误差大小的平方和•比如,同位置超市销售额之间的误差平方和既包括随机误差,也包括处理误差7-15统计学STATISTICS(第三版)2008年8月方差分析的基本原理(误差分解)误差平方和的分解及其关系总误差总平方和(SST)随机误差处理误差组内平方和(SS组内)组间平方和(SS组间)==++7-16统计学STATISTICS(第三版)2008年8月方差分析的基本原理(误差分析)1.误差的大小用均方(meansquare)来表示,也称为方差(variance)平方和除以相应的自由度总平方和(SST)的自由度为n-1;组内平方和(SS组内)的自由度为n-k;组间平方和(SS组间)的自由度为k-12.组内平方和除以相应的自由度结果称为组内方差(within-groupvariance);组间平方和除以相应的自由度结果称为组间方差(between-groupvariance)7-17统计学STATISTICS(第三版)2008年8月方差分析的基本原理(误差分析)1.判断原假设是否成立,就是判断组间方差与组内方差是否有显著差异2.若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近13.若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于14.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响7.1.3在什么样的前提下分析?7.1方差分析的基本原理7-19统计学STATISTICS(第三版)2008年8月方差分析的基本假定1.正态性(normality)。每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本在例7.1中,要求每个位置超市的销售额必须服从正态分布检验总体是否服从正态分布的方法有很多,包括对样本数据作直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以进行非参数检验等2.方差齐性(homogeneityvariance)。各个总体的方差必须相同,对于分类变量的个水平,有12=22=…=k2在例7.1中,要求不同位置超市的销售额的方差都相同3.独立性(independence)。每个样本数据是来自因子各水平的独立样本(该假定不满足对结果影响较大)在例7.1中,3个样本数据是来自不同位置超市的3个独立样本7-20统计学STATISTICS(第三版)2008年8月方差分析中基本假定如果原假设成立,即H0:m1=m2=m3不同位置超市的平均销售额相等意味着每个样本都来自均值为m、方差为2的同一正态总体Xf(X)m1m2m3m47-21统计学STATISTICS(第三版)2008年8月方差分析中基本假定若备择假设成立,即H1:mi(i=1,2,3)不全相等至少有一个总体的均值是不同的3个样本分别来自均值不同的3个正态总体Xf(X)m1m2m37.2单因子方差分析7.2.1检验步骤7.2.2关系有多强?7.2.3哪些均值之间有显著差异?第7章方差分析与实验设计7.2.1检验步骤7.2单因子方差分析7-24统计学STATISTICS(第三版)2008年8月单因子方差分析(one-wayanalysisofvariance)1.只考虑一个分类型自变量影响的方差分析比如,在例7.1中,只考虑超市位置一个因子对销售额度影响,或者只考虑竞争者数量对销售额的影响,都属于单因子方差分析2.分析步骤包括提出假设构造检验统计量做出决策7-25统计学STATISTICS(第三版)2008年8月提出假设1.一般提法H0:m1=m2=…=mk•自变量对因变量没有显著影响H1:m1,m2,…,mk不全相等•自变量对因变量有显著影响2.注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等7-26统计学STATISTICS(第三版)2008年8月构造检验的统计量F1.将组间方差MS组间除以组内方差MS组内即得到所需要的检验统计量F2.当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即),1(~MSMSknkFF组内组间kinjiixx112)(SS组间kinjiijixx112)(SS组内组间平方和组内平方和7-27统计学STATISTICS(第三版)2008年8月做出决策将统计量的值F与给定的显著性水平的临界值F进行比较(或计算出统计量的P值),做出决策若P,拒绝原假设H0,表明均值之间的差异是显著的,所检验的因子对观察值有显著影响若FF,不拒绝原假设H0,无证据表明所检验的因子对观察值有显著影响7-28统计学STATISTICS(第三版)2008年8月作出决策(F分布与拒绝域)如果均值相等,F=MS组间/MS组内1F分布F(k-1,n-k)0拒绝H0不拒绝H0F7-29统计学STATISTICS(第三版)2008年8月单因子方差分析(例题分析)【例】检验超市位置对销售额是否有显著影响(=0.05)7-30统计学STATISTICS(第三版)2008年8月单因子方差分析(例题分析)1.提出假设。设不同位置超市销售额的均值分别为m1(商业区)、m2(居民小区)和m3(写字楼),提出的假设为H0:m1m2m3H1:m1,m2,m3不全相等2.检验方差分析的前提3.进行分析并做出决策7-31统计学STATISTICS(第三版)2008年8月单因子方差分析(方差分析假定的判断)箱线图分析写字楼居民小区商业区600500400300200100好像不一样?7-32统计学STATISTICS(第三版)2008年8月单因子方差分析(方差分析假定的判断)概率图分析7-33统计学STATISTICS(第三版)2008年8月用Excel进行方差分析第1步:选择“工具”下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【单因子方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(可根据需要确定)在【输出选项】中选择输出区域用Excel进行方差分析7-34统计学STATISTICS(第三版)2008年8月单因子方差分析(例题分析)拒绝H07.2.2关系有多强?7.2单因子方差分析7-36统计学STATISTICS(第三版)2008年8月关系强度的测量1.拒绝原假设表明因子(自变量)与观测值之间有显著关系2.组间平方和(SS组间)度量了自变量(超市位置)对因变量(销售额)的影响效应当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它