Allrightsreserved11第10章方差分析10.1方差分析引论10.2单因素方差分析14.3双因素方差分析Allrightsreserved2导引——实验设计简介Allrightsreserved3引例Factor(TrainingMethod)FactorLevels(Groups)RandomlyAssignedUnitsDependentVariable(Response)21hrs17hrs31hrs27hrs25hrs28hrs29hrs20hrs22hrsAllrightsreserved4实验中的术语实验指标(experimentalindicator)为衡量实验结果的好坏或处理效应的高低,在实验验中具体测定的性状或观测的项目称为试验指标学习时间、血糖含量、体高、体重等Allrightsreserved5实验中的术语实验因素(experimentalfactor)实验中所研究的影响实验指标的因素叫试验因素当实验中考察的因素只有一个时,称为单因素实验若同时研究两个或两个以上的因素对实验指标的影响时,则称为两因素或多因素实验实验因素常用大写字母A、B、C、…等表示Allrightsreserved6实验中的术语因素水平(leveloffactor)试验因素所处的某种特定状态或数量等级称为因素水平,简称水平Allrightsreserved7实验中的术语因素水平与处理因素水平为某因子(自变量)之特殊形式或不同状态,例如我们可以将「施肥」细分成三个水平:完全不施肥、施轻肥、施重肥如果解释的因素为单一(施肥与否),称为单因子分析,如果解释因子在两个以上(施肥与否+栽种温度),称为多因子分析。在单因素分析中,每一个因素水平皆称为一种处理(treatment),多因子分析中,因子水平之组合称为一种处理(施重肥+高温、无施肥+高温、施重肥+低温、无施肥+低温…等Allrightsreserved8实验中的术语实验单位(experimentalunit)在实验中能接受不同实验处理的独立的实验载体叫实验单位在实验中,将一个处理实施在两个或两个以上的实验单位上,称为处理有重复;一处理实施的实验单位数称为处理的重复数Allrightsreserved9实验中的术语自变量与因变量我们经常设计研究来了解造成某种现象变化的原因例如:我们想要了解为什么有时候种植西瓜会甜有时候不会甜(甜度变动)这种我们欲了解的变量称为因变量(dependentvariable)、被解释变量、或反应变量(responsevariable)。我们怀疑西瓜的甜度与栽种过程中是否施肥有关,将某些西瓜种籽加以施肥处理,其它西瓜保持自然生长,这种造成因变量产生变化的变量称之为因子(factor)或独立变项、自变量(independentvariable)Allrightsreserved10实验设计概念广义理解是指实验研究课题设计,也就是整个实验计划的拟定狭义的理解是指实验单位的选取、重复数目的确定及实验单位的分组实验设计的目的是避免系统误差,控制、降低实验误差,无偏估计处理效应,从而对样本所在总体作出可靠、正确的推断Allrightsreserved11实验设计实验设计三原则重复重复是指试验中同一处理实施在两个或两个以上的试验单位上随机化随机化是指在对实验对象进行分组时必须使用随机的方法,使对象进入各实验组的机会相等,以避免试验对象分组时实验人员主观倾向的影响双盲Allrightsreserved12实验设计局部控制─实验条件的局部一致性在实验环境或实验单位差异大的情况下,可将整个实验环境或实验单位分成若干个小环境或小组,在小环境或小组内使非处理因素尽量一致,这就是局部控制Allrightsreserved13完全随机化设计完全随机化设计(completelyrandomizeddesign)“处理”被随机地指派给试验单元的一种设计.Subjectsareassumedtobehomogeneous只有一个因素With2ormoregroups(orlevels)Allrightsreserved14完全随机化设计高尔夫球的品牌对每次击球的球距有无影响?Allrightsreserved15随机化区组设计随机化区组设计(randomizedblockdesign)先按一定规则将实验单元划分为若干同质组,称为“区组(Block)”再将各种处理随机地指派给各个区组分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计Allrightsreserved16随机化区组设计Allrightsreserved17因子设计因子设计(factorialdesign)感兴趣的因素有两个如:小麦品种和施肥方式.假定有甲、乙两种施肥方式,这样三个小麦品种和两种施肥方式的搭配共有3×2=6种。如果我们选择30个地块进行实验,每一种搭配可以做5次试验,也就是每个品种(处理)的样本容量为5,即相当于每个品种(处理)重复做了5次实验考虑两个因素(可推广到多个因素)的搭配实验设计称为因子设计该设计主要用于分析两个因素及其交互作用对实验结果的影响Allrightsreserved1810.1方差分析引论Allrightsreserved19方差分析的概念缘由t检验适用于样本均值与总体均值及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个均值间的差异显著性检验大学中各专业间的学生智商是否有别?三种不同的教学方法对于学生的成绩是否有影响?Allrightsreserved20方差分析的概念检验过程烦琐这种做法太浪费时间,因为比较几个母体可能产生很多的比较组,例如比较五个母体的平均值差异,如果以两两比较的方式,我们必须进行C52=10次的t-test。无统一的试验误差,误差估计的精确性和检验的灵敏性低试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。Allrightsreserved21方差分析的概念推断的可靠性低,检验的I型错误率大,如果每组的显著水平皆为α,则全体比较的显著水平会高于α假设我们在.05的显著水平下要检定下列零假设:H0:u1=u2=u3如果拆成下列三组零假设:H0:u1=u2,H0:u1=u3,H0:u2=u3每个假设被「接受」的概率为.95,三个假设全部被接受的概率为.953=.857,也就是说当假设为真但被推翻的概率为(1-0.857)=0.1430.05远高于显著水平Allrightsreserved22方差分析的概念因此我们需要在共同的显著水平α下,同时考虑多个平均值的差异,我们以F分布来进行检验,称之为方差分析方差分析(ANOVA,analysisofvariance)是由英国统计学家R.A.Fisher于1923年提出Allrightsreserved23方差分析的概念方差分析方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术研究分类型自变量对数值型因变量的影响一个或多个分类尺度的自变量一个间隔或比率尺度的因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量Allrightsreserved24方差分析的概念例:消费者很想知道哪种车型与油耗关系,比较A,B,C三种车款每加仑可以行驶的里数如下:ABC18.219.821.219.42121.819.62022.41920.82218.820.421.6样本平均1920.421.8样本标准差0.5480.5100.447样本方差0.3000.2600.200Allrightsreserved25基本思想3210:uuuHQ:我们所观察到的样本均值差异是否大到足以推翻上面的零假设?三种汽车每单位汽油的里数皆相同ABC18.219.821.219.42121.819.62022.41920.82218.820.421.6样本平均1920.421.8样本标准差0.5480.5100.447样本方差0.3000.2600.200Allrightsreserved26基本思想样本内的方差很小181920212223CBAABC18.219.821.219.42121.819.62022.41920.82218.820.421.61920.421.8Allrightsreserved27基本思想样本內的方差很大ABC1724.22620.42219.82417.824.415.816.21617.821.822.81920.421.8151719212325CBA27Allrightsreserved28基本思想ABC18.219.821.219.42121.819.62022.41920.82218.820.421.6样本均值1920.421.8样本标准差0.5480.5100.447样本方差0.3000.2600.200因此检验各样本的均值是否相同的问题涉及比较样本内的方差(组内方差)及样本间的方差(组间方差)。所以通常称之为方差分析。Allrightsreserved29基本原理分析逻辑假设从K个总体中抽取大小分别为n1,n2,n3…nk的K个独立随机样本。我们对总体有下列的假设:各总体皆为正态分布,且有共同相同的方差σ2。以μ1,μ2,…μk来表示总体的均值,单因子分析检证下零假设H0:μ1=μ2…=μkvs.H1:至少有两组均值不同Allrightsreserved30基本原理x11x21x31xn1,1x12x22x32xn2,2共有K个总体μ1,σ1μ2,σ2x1kx2kx3kxnk,kμk,σkXiji代表在样本中的序号,i=1,2,…njj代表样本组別,j=1,2,…kAllrightsreserved31基本原理12…kx11x12x1kx21x22x2kx31x32x3k﹕﹕﹕xn1,1﹕﹕xn2,2﹕xnk,k分別來自k总的k个样本第k組样本共有nk个观察值各组样本数可以不同,分别为n1,n2,…nk,总样本数n=n1+n2+…+nkAllrightsreserved32基本原理12…kx11x12x1kx21x22x2kx31x32x3k﹕﹕﹕xn1,1﹕﹕xn2,2﹕xnk,k1x2xkxK,...2,1j,nxx本的均值各jn1iijjj组样K1jjjK1jn1iijnxnnxxj总样本的均值Allrightsreserved33基本原理)(xxij)(xxj总差异=由因子所引起的差异+随机差异)(jijxxijx)(xxj)(jijxxx总平均因子的影响随机差异的影响Allrightsreserved34基本原理kjniijjxx112)(kjnijjxx112)(kjnijijjxx112)()(xxij)(xxj)(jijxx两边取平方和kjnijijjjxxxx11))((2Allrightsreserved35基本原理方差分析是通过过各组样本内的变异与组间变异之比较来检证各组平均值是否相等,全体样本数据的总变异量为:KjniijjxxSST112)(即个别观察值与总均值差距的平方和,称为总变异量或总误差平方和Allrightsreserved36基本原理方差分析将总方差分解成下列两部分:总误差=组内误差(或未解释误差)+组间误差(或已解释误差)TotalSumofSquares(SST)=Within-groupSumofSquaresorSumo