方差分析概述方差分析单因子方差分析双因子方差分析多元方差分析AnalysisofVariance,ANOVA方差分析是重要的、应用广泛的实验数据统计分析方法,其实质是检验多个变量均值的一致性.1.方差分析概述ANOVA由英国统计学家R.A.Fisher首创.为纪念Fisher,方差分析又称F检验.方差分析的几个基本概念如原料成分、原料剂量、催化剂、反应时间、设备等.—试验中对因子的不同处理或所处的状态.试验指标—试验所考察的事项,亦称响应变量.如考察化工生产中产品的质量、数量.试验因子—影响试验指标的因素.因子水平依据实验数据,判断在因子的不同处理下响应变量是回答这一类问题的基本方法,就是比较每一种处理下响应变量的均值是否相等.方差分析的工作目标否有差异?单因子方差分析双因子方差分析多元方差分析—单指标、单因子、多因子水平的实验数据分析.—单指标、双因子、多因子水平的实验数据分析.—多指标、单因子、多因子水平的实验数据分析.常用不同的英文大写字母表示试验因子,用大写字母加下标表示该因子的不同水平.例1一位英语教师想检查3种不同教学方法的效果,为此随机选取24位学生并把他们分成3组,相应用三种方绩如表1.性差异?表1英语成绩表方法学习成绩A173668982438063A28878917685848096A3687971718768597680法教学.一段时间后教师对这24位学生进行统考,统考成试问在0.05显著性水平下,这三种教学方法有无显著英语成绩是否有显著影响.若有影响,哪一种教学方法好?同的变量.分析问题是判断教师所采用的不同教学方法对学生方差分析中将因子的各个水平下的试验指标看作是不响应变量—英语成绩.影响因子—教学方法,记为A.因子水平—教学方法的三种处理,记为A1,A2,A3.通常假定每一个变量服从方差相等的正态分布,并且方差分析的三个基本的理论假设是相互独立的.显然,这是一个单因子方差分析问题.如三种教学方法下的英语成绩y1,y2,y3.条件误差—由因子的不同处理(三种不同的教学随机误差—由随机因素(不可控制或不可预知的因素,如考试时的环境、时间对学生的影响)引起的差异.异,按Fisher的思路可以通过分析造成成绩数据差异的原判断不同的教学方法对英语成绩的影响是否有显著差方差分析的基本思路实验数据(英语成绩)差异的来源:因来得到答案.方法)引起的差异.总偏差平方和=条件误差平方和+随机误差平方和在总偏差平方和中,条件误差平方和与随机误差平方和如果是条件误差平方和是决定性的,则说明因子的不同因子的不同处理对响应变量的影响是否有差异,可以用差平方和按照产生的原因进行分解,得到:方差分析中的一个最基本的关系式,就是将数据总的偏实验数据之间的差异可用偏差平方和的概念描述.方差分析的任务就是进一步判断:究竟哪一个是决定性的(占更大的比重)?处理对响应变量的影响是有差异的.不同处理下响应变量的均值是否相同来描述.方差分析基本任务的统计描述判断不同处理下响应变量的均值是否相同,可归结为统计推断问题,即检验假设H0:不同处理下响应变量的均值相同;H1:不同处理下响应变量的均值不完全相同.当前的问题是否满足三个基本的理论假设;围绕H0的检验,应思考并解决如下三个方面的问题:若拒绝H0,如何找出因子的最优处理?检验统计量的构造与分布是怎样的?如何决策?2.1单因子方差分析统计模型及检验方法单因子方差分析统计模型在单因子试验中,设因子A有r个水平,第i个水平2.单因子方差分析Ai下响应变量yi的均值为μi,其容量为mi的一个样本数于是,单因子方差分析的统计模型为:.,,2,1,,,,21riyyyiimii据为检验假设.:210rH,,,2,1,,,2,1,iijiijmjriy.),0(~2且相互独立Nij数据结构式随机误差记riimn1riiimn11riii,,2,1,.01riiim于是,单因子方差分析的统计模型可改写为:,,,2,1,,,2,1,iijiijmjriy.),0(~2且相互独立Nij,01riiim显然检验假设.0:210rH—Ai的(主)效应—响应变量的总均值—样本总容量检验统计量的构造与分布—总偏差平方和rimjijiyy11..rimjijiyySST112)(-..1iiiymy—变量yi的均值—样本总均值记rimjijinyy112..2-imjijiyy1...1yny1nfT—SST的自由度SSE反映组内数据的随机误差.—误差偏差平方和—因子偏差平方和SSA反映组间由效应不同引起的数据差异.rimjiijiyySSE112)(.-riiiyymSSA12)(.riiinymy122...-—SSA的自由度—SSE的自由度1rfArnfESST=SSA+SSE(SSE=SST–SSA).在单因素方差分析模型中,对上述定义的三个偏差平方和SST,SSE,SSA,有下面的定理:⑴平方和分解定理⑵SSE的分布定理⑶SSA的分布定理当假设H0为真时,有.12rSSAE;)(~22rnSSE.)1(~22rSSA.2rnSSEE.),1(~)/()1/(rnrFrnSSErSSAF因此,可采用统计量F来检验假设H0,拒绝域为.),1(1rnrFFW拒绝假设H0的最小显著性概率为.),1(FrnrFPpSSA与SSE相互独立.⑷检验统计量及其分布定理当假设H0为真时,有显然,检验假设H0不真时,SSA会变得偏大.但是数附近).因此,统计量F的值偏大不利于H0.无论H0真否,SSE/(n-r)都是σ2的无偏估计(稳定在常表2单因子方差分析表偏差来源偏差平方和自由度均方和F值p值ASSAfAVA=SSA/fAF=VA/VEp=P(F≥FEST)ESSEfEVE=SSE/fETSSTfT检验的步骤与结果的报告其中,计算可按下列顺序进行:;SST求;...iyy及求;,,2,1,nrimi及给出;AfSSA及求;EfSSASSTSSE及求.pF及求MATLAB系统的单因素方差分析函数当在因子A的每一水平下重复试验次数相同时,即当时,可由MATLAB系统提供的anova1函数进行单因素方差分析.21mmmmr调用方法[p,anovatab,stats]=anova1(X,group,'displayopt')输入参数说明X—表示样本点×变量型的观测值的m×r矩阵.group—是表示r个变量意义的字符串数组,可缺省.输出参数说明隐藏,有两个取值:on(显示)和off(隐藏).displayopt—控制方差分析表图形和Box图的显示和stats—返回若干个相关统计量的值,可缺省.p—返回X的各列均值相等的最小显著性概率.anovatab—返回单因素方差分析表.2.2否定H0之后的延伸分析模型标准误差与因子效应的估计⑴模型标准误差的点估计定理.ˆrnSSE⑵因子效应的估计定理μi的置信水平为1-α的置信区间因子效应的点估计.,2,1,,ˆ,ˆ,ˆ.riyyyyi.iii.ˆ)(ˆ,ˆ)(ˆE21E21i/αii/αimftmft因子效应的多重比较对任意两个水平均值之间有无显著差异进行多重比较,检验的统计量为即同时检验以下假设2rC.,,2,1,,,:;:10rjijiHHjiijjiij.)(~11ˆˆˆEjijiijftmmt对于给定的检验水平α,当)(||2/1Eijftt时拒绝.ijH0LSD方法.实际应用中,多重比较的操作常采用Fisher提出的计算水平i和j均值μi与μj的最小显著差异值,11ˆ)(2/1jiEijmmftLSD.,,2,1,,rjiji逐一比较,当时,认为均值μi与μj不同.|ˆˆ|ijjiLSD实际应用中,可根据多重比较和因子效应的估计筛选出因子的最优处理.2.3方差分析前的模型适应性分析在进行方差分析之前,通常应进行模型的适应性分析,即检验当前的样本数据是否满足单因子方差分析统计模型的三个基本的理论检验.正态性检验—正态概率纸检验法还能够粗略地估计出分布的数字特征.正态概率纸是一种现场统计常用的判断变量正态性的简单工具,使用它可以很快的判断变量是否服从正态分布,正态概率纸的构造原理:设变量X的分布函数为F(x),需要检验),,(~:20NXH,.02在原假设H0成立时,),1,0(~NUX),()(uxxFΦ(x)是标准正态分布的分布函数,其中并且).(1xu在标准(单位长度相等)直角坐标平面xou上,函数的图象是一条直线,过点(μ,0),斜率为1/σ.)(1xu为使这条直线能够直观的解释变量的取值x与概率P(X≤x)之间的关系,进行如下坐标刻度更新:在标准直角坐标平面xou上,保持横轴上x的刻度不变,而把纵轴上u的刻度更新为y=100Φ(x),并规定100Φ(-∞)=0,100Φ(+∞)=100,这样就将直角坐标系xou更新为直角坐标系xoy.由于y轴上的刻度0与100分别对应u轴上的-∞和+∞,因此y轴上无法标示出0与100,一般轴上的刻度称以xoy为刻度体系的坐标纸为正态概率纸.),(1xu)(100xXPy根据正态概率纸的构造原理可知,在xou直角坐标系中的x和u的关系在xoy直角坐标系中的成为x和y的关系).(100u)(100xF标示限于0.01到99.99之间.反之亦然.对于正态概率纸上的一条直线,若该直线能表示为),(1xu则xxF)(是一个正态分布的分布函数.所组成的集合,与全体正态分布所组成的正态分布族之间,这表明,正态概率纸上斜率存在且大于零的全体直线存在一一对应关系.下面介绍正态概率纸检验法及其MATLAB实现.为了检验假设H0,设),(,,,21xi.i.d.~FXXXn求出经验分布函数Fn(x),然后在正态概率纸描出点列)),(100,(inixFx.,,2,1ni当H0为真时,在正态概率纸上该点列应该近似地否则,认为H0不成立,即变量X不服从正态分布.MATLAB提供了利用正态概率纸检验变量正态性的绘在一条直线附近.图函数normplot,其调用格式为normplot(x),输入参数x是样本数据向量.方差齐性检验方差齐性检验的假设为;:210rH.,,,:211不全相等rH方差齐性通常采用Bartlett检验方法.检验统计量,1)(ln)/ln(1212~rsffSSEfCBriiiEE近似在显著性水平α下,拒绝域为.}{)1(21rBW.11)1(3111riEiffrC,1iimf,)(112.2imjiijiiyyfs独立性检验当样本容量较小时,没有较好的检验方法,通常根据检验法对方差齐性和独立性进行同步检验.当正态性检验获得通过,样本容量较大时,可用球性采样操作的情形对独立性进行直观判断.感兴趣的同学可参阅高惠璇编著《应用多元统计分析》第3.4节(北京大学出版社,2005).下面,对单因子方差分析的应用步骤小结如下:⑴模型适应性分析独立性分析⑵方差分析⑶延伸分析多重比较模型标准误差和因子效应的估计单因子方差分析应用举例正态性检验方差齐性检验问题若模型适应性分析未能通过,是否不能继续后面的步骤⑵?回答可以继续步骤⑵.有研究表明,F统计量的稳健性强,即使⑴中三项中的或检验未能通过,只要有较好的独立性,F检验仍