单因素方差分析在数理统计中的应用摘要:在详细阐述单因素方差分析原理的基础上,通过两个具体的数学建模案例,说明单因素方差分系的应用及与假设检验的关系,并利用Matlab实现了两个案例的求解。在数理统计的授课过程中,这种结合不仅能激发学生的学习兴趣,而且能培养学生自己动手、解决问题的能力。关键词:单因素方差分析;数理统计;数学建模;应用;假设检验0引言方差分析又称“变异数分析”或“F检验”,是由R.A.Fisher发明的,用于对两个及两个以上样本均数差别的显著性检验。单因素方差分析是检验在一种因素影响下,两个以上总体的均值彼此是否相等的一种统计方法。由于单因素方差分析的原理抽象、计算繁琐、导致教学枯燥无味。基于此,文中详细阐述了单因素方差分析的原理,通过两个具体的数学建模案例,说明单因素方差分系的应用及与假设检验的关系,并利用Matlab实现了两个案例的求解。在数理统计的授课过程中,这种从理论到应用,再从应用到上机实现的过程,让学生体会到“学以致用”的真正含义,激发了学生的学习兴趣,同时也提高了学生的动手能力。1单因素方差分析原理设单因素A具有r个水平,分别记为A1,A2,…,Ar,在每个水平Ai(i=1,2,…,r)下,要考察的指标可以看成一个总体Xi(i=1,2,…,r)且Xi~N(μi,σ2),水平Ai(i=1,2,…,r)下,进行ni次独立试验,样本记为Xij,i=1,2,…,r,j=1,2,…,ni,Xij~N(μi,σ2)且相互独立。1.1建立假设假设检验为H0:μ1=μ2=……=μr.,备择假设为H1:μ1,μ2,…,μr不全相等。由于Xij-μi=εij,记μ=n1Σniμi,n=n1Σni.,αi=μi-μ,i=1,2,…,r,则数学模型为:Xij=μ+αi+εij,i=1,2,…,r,j=1,2,…,niΣniαi=0εij~N(0,σ2),各个εij相互独立,μi和σ2未知故原假设改写为:H0:α1=α2=……=αr=0(1)1.2构造统计量为了构造检验假设(1)的统计量,首先,需要找到引起Xij波动的原因。从Xij=μ+αi+εij中可以看出,若检验假设(1)为真,则Xij的波动纯粹是随机性引起的;若检验假设(1)为假,则Xij的波动是由第i个水平和随机性共同引起的。因而,需要构造一个量来刻画Xij之间的波动,并把引起波动的上述两个原因用另外两个量表示,这就是方差分析中的平方和分解法。记Xi•.=n1ΣXij,x=n1ΣΣXij引入ST=ΣΣ(Xij-X)=ΣΣ(Xij-Xi•)+ΣΣ(Xi•-X)=SE+SA又因为SA=Σ(X-i•-X)=Σ(αi+εi•-ε)SE=ΣΣ=(Xij-Xi.)=ΣΣ(εij-εi•)。若H0成立,SA只反映随机波动,若H0不成立,SA还反映了A的不同水平效应αi。单从数值上看,当H0成立时,SA/(r-1)SE/(n-r)≈1,而当H0不成立时,这个比值将远大于1。可以证明:ST/σ2~χ2(n-1);SE/σ2~χ2(n-r);SA/σ2~χ2(r-1),且SE与SA相互独立。故构造统计量F=(n-r)SA/(r-1)SE~F(r-1,n-r)。1.3对于给定的水平α,确定拒绝域由于H0不真时,SA值偏大,导致F值偏大。因此,1)若FF1-a(r-1,n-r)时,拒绝H0,表示因素A的各水平下的效应有显著差异;2)若FF1-a(r-1,n-r)时,则接受H0,表示因素A的各水平下的效应无显著差异。1.4将实际数据代入统计量F中,计算F值(如表1)并对H0作出接受或拒绝的判断表1单因素方差分析表方差来源平方和自由度均方和F值因素ASAr-1MSA=SA/r-1F=MSA/MSE误差ESEn-rMSE=SE/n-r总和TSTn-11.5Matlab实现处理均衡数据的用法为:p=anoval(x);处理非均衡数据的用法为:p=anova1(x,group),返回值p是一个概率,当pα时接受H02数学建模案例在概率论与数理统计中的应用2.1案例1让4名学生前后做3份测验卷,得到如表2的分数,推断3份测验卷测试的效果是否有显著性差异表2学生测试分数表序号试卷A试卷B试卷C学生171.773.472.3学生271.572.672.1学生370.172.370.8学生470.672.271.6解:编写程序如下:clc,clearx=[71.773.472.371.572.672.170.172.370.870.672.271.6];p=anova1(x)x1=x(:,1);x2=x(:,2);x3=x(:,3);[h1,p1]=ttest2(x1,x2,0.05,0)[h2,p2]=ttest2(x1,x3,0.05,0)[h1,p3]=ttest2(x2,x3,0.05,0)求得0.01p=0.01980.05,所以拒绝原假设,说明3份测验卷至少有2份测试的效果有显著性差异。通过双正态总体假设检验的分析,得到h1=1,拒绝原假设,说明第1份测验卷与第2份测试卷测试的效果有显著性差异,h2=0,h3=0,接受原假设,说明第1份测验卷与第3份测试卷、第2份测验卷与第3份测试卷测试的效果没有显著性差异,又因为p2=0.2003,p3=0.0754,说明第1份测验卷与第3份测试卷测试的效果更相似。这个案例为同一时间需要区分A,B卷的出题老师,提供了较好的选择。2.2案例2从某学校同一年级中随机抽取20名学生,再将他们随机分成4组,在2周内4组学生都用120分钟复习同一组概率公式,第一组每个星期一复习一次60分钟;第二组每个星期一和三两次各复习30分钟;第三组每个星期二、四、六三次各复习20分钟;第四组每天(星期天除外)复习10分钟。2周复习之后,相隔2个月再进行统一测验,其结果如表3所示。推断这4种复习方法的效果之间有没有显著性差异?表3测试成绩表序号第一组第二组第三组第四组1242930272262528313202132324282730335222826630解:编写程序如下:clc,clearx=[2429302726252831202132322827303322282630];x=[x(1:5),x(6:10),x(20),x(11:15),x(16:19)];g=[ones(1,5),2∗nes(1,6),3∗nes(1,5),4∗nes(1,4)];p=anova1(x,g)x1=[x(1:5)];x2=[x(6:11)];x3=[x(12:16)];x4=[x(17:20)];[h1,p1]=ttest2(x1,x2,0.05,0)[h2,p2]=ttest2(x1,x3,0.05,0)[h3,p3]=ttest2(x1,x4,0.05,0)[h4,p4]=ttest2(x2,x3,0.05,0)[h5,p5]=ttest2(x2,x4,0.05,0)[h6,p6]=ttest2(x3,x4,0.05,0)求得0.01p=0.01400.05,所以拒绝原假设,说明这4种复习方法中至少有2种复习方法的效果之间有显著性差异。通过双正态总体假设检验的分析,得到h1=h4=h5=h6=0,接受原假设,说明第1种与第2种、第2种与第3种、第2种与第4种、第3种与第4种复习方法的效果之间没有显著性差异。而h2=h3=1,拒绝原假设,说明第1种与第3种、第1种与第4种复习方法的效果之间有显著性差异。案例2说明,复习方法应该采用重复记忆的方式,一次的复习时间也不能太短。3结语在实际授课过程中,将理论知识条理化,扩充一些理论与实际相结合的例子,对于较复杂的计算方法利用matlab实现,不仅可以促进学生对理论知识的理解,让学生深刻体会到理论在实际中的应用,而且可以加强学生的动手操作能力,从而激发学生学习兴趣,更有利于实现应用型人才的培养目标。参考文献:[1]易昆南,程勋杰.“假设检验”决策的误区———场由全国大学生数学建模竞赛引发的争论[J].重庆理工大学学报(自然科学版),2013[2]姜启源,谢金星,叶俊编.数学模型[M].4版.北京:高等教育出版社,2012.[3]魏宗舒,等.概率论与数理统计教程[M].北京:高等教育出版社,2001.[4]吴赣昌.概率论与数理统计[M].理工类4版.北京:中国人民大学出版社,2011.