5方差分析5.1方差分析基本原理5.2单因素方差分析5.3双因素方差分析•某饮料生产企业研制出一种新型饮料–饮料的颜色:橘黄色、粉色、绿色和无色透明–饮料的营养含量、味道、价格、包装相同–收集该饮料的销售情况的超级市场地理位置相似、经营规模相仿•试分析饮料的颜色是否对销售量产生影响超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8四色饮料在五家超市的销售情况•设为无色饮料的平均销量,为粉色饮料的销量,设为橘黄色饮料的平均销量为绿色饮料的销量。•则原问题转化为以下假设检验:134012341::上述均值不相等。HH2–μ表示总体X的均值,–μi表示总体Ai的均值,–方案i的主效应ai=μi-μ反映颜色Ai对销售量的影响–随机样本Xij,可以视为各个方案的总体均值μi与随机误差之和:Xij=i+ij–由于Xij是来自Ai的观察值,于是有Xij=i+ij=ai++ij(i=1,2,…,4;j=1,2,…,5)分析过程①分解总体离差平方和–总体销售量离差平方和ST有两个来源•一是由水平不同造成的不同水平下平均销售量差异SA•一是由除了颜色之外的随机干扰造成的、同一水平下的销售量差异SE–其中,m表示因素A(颜色)的水平数m=4,n表示观测次数n=5AEminjiminjiijminjiiijminjijTSSxxxxxxxxxxS112112112112•假设每个水平下总体Ai的服从正态分布,各观测值相互独立,且方差相等,则上式子转化为:•②总体离差的自由度分解1,(1),1TEAfnmfmnfm222211111122222/=/+/mnmnmniiijijijijijTEAxxxxxxSSS分析过程(续)③将离差均方化,得均方和(为了具有可比性)MSA=SA/fAMSE=SE/fE④比较,计算F值:F=MSA/MSE⑤检验,所示看F统计量是否落在接受域还是拒绝域中–若F≤F0.05(fA,fE),则无显著影响,记为/–若F0.05(fA,fE)FF0.01(fA,fE),则影响较显著,记为*–若FF0.01(fA,fE),则影响特别显著,记为**f0.05拒绝域接受域单因素方差分析表方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和TSASESTfAfEfTMSAMSEF=MSA/MSE销售量(箱)试验批号各水平下平均销售量Xi12345因素(颜色)A1(粉色)26.528.725.129.127.227.32A2(无色)31.228.330.827.929.629.56A3(绿色)27.925.124.226.526.526.44A4(桔色)30.829.632.432.832.831.46总平均销量28.695方差来源离差平方和自由度均方和F值检验结论因素A(颜色)随机干扰E总和TSA=76.85SE=39.08ST=115.93fA=3fE=16fT=19MSA=25.615MSE=2.443F=10.485**例5.1的单因素方差分析表注:–F0.05(3,16)=3.24,F0.01(3,16)=5.29–由于F=10.458F0.01(fA,fE)–所以颜色对饮料销售量有特别显著影响方差分析基本原理•方差分析的实质:检验多个总体均值是否有显著性差异(观测值变异原因的数量分析)–将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值–通过计算这些总体方差的估计值的比例,检验各样本所属总体平均数是否相等方差分析基本概念•因素:影响实验结果的条件,常用大写字母A、B、C、…等表示–单因素实验:当研究中只考察一个因素–双因素(多因素)实验:同时研究两个或两个以上的因素•因素水平/水平:因素所处的某种特定状态或数量等级,用代表该因素的字母加添足标表示,如A1、A2、…,B1、B2、…•处理:事先设计好的实施在实验单位上的具体项目–在单因素实验中,一个处理就是实验因素的某一水平–在多因素实验中,实验因素的一个水平组合就是一个处理方差分析中的基本假定(1)每个总体都应服从正态分布(分布的正态性)(2)各组观察数据,是从具有相同方差的总体中抽取的(3)观察值是独立的例5.1数学成绩分析40名学生随机分成5个班,每个班的班主任负责不同科目–A表示班主任教数学–B表示班主任教语文–C表示班主任教生物–D表示班主任教地理–E表示班主任教物理用方差分析的方法检验5组不同班主任的学生数学成绩是否有显著差异ABCDE76766265677867706871657069687272647371697167716174728369697983727365767973696984解题过程①建立假设H0:1=2=3=4=5②平方和ST=1160.4,SA=314.4SE=ST-SA=1160.4-314.4=864③自由度fA=?,fE=?④均方MSA=SA/fA=314.4/4=78.6MSE=SE/fE=846/35=24.17⑤F检验F=MSA/MSE=78.6/24.17=3.252查F分布表(单侧)F0.05(4,35)=2.64,FF0.05,p0.05,拒绝原假设,故在不同班主任的班级中数学成绩有显著不同⑥方差分析表方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和T314.48461160.44353978.624.17F=3.252*注:*表示在0.05水平上显著ABCDE76766265677867706871657069687272647371697167716174728369697983727365767973696984例5.3服务质量分析•为了对几个行业的服务质量进行评价–在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本–记录了一年中消费者对总共23家服务企业投诉的次数•试分析这四个行业的服务质量是否有显著差异?(=0.05)消费者对四个行业的投诉次数观察值(j)行业(A)零售业旅游业航空公司家电制造业15762517025549496834660486344554556955456476065355747解题过程•设四个行业被投诉次数的均值分别为,1,2,3,4,则需要检验如下假设–H0:1=2=3=4=(四个行业的服务质量无显著差异)–H1:1,2,3,4不全相等(有显著差异)•计算结果如下:方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和T845.21743621207.217281.739119.0526314.78741注,F0.05(3,19)=3.13,F0.01(3,19)=5.01.5.2.2多个总体均值的多重比较检验•通过方差分析F检验,如果最终结论是否定了原假设,那么我们知道至少两个水平的总体均值是不同的。但是不知道哪两个或者哪几个均值不同。如果要回答这个问题,就需要多重比较。•LSD方法:由Fisher提出的最小显著差异方法,是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,可用于判断均值之间差异LSD的操作步骤(1)提出假设–H0:i=j(第i个总体的均值等于第j个总体的均值)–H1:ij(第i个总体的均值不等于第j个总体的均值)(2)检验的统计量为(3)若|t|t,拒绝H0;若|t|t,不能拒绝H0222112=~((1))11*ijijijmniijijijExxnnxxttmnxxMSEnnf基于统计量的LSD方法的操作步骤为1、计算LSD。(的临界值)2、检验若||LSD,拒绝H0,若||LSD,接受H0jixxjixxjinnMSEtLSD112jixxjixx实例分析针对例5.1,根据前面的计算结果有:x1=27.3;x2=29.5;x3=26.4;x4=31.4①提出假设H0:i=j;H1:ij②计算LSD(t0.025(16)=2.12)③检验•|x1-x2|=|27.3-29.5|=2.22.096,颜色1与颜色2的销售量有显著差异•|x1-x3|=|27.3-26.4|=0.92.096,颜色1与颜色3的销售量没有显著差异•|x1-x4|=|27.3-31.4|=4.12.096,颜色1与颜色4的销售量有显著差异•|x2-x3|=|29.5-26.4|=3.12.096,颜色2与颜色3的销售量有显著差异•|x2-x4|=|29.5-31.4|=1.92.096,颜色2与颜色4的销售量没有显著差异•|x3-x4|=|26.4-31.4|=52.096,颜色3与颜色4的销售量有显著差异096.251514428.212.2LSD5.3双因素方差分析•双因素:是指问题中有两个(反映条件或前提的)变量–Ar是变量A的一个取值(又称因素A的一个水平)–Bn是变量B的一个取值(又称因素B的一个水平)•假设在Ai与Bj下的总体Xij,服从N(μij,σ2)分布,且相互独立,无交互作用。设在双因素各种水平的组合下进行试验,得到数据结构如下表。双因素方差分析的数据结构表表中,xij表示因素Ai和因素Bj下的试验效果的观察值因素B1因素B2…因素Bn因素A1x11x12…x1n因素A2x21x22…x2n……………因素Arxr1xr2…xrn–总体Xij的总平均:–第i行总体的平均:–第j列总体平均:–Ai的主效应:–Bj的主效应:–如果Ai与Bj间不存在交互效应,就有μij=μ+ai+bjnjijin1111rjijiriiajjb111rnijijrn把Xij分解为因素A和因素B的效应和均值以及随机误差的和。–随机样本Xij可以视为其总体均值ij与随机误差εij之和Xij=μij+εij–εij服从N(0,σ2)分布,并且εij之间相互独立于是有Xij=μ+ai+bj+εij称为“无交互影响的双因素(一元)模型”Xij的构成(各方案的总体均值)εij服从N(0,2)μαi(=μi•-μ)bi(=μ•j-μ)总体均值主效应随机扰动μij=μ+ai+bj..=ijijijijijXabX离平方和SST、SSA、SSB、SSE的自有度分别为?SST:nr-1、SSA:r-1、SSB:n-1、SSE:nr-r-n+1=(n-1)(r-1)的自有度分别为?和前面处理类似,我们得出如下均方差无重复实验双因素方差分析方案的假设•零假设:•备择假设:之间不完全相等(至少有两个不等),或不全等于0之间不完全相等(至少有两个不等),或不全等于0njbHsiaHijBiiA,2,1,0:,2,1,0:00,即,即sAH,,,:211nBH,,,:211无交互作用的双因素方差分析例题•某企业有三台不同型号的设备,生产同一产品,现有5名工人轮流在此三台设备上操作,记录下他们的日产量如下表。试根据方差分析说明这三台设备之间和5名工人之间对日产量的影响是否显著。结果如下表所示,•第一步,提出原假设和备择假设:•第二步,计算方差分析表:5.3.2有交互作用的双因素方差分析为了研究两个因素是否独立,有无交互作用,我们需要在各个因素水平组合下,进行重复实验;因此,有交互作用时,方差分析的数据结构会有所不同。设因素A和因素B每一对水平搭配下重复实验