第8章方差分析8.1方差分析的基本概念和原理8.2单因素方差分析8.3双因素方差分析8.1方差分析的基本概念和原理[例题]某公司计划引进一条生产线。为了选择一条质量优良的生产线以减少日后的维修问题,他们对6种型号的生产线作了初步调查,每种型号调查4条,结果列于表8-1。这些结果表示每个型号的生产线上个月维修的小时数。试问由此结果能否判定由于生产线型号不同而造成它们在维修时间方面有显著差异?表8-1对6种型号生产线维修时数的调查结果序号型号1234A型9.58.811.47.8B型4.37.83.26.5C型6.58.38.68.2D型6.17.34.24.1E型10.04.85.49.6F型9.38.77.210.1研究的指标:维修时间记作Y,控制因素是生产线的型号,分为6个水平即A,B,C,D,E,F,每个水平对应一个总体Yi(i=1,2,…,6)。),(~2NY现在的试验就是进行调查,每种型号调查4台,相当于每个总体中抽取一个容量为4的样本,得到的数据记作yij(i=1,2,…,6;j=1,2,3,4),即为下表数据。计算各样本平均数如下:型号ABCDEF9.45.57.95.47.58.8iy表8-2iy两个总体平均值比较的检验法把样本平均数两两组成对:与,与,…与,与,…,与,共有(15)对。1y2y1y3y1y6y2y3y5y6y26C即使每对都进行了比较,并且都以0.95的置信度得出每对均值都相等的结论,但是由此要得出这6个型号的维修时间的均值都相等。这一结论的置信度仅是上述方法存在的问题工作量大置信度低将这15对平均数一一进行比较检验4632.0)95.0(158.1.1方差分析的基本原理方差分析的基本原理是分析数据误差的来源,通过比较这些误差来判断总体均值是否相等。在同一水平下,样本的各个观测值是不同的。由于这些数据来自于同一总体,所以认为它们的差异是由于抽样的随机性造成的,称这样的误差为随机误差。在不同水平下,各样本的所有的观测值也是不同的。由于这些数据来自于不同的总体,所以这种差异可能是由于抽样随机性造成的(随机误差);也可能是由于不同的水平造成的,将由于不同水平造成的误差称为系统误差。8.1.1方差分析的基本原理衡量因素同一水平下的样本数据误差称为组内误差。衡量因素不同水平下各样本间的误差,称为组间误差。将总的偏差平方和按照产生的原因分解成:(总的偏差平方和)=(由因素水平引起的偏差平方和)+(由抽样的随机性引起的偏差平方和)即,总的误差=组间误差+组内误差8.1.1方差分析的基本原理显然,组内误差只包含随机误差;而组间误差包含随机误差和系统误差。如果不同水平对结果没有影响,那么组间误差只包含随机误差,这时,组间误差与组内误差经过平均后的比值会很接近1;反之,如果不同水平对结果有明显的影响,这时,组间误差要比组内误差要大,两者经过平均后的比值会大于1,当这个比值大到一定程度时,就有理由相信,不同水平对结果是有显著影响的。需解决的几个问题:(1)怎样描述组内误差和组间误差?(2)怎样对组内误差和组间误差进行平均?(3)怎样构造检验统计量,检验统计量服从何种分布?(4)检验统计量大到什么程度,可以有充分的理由相信不同水平间有显著差异?8.1.2方差分析的基本假定方差分析在理论上应满足3个基本的前提条件。条件1:K个总体都服从正态分布;条件2:K个总体的方差相等;条件3:K个样本之间是独立的。8.1.2方差分析的基本假定需要说明的是:这些条件在一定程度上是可以放宽的,如果总体服从正态分布的条件不满足,方差分析的结果不会受到太大的影响;如果各个总体方差相等的条件不能满足,在各组样本容量相差不大时,只要最大方差与最小方差之比小于3,分析结果都是稳定的。所以一般情况下,认为以上条件都是被满足的。8.2单因素方差分析8.2.18.2.1因素和水平的概念这些不同的“取值”,又称为“方案”这个因素的不同“水平”。8.2.2数学模型在单因素试验中,为了考察因素A的k个水平A1,A2,…,Ak对Y的影响(如k种型号对维修时间的影响),设想在固定的条件Ai下作试验。所有可能的试验结果组成一个总体Yi,它是一个随机变量。8.2.2数学模型假定在水平Ai下重复做m次试验,得到观测值imiiYYY,...,,2112…j…M合计平均A1Y11Y12…Y1j…Y1mT1A2Y21Y22…Y2j…Y2mT2………………………AiYi1Yi2…Yij…YimTi………………………AkYk1Yk2…Ykj…YkmTk总平均1Y2YiYkY表8-2Y8.2.2数学模型表中:(i=1,2,…,k)Yij表示在Ai条件下第j次试验的结果;表示第i组样本的均值;表示所有观察值的均值。kimjijYkmY11mjijiYmY11iYY(1)如果各水平下抽取样本数相等,均为m个(2)如果各水平下抽取样本数不等,分别为ni个令21121211)()()(kimjiijkiikimjijYYYYmYY8.2.3分解定理211)YY(SkimjijT21)(kiiAYYmS211)YY(SkimjiijE21121211)()()(kinjiijkiiikinjijiiYYYYnYY则分解定理可写成ST=SA+SE式中,称为总误差平方和。称为组内误差平方和;称为组间误差平方和。ST的自由度fT=km-1SA的自由度fA=k-1SE的自由度fE=k(m-1)=km-k容易看出,自由度之间也有类似于分解定理的关系TSESASEATfff8.2.3分解定理要判断在因素A的k个水平条件下真值之间是否有显著性差异,即检验假设H0:,H1:不全相等k218.2.4显著性检验可以证明当H0为真时,,,并且与相互独立,得:其中和分别称为组间误差均方和组内误差均方。)1(~22kmST)1(~22kSA))1((~22mkSE2AS2ES))m(k,k(F~fSfS)m(k/S)k/(S)m(k/S)k/(SFEEAAEAEAA11111122)1/(kSA)1(/mkSE8.2.4显著性检验对于给定的显著水平,可以从F分布表查出临界值,再根据样本观测值算出FA的值。当时,拒绝H0,当时,接受H0。))1(,1(mkkF))1(,1(mkkFFA))1(,,1(mkkFFA8.2.4显著性检验方差来源平方和自由度均方F比组间(因素A)SAfA=k-1SA/(k-1)组内(实验误差)SEfE=k(m-1)SE/k(m-1)总和ST=SA+SEfT=km-1---)1(/1/mkSkSFEAA表8-3方差分析表))m(k,k(F~fSfS)m(k/S)k/(SFEEAAEAA11118.2.4显著性检验下面继续讨论前面6种型号的生产线的例子。根据调查结果,在α=0.05的显著水平时,检验这6种型号的生产线在平均维修时间方面有无显著差异?根据实践经验,认为各种型号生产线的维修时间是近似服从正态分布的。作统计假设:6种型号的生产线平均维修时数无显著差异,即H0:μ1=μ2=…μ6,H1:μi(i=1,2,…,6)不全相等。计算SA及SEkmTmT)YY(mSkiikiiA21221mTY)YY(SkiikimjijikimjijE12112211mjijiYT1kimjijkiiYTT11表8-4计算列表台号型号1234TiTi2A型9.58.811.47.837.51406.25358.49B型4.37.83.26.521.8475.24131.82C型6.58.38.68.231.6998.56252.34D型6.17.34.24.121.7470.89124.95E型10.04.85.49.629.8888.04244.36F型9.38.77.210.135.31246.09316.03mjijY127177.TTi0754852.Ti9914272.Yij再将计算结果分别代入SA与SE两式中,得到SA的自由度SE的自由度555546717740754852212...kmTmTSkiiA7256407548599142712112...mTYSkiikimjijE5161kfA181461)()m(kfE查F分布表得由于,故拒绝H0。该结论说明,至少有一种生产线型号的效应不为零,这等价于至少有两种型号的生产线的平均维修时数是有显著差异的。77.2)18,5(05.0F77.253.3AF方差来源平方和自由度均方F比组间SA55.55511.11组内SE56.72183.15总和ST112.2723---表8-5方差分析表5331531111187256555511.....)m(k/Sk/SFEAA练习1:从某地四组碳酸盐岩地层化学分析结果中,取某种化学成分,其数据(单位:PPm)如表所示。问这四组碳酸盐岩地层的化学成分有无显著差异(α=0.01)?编号水平1234A11.381.381.421.42A21.411.421.441.45A31.321.331.441.35A41.311.331.351.36解:(1)作统计假设:四组碳酸盐岩地层的化学成分无显著差异,即H0:μ1=μ2=μ3=μ4,H1:μi(i=1,2,…,4)不全相等。(2)计算SA,SE,计算结果列表所示。将计算结果分别代入SA与SE两式中,得到0204411224291222212...kmTmTSkiiA020429122593012112...mTYSkiikimjijE编号水平1234TiTi2A11.381.381.421.425.631.367.84A21.411.421.441.455.7232.728.18A31.321.331.441.355.4429.597.41A41.311.331.351.365.3528.627.16mjijY121122.TTi291222.Ti59302.YijSA的自由度fA=k-1=4-1=3SE的自由度fE=k(m-1)=4*(4-1)=12(3)方差分析表如上所示。查F分布表得由于,故接受H0。该结论说明,四组碳酸盐岩地层的化学成分无显著差异。955123010.),(F.95553..FA方差来源平方和自由度均方F比组间SA0.0230.007组内SE0.02120.002总和ST0.0415---方差分析表530200070120203020.....f/Sf/SFEEAAA例:《切胚乳试验》用小麦种子进行切胚乳试验,设计分3种处理,同期播种在条件较为一致的花盆内,成熟后测量每株粒重(单位:g),得到数据如下:试作方差分析,在α=0.05的显著水平时,估计各种处理之间有没有显著的差异?处理未切去胚乳切去一半胚乳切去全部胚乳每株粒重21,29,24,22,25,30,27,2620,25,25,23,29,31,24,26,20,2124,22,28,25,21,26解:(1)作统计假设:三种处理之间无显著差异,即H0:μ1=μ2=μ3,H1:μ1,μ2,μ3不全相等(2)计算SA,SE,计算结果列表所示。处理未切去胚乳切去一半胚乳切去全部胚乳总和niTi.8204416165272102445953660746146213163586245941224681493