第八章方差分析与回归分析第一节单因素试验的方差分析在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中,影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个人能力、经历及机遇等偶然因素的影响.虽然在这众多因素中,每一个因素的改变都可能影响最终的结果,但有些因素影响较大,有些因素影响较小.故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素.方差分析就是根据试验的结果进行分析,通过建立数学模型,鉴别各个因素影响效应的一种有效方法.内容分布图示★引言★基本概念★例1★例2★假设前提★方差分析的任务★偏差平方和及其分解★ES和AS的统计特性★检验方法★例3★例4★习题8-1★返回内容要点:一、基本概念在方差分析中,我们将要考察的对象的某种特征称为试验指标.影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等因素);另一类人们无法控制的(如上例中员工素质与机遇等因素).今后,我们所讨论的因素都是指可控制因素。因素所处的状态,称为该因素的水平.如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验.为方便起见,今后用大写字母,,,CBA等表示因素,用大写字母加下标表示该因素的水平,如,,21AA等.二、假设前提设单因素A具有r个水平,分别记为,,,,21rAAA在每个水平),,2,1(riAi下,要考察的指标可以看成一个总体,故有r个总体,并假设:(1)每个总体均服从正态分布;(2)每个总体的方差相同;(3)从每个总体中抽取的样本相互独立.那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第i个总体的均值为i,则假设检验为.:210rH备择假设为.,,,:211不全相等rH通常备择假设可以不写.在水平),,2,1(riAi下,进行in次独立试验,得到试验数据为,,,,21iiniiXXX记数据的总个数为n=.1riin由假设有~ijX),(2iN(i和2未知),即有ijXi~),,0(2N故ijXi可视为随机误差.记ijXi=ij,从而得到如下数学模型:未知和相互独立各个2i2,),,0(~,,2,1,,,2,1,ijijiijiijNnjriX(1)方差分析的任务:1)检验该模型中r个总体),(2iN),,2,1(ri的均值是否相等;2)作出未知参数r,,,21,2的估计.为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念.称各均值的加权平均,11riiinn为总平均.其中n=.1riin再引入,ii,,,2,1rii表示在水平iA下总体的均值i与总平均的差异,称其为因子A的第i个水平i的效应.易见,效应间有如下关系式:,0)(11riiiriiinn利用上述记号,前述数学模型可改写为未知和相互独立各个2i21,),,0(~0,,2,1,,,2,1,ijijriiirijiijNnnjriX(2)而前述检验假设则等价于:.,,,:.:211210不全为零rrHH三、偏差平方和及其分解为了使造成各ijX之间的差异的大小能定量表示出来,我们先引入:记在水平i下数据和记为:injijiXX1.,其样本均值为.iX=,11injijiXn因素A下的所有水平的样本总均值为X=rinjijiXn111=riiXr1.1,为了通过分析对比产生样本ijX,ri,,2,1,kj,,2,1之间差异性的原因,从而确定因素A的影响是否显著,我们引入偏差平方和来度量各个体间的差异程度:TSrinjijiXX112)((3)TS能反映全部试验数据之间的差异,又称为总偏差平方和.如果0H成立,则r个总体间无显著差异,也就是说因素A对指标没有显著影响,所有的ijX可以认为来自同一个总体),(2N,各个ijX间的差异只是由随机因素引起的。若0H不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素A的不同水平的作用而产生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素A对指标有显著影响,否则,认为无显著影响.为此,可将总偏差中的这两种差异分开,然后进行比较。记TSEASS(4)其中AS,)(12.riiiXXnES.)(112.rinjiijiXXAS反映在每个水平下的样本均值与样本总均值的差异,它是由因素A取不同水平引起的,称为组间(偏差)平方和,也称为因素A的偏差平方和.ES表示在水平iA下样本值与该水平下的样本均值之间的差异,它是由随机误差引起的,称为误差(偏差)平方和,也称为组内(偏差)平方和.等式TSEASS称为平方和分解式.事实上TS=rinjijiXX112)(=rinjiiijiXXXX112..)]()[(=rinjiijiXX112.)(+)()(2.11.XXXXirinjiiji,)(2.1XXnirii根据.iX和X的定义知0)()(.11.XXXXirinjiiji,所以TS=rinjiijiXX112.)(2.1)(XXnirii=.AESS四、ES与AS的统计特性如果0H成立,则所有的ijX都服从正态分布),(2N,且相互独立,由第五章第三节的定理,可以证明:1));1(~22nST2)2/ES~)(2rn,且)(ESEsjtkijkXst111.2所以)(/rnSE为2的无不偏估计.3)2/AS~)1(2r,且2)1()(rSEA,因此)1(rSA为2的无偏估计.4)AESS与相互独立.五、检验方法如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异,r个总体不能认为是同一个正态总体,应认为0H不成立,此时,比值EASrSrn)1()(有偏大的趋势.为此,选用统计量)()1(rnSrSFEA=EASrSrn)1()(在0H为真时,有F=EASrSrn)1()(~F).,1(rnr对给定的检验水平a,查aF),1(rnr的值,由样本观察值计算ES,AS,从而计算出统计量F的观察值.由于0H不真时,AS值偏大,导致F值偏大.因此,1)若FaF),1(rnr时,拒绝0H,表示因素A的各水平下的效应有显著差异;2)若FaF),1(rnr时,则接受0H,表示因素A的各水平下的效应无显著差异.实际分析中,常采用如下简便算法和记号:iTinjijX1,,,,2,1riTrinjijiX11=.1riiXTS=rinjijiX112nT2,AS=riiinT12.nT2,ES=ATSS为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差分析表:表8-1B单因素方差分析表111nSTrnSMSrnSEMSMSFrSMSrSAFTEEEEAAAA总和误差因素值均方和自由度平方和方差来源例题选讲:例1(讲义例1)设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米.得结果如下表所示.表8-1A铝合金板的厚度机器Ⅰ机器Ⅱ机器Ⅲ0.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262这里,试验的指标是薄板的厚度,机器为因素,不同的三台机器就是这个因素的三个不同的水平.如果假定除机器这一因素外,材料的规格、操作人员的水平等其它条件都相同,这就是单因素试验.试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异,即考察机器这一因素对厚度有无显著的影响.如果厚度有显著差异,就表明机器这一因素对厚度的影响是显著的.例2(讲义例2)某食品公司对一种食品设计了四种新包装.为了考察哪种包装最受欢迎,选了十个有近似相同销售量的商店作试验,其中两种包装各指定两个商店销售,另两种包装各指定三个商店销售.在试验期中各商店的货架排放位置、空间都尽量一致,营业员的促销方法也基本相同.观察在一定时期的销售量,数据如表7.1.1所示:表7.1.1销售量包装商店商店数in1231A121822A14121333A19172133A24302在本例中,我们要比较的是四种包装的销售量是否一致,为此把包装类型看成是一个因子,记为因子A,它有四种不同的包装,就看成是因子A的四个水平,记为4321,,,AAAA.一般将第i种包装在第j个商店的销售量记为iijmjix,,2,1;4,3,2,1,(在本例中,2,3,3,24321mmmm).由于商店间的差异已被控制在最小的范围内,因此一种包装在不同商店里的销售量被看作为一种包装的若干次重复观察,所以可以把一种包装看作一个总体.为比较四种包装的销售量是否相同,相当于要比较的四个总体的均值是否一致.简化起见,需要给出若干假定,把所要回答的问题归结为下个统计问题,然后设法解决它.例3(讲义例3)在例1中,检验假设(05.0)32113210,,:,:HH不全相等.例4(讲义例4)在例2中,检验假设(05.0)4321143210,,,:,:HH不全相等.