137第6章方差分析和正交试验设计§6.1单因子方差分析在实际问题中,某个指标的取值,往往可能与多个因素有关。例如,农作物的产量,可能与作物的品种有关,可能与施肥量有关,可能与土壤有关,等等。又例如,化工产品的收得率,可能与原料配方有关,可能与催化剂的用量有关,可能与反应温度有关,还可能与反应容器中的压力有关,等等。由于因素很多,自然就会产生这样的问题:这些因素,对于指标的取值,是否都有显著的作用?如果不是所有的因素都有显著的作用,那么,哪些因素的作用显著?哪些因素的作用不显著?还有,这些因素的作用,是简单地叠加在一起的呢,还是以更复杂的形式交错在一起的?以上这些问题,都需要我们从试验数据出发,来加以判断、分析,做出结论。方差分析(AnalysisofVariance,简称ANOVA)就是一种能够解决这类问题的有效的统计方法。在方差分析中,将可能与某个指标的取值有关的因素,称为因子(Factor),通常用,,BA来表示。因子所取的各种不同的状态,称为水平(Level),用,,21AA,,,21BB来表示。如果问题中只考虑一个因子,这样的方差分析称为单因子方差分析。如果问题中要考虑两个因子,这样的方差分析就称为双因子方差分析。当然,还可以有三因子、四因子、更多因子的方差分析。我们先来看单因子方差分析。问题设某个指标的取值可能与一个因子A有关,因子A有r个水平:rAAA,,,21。在这r个水平下的指标值,可以看作是r个相互独立、方差相等的正态总体i~),(2iN,ri,,2,1。在每一个水平iA下,对指标作t(1t)次重复观测,设观测结果为tiiiXXX,,,21,它们可以看作是总体i的样本。即有水平观测值rAAA21trrrttXXXXXXXXX,,,,,,,,,212222111211问:因子A对指标的作用是否显著?138检验方法检验因子A的作用是否显著,相当于要检验这样一个假设0H:r21。为了作检验,先给出一批定义。称rtn为总观测次数,tjjiiXtX11为水平iA的均值,tjijiiXXSS12)(为水平iA的平方和,riiritjjiXrXnX11111为总均值,ritjjiTXXSS112)(为总平方和,riiritjijieSSXXSS1112)(为误差平方和,riiAXXtSS12)(为因子A的平方和。这些统计量之间的相互关系,可以用下列图表的形式表示出来:水平观测值iA的平方和iA的均值总均值rAA1trrtXXXX1111←─1SS─→←─rSS─→rXX1←────→X│←──误差平方和eSS──→│←─A的平方和ASS──→││←─────────总平方和TSS─────────→│tjijiiXXSS12)(反映了在各水平iA的内部指标取值的差异程度,这种差异完全是由于误差引起的,而eSS是所有这样的iSS的总和,所以称为误差平方和。riiAXXtSS12)(反映了各水平之间指标取值的差异程度,如果因子A的作用不显著,各水平之间差异很小,rXXX,,,21近似相等,与X差异很小,ASS的值也比139较小,如果因子A的作用显著,各水平之间差异很大,rXXX,,,21与X的差异也很大,ASS的值就会偏大。ASS的大小反映了因子A的作用大小,所以称为因子A的平方和。总平方和TSS、误差平方和eSS、因子A的平方和ASS之间,有下列平方和分解关系:AeTSSSSSS。这是因为ritjjiTXXSS112)(ritjiijiXXXX112)(ritjiritjiijiritjijiXXXXXXXX11211112)())((2)(riiriiitjjieXXtXXXtXSS1211)())((2AeAeSSSSSSSS0。由ASS、eSS可以算出统计量)1(rSSMSAA和)(rnSSMSee。AMS称为因子A的均方,eMS称为误差均方。由AMS、eMS可以算出统计量)()1(rnSSrSSMSMSFeAeAA。下面证明一个关于AF的分布的定理。定理6.1若0H:r21为真,则有)()1(rnSSrSSMSMSFeAeAA~),1(rnrF。证设r21,这时有i~),(2N,ri,,2,1。因为tiiiXXX,,,21是i的样本,所以jiX~),(2N,jiX~)1,0(N,ri,,2,1,tj,,2,1,相互独立。140QritjjiX1122112)(ritjjiXXX2112)(ritjjiXX211))((2ritjjiXXX2112)(ritjX222)(0XnSST222nXSSSSeA321QQQ。其中,1Q2122)(riiAXXtSS是r项的平方和,但这r项又满足1个线性关系式:0)(11XrXXXriirii,所以,1Q的自由度11rf。2Q21122)(ritjijieXXSS是rtn项的平方和,但这n项又满足r个线性关系式:0)(11itjjitjijiXtXXX,ri,,2,1,所以,2Q的自由度rnf2。3Q2nX是1项的平方和,所以,3Q的自由度13f。因为nrnrfff1)()1(321,所以由定理2.7(Cochran定理)可知:21ASSQ~)1(2r,22eSSQ~)(2rn,3Q2nX~)1(2,而且21ASSQ,22eSSQ,3Q2nX相互独立。因此,由F分布的定义可知141)()1()()1(22rnSSrSSrnSSrSSFeAeAA~),1(rnrF。由定理6.1可知,若0H:r21为真,则AF~),1(rnrF;若0H:r21不真,则ASS的值会偏大,AF的值也会偏大,统计量AF的分布,相对于),1(rnrF分布来说,峰值的位置会有一个向右的偏移。因此,可得到检验方法如下:从样本求出AF的值。对于给定的显著水平,自由度),1(rnr,查F分布的分位数表,可得分位数),1(1rnrF,使得)},1({1rnrFFPA,当),1(1rnrFFA时,拒绝0H:r21,这时,可以认为因子A的作用显著,否则,接受0H:r21,这时,可以认为因子A的作用不显著。单因子方差分析的计算步骤方差分析的计算比较复杂,用带统计功能的计算器计算时,最好按照下列步骤进行,并把计算结果填写在下列形式的表格中:水平观测值tjjiiXtX11tjijiiXXSS12)(rAA1trrtXXXX1111rXX1rSSSS1riiAXXtSS12)(riieSSSS1(1)从itiiiXXX,,,21求出tjjiiXtX11和tjijiiXXSS12)(,ri,,2,1。把itiiiXXX,,,21看作样本,tjjiiXtX11就是样本均值,tjijiiXXSS12)(就是样本方差tjijiXXtS122)(1再乘以样本观测次数t(或修正样本方差tjijiXXtS122)(11*再乘以1t)。所以,在计算器上计算时,只要像计算样本统142计量那样,求出样本均值就是iX,求出样本方差再乘以t(或求出修正样本方差再乘以1t)就是iSS。(2)从rXXX,,,21求出riiAXXtSS12)(。把rXXX,,,21看作样本,riiAXXtSS12)(就是样本方差riiXXrS122)(1乘以r再乘以t(或修正样本方差riiXXrS122)(11*乘以1r再乘以t)。(3)从rSSSSSS,,,21求出riieSSSS1。(4)列方差分析表来源平方和自由度均方F值分位数AASS1r)1(rSSMSAAeAAMSMSF),1(1rnrF误差eSSrn)(rnSSMSee总和TSS1n(5)当),1(1rnrFFA时拒绝0H,即认为因子A的作用显著,否则就接受0H,即认为因子A的作用不显著。例1为了研究肥料对小麦产量的影响,对4种不同的肥料各做4次试验,得到小麦亩产量(单位:kg)如下:肥料品种亩产量1A1981961901662A1601691671503A1791641811704A190170179188问:肥料品种对小麦亩产量有无显著影响?(显著水平05.0)解这可以看作是一个单因子方差分析问题。肥料品种就是因子A,设施用4种不同肥料的小麦亩产量分别为i~),(2iN,4,3,2,1i。检验肥料品种对小麦亩产量有无显著影响,相当于要检验假设0H:4321。计算结果见下表:143水平观测值(亩产量)iXiSS1A19819619016650.18700.6512A16016916715050.16100.2213A17916418117050.17300.1894A19017017918875.18175.25219.1527ASS75.1313eSS方差分析表为:来源平方和自由度均方F值分位数A19.1527ASS31r06.50965.4AF49.3)12,3(95.0F误差75.1313eSS12rn48.109总和94.2840TSS151n对显著水平05.0,自由度)12,3(),1(rnr,查F分布的分位数表,可得49.3),1(1rnrF,因为49.365.4AF,所以拒绝0H:4321,结论是:肥料品种对小麦亩产量有显著影响。比较各水平的均值,还可以看出,施肥料1A的小麦亩产量最高,施肥料2A的小麦亩产量最低。