在工农业生产和科研活动中,我们经常遇到这样的问题:影响产品产量、质量的因素很多,例如影响农作物的单位面积产量有品种、施肥种类、施肥量等许多因素。我们要了解这些因素中哪些因素对产量有显著影响,就要先做试验,然后对测试结果进行分析,作出判断。方差分析就是分析测试结果的一种方法。引言基本概念试验指标——试验结果。可控因素——在影响试验结果的众多因素中,可人为控制的因素。水平——可控因素所处的各种各种不同的状态。每个水平又称为试验的一个处理。单因素试验——如果在一项试验中只有一个因素改变,其它的可控因素不变,则该类试验称为单因素试验。引例例1(灯丝的配料方案优选)某灯泡厂用四种配料方案制成的灯丝生产了四批灯泡,在每批灯泡中作随机抽样,测量其使用寿命(单位:小时),数据如下:灯泡寿命灯丝12345678甲1600161016501680170017201800乙15801640164017001750丙14601550160016201640174016601820丁151015201530157016801600灯泡的使用寿命——试验指标灯丝的配料方案——试验因素(唯一的一个)四种配料方案(甲乙丙丁)——四个水平因此,本例是一个四水平的单因素试验。引例用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为四个总体。假设X1,X2,X3,X4相互独立,且服从方差相同的正态分布,即Xi~N(i,2)(i=1,2,3,4)本例问题归结为检验假设H0:1=2=3=4是否成立我们的目的是通过试验数据来判断因素A的不同水平对试验指标是否有影响。设A表示欲考察的因素,它的个不同水平,对应的指标视作个总体每个水平下,我们作若干次重复试验:(可等重复也可不等重复),同一水平的个结果,就是这个总体的一个样本:rr12,,....rXXX12,,....rnnnin12,,....iiiinXXXiX单因素试验的方差分析12,,...iiiinXXX因此,相互独立,且与iX同分布。单因素试验资料表其中诸可以不一样,1riinnin水平重复12...rAAA1...ni121121112..................rrnnrnXXXXXX1iniijjTX列和12...rTTTiiiXTn列平均1riiT总和11riiiXnXn12...rXXX(水平组内平均值)(总平均值)试验结果纵向个体间的差异称为随机误差(组内差异),由试验造成;横向个体间的差异称为系统误差(组间差异),由因素的不同水平造成。品种重复12345AAAAA12341333837313937353934403535383431ijjx12010510811499ix40353638335311546ijijx例:五个水稻品种单位产量的观测值——P16553111536.4ijijx由于同一水平下重复试验的个体差异是随机误差,所以设:,1,2,...,1,2,...ijiijiXjnir其中为试验误差,相互独立且服从正态分布ij2~0,ijN线性统计模型单因素试验的方差分析的数学模型21.~,,1,2,...iiXNir具有方差齐性。122.,,...rXXX相互独立,从而各子样也相互独立。首先,我们作如下假设:即令(其中)称为一般平均值。111,rriiiiinnnn,ii称为因素A的第个水平的效应。iiA,1,2,...,1,2,...ijiijiXjnir则线性统计模型变成于是检验假设:012:...rH等价于检验假设:012:...0rH显然有:1110rrriiiiiiiiinnnn整个试验的均值考察统计量211inrTijijSSXX经恒等变形,可分解为:TAESSSSSS其中22A111SSinrriiiiijiXXn组间平方和(系统离差平方和)反映的是各水平平均值偏离总平均值的偏离程度。如果H0成立,则SSA较小。,1,2,...,1,2,...ijijiXjnir若H0成立,则总离差平方和见书P1681111,iinnriijijijjn其中22E1111SSiinnrriiijijijijXX组内平方和误差平方和1111,iinnriijijijjn这里反映的是重复试验种随机误差的大小。i表示水平Ai的随机误差;表示整个试验的随机误差2~,ijXN012:...0rHaaa若假设成立,则由P106定理5.1可推得:222222~1,~1,~TAESSSSSSnrnr222,,TAESSSSSS将的自由度分别记作,,TAEdfdfdf则~1,AAEESSdfFFrnrSSdf(记,称作均方和),AAAEEESSdfMSSSdfMS(各子样同分布)则~1,AAEESSdfFFrnrSSdf(记,称作均方和),AAAEEESSdfMSSSdfMS对给定的检验水平,由1,PFFrnr得H0的拒绝域为:1,FFrnrF单侧检验结论:方差分析实质上是假设检验,从分析离差平方和入手,找到F统计量,对同方差的多个正态总体的均值是否相等进行假设检验。单因素试验中两个水平的均值检验可用第七章的T检验法。AEMSMS思考:为什么此处只做单侧检验?(1)若,则称因素的差异极显著(极有统计意义),或称因素A的影响高度显著,这时作标记;0.01FF**约定*0.050.01FFF(2)若,则称因素的差异显著(差异有统计意义),或称因素A的影响显著,作标记;0.10.05FFF*(3)若,则称因素A有一定影响,作标记();0.10FF(4)若,则称因素A无显著影响(差异无统计意义)。注意:在方差分析表中,习惯于作如下规定:单因素试验方差分析表方差来源组间组内总和平方和ASSESSTSS自由度AdfEdfTdf均方和AAASSMSdfEEESSMSdfF值AEMSFMSF值临介值1,Frnr简便计算公式:22A1SSriiiTTnn22E111SSinrriijijiiTXn1,iniijjTX1riiTT其中同一水平下观测值之和所以观测值之和例2P1952以A、B、C三种饲料喂猪,得一个月后每猪所增体重(单位:500g)于下表,试作方差分析。饲料ABC增重514043482325262328解:12351404348182,23252674,232851TTT1827451307T12,936,18AETdfrdfnrdfn解:123182,74,51,307TTTT222222A11827451307SS4329riiiTTnn11406.8310472.11934.7222E111SSinrriijijiiTXn2225140...2811406.831149711406.832,6,8AETdfdfdf1149710472.111024.89TAESSSSSS934.732467.3690.17615.03AEMSMS467.3631.1015.03AEMSFMS0.010.052,610.922,65.14FF**不同的饲料对猪的体重的影响极有统计意义。列方差分析表方差来源组间组内总和平方和934.7390.171024.89自由度268均方和467.3615.03F值31.10**F值临介值0.052,65.14F0.012,610.92F例2的上机实现步骤1、输入原始数据列,并存到A,B,C列;各水平数据放同一列各水平数据放在不同列2、选择StatANOVAone-way(unstacked)0.010.05不同的饲料对猪的体重的影响极有统计意义。定理在单因素方差分析模型中,有221()(1)rAiiiESSrn2()()EESSnr如果H0不成立,则210riiin所以,1AESSSSEErnr即H0不成立时,1AESSrSSnr有大于1的趋势。所以H0为真时的小概率事件应取在F值较大的一侧。