§1单因素试验的方差分析(一)单因素试验•试验指标:在试验中,要考察的指标称为试验指标。•因素:影响试验指标的条件称为因素。•水平:因素所处于的状态称为水平。•单因素试验和多因素试验:试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。•方差分析:根据试验的结果进行分析,鉴别各个因素对试验结果的影响的一种分析方法。•化学生产中,因素有:原料成分、原料剂量、催化剂、反应温度、压力、反应时间、机器设备、操作人员水平等。•目的:决定各种因素,使生产过程得以稳定。•方法:先进行试验。•试验的分析:利用方差分析来分析试验的结果。•根据影响试验结果的因素的多少分为单因素试验的方差分析和多因素试验的方差分析。两个例子第一个例子•用三台机器来生产相同的铝合金薄板,测量薄板的厚度如下表:•这里指标是薄板的厚度;因素是机器不同,其他的都相同。•问题是:机器这一因素对厚度有无显著影响?第二个例子•随机选取的、用于计算器的四种类型的电路的响应时间,如下表所示(单位是毫秒)•试验的指标是电路的响应时间;•考虑的因素是电路类型;•目的:是考察电路类型对响应时间有无显著影响。机器1机器2机器30.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262类型1类型2类型3类型4191522201820402133271617151826182219第三个例子•一火箭使用四种燃料,三种推进器做射程试验。每种燃料与美中推进器的组合个发射火箭两次,得射程如下:•试验指标:射程;因素:推进器(三个水平)、燃料(四个水平);目的:考察推进器核燃料这两个因素对射程是否有显著影响。推进器(B)B1B2B3燃料(A)A158.252.656.241.265.360.8A249.142.854.150.551.648.4A360.158.370.973.239.240.7A475.871.558.251.048.741.4问题的讨论--(单因素试验)•对于例1•在因素的每一个水平下进行独立试验,其结果是一个随机变量;•表中的数据看成是来自三个不同总体的样本值;若记各个总体的均值依次为μ1,μ2,μ3;•则按题意需检验假设H0:μ1=μ2=μ3,H1:μ1,μ2,μ3不全相等。•若假设个总体为正态变量,且方差相等,但参数未知。这就变为检验同方差的多个正态总体均值是否相等的问题。而方差分析法就是解决这一问题的一种统计方法。单因素试验的方差分析•设因素有S个水平,在水平Aj(j=1,2,…,s)下,进行nj(nj≥2)次独立试验,结果如下:水平观察结果A1A2…AsX11X21…X11X21…………X11X21…样本总和样本均值总体均值T.1X.1μ1T.2X.2μ2………T.sX.sμs11nX12nX1snX•假定,各个水平Aj(j=1,2,…,s)下样本X1j,X2j,…,来自具有相同方差σ2,均值分别为μj(j=1,2…s)的正态总体,μj和σ2未知且在不同水平Aj下的样本之间相互独立。jnjX),0(~),,(~22NXNXjijjij即有由于Xij-μj可以看成是随机误差。记为Xij-μj=εij,则Xij可以写为Xij=μj+εijεij~N(0,σ2),各εij独立i=1,2,…,nj,j=1,2,…,s(1,1)称为单因素方差分析的数学模型。(1,1)方差分析的任务I.检验s个总体的均值是否相等,即检验假设II.作出未知参数的估计若记的加权平均为再引入表示总体平均值与总平均的差异,称为水平Aj的效应。这时模型(1.1)可以改写为:不全相等。,ssHH,...,,:...:211210),(~)...,(~),,(~2222211sisiiNXNXNX221,,...,,s(1,2)sjjjnn11s,...,,21,,...,2,1,sjjj(1,3)(1,4)•而假设(1.2)等价于假设•我们来导出上述假设检验的检验统计量。sjjjijijijjijnsjniNX12.0,,...,2,1,,...,2,1,),,0(~,独立各个不全相等。ssHH,...,,:,0...:211210(1.1)’(1.2)’(二)平方和的分解•引入总偏差平方和(或总变差)与总平均:即•水平Aj下的样本均值为•这时,可以将ST写成:sjniijsjniijTjjXnXXXS111121)(与(1,5)(1,6)jniijjjXnX1.1(1,7)•上式的第三项为sjnijjijsjnijsjnijijsjnijjijTjjjjXXXXXXXXXXXXS11..112.112.112..))((2)()()]()[(0])[)(2])([)(2))((21.1.1.1.11..jjjnijjijsjjnijijsjjsjnijjijXnXXXXXXXXXXX•若记•SE称为误差平方和,SA表示Aj水平下的样本均值与数据总平均的差异,叫做效应平方和,他是由水平Aj的效应的差异以及随机误差引起的。sjjjsjjjsjnijAsjnijijEXnXnXXnXXSXXSjj122.12.112.112.)()()((1,8)•则得•ST=SE+SA,(1,9)(1,10)(三)SE,SA的统计特性1、SE的统计特性•由于是总体的nj-1倍,所以由于独立,(1,11)中各式独立,根据分布的可加性,得jjnisisniiEXXXXS12.121.1)(...)(jnijijXX12.)(),(2jN)1(~)(212.jnijijnXXj(1,11)2)(~/)1(~/22122snSnSEsjjE即(1,12)•可以计算这里2、SA的统计特性,它是s个变量的平方和,且仅有一个线性约束条件:因此的知SA的自由度是s-1。2)()(snSEEsjjnn1)(.XXnjj0)(])([111.1.1.sjniijsjjjsjjjsjjjjXnXXnXnXXnXXnnj(1,13)•(由(1,3),(1,6)及Xij的独立性得知•经计算)/,(~2nNXsjjjAsjjjsjjjsjjjjsjjjsjjjsjjjAnsSEnnnnnsnnnnXnEXEnXnXnESE122112212222212122.122.)1()(,02)1(][])([)()(][)(可以得到由于(1,14)(1,15)•可以证明SE,SA的是相互独立的,且H0当为真时•(四)假设检验问题的拒绝域•由(1,15)式,当H0为真时•所以SA/(s-1)是σ2的无偏估计,而当当H1为真时,•这时•而由于)1(~/22sSA(1,16)2)1(sSEA012sjjjn212211)1(sjjjAnssSE(1,17)(1,18)2)(snSEE(1,19)所以,SA/(n-s)是σ2的无偏估计•由于•所以检验问题(1,2)’的拒绝域的形式是:•其中k由预先给定的显著性水平α确定,由此得此检验问题的拒绝域是:•因此,可以得到单因素方差分析表如下页),1(~)(/)1(/)/()1/(22snsFsnSsSsnSsSFEAEAksnSsSFEA)/()1/(),1()/()1/(snsFsnSsSFEA(1,20)单因素试验的方差分析表•例4在例1中就是检验假设•这里s=3,n1=n2=n3=5,n=15,按下式计算得到下页的表方差来源平方和自由度均方F比因素ASAs-1误差SEn-s总和STn-1由于在ST中n个变量Xij-之间仅满足一个约束条件,故ST的自由度为n-1EASSF1sSSAAsnSSEEX不全相等。,32113210,,::HHATEsjjjsjjjAsjnisjniijijTsjniijniijjSSSnTnTXnXnSnTXXnXSXTsjXTjjjj12..2.122.11112..22211..1.,,,,...,2,1,则有记(1,21)•判断:因为Fα(2,12)=3.8932.92,故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。方差来源平方和自由度均方F比因素ASA=0.0010533320.0005266732.92误差SE=0.000192120.000016总和ST=0.0012453314例4的方差分析表(五)未知参数的估计(1)参数σ2,μ,μj,δj的估计由上面的讨论,不管H0是否为真,是σ2的无偏估计由于故分别是μ,μj的无偏估计。若拒绝H0,就意味着,效应δ1,δ2,…,δs不全为零。由于δj=μj-μ,j=1,2,…,s,可知是δj的无偏估计。(2)两总体N(μj,σ2)N(μk,σ2)均值差μj-μk=δj-δk的区间估计snSE2ˆsjXEnXEXEjniijjjj...2,1,)(1)(,)(1.jjXX.ˆ,ˆXXjj.ˆ•具体做法是•由于•于是•因此均值差μj-μk=δj-δk的置信水平为1-α的置信区间是)11()(,)(2....kjkjkjkjnnXXDXXE)(~)(//1/1)()()11()()(2....sntsnSnnXXnnSXXEkjkjkjkjEkjkj)11()(2..kjEkjnnSsntXX(1,22)•例5求例4中的未知参数σ2,μj,δj的点估计及均值差的置信水平为0.95的置信区间。•解:经计算•由t0.025(n-s)=t0.025(12)=2.1788,得•故μ1–μ2,μ1–μ3,μ2–μ3的置信水平为0.95的置信区间分别为.009.0ˆ,03.0ˆ,11.0ˆ,253.0ˆ,262.0ˆ,256.0ˆ,242.0ˆ,000016.0ˆ3.32.21.13.3.2.2.1.1.2xxxxxxxxxxsnSE006.05210167188.2)11()(4025.0kjEnnSsnt•例6设在第二个例子中,四类电路的响应时间的总体均为正态分布,切割总体的方差相同,但参数未知,并且个样本相互独立。取水平α=0.05,检验各类电路的响应时间是否有显著差异。)0,012.0()006.0262.0256.0()014.0,026.0()006.0262.0242.0()008.0,020.0()006.0256.0242.0(•解以μ1,μ2,μ3,μ4,记类型ⅰ,ⅱ,ⅲ,ⅳ四种电路的响应时间总体平均值。我们需要检验:•H0:μ1=μ2=μ3=μ4,•H1:μ1,μ2,μ3,μ4不全相等•由于n=18,s=4,n1=n2=n3=5,n4=3,46.39598.31818386]359)9214194(51[44.7141838689922222212..2.1122..2ATEsjjjAsjniijTSSSnTnTSnTXSj•因为F0.05(3,14)=3.343.76,故在水平0.05下拒绝H0,认为各类型电路的响应时间有显