常用统计技术(中级)方差分析回归分析试验设计guanli.1kejian.com第一管理资源网第一节方差分析一、几个概念二、单因子方差分析一、几个概念在试验中改变状态的因素称为因子,常用大写英文字母A、B、C、…等表示。因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标表示,记为A1,A2,…,Ak。试验中所考察的指标(可以是质量特性也可以是产量特性或其它)用Y表示。Y是一个随机变量。单因子试验:若试验中所考察的因子只有一个。[例2.1-1]现有甲、乙、丙三个工厂生产同一种零件,为了了解不同工厂的零件的强度有无明显的差异,现分别从每一个工厂随机抽取四个零件测定其强度,数据如表所示,试问三个工厂的零件的平均强度是否相同?工厂量件强度甲乙丙1031019811011310710811682928486三个工厂的零件强度在这一例子中,考察一个因子:因子A:工厂该因子有三个水平:甲、乙、丙试验指标是:零件强度这是一个单因子试验的问题。每一水平下的试验结果构成一个总体,现在需要比较三个总体均值是否一致。如果每一个总体的分布都是正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析方法来解决。二、单因子方差分析假定因子A有r个水平,在Ai水平下指标服从正态分布,其均值为,方差为,i=1,2,…,r。每一水平下的指标全体便构成一个总体,共有r个总体,这时比较各个总体的问题就变成比较各个总体的均值是否相同的问题了,即要检验如下假设是否为真:i2r:H210当不真时,表示不同水平下的指标的均值有显著差异,此时称因子A是显著的,否则称因子A不显著。检验这一假设的分析方法便是方差分析。0H方差分析的三个基本假定1.在水平下,指标服从正态分布;iA),(Ni22.在不同水平下,各方差相等;3.各数据相互独立。ijy设在一个试验中只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用表示,i=1,2,…,r。常常把数据列成如下表格形式:imiiy,,y,y21单因子试验数据表水平试验数据和均值A1myyy11211,,,T11yA2myyy22221,,,T22y…………Arrmrryyy,,,21Trry记第i水平下的数据均值为,总均值为。此时共有n=rm个数据,这n个数据不全相同,它们的波动(差异)可以用总离差平方和ST去表示iyyrimjijT)yy(S112记第i水平下的数据和为Ti,;mjijiyT1引起数据波动(差异)的原因不外如下两个:一是由于因子A的水平不同,当假设H0不真时,各个水平下指标的均值不同,这必然会使试验结果不同,我们可以用组间离差平方和来表示,也称因子A的离差平方和:riiAyymS12这里乘以m是因为每一水平下进行了m次试验。二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示:rimjiijeyyS112Se:也称为误差的离差平方和可以证明有如下平方和分解式:eATSSSST、SA、Se的自由度分别用、、表示,它们也有分解式:,其中:TfAfefeATfff1试验数Tf1水平数AfATefff因子或误差的离差平方和与相应的自由度之比称为因子或误差的均方和,并分别记为:AAAfSMSeeefSMS两者的比记为:eAMSMSF当时认为在显著性水平上因子A是显著的。其中是自由度为的F分布的1-α分位数。),(1eAffFF),(1eAffFeAff,单因子方差分析表来源偏差平方和自由度均方和F比因子A误差eSASe1rfArnfeAAAfSMSeeefSMSeAMSMSF总计TST1nfT各个离差平方和的计算:nTyyySrimjijrimjijT2112112r1i22i2ir1iAnTmTyymSATeSSS其中是第i个水平下的数据和;T表示所有n=rm个数据的总和。iT进行方差分析的步骤如下:(1)计算因子A的每一水平下数据的和T1,T2,…,Tr及总和T;(2)计算各类数据的平方和;222,,TTyiij(3)依次计算ST,SA,Se;(4)填写方差分析表;(5)对于给定的显著性水平α,将求得的F值与F分布表中的临界值比较,当时认为因子A是显著的,否则认为因子A是不显著的。eAffF,1eAffFF,1对上例的分析(1)计算各类和:每一水平下的数据和为:344,444,412321TTT数据的总和为T=1200(2)计算各类平方和:原始数据的平方和为:1214922ijy每一水平下数据和的平方和为4852162iT(3)计算各离差平方和:ST=121492-12002/12=1492,fT=3×4-1=11SA=485216/4-12002/12=1304,fA=3-1=2Se=1492-1304=188,fe=11-2=9(4)列方差分析表:[例2.1-1]的方差分析表来源偏差平方和自由度均方和F比因子A1304AS2Af652AMSF=31.21误差e188eS9ef920.MSe总计T1492TS11Tf(5)如果给定=0.05,从F分布表查得26.4)9,2(95.0F由于F4.26,所以在=0.05水平上结论是因子A是显著的。这表明不同的工厂生产的零件强度有明显的差异。当因子A是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第i个水平指标均值的估计为:iiyˆ,ri,,2,1在本例中,三个工厂生产的零件的平均强度的的估计分别为:86ˆ,111ˆ,103ˆ321由此可见,乙厂生产的零件的强度的均值最大,如果我们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。误差方差的估计:这里方差的估计是MSe。在本例中:的估计是20.9。22的估计是57.49.20[例2.1-2]略(见教材P92)三、重复数不等的情况若在每一水平下重复试验次数不同,假定在Ai水平下进行次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动:imimnnTmTSriiiA212例2.1-3某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构(记为因子A)对平均比油油耗的影响是否显著。(这里假定每一种结构下的油耗服从等方差的正态分布)[例2.1-3]的试验结果水平试验结果(比油耗-220)A1:原结构11.012.87.68.34.75.59.310.3A2:改进方案12.84.5-1.50.2A3:改进方案24.36.11.43.6(为简化计算,这里一切数据均减去220,不影响F比的计算及最后分析因子的显著性)(1)各水平下的重复试验次数及数据和分别为:A1:m1=8,T1=69.5A2:m2=4,T2=6.0A3:m3=4,T3=15.4总的试验次数n=16,数据的总和为T=90.9(2)计算各类平方和:41.7572ijy07.6722iimT43.5162nT(3)计算各离差平方和:ST=757.41-516.43=240.98,fT=16-1=15SA=672.07-516.43=155.64,fA=3-1=2Se=240.98-155.64=85.34,fe=15-2=13(4)列方差分析表:[例2.1-3]方差分析表来源偏差平方和自由度均方和F比因子A64.155AS2Af8277.MSA86.11F误差e34.85eS13ef566.MSe总计T98.240TS15Tf(5)如果给定=0.05,从F分布表查得81.3)13,2(95.0F由于F3.81,所以在α=0.05水平上我们的结论是因子A是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显的差异。我们还可以给出不同结构生产的化油器的平均比油耗的估计:69.22822069.8ˆ150.22122050.1ˆ285.22322085.3ˆ3这里加上220是因为在原数据中减去了220的缘故。由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构1。在本例中误差方差的估计为6.56,标准差的估计为2.56。第二节回归分析例2.2-1合金的强度y与合金中的碳含量x有关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?这时需要研究两个变量间的关系。首先是收集数据(xi,yi),i=1,2,…,n。现从生产中收集到表2.2-1所示的数据。表2.2-1数据表序号xy10.1042.020.1143.530.1245.040.1345.550.1445.060.1547.570.1649.080.1753.090.1850.0100.2055.0110.2155.0120.2360.0一、散布图6050400.150.200.10xy[例2.2-1]的散布图二、相关系数1.相关系数的定义在散布图上n个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数r去描述它们线性关系的密切程度yyxxxyLLLr其中nTTyxyyxxLyxiiiixy))((nTxxxLxiixx222nTyyyLyiiyy222iyixyTxT,性质:1r表示n个点在一条直线上,这时两个变量间完全线性相关。1rr0表示当x增加时y也增大,称为正相关r0表示当x增加时y减小,称为负相关r=0表示两个变量间没有线性相关关系,但并不排斥两者间有其它函数关系。2.相关系数的检验若记两个变量x和y理论的相关系数为,其中x为一般变量,y服从等方差的正态分布,则对给定的显著性水平,当可以认为两者间存在一定的线性相关关系,可以从表2.2-2中查出。(其中n为样本量)。)2(21nrr221nr0010:H,:H3.具体计算求上例的相关系数:步骤如下:(1)计算变量x与y的数据和:Tx==1.90,Ty==590.5ixiy(2)计算各变量的平方和与乘积和:925.95yx,75.2932y,3194.0xii2i2i(3)计算Lxx,Lyy,Lxy:Lxy=95.9250-1.90×590.5/12=2.4292Lxx=0.3194-1.902/12=0.0186Lyy=29392.75-590.52/12=335.2292(4)计算r:9728.02292.3350186.04292.2r在=0.05时,,由于r0.576,说明两个变量间有(正)线性相关关系。576.0)10(975.0r四、一元线性回归方程1.一元线性回归方程的求法:一元线性回归方程的表达式为bxayˆ其中a与b使下列离差平方和达到最小:2)(),(iibxaybaQ通过微分学原理,可知xxxyLLb,xbya称这种估计为最小二乘估计。b称为回归系数;a一般称为常数项。求一元线性回归方程的步骤如下:(1)计算变量x与y的数据和Tx,Ty;(2)计算各变量的平方和与乘积和;(3)计算Lxx,Lxy;(4)求出b与a;利用前面的数据,可得:b=2.4392/0.0186=130.6022a=590.5/12-130.6022×1.90/12=28.5297(5)写出回归方程:xy6022.1305340.28ˆ画出的回归直线一定通过(0,a)