第七章回归设计PDFcreatedwithpdfFactoryProtrialversion古典回归分析前面我们介绍的回归分析就是古典回归分析,它只是被动地处理已有的试验(或统计)数据,对试验的安排几乎不提任何要求,因此,再进行数据处理时,运算比较复杂,尤其是对多元回归,问题就更为突出。古典回归分析对所要求的回归方程的精度也很少考虑,这不仅盲目的增加了试验次数,而且试验数据还往往不能提供充分的信息。PDFcreatedwithpdfFactoryProtrialversion现代回归分析随着生产的发展,特别是由于寻求最佳工艺和参数以及建立生产过程的数学模型等需要,人们越来越要求以较少的试验建立精度较高的方程。这就要求摆脱古典回归分析的被动局面,主动地把试验的安排、数据的处理和回归方程的精度统一起来加以考虑,就是根据试验目的和数据分析来选择试验点,不仅使得在每个试验点上获得的数据含有最大的信息,从而减少试验次数,而且使数据的统计分析具有一些较好的性质。PDFcreatedwithpdfFactoryProtrialversion正交设计虽然是一种重要的科学试验设计方法,它能够利用较少的试验次数,获得较佳的试验结果,但是它不能在一定的试验范围内,根据数据样本,去确定变量间的相关关系及其相应的回归方程。回归设计就是在因子空间选择适当的试验点,以较少的试验处理建立一个有效的多项式回归方程,从而解决生产中的最优化问题,这种试验设计方法就被称为回归设计。PDFcreatedwithpdfFactoryProtrialversion回归设计也称为响应曲面设计,目的是寻找试验指标与各因子间的定量规律,考察的因子都是定量的。它是在多元回归的基础上用主动收集数据的方法获得具有较好性质的回归方程的一种试验设计方法。因此,将回归和正交结合在一起进行试验设计,这就是回归正交设计。回归正交设计是回归分析与正交试验设计法有机结合而形成的一种新的试验设计方法。它是回归设计中最基本的,也是最常用的和最有代表性的设计方法。可分为一次回归正交设计和二次回归正交设计,还有二次回归正交旋转设计。下面我们分别讲述。PDFcreatedwithpdfFactoryProtrialversion其回归方程为:可见一次回归正交设计解决的是多元线性回归问题一一次回归正交设计的原理一次回归正交设计是解决在回归模型中,变量的最高次数为一次的(不包括交叉项的次数)多元回归问题,其数学模型为:ippiiiippiiizbzbzbbyNizzzy+⋅⋅⋅+++=⋅⋅⋅=++⋅⋅⋅+++=22110122110,,2,1ebbbbPDFcreatedwithpdfFactoryProtrialversion一次回归正交设计主要是应用二水平正交表,例如二水平正交表L4(23),L8(211),L16(215),L64(263)等。用-1和+1代换正交表中的1、2两个水平符号,代换后,仍可看出每列所有数字相加之和为零,每两列同行各因素相乘之和为零,这说明代换后的设计表仍然具有正交性。11222244221122332222112211111111332211试验号试验号11--11--1144--1111--1133--11--11112211111111332211试验号试验号PDFcreatedwithpdfFactoryProtrialversion二一次回归正交设计的步骤(一)确定因素的变化范围例:有p个因素z1,z2,…,zp与某项指标y,设计中首先要确定每个因素zk的变化范围。设z1k和z2k分别表示zk变化的下界和上界。假如试验在水平z1k和z2k上进行,那么分别称z1k和z2k为zk的下水平和上水平,称他们的算术平均值为z0k。它们差的一半为其因素zk的变化区间Δk2210kkkzzz+=212kkkzz-=ΔPDFcreatedwithpdfFactoryProtrialversion(二)对因素zk的水平进行编码所谓编码就是对因素的取值作如下的线性变换:kkkkzzxΔ-=0这样建立了因素zk和xk取值的变换关系即:下水平z1k-10水平z0k0上水平z2k+1从变换关系式中可以知道当因素zk在[z1k,z2k]内变化时,它的编码xk就在区间[-1,+1]内变化。PDFcreatedwithpdfFactoryProtrialversion进行编码之后,原先要求算y对z1,z2,…,zp的回归方程,现在变成求算y对x1,x2,…,xp的回归方程。不管在一次回归设计中还是二次回归设计中,都应当先对因素zk进行编码。zz0p0p……zz0202zz0j0j零水平零水平ΔΔpp……ΔΔ22ΔΔ11变化区间变化区间zz2p2p……zz2222zz2121上水平(上水平(+1+1))zz1p1p……zz1212zz1111下水平(下水平(--11))zzpp……zz22zz11因素因素因素水平编码表PDFcreatedwithpdfFactoryProtrialversion(三)选择正交表列出试验方案一次回归正交设计使用二水平正交表来安排实验,但究竟用哪一张二水平正交表,这是根据因素的个数而定的。正交表确定后,就把各变量放入正交表某些列上,各列的水平号也就表示各因素的不同状态,这样就组成了一张试验计划表,即试验方案。如果要考察交互作用,必须按照相应的交互作用表确定各因素在表中的列号。然后就可以按照试验方案,进行试验实施,填写数据。PDFcreatedwithpdfFactoryProtrialversion(四)回归系数的计算与统计检验这一部分的详细计算步骤不再讲述,目前主要应用数据统计软件JMP,SAS,SPSS等中的多元线性回归来求解。可以得到回归方程以及相应的显著性检验。PDFcreatedwithpdfFactoryProtrialversion在正交设计所求得回归方程中,每一个回归系数的绝对值大小,刻化了对应变量在过程中的作用。这是由于经过无量纲的编码变换后,所有变量的取值都是1和-1,他们在所研究的区域都是平等的,因而使得所求得回归系数不受因素的单位和取值得影响,而直接反映了该因素作用的大小,回归系数的符号反映了这种作用的性质,同时回归系数间不存在相关性,这样经回归系数显著性检验不显著的变量,可一起全部从回归方程中剔除,不需要重新建立回归方程。ippiixbxbxbby+⋅⋅⋅+++=22110PDFcreatedwithpdfFactoryProtrialversion上述用一次回归正交设计方法求得一次回归方程是简单、易行的,但是否能真实反映实际呢?由于试验是在各因子的上水平(+1)与下水平(-1)处进行的,即使模型在这些边界点上拟合得很好,但是在因子编码空间的中心拟合是否也好呢?这可用在零水平处增加若干重复试验,再通过检验来判断。设在各因子均取零水平时进行了m次试验,记其试验结果为,其平均值为,其偏差平方和及其自由度为,myyy00201,,,Λiy0∑=-=miiiyyS12000)(10-=mf(五)零水平的重复(回归方程的失拟性检验)PDFcreatedwithpdfFactoryProtrialversion当一次回归模型在整个编码空间上都适宜时,则按一次回归方程应有如今在零水平上进行了m次重复试验,其平均值为这相当于存在两个正态分布:要检验这两个正态分布的均值是否相等,即检验为此可采用t统计量去检验。iyby==00ˆiy0)/,(~ˆ200nNyyisb=)/,(~200mNyism001000mbmb≠=:,:HHippiixxxybbbb+⋅⋅⋅+++=∧22110∑==niiynb101PDFcreatedwithpdfFactoryProtrialversion=-+∃∃0011s00ˆffSS++=总总s201)b(ySnii总-=∑=20100)y(ySmii-=∑=1-=nf总10-=mfPDFcreatedwithpdfFactoryProtrialversion在时,有对给定的显著性水平,当时认为模型在编码空间的中心也合适,不存在因子的非线性效应,否则需要另外寻找合适的模型,譬如建立二次回归方程,这将在后面内容中介绍。00mb=)(~0fftt+总a)(0fftt+≤总aPDFcreatedwithpdfFactoryProtrialversion:从某物料中提取蛋白质,提取率与提取时间和提取温度有关。根据经验反应时间的变化范围为20min~30min,反应温度为70℃~78℃。试用一次回归正交设计法求出回归方程。设计步骤:(1)确定因素上下水平反应时间z11=20,z21=30;反应温度z12=70,z22=782210kkkzzz+=212kkkzz-=Δ根据上述两个公式可得z01=25,Δ1=5;z02=74,Δ2=4PDFcreatedwithpdfFactoryProtrialversion(2)对因素水平进行编码4455变化区间变化区间74742525零水平(零水平(00))78783030上水平(上水平(+1+1))70702020下水平(下水平(--11))zz22zz11因素因素PDFcreatedwithpdfFactoryProtrialversion(3)选择合适的正交表本例是个两因素试验,选择L4(23)表比较合适。试验方案如下:40.640.60000009940.240.20000008840.740.70000007740.540.50000006640.340.30000005539.339.311--11--114440.040.0--1111--113340.940.9--11--11112241.541.511111111yy((xx11xx22))xx22xx11试验号试验号PDFcreatedwithpdfFactoryProtrialversion(4)计算回归方程及统计检验利用JMP软件——分析——模型拟合PDFcreatedwithpdfFactoryProtrialversion(5)失拟性检验073.0514134172.083.246.4043.4011ˆˆ00-=+++-=+-=mnyyts34172.083.2ˆ00++=++=ffSS总总s83.2)43.