第十二章回归设计12.1回归设计的基本概念12.2一次回归正交设计12.3二次回归的中心组合设计12.4二次回归正交设计12.5二次回归旋转设计12.1回归设计的基本概念回归设计(也称为响应曲面设计)目的是寻找试验指标与各因子间的定量规律,考察的因子都是定量的。它是在多元线性回归的基础上用主动收集数据的方法获得具有较好性质的回归方程的一种试验设计方法。本章主要介绍Box的回归设计方法及其应用,并假定读者已具有多元线性回归分析的基础知识。为了符号上的统一,在12.1.2中列出了回归分析中的主要公式。12.1.1多项式回归模型在一些试验中希望建立指标y与各定量因子(又称变量)间相关关系的定量表达式,即回归方程,以便通过该回归方程找出使指标满足要求的各因子的范围。可以假定y与间有如下关系:这里是的一个函数,常称为响应函数,其图形也称为响应曲面;是随机误差,通常假定它服从均值为0,方差为的正态分布。在上述假定下,可以看作为在给定后指标的均值,即pzzz,,,21pzzz,,,21),,,(21pzzzfy),,,(21pzzzfpzzz,,,212),,,(21pzzzfpzzz,,,21),,,()(21pzzzfyE称z的可能取值的空间为因子空间。我们的任务便是从因子空间中寻找一个点z0使E(y)满足质量要求。当f的函数形式已知时,可以通过最优化的方法去寻找z0。在许多情况下f的形式并不知道,这时常常用一个多项式去逼近它,即假定:),,,(21pzzz),,,(00201pzzz(7.1.1)20jijiijjjjjjjjzzzzy这里各为未知参数,也称为回归系数,通常需要通过收集到的数据对它们进行估计。若用表示相应的估计,则称,,,,0ijjjj,,,,0ijjjjbbbbybbzbzbzzjjjjjjjijijij02为y关于的多项式回归方程。pzzz,,,21在实际中常用的是如下的一次与二次回归方程(也称一阶与二阶模型):jjjzbby0ˆˆ20jijiijjjjjjjjzzbzbzbby一般p个自变量的d次回归方程的系数个数为ddp12.1.2多元线性回归(12.1.1)是一个多项式回归模型,在对变量作了变换并重新命名后也可以看成是一个多元线性回归模型。1.回归模型设所收集到的n组数据为假定回归模型为:niyxxxiipii,,2,1),,,,,(21(7.1.5)),0(~,,2,12110Niidnixxyiiippii各,记随机变量的观察向量为未知参数向量为不可观察的随机误差向量为结构矩阵那么上述模型可以表示为:nyyyY21p10n21npnppxxxxxxX1221111111),(~nnINXY20或),(~2nnIXNY2.回归系数的最小二乘估计估计回归模型中回归系数的方法是最小二乘法。记回归系数的最小二乘估计(LSE)为,应满足如下正规方程组:当存在时,最小二乘估计为在求得了最小二乘估计后,可以写出回归方程:今后称为正规方程组的系数矩阵,为正规方程组的常数项向量,为相关矩阵。在模型(12.1.5)下,有),,,(10pbbbbYXXbX1XXYXXXb1ppxbxbby110ˆXXAYXB1XXC))(,(~12XXNb若记,那么)(1ijcXXCpjcNbjjjj,,2,1,0),,(~2在通常的回归分析中,由于C非对角阵,所以各回归系数间是相关的:2),(ijjicbbCov3.对回归方程的显著性检验对回归方程的显著性检验是指检验如下假设:H0:H1:不全为0检验方法是作方差分析。记则有平方和分解式其中为残差平方和,自由度为为回归平方和,自由度为当H0为真时,有对于给定的显著性水平,拒绝域为。021pp,,,21nixbxbbyippii,,2,1ˆ110,REniiniiiniiTSSyyyyyyS121212)ˆ()ˆ()(iiiEyyS2)ˆ(1pnfE2)ˆ(yySiRpfR)1,(),(~//pnpFffFfSfSFEREERR)1,(1pnpFF若记p+1维向量,那么)(jBBYXppniiiiiEBbBbBbyyyS1100122)ˆ(ETiRSSyyS2)ˆ(4.失拟检验当在某些点有重复试验数据的话,可以在检验回归方程显著性之前,先对y的期望是否是的线性函数进行检验,这种检验称为失拟检验,它要检验如下假设:H0:H1:当在上有重复试验或观察时,将数据记为其中至少有一个,记。此时残差平方和可进一步分解为组内平方和与组间平方和,其中组内平方和就是误差平方和,记为,组间平方和称为失拟平方和,记为,即:pxxx,,,21ppxxEy110ppxxEy110),,,(21ipiixxxnimjyxxxiijipii,,2,1,,,2,1),,,,(21,2imniimN1eSLfeESSSLfSnimjiijeiyyS121)(nNmfie)1(imjijiiymy11niiiiLfyymS12)ˆ(1pnfLf,,,,检验统计量为在H0为真时,,对于给定的显著性水平,拒绝域为当拒绝H0时,需要寻找原因,改变模型,否则认为线性回归模型合适,可以将Se与SLf合并作为SE检验方程是否显著。其中eeLfLfLffSfSF//),(~eLfLfffFF),(1eLfLfffFF5.对回归系数的显著性检验当回归方程显著时,可进一步检验某个回归系数是否为0,也即检验如下假设:此种检验应对j=1,2,…,p逐一进行。常用的检验方法是t检验或等价的F检验,F检验统计量为:其中是中的第j+1个对角元。记分子为,即,它是因子的偏回归平方和分母是模型中的无偏估计。,也称为的标准误,即其标准差的估计。0010jjjjHH:,:222ˆ/jjjjjcbtFjjc1)(XXjSjjjjcbS/2jx2EEfS/ˆˆjjcjb当H0j为真时,有。给定的显著性水平,当时拒绝假设H0j,即认为显著不为零,否则可以将对应的变量从回归方程中删除。注:当有不显著的系数时,一般情况下一次只能删除一个F值最小的变量,重新计算回归系数,再重新检验。通常要到余下的系数都显著时为止。),1(~EjfFF),1(1EjfFFj12.1.3回归分析对数据的处理由被动变主动古典的回归分析方法只是被动地处理已有的试验数据,对试验的安排不提任何要求,对如何提高回归方程的精度研究很少。后果:(1)盲目增加试验次数,而这些试验结果还不能提供充分的信息,以致在许多多因子试验问题中达不到试验目的。(2)对模型的合适性有时无法检验,因为在被动处理数据时在同一试验点上不一定存在重复试验数据。为了适应寻求最佳工艺、最佳配方、建立生产过程的数学模型等的需要,人们就要求以较少的试验次数建立精度较高的回归方程。为此,要求摆脱古典回归分析的被动局面,主动把试验的安排、数据的处理和回归方程的精度统一起来考虑,即根据试验目的和数据分析的要求来选择试验点,不仅使得在每一个试验点上获得的数据含有最大的信息,从而减少试验次数,而且使数据的统计分析具有一些较好的性质。这就是二十世纪五十年代发展起来的“回归设计”所研究的问题。回归设计的分类:根据建立的回归方程的次数不同,回归设计有一次回归设计、二次回归设计、三次回归设计等;根据设计的性质又有正交设计、旋转设计等。本章仅介绍一次回归的正交设计与二次回归的组合设计(包括正交设计与旋转设计)。12.1.4因子水平的编码在回归问题中各因子的量纲不同,其取值的范围也不同,为了数据处理的方便,对所有的因子作一个线性变换,使所有因子的取值范围都转化为中心在原点的一个“立方体”中,这一变换称为对因子水平的编码。方法如下:设因子的取值范围为:,与分别称为因子的下水平与上水平。其中心也称为零水平:,因子的变化半径为,令,此变换式就称为“编码式”。jzjjjzzz21pj,,2,1jzjz1jz22/)(210jjjzzzpj,,2,12/)(12jjjzzpj,,2,1jjjjzzx0pj,,2,1例12.1.1为提高某橡胶制品的撕裂强度,考察橡胶中某成分的百分比、树脂成分的百分比及改良剂的百分比三个因子对其的影响,这三个因子的取值范围分别为:对其作编码,令通过上述变换后,编码空间为中心在原点的立方体,其边长为2。在后面我们将会看到,在编码时,有时立方体的边长可以大于2。3.01.03010200321zzz,,1.02.010201010332211zxzxzx,,今后称x的可能取值的空间为编码空间。我们可以先在编码空间中寻找一个点x0使E(y)满足质量要求,然后通过编码式寻找到z0。),,,(21pxxx12.2一次回归正交设计12.2.1一次回归正交设计建立一次回归方程的回归设计方法有多种,这里介绍一种常用的方法,它是利用二水平正交表来安排试验的设计方法。其主要步骤如下:1.确定因子水平的变化范围设影响指标y的因子有p个,希望通过试验建立y关于的一次回归方程,那么首先要确定每个因子的变化范围,设因子的取值范围为:,这里与分别是因子的下水平与上水平。pzzz,,,21pzzz,,,21jjjzzz21jz1jz2jzpj,,2,12.对每一因子的水平进行编码记因子的零水平为其变化半径为那么采用如下编码式,即,对因子的水平进行编码,常列成如下的因子水平编码表:2/)(210jjjzzzjz2/)(12jjjzzjjjjzzx0pj,,2,13.选择适当的二水平正交表安排试验在用二水平正交安排试验时,要用“-1”代换通常二水平正交表中的“2”,以适应因子水平编码的需要。这样一来,正交表中的“1”与“-1”不仅表示因子水平的不同状态,也表示了因子水平的数量大小。经过这样的代换后,正交表的交互作用列可以由表中相应列的对应元素相乘得到,从而交互作用列表也不需要了。表12.2.2就是一张代换后的L8(27),与原来的正交表没有本质区别,仍然用L8(27)表示。表的选择仍然同正交设计一样,既要考虑因子的个数,有时还要考虑交互作用的个数。在改造后的正交表中,若用表示第i号试验第j个因子xj的取值,那么称具有上述性质的设计称为正交设计。p,,,jxniij2101,p,,,j,ijixxnkkjki2101,,ijx12.2.2数据分析在一次回归的正交设计中记第i号试验结果为yi,i=1,2,…,n,此时我们假定的模型是我们要建立y关于的一次回归方程可采用回归分析中的最小二乘估计去估计各个回归系数,并对回归方程及回归系数进行显著性检验,最后给出回归方程。在一次回归的正交设计中有关计算十分简单,可以用列表的方法完成。),0(~,,2,120Nnixyiijijji相互独立同分布各,pzzz,,,21jjjzbby0ˆ1.求回归系数的估计用最小二乘估计求回归系数的估计。结构矩阵npnppxxxxxxX1221111111由于X中的元素不是1就是-1,所以每列元素的平方和为n,又考虑到此为正交设计,故正规方程组的系数矩阵