第4章试验数据的回归分析2020/2/15试验设计与数据处理24.1基本概念在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖相互制约的,也就是说它们之间存在相互关系,这种相互关系可以分为两种类型:确定性关系和相关关系。2020/2/15试验设计与数据处理3确定性关系和相关关系确定性关系当一个或几个变量取一定值时,另一个变量有确定值与之相对应,也就是说变量之间存在着严格的函数关系,这种关系就称为确定性关系。例如,当溶液的体积V一定时,溶液的摩尔浓度c与溶质的质量W之间就有确定的函数关系。c=W/(MV)(M为溶质的分子量),当W确定后,c也就完全确定了。相关关系当一个或几个相互关系的变量取一定数值时,与之对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量之间的这种关系称为相关关系。例如,在食品加工过程中,处理温度与食品中维生素C含量之间的关系,虽然我们知道温度越高,维生素C含量会降低,但这一规律很难用一个确定的函数式来准确表达,两者间存在相关关系。2020/2/15试验设计与数据处理4确定性关系和相关关系变量之间的确定性关系和相关关系,在一定的条件下是可以相互转换的。本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来。相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种规律性可以通过大量试验值的散点图反映出来,也可以借助相应的函数式表达出来,这种函数称为回归函数或回归方程。2020/2/15试验设计与数据处理5回归分析(regressionanalysis)回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机性后面的统计规律。确定回归方程,检验回归方程的可信性等是回归分析的主要内容。回归分析的类型研究一个因素与试验指标间相关关系的回归分析称为一元回归分析;研究几个因素与试验指标间相关关系的称为多元回归分析。可以分为线性回归和非线性回归两种形式。2020/2/15试验设计与数据处理64.2一元线性回归分析4.2.1一元线性回归方程的建立4.2.2一元线性回归效果的检验2020/2/15试验设计与数据处理74.2.1一元线性回归方程的建立一元线性回归分析(linearregression)又称直线拟合,是处理两个变量之间关系的最简单模型。一元线性回归分析虽然简单,但从中可以了解回归分析方法的基本思想、方法和应用。2020/2/15试验设计与数据处理8一元线性回归方程设有一组试验数据,试验值xi,yi(i=1,2,…,n),其中x是自变量,y是因变量。若x,y符合线性关系,或已知经验公式为直线形式,都可拟合为直线方程,即:式(4-1)就是变量x,y的一元线性回归方程,式中a,b称为回归系数(regressioncoefficient),是对应自变量xi代入回归方程的计算值,称为回归值。注意:这里的函数计算值与试验值yi不一定相等。如果将与yi之间的偏差称为残差,用ei表示,则有:iibxay^^iiiyyeiyiyiy2020/2/15试验设计与数据处理9一元线性回归方程显然,只有各残差平方值(考虑到残差有正有负)之和最小时,回归方程与试验值的拟合程度最好。令:其中xi,yi是已知试验值,故残差平方和SSe为a,b的函数。将上式分别对a,b求偏导数,并令其等于0,即可求得a,b之值。niiiniiiniiebxayyyeQSS1221^12niiiniiniininiiiniiiiniiiyxxbxayxbnaxbxaybQbxayaQ112111110)(20)(2即2020/2/15试验设计与数据处理10一元线性回归方程上述方程组称为正规方程组。对方程组求解,可得回归系数a,b的计算式:niiiniiniiniiniiyxybaxxxn111211niiniiixnxyxnyxbxbya1221)(2020/2/15试验设计与数据处理11例为研究某合成物的转化率T与试验中的压强p(atm)的关系,得到下表数据。用最小二乘法确定转化率与压强的经验公式。2020/2/15试验设计与数据处理12分析根据表中数据,在普通直角坐标系中画出T~p散点图,由图中可以看出,这些点近似于直线分布,故可设T~p经验公式为T=a+bp若将上表的数值代入经验公式可得到不同的解2020/2/15试验设计与数据处理13解根据题意,试验次数n=5,T~p为一元线性关系根据最小二乘法原理有2020/2/15试验设计与数据处理14解2020/2/15试验设计与数据处理15采用最小二乘法的基本步骤根据试验数据画出散点图;确定经验公式的函数类型;通过最小二乘法得到正规方程组;求解正规方程组,得到回归方程的表达式。2020/2/15试验设计与数据处理164.2.2一元线性回归效果的检验在一些情况下,n(n>2)对试验值xi,yi。(i=1,2,…,n)作出的散点图,即使一看就知道这些点不可能近似在一条直线附近,即x与y不存在线性相关关系,但是仍可以利用最小二乘法求得x与y的线性拟合方程,这样求得的方程显然没有意义。因此,我们不仅要建立从经验上认为有意义的方程,还要对其可信性或拟合效果进行检验或衡量。下面介绍几种检验方法。2020/2/15试验设计与数据处理17检验方法1.相关系数检验法2.F检验法3.残差分析2020/2/15试验设计与数据处理18相关系数检验法相关系数是用于描述变量x与y的线性相关程度的,常用r表示。设有n(n2)对试验值xi,yi(i=1,2,…,n),则相关系数的计算式为:2020/2/15试验设计与数据处理19②相关系数特点:-1≤r≤1r=±1:x与y有精确的线性关系r=1xyr=-1xy2020/2/15试验设计与数据处理20r<0:x与y负线性相关(negativelinearcorrelation)r>0:x与y正线性相关(positivelinearcorrelation)0<r<1xy-1<r<0xy2020/2/15试验设计与数据处理21r≈0时,x与y没有线性关系,但可能存在其它类型关系相关系数r越接近1,x与y的线性相关程度越高试验次数越少,r越接近1r=0xyr=0xy2020/2/15试验设计与数据处理22当,说明x与y之间存在显著的线性关系对于给定的显著性水平α,查相关系数临界值rmin③相关系数检验minrr2020/2/15试验设计与数据处理23对于给定的显著性水平,显著性检验要求|r|rmin时,才说明x与y之间存在密切的线性关系,或者说用线性回归方程来描述变量x与y之间的关系才有意义,否则线性相关不显著,应改用其他形式的回归方程。其中rmin称为相关系数临界值,它与给定的显著性水平和试验数据组数n(n2)有关,可从附录5查得。2020/2/15试验设计与数据处理242020/2/15试验设计与数据处理25相关系数r的缺点r接近于1的程度与试验数据组数n有关。当n较小时,|r|容易接近于1;当n较大时,|r|容易偏小。特别是当n=2时,因两点确定一条直线,|r|总等于1。所以,只有当试验次数n较多时,才能得出真正有实际意义的回归方程。2020/2/15试验设计与数据处理26(2)F检验①离差平方和总离差平方和:21()nTiyyiSSyyL221()nRxxxyiiSSyybLbL21()neiiiSSyyTReSSSSSS回归平方和(regressionsumofsquare):残差平方和:三者关系:2020/2/15试验设计与数据处理27②自由度SST的自由度:dfT=n-1SSR的自由度:dfR=1SSe的自由度:dfe=n-2三者关系:dfT=dfR+dfe③均方RRRSSMSdfeeeSSMSdf2020/2/15试验设计与数据处理28④F检验F服从自由度为(1,n-2)的F分布给定的显著性水平α下,查得临界值:Fα(1,n-2)若F>Fα(1,n-2),则认为x与y有明显的线性关系,所建立的线形回归方程有意义ReMSFMS2020/2/15试验设计与数据处理29⑤方差分析表2020/2/15试验设计与数据处理30残差分析2020/2/15试验设计与数据处理314.3多元线性回归分析4.3.1多元线性回归方程4.3.2多元线性回归方程显著性检验4.3.3因素主次的判断方法2020/2/15试验设计与数据处理324.3.1多元线性回归方程在解决实际问题时,往往是多个因素都对试验结果有影响,这时可以通过多元回归方差分析(multipleregressionanalysis)求出试验指标(因变量)y与多个试验因素(自变量)xj之间的近似函数关系y=f(x1,x2,…,xm)多元线性回归分析是多元回归分析中最简单、最常用的一种,其原理和方法与一元线性回归分析是相同的,但计算量较大。因变量y与自变量xj之间的多元线性回归方程,其中b1,b2,…,bm称为偏回归系数。2020/2/15试验设计与数据处理332020/2/15试验设计与数据处理34正规方程组:2020/2/15试验设计与数据处理352020/2/15试验设计与数据处理36例2020/2/15试验设计与数据处理372020/2/15试验设计与数据处理382020/2/15试验设计与数据处理394.3.2多元线性回归方程显著性检验F检验法相关系数检验法2020/2/15试验设计与数据处理40F检验法2020/2/15试验设计与数据处理41相关系数检验法在多元线性回归分析中,复相关系数R反映了一个变量y与多个变量xj之间的线性相关程度。定义式如下:复相关系数的平方称为多元线性回归方程的决定系数用R2表示。决定系数的大小反映了回归平方和SSR在总离差平方和SST中占的比重,即:2020/2/15试验设计与数据处理42相关系数检验法在实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数R2,然后求其决定系数的平方根。这里0≤R≤1,当R=1时,表明y与变量x1,x2,…,xm之间存在严格的线性关系;当R=0时,则表明y与变量x1,x2,…,xm之间不存在任何线性相关关系,但可能存在其他非线性关系;当0R1时,表明变量之间存在一定程度的线性相关关系。可以证明,当m=1,即一元线性回归时,复相关系数R与一元线性相关系数r是相等的。2020/2/15试验设计与数据处理43由于回归平方和SSR会受到试验次数n影响,所以在多元线性回归分析中,还有一个常用的评价指标,称为修正自由度的决定系数,计算式:可以看出,R2≤R2给定的R2和n值,自变量个数m越多R2越小。修正自由度的决定系数)1(11122RmnnR2020/2/15试验设计与数据处理444.3.3因素主次的判断方法两种判断因素主次的方法偏回归系数的标准化偏回归系数的显著性检验2020/2/15试验设计与数据处理45偏回归系数的标准化在多元线性回归方程中,偏回归系数b1,b2,…,bm表示了xi对y的具体效应,但在一般情况下,bj本身的大小并不能直接反映自变量的相对重要性,这是因素的取值会受到对应因素的单位和取值的影响。如果对偏回归系数bi进行标准化,则可解决这一问题。设偏回归系数bj的标准化回归系数为Pj,Pj的计算式为:根据标准化回归系数Pj的大小就可以直接判断各因素xi对试验结果y的重要程度,Pj越大,则对应的因素越重要。2020/2/15试验设计与数据处理46偏回归系数的显著性