第四章_试验数据的回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章试验数据的回归分析2020/2/15试验设计与数据处理24.1基本概念在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖相互制约的,也就是说它们之间存在相互关系,这种相互关系可以分为两种类型:确定性关系和相关关系。2020/2/15试验设计与数据处理3确定性关系和相关关系确定性关系当一个或几个变量取一定值时,另一个变量有确定值与之相对应,也就是说变量之间存在着严格的函数关系,这种关系就称为确定性关系。例如,当溶液的体积V一定时,溶液的摩尔浓度c与溶质的质量W之间就有确定的函数关系。c=W/(MV)(M为溶质的分子量),当W确定后,c也就完全确定了。相关关系当一个或几个相互关系的变量取一定数值时,与之对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量之间的这种关系称为相关关系。例如,在食品加工过程中,处理温度与食品中维生素C含量之间的关系,虽然我们知道温度越高,维生素C含量会降低,但这一规律很难用一个确定的函数式来准确表达,两者间存在相关关系。2020/2/15试验设计与数据处理4确定性关系和相关关系变量之间的确定性关系和相关关系,在一定的条件下是可以相互转换的。本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来。相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种规律性可以通过大量试验值的散点图反映出来,也可以借助相应的函数式表达出来,这种函数称为回归函数或回归方程。2020/2/15试验设计与数据处理5回归分析(regressionanalysis)回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机性后面的统计规律。确定回归方程,检验回归方程的可信性等是回归分析的主要内容。回归分析的类型研究一个因素与试验指标间相关关系的回归分析称为一元回归分析;研究几个因素与试验指标间相关关系的称为多元回归分析。可以分为线性回归和非线性回归两种形式。2020/2/15试验设计与数据处理64.2一元线性回归分析4.2.1一元线性回归方程的建立4.2.2一元线性回归效果的检验2020/2/15试验设计与数据处理74.2.1一元线性回归方程的建立一元线性回归分析(linearregression)又称直线拟合,是处理两个变量之间关系的最简单模型。一元线性回归分析虽然简单,但从中可以了解回归分析方法的基本思想、方法和应用。2020/2/15试验设计与数据处理8一元线性回归方程设有一组试验数据,试验值xi,yi(i=1,2,…,n),其中x是自变量,y是因变量。若x,y符合线性关系,或已知经验公式为直线形式,都可拟合为直线方程,即:式(4-1)就是变量x,y的一元线性回归方程,式中a,b称为回归系数(regressioncoefficient),是对应自变量xi代入回归方程的计算值,称为回归值。注意:这里的函数计算值与试验值yi不一定相等。如果将与yi之间的偏差称为残差,用ei表示,则有:iibxay^^iiiyyeiyiyiy2020/2/15试验设计与数据处理9一元线性回归方程显然,只有各残差平方值(考虑到残差有正有负)之和最小时,回归方程与试验值的拟合程度最好。令:其中xi,yi是已知试验值,故残差平方和SSe为a,b的函数。将上式分别对a,b求偏导数,并令其等于0,即可求得a,b之值。niiiniiiniiebxayyyeQSS1221^12niiiniiniininiiiniiiiniiiyxxbxayxbnaxbxaybQbxayaQ112111110)(20)(2即2020/2/15试验设计与数据处理10一元线性回归方程上述方程组称为正规方程组。对方程组求解,可得回归系数a,b的计算式:niiiniiniiniiniiyxybaxxxn111211niiniiixnxyxnyxbxbya1221)(2020/2/15试验设计与数据处理11例为研究某合成物的转化率T与试验中的压强p(atm)的关系,得到下表数据。用最小二乘法确定转化率与压强的经验公式。2020/2/15试验设计与数据处理12分析根据表中数据,在普通直角坐标系中画出T~p散点图,由图中可以看出,这些点近似于直线分布,故可设T~p经验公式为T=a+bp若将上表的数值代入经验公式可得到不同的解2020/2/15试验设计与数据处理13解根据题意,试验次数n=5,T~p为一元线性关系根据最小二乘法原理有2020/2/15试验设计与数据处理14解2020/2/15试验设计与数据处理15采用最小二乘法的基本步骤根据试验数据画出散点图;确定经验公式的函数类型;通过最小二乘法得到正规方程组;求解正规方程组,得到回归方程的表达式。2020/2/15试验设计与数据处理164.2.2一元线性回归效果的检验在一些情况下,n(n>2)对试验值xi,yi。(i=1,2,…,n)作出的散点图,即使一看就知道这些点不可能近似在一条直线附近,即x与y不存在线性相关关系,但是仍可以利用最小二乘法求得x与y的线性拟合方程,这样求得的方程显然没有意义。因此,我们不仅要建立从经验上认为有意义的方程,还要对其可信性或拟合效果进行检验或衡量。下面介绍几种检验方法。2020/2/15试验设计与数据处理17检验方法1.相关系数检验法2.F检验法3.残差分析2020/2/15试验设计与数据处理18相关系数检验法相关系数是用于描述变量x与y的线性相关程度的,常用r表示。设有n(n2)对试验值xi,yi(i=1,2,…,n),则相关系数的计算式为:2020/2/15试验设计与数据处理19②相关系数特点:-1≤r≤1r=±1:x与y有精确的线性关系r=1xyr=-1xy2020/2/15试验设计与数据处理20r<0:x与y负线性相关(negativelinearcorrelation)r>0:x与y正线性相关(positivelinearcorrelation)0<r<1xy-1<r<0xy2020/2/15试验设计与数据处理21r≈0时,x与y没有线性关系,但可能存在其它类型关系相关系数r越接近1,x与y的线性相关程度越高试验次数越少,r越接近1r=0xyr=0xy2020/2/15试验设计与数据处理22当,说明x与y之间存在显著的线性关系对于给定的显著性水平α,查相关系数临界值rmin③相关系数检验minrr2020/2/15试验设计与数据处理23对于给定的显著性水平,显著性检验要求|r|rmin时,才说明x与y之间存在密切的线性关系,或者说用线性回归方程来描述变量x与y之间的关系才有意义,否则线性相关不显著,应改用其他形式的回归方程。其中rmin称为相关系数临界值,它与给定的显著性水平和试验数据组数n(n2)有关,可从附录5查得。2020/2/15试验设计与数据处理242020/2/15试验设计与数据处理25相关系数r的缺点r接近于1的程度与试验数据组数n有关。当n较小时,|r|容易接近于1;当n较大时,|r|容易偏小。特别是当n=2时,因两点确定一条直线,|r|总等于1。所以,只有当试验次数n较多时,才能得出真正有实际意义的回归方程。2020/2/15试验设计与数据处理26(2)F检验①离差平方和总离差平方和:21()nTiyyiSSyyL221()nRxxxyiiSSyybLbL21()neiiiSSyyTReSSSSSS回归平方和(regressionsumofsquare):残差平方和:三者关系:2020/2/15试验设计与数据处理27②自由度SST的自由度:dfT=n-1SSR的自由度:dfR=1SSe的自由度:dfe=n-2三者关系:dfT=dfR+dfe③均方RRRSSMSdfeeeSSMSdf2020/2/15试验设计与数据处理28④F检验F服从自由度为(1,n-2)的F分布给定的显著性水平α下,查得临界值:Fα(1,n-2)若F>Fα(1,n-2),则认为x与y有明显的线性关系,所建立的线形回归方程有意义ReMSFMS2020/2/15试验设计与数据处理29⑤方差分析表2020/2/15试验设计与数据处理30残差分析2020/2/15试验设计与数据处理314.3多元线性回归分析4.3.1多元线性回归方程4.3.2多元线性回归方程显著性检验4.3.3因素主次的判断方法2020/2/15试验设计与数据处理324.3.1多元线性回归方程在解决实际问题时,往往是多个因素都对试验结果有影响,这时可以通过多元回归方差分析(multipleregressionanalysis)求出试验指标(因变量)y与多个试验因素(自变量)xj之间的近似函数关系y=f(x1,x2,…,xm)多元线性回归分析是多元回归分析中最简单、最常用的一种,其原理和方法与一元线性回归分析是相同的,但计算量较大。因变量y与自变量xj之间的多元线性回归方程,其中b1,b2,…,bm称为偏回归系数。2020/2/15试验设计与数据处理332020/2/15试验设计与数据处理34正规方程组:2020/2/15试验设计与数据处理352020/2/15试验设计与数据处理36例2020/2/15试验设计与数据处理372020/2/15试验设计与数据处理382020/2/15试验设计与数据处理394.3.2多元线性回归方程显著性检验F检验法相关系数检验法2020/2/15试验设计与数据处理40F检验法2020/2/15试验设计与数据处理41相关系数检验法在多元线性回归分析中,复相关系数R反映了一个变量y与多个变量xj之间的线性相关程度。定义式如下:复相关系数的平方称为多元线性回归方程的决定系数用R2表示。决定系数的大小反映了回归平方和SSR在总离差平方和SST中占的比重,即:2020/2/15试验设计与数据处理42相关系数检验法在实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数R2,然后求其决定系数的平方根。这里0≤R≤1,当R=1时,表明y与变量x1,x2,…,xm之间存在严格的线性关系;当R=0时,则表明y与变量x1,x2,…,xm之间不存在任何线性相关关系,但可能存在其他非线性关系;当0R1时,表明变量之间存在一定程度的线性相关关系。可以证明,当m=1,即一元线性回归时,复相关系数R与一元线性相关系数r是相等的。2020/2/15试验设计与数据处理43由于回归平方和SSR会受到试验次数n影响,所以在多元线性回归分析中,还有一个常用的评价指标,称为修正自由度的决定系数,计算式:可以看出,R2≤R2给定的R2和n值,自变量个数m越多R2越小。修正自由度的决定系数)1(11122RmnnR2020/2/15试验设计与数据处理444.3.3因素主次的判断方法两种判断因素主次的方法偏回归系数的标准化偏回归系数的显著性检验2020/2/15试验设计与数据处理45偏回归系数的标准化在多元线性回归方程中,偏回归系数b1,b2,…,bm表示了xi对y的具体效应,但在一般情况下,bj本身的大小并不能直接反映自变量的相对重要性,这是因素的取值会受到对应因素的单位和取值的影响。如果对偏回归系数bi进行标准化,则可解决这一问题。设偏回归系数bj的标准化回归系数为Pj,Pj的计算式为:根据标准化回归系数Pj的大小就可以直接判断各因素xi对试验结果y的重要程度,Pj越大,则对应的因素越重要。2020/2/15试验设计与数据处理46偏回归系数的显著性

1 / 71
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功