第九章线性代数模型的回归分析在生产、科研和试验过程中,总涉及到许多因素或变量,这些变量之间相互联系和相互制约,在一定的条件下可以相互转化。为了了解和掌握这些关系,往往需要找出表示这些变量间内在关系的定量表达式,前几章讨论了最小二乘法求表达式模型的方法,本章的回归分析就是用数理统计方法处理变量相关关系。一般变量之间的关系有两种类型:确定性关系和相关关系。若两个变量具有确定性关系,是指可以唯一地由一个量来确定另一个量。在数学分析中以完全确定的函数关系为研究对象。如匀速运动中,路程S和时间t的关系为:S=v×t所谓相关关系是指两个或两个以上的变量间,当一个量唯一地确定后,另一个量并不唯一确定,但它又不是毫无规律地任意取值,而是按一定的概率分布取各种可能值,当其中的一个变量改变时,另一个的分布也按一定的规律改变。确定性关系与相关关系之间并无严格的界限,在许多实际问题中,由于变量间的复杂性,或由于测试过程中的误差,致使变量间的关系具有不确定性。另一方面,当掌握了其内部规律后,相关关系又可能转化为确定性关系。在实际应用中,人们为了方便往往把容易控制或测量的量,当作确定性的自变量,而把不易控制或测量的量当作随机性的因变量。自变量和因变量按其确定性划分为三类;1.两者都是确定性变量;2.两者都是随机性变量;3.一个是确定性的,而另一个是随机性的变量。第一种情况属于数学分析中研究的对象。第二、三种情况则统称为回归分析或相关分析。回归分析研究的数学模型是线性模型与多项式回归模型,以及可以化为线性的模型。回归分析在生产中也得到广泛地应用。如在煤加工过程中,煤焦油产率x,粗苯产率y和焦炉煤气产率Z均取决于装炉煤的种类和其干燥无灰基挥发份Vdaf的含量,统计模型为:226.053.136.18dafdafVVx20016.0144.06.1dafdafVVydafVaz与其类似的应用如焦炭中灰份,硫份的含量同煤中灰份、硫份含量呈一元线性关系。Ad煤=K·A焦十bSd煤=K/·s焦+b/用于生产控制的还有;GVMdaf144.0104.2147.12640GVMdaf0243.0947.1794.1210式中G一粘结指数;Vdaf-挥发价:M40和M10分别表示焦,炭的两种强度指标。以上都是从大量生产数据中统计回归得到的。回归分析主要解决以下几个方面的问题:1.研究并确定几个特征变量间有无相关关系,如果是相关的,则求出相关关系的模型表达式。2.对找出的相关关系进行统计检验,以确定此关系的相关程度;3.从诸多因素中寻找主要影响因素和次要影响因素;4.利用所求的关系,进行预测或预报等。9.2一元线性回归分析一元回归线性分析是回归分析中最简单的一种,它研究的对象是两个变量(x,y)之间的相关关系。其数学模型为:bxay其中a、b为模型参数,待定。9.2.1回归模型的求解一元回归分析模型参数的求解是通过n对实验数据(xi,yi)(i=1,2,…,n),依照最小二乘法原理求解模型中的定系数。已知n对实验数据(xi,yi)(i=1,2,…,n),假设变量xi,yi之间存在线性关系,则描述yi=a+bxi+εi其中εi是测试样本的误差。根据一元线性模型,回归值iiiiiyyyy与回归值描述了之差与实测值的偏离程度。)(iiiiibxayyy对所有的xi而言,εi的愈小愈好。或对下式:niniiiibxaybaQ1122)((),(取极小值。根据最小二乘法的求极小值原理:niibxayaQ110)(2niiixbxaybQ110)(2解其正规方程得:iiiiiixxxyxyxxxyxxxbxbya22)())((niiniiynyxnx111,1式中定义niiniixxxxxL112称为x的平方和niiniiixyyxyxL11则上式又可写为:xxxyLLbxbya/称为xy的交叉平方和确定a、b参数后确定。其置信区间可用T分布建立,bxay9.2.2回归方程的显著性检验如果当x与y之间没有函数关系而有相关关系时,用所有测得的y值中最优概值代替。这些y值分布得越“紧密”,它们越接近于最优概值,x与y的关系也就越确定,表征这种确定程度称之为显著性检验。由于误差或变量波动所引起的总的差异2)(yyLiyy叫作离差平方和。可以证明niniiiiiyyyyyyyyL1122)]()[()(QUniiiyyQ12)(niiyyU12)(Lyy=Q+UU是由于x的变化而引起的,称为回归平方和。Q是总离差平方和中,除掉回归平方和后的剩余部分,叫做剩余平方和。为误差等因素引起的y值波动。一般定义回归平方和U在总离差平方和Lyy中所占的比例为x、y两个变量间线性关系的相关程度。yyLUR/2yyniiLxbabxa/)]()[(21yyxxxyLLL2yyxxxyLLLR/2称做线性回归方程的相关系数。相关系数R是绝对值介于0~1之间的无量纲数。|R|=1时,表示两个变量间有确定性的线性函数关系。|R|=0时,表示两个变量间无线性关系。一般没有关系,二是有非线性关系。应该指出R往往并不完全说明x与y间线性关系的接近程度。使相关系数R达到显著的值与抽样个数n有关。附录I给出了不同的n值,在两种信度α(0.05及0.01)上相关系数达到显著的最小值,超过此值时,就说x与y的相关关系在(1—α)置信度上显著。(1—α)愈大,显著程度愈高。相反,计算的R值如果小于查表值,则说明x与y间不存在线性关系。一元回归线性回归方程的方差检验用统计检验中的F检验对回归方程进行显著性检验的方法称为方差分析,即是对回归模型所揭示规律的强弱检验。定义)2/(1/nQUF式中xyLbU称为回归平方和xyyyLbLQ称为剩余平方和统计量F服从自由度为1和n一2的F分布。若给定显著水平α,查分布表(附录IV),可得到Fα(l,n—2)的数值。若F>Fα(1,n—2)则说明该线性日归方程显著。若FFα(1,n—2)则说明该线性回归方程不显著。F检验中剩余平方和除以它的自由度n—2所得的商22nQS称为剩余均方差,它是衡量当x固定时,y随机波动大小的一个估计量,即回归线预报的精度。计算时,常取剩余均方根表示精度。上述S值愈小,回归预报y值就愈精确。2)1(22nLRnQSyy若经检验,回归不显著,则应查明原因。一般由下列原因造成:1、除x外,还有其它因素影响y取值2、X与y可能存在非线性关系3、X与y可能不存在关系继续工作步骤:对于原因1,分析可能的其它因素,建立多元回归方程或逐步回归方程,再进行检验。对于原因2,由实验数据作出实验曲线,分析其可能的数学模型,进行变量代换,化为一元线性回归问题。进行上述分析仍不能解决问题,说明X与y不存在关系,放弃回归方程。9.6回归分析的预报与控制)(ˆ2xyy在应用二变量之间的回归方程时,我们自然关心其可靠性与产生的误差范围。(回归方程建立时,并非100%有确定关系)即对于给定的x,应用回归方程计算的y值落在什么范围。或希望y值落在一定范围时,将x值控制在什么范围才能达到目的。用统计语言叙述:回归模型的预报是指在一定的置信度(1-α)下,有一个正数δ,使得实际观测值y0以(1-α)的概率落在区间()ˆ,ˆ00yy这个区间称为y0的置信区间,又称为y0的预报区间。数理统计中可以证明:niiaxxxxnnt12202/)()(11)2(即y0的预报区间为)ˆ(0y当n,α给定时,δ与x0取值有关,为x0的函数。X0越接近x的平均值,δ越小,预测越精密。二条曲线)(ˆ1xyy形成一含有回归直线的喇叭形带,且在x等于其平均值处最窄。称为预报线。说明在应用回归方程时,x0在其平均值附近,yo预测精度最高,误差最小。实际回归问题中,一般n很大,且x0离其平均值不很远时,y0的95%置信区间近似为2ˆ0y而y0的置信度为99%的预报区间近似为预报线也简化为二条直线。3ˆ0yayyyp121ayyyp1ˆˆ00回归模型的控制问题实际是预报的反问题。即要求实际测量值y以不小于(1一α)的概率在区间(y1,y2)内,自变量x应控制在什么范围内。根据,或解不等式21222/11222/)()(11)2(ˆ)()(11)2(ˆyxxxxnntyyxxxxnntyniianiia得到的x值即为控制的上下限。也可由回归式解出x值。置信度为95%时,置信度为99%时,将代入上述方程后,x的解。bxay例:通过某产品表面腐蚀刻线实验,得到腐蚀时间与腐蚀深度的一组数据:X(秒)5102015304050607090120Y(um)610101316171923252946预测腐蚀时间为75秒时,腐蚀深度范围。(α取0.05)要求腐蚀深度在10-20um之间时,腐蚀时间应如何控制。解:1、确定回归方程为:y=0.304x+5.3442、显著性检验:r=0.96R0=0.553,F1,9=242.85Fa=5.12说明回归方程有效。3、将腐蚀时间75秒(x0)代入回归方程,计算得到腐蚀深度y0=0.304×75+5.334=28.1344、预报问题:因1-α=0.95,为简化计算,用故S=2.236,y1=28.134-4.472=23.662y2=28.134+4.472=32.606因此腐蚀时间为75秒时,腐蚀深度范围在23um与32um之间。5、控制问题:由y=0.304x+5.344可知,x=3.289y+17.546当y1=10时,x=3.289×10+17.546=50.4当y2=20时,x=3.289×20+17.546=83.3即要求腐蚀深度在10-20um之间时,腐蚀时间应控制在50-83秒之间。应用EXCAL计算时,还给出了更多的统计信息。如当α取0.05时,回归方程x系数的置信区间为:0.26-0.349,截距的置信区间为:2.791-7.898。回归平方和,残差平方和等2ˆ0y9.5.1可化为线性回归的非线性相关模型在讨论曲线模型选择时,能够用直线法求参数的值,同样可以用回归分析方法估计参数的值。面列举一些模型的实例。化工中求反应过程的指前因子和活化能时,已知速率常数RTEekK/0求k0、E的一般方法是将上述模型直线化:TREkK1lnln0以TK1ln与作为回归分析的二个变量,则k0、E就是回归模型中的参数。TxREbkaky1lnln0即上式转化为:y=ax+b用一元回归求出a、b的参数估计值,进一步求出E、k0的值。与之类型相类似的模型如:指数模型,y=abx,对数模型,y=A·Inx,幂函数y=axb等。均可按照配直线化方法,将上述模型化为一元或二元线性回归分析。因此,上述问题的实质仍是线性回归分析问题。9·3二元线性回归分析在大多数的实际问题中影响因变量的因素常常不止一个。寻求两个自变量与因变量之间存在着的相关关系或回归模型方程式,称二元回归分析。9.3·1二元回归的数学模型及多数估计二元回归方程的数学模型是22110xbxbby210,,bbbmixxyiii,,2,1),,,(21式中称为回归系数。由以下方法估计。设有m对实验数据;假定它们之间存在着线性相关关系iiiixbxbby22110式中εi是m个相互独立,且服从N(0,σ2)正态分布的随机变量。如果将回归模型同线性相关关系比较,即有)(221101iiiiixbxbbyyy根据最小二乘法,构筑函数miiimiiyybbbQ1212210)(),,(