第6章回归分析11第6章回归分析16.1回归分析的意义回归分析是处理变量之间相关关系的数学工具,是数理统计的方法之一。它可以帮助人们从一组实验数据出发,分析变量间存在什么样的关系,建立这些变量间的回归方程;并且可以根据建立的经验公式,去预测实验结果,估计预测的精度;还可以进行因素分析,确定因素对实验结果是有显著影响还是无显著影响,从而建立更适用的回归方程。在回归分析中,一元线性回归是最简单的,为了便于读者理解回归分析解决问题的思想和方法,在这一章里将对一元线性回归作较为详细的叙述,同时还介绍一元非线性回归、二元线性回归、逐步回归等问题。6.2一元线性回归及其Excel程序6.2.1问题的提出现举一个实例来说明一元线性回归的问题。例6-1在硝酸钠(NaNO3)的溶解度试验中,测得不同温度x(℃)下硝酸钠溶解度y的值如下:xi0410152129365168yi66.771.076.380.685.792.999.4113.6125.1试求它们之间的经验公式(回归方程)。类似这样的问题,即当两个变量x与y之间存在着一定的关系,根据实验数据找出两者之间的关系式,这就是一元回归所要处理的问题。对于例6-1的实验数据,可将数据点(xi,yi)标在直角坐标系中,称为散点图,得图6-1。从散点图可直观地看出,各点分布情况接近一条直线。如果两个变量间的关系大致是一条直线,这类的一元回归就是一元线性回归。020406080100120140020406080XYx图6-1散点图第6章回归分析126.2.2一元线性回归方程的求法设自变量x与变量y对应的测量值为xx1x2…xi…xnyy1y2…yi…yn如果变量间存在着线性关系,则可选用一条直线来表达二者的关系:bxayˆ(6.1)其中yˆ表示y的估计值,这是因为用x的值按回归方程(6.1)来计算y,只能得到y的估计值yˆ,点)ˆ,(iiyx一定在直线上,而点),(iiyx则不一定,那么怎样取(6.1)中的未知参数a与b,才能使得这个估计更理想呢?我们自然会想到,若测定值yi与估计值iyˆ之差(残差)的绝对值都很小,我们认为是最理想的。当niiiayyQ1|ˆ|(6.2)最小时,则可满足这种情况。但这个公式中有绝对值记号,不便于进一步分析讨论,由于任何实数的平方也是正数或零,因此我们可以考虑如何使niiiLyyQ12)ˆ((6.3)达到最小。由式(6.1)知与yi对应的估计值(计算值)是:bxayiˆ(6.4)代入式(6.3)得niiiLbxayQ12)]([(6.5)现在的问题是怎样求未知数a和b来保证QL最小。根据数学分析中的极值原理,要使QL达到极小值,只需对式(6.5)中的a、b分别求偏导数,并令它们都为零,即niiiiLniiiLxbxaybQbxayaQ110)]([20)]([2(6.6)整理方程组(6.6)得第6章回归分析13niiiniiniiniiniiyxxbxayxbna112111(6.7)由于xi不全相同,方程组(6.7)的系数行列式niiniiniiniininiixxnxnxnxxxn1221121211)(])(1[不等于零,故方程组(6.7)有唯一的一组解,解得)8.6(])(1[))(())((211211112niiniiniiiniiniiniixnxnyxxyxa)9.6()(1))((12112111niiniiniiniiniiixnxyxnyxb式(6.9)可等价地写成niiniiixxyyxxb121)())(((6.10)其中(6.12)1(6.11)111niiniiynyxnx(6.14)))(((6.13))(112niiixyniixxyyxxlxxl于是式(6.10)可写成xxxyllb(6.15)第6章回归分析14由方程组(6.7)的第一个方程或式(6.8)可以导出xbya(6.16)至此,我们可根据已知试验数据,按式(6.11)~(6.16)求出未知参数a和b,最后得回归方程(6.1)式。上述求回归方程的方法通常称为最小二乘法,参数a称为常数项,b称为回归系数。对回归方程检验时,还要计算niiyyyyl12)((6.17)6.2.3回归方程的检验由一组实验数据,根据上一小节讲述的最小二乘法,可求出回归直线方程。但人们要提出这样的问题,这个回归方程是否有意义呢?换句话说,用yˆ作为y的估计值,近似程度又如何呢?事实上,即使对于平面上一些杂乱无章的散点,也可用最小二乘法给它们配一条直线来表示变量x与y之间的关系。显然,在这种情况下所配的直线是毫无实际意义的。于是我们提出了对回归方程的检验问题。将获得的a和b的值式(6.15)、(6.16)代入式(6.5)得:niixxxyxxxyiLxllxllyyQ12)]([推导可得(6.19))1(2yyxxxyyyLllllQ定义相关系数yyxxxyxylllr(6.20)于是,式(6.19)可改写成)1(2xyyyLrlQ(6.21)称QL为剩余平方和,它愈小表明用yˆ近似y的精确度愈高,亦即x与y的线性关系愈密切。由式(6.21)可知,│rxy│愈接近1,即愈大,剩余平方和QL就愈小,线性关系愈密切。当│rxy│=1时,所有的点都在回归直线上,x与y完全线性相关,即x与y之间存在着确定的线性函数关系。当rxy=0时,由(6.20)式知,lxy=0,故有b=0,这时回归直线为yy,平行于x轴,表明y与x无线性关系(但不表明x与y不构成其他关系)。这时在平面直角坐标上的点(xi,yi)是完全不规则的。注意,因QL不能是负值,所以第6章回归分析150≤│rxy│≤l(6.22)那么,究竟│rxy│与1接近到什么程度才说明x与y存在着线性关系呢?这就要对相关系数进行显著性检验。由概率论与统计基础知道,由于实验误差的影响,一般地说,使相关系数达到显著的值与子样容量n有关。表6-1给出了不同n时,在显著性水平α下相关系数达到显著的临界值,当相关系数的绝对值│rxy│大于表中对应的值时,所配的直线才有意义。相关系数显著性检验的具体步骤如下:(1)按式(6.20)计算rxy,从而得│rxy│;(2)给定显著性水平α,按自由度f=n-2,由相关系数临界值rα,f数据表(表6-l)查出rα,f的值;(3)比较│rxy│与rα,f的大小,若│rxy│≥rα,f,则可认为在显著性水平α下,x与y之间存在着线性关系,作出这种判断的置信度大于(1-α)100%;反之,则认为在显著性水平α下,x与y之间不存在线性关系。6.2.4预测及其精度分析如果变量x与y之间存在着线性关系,那么我们就认为所建立的回归方程是有意义的。在实际问题中,往往需要对给定的x=x0的值,预测对应的y的取值范围,换句话说,用0ˆy(x0代入式(6.1)而得到的值)去估计y0(实际值),要找出这个估计的误差。实际上是求y0的置信区间,又称为y0的预测区间。可以证明y0的(1-α)100%的置信区间为:xxEflxxnSty20,)(11ˆ(6.23)其中,SE为剩余标准差,等于剩余平方和除以它的自由度f=n-2所得商的平方根,即LEQnS21(6.24)将式(6.21)代入上式,得)1(22xyyyErnlS(6.25)考虑计算rxy的舍入误差,通常计算SE用公式为)(212xxxyyyElllnS(6.26)式(6.23)中的tα,f是对于给定的置信概率(1-α)100%,和自由度f=n-2的t分布临界值,可以从附录B-2查得。要提高回归分析的精度,需要注意以下几个问题:第6章回归分析16第一,努力提高观测数据本身的精度;第二,尽可能增大子样容量n;第三,尽可能地扩大自变量x的取值范围。6.2.5一元线性回归的一般算法这一部分内容同学们自己看一下教材。6.3一元非线性回归及其Excel程序在实际问题中,有时两个变量y与x之间不一定是线性关系,而是某种曲线关系。例如,从专业知识知道某两个变量呈某种曲线关系,或者从观测数据的散点图中看到,两变量明显地偏离直线,若用某种曲线来拟合这个变量间的关系则更切合实际。对于这些问题做曲线回归是很重要的。运用曲线回归的方法解决生产或科研问题,往往是很多的,因而熟练掌握它是很有用的。那么如何进行曲线回归呢?事实上,在许多情况下,曲线回归可以通过某些简单的变量变换,化为线性回归问题来解。即以适当的变量替换,使新变量呈线性,这种方法通常称做“线性化”,然后对新变量做线性回归,最后还原到原来的变量,这就是曲线回归的基本方法,通常称为非线性回归。本节主要通过实例介绍一元非线性回归方法。6.3.1已知变量x与y间的数学模型当变量间的数学模型为已知,只有其中的参数待定,则可直接用线性化作线性回归。看下面的例子。例6-5已知某实验得如表6-5所示的试验数据,根据经验知道该实验的数学模型为xBAey/(B0)(6.37)第6章回归分析17试用回归分析方法求未知参数A和B。表6-5例6-5的试验数据序号xiyi序号xiyi126.4291010.49238.2101110.59349.58111210.6459.5121310.8569.7131410.66710141510.9789.93151610.76899.99解:对式(6.37)两边取对数得xBAylnln令BbAaxxyy,ln,1,ln则xbay于是将式(6.37)化为线性模型。从而可用前面叙述的一元线性回归的方法求得回归系数b及常数项a,再按原来变换相对应的参数变换的逆变换得到原参数A和B。全部计算过程见教材。6.3.2未知变量x与y间的数学模型在有些情况下,往往不知道变量间的数学模型。这时就要根据经验或参考实验数据在平面直角坐标纸上先作出类似于图6-1的散点图,并连成光滑的曲线,看该曲线适合于哪一个数学模型,然后“线性化”,再进行线性回归。6.3.4一元非线性回归小结(1)对于一元非线性回归问题,当不知道变量间的数学模型时,就要恰当地选择曲线的类型,这往往不是一下就能选准的。有时要分别用几种类型曲线来进行回归,然后进行比较,最后确定回归曲线取剩余标准差ES小或线性化后相关系数yxr的绝对值大者。如例6-5和例6-9,实验数据相同,但所得的回归曲线是不同的。这两例线性化后的相关系数值yxr分别为-0.979和0.933,前者的绝对值大于后者,所以第6章回归分析18我们认为例6-5选取曲线类型为指数函数更为理想。若用剩余标准差SE来判断,也会得出同样的结论。(2)计算时中间结果可多取几位。由于目前人们多采用计算器进行这类简单的计算,多取几位并不算麻烦。这样做反而提高最后结果的精度。(3)在计算线性化后的常数项a时,可按式(6.38)计算,这样可避免计算x和y的麻烦及由此而带来的舍入误差。当然,对于一元线性回归问题,也可以这样做。(4)应当强调指出,一元非线性回归的剩余标准差SE必须按式(6.40)来计算。第6章回归分析29第6章回归分析26.5多元线性回归及其Excel程序6.5.1多元线性回归方法设自变量x1,x2,…,xm与因变量y对应的第i次观测值为:x1i,x2i,…,xmi;yi共有n次观测数据。如果变量间存在着线性关系,其回归方程为2211ˆxbxbay…mmxb(6.75)令nikkijjijkxxxxl1))(((j,k=1,2,…,m)(6.76)niijjijyyxxl10))(((j=1,2,…,m)(6.77)2100)(niiyyl(6.78)nijijxnx11(j=1,2,…,m)(6.79)niiyny11(6.80)于是,式(6.