多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。回归分析主要解决以下几个方面的问题:(1)确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;(3)进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。回归分析有很广泛的应用,例如实验数据的一般处理,经验公式的求得,因素分析,产品质量的控制,气象及地震预报,自动控制中数学模型的制定等等。多元回归分析是研究多个变量之间关系的回归分析方法,按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析),按回归模型类型可划分为线性回归分析和非线性回归分析。本“多元回归分析原理”是针对均匀设计3.00软件的使用而编制的,它不是多元回归分析的全面内容,欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。本部分内容分七个部分,§1~§4介绍“一对多”线性回归分析,包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。“一对多”线性回归分析是多元回归分析的基础,“多对多”回归分析的内容与“一对多”的相应内容类似,§5介绍“多对多”线性回归的数学模型,§6介绍“多对多”回归的双重筛选逐步回归法。§7简要介绍非线性回归分析。§1一对多线性回归分析的数学模型§2回归系数的最小二乘估计§3回归方程及回归系数的显著性检验§4逐步回归分析§5多对多线性回归数学模型§6双重筛选逐步回归§7非线性回归模型§1一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系:,(1.1)(1.1)式称为回归方程,式中为回归系数,为随机误差。现在解决用估计的均值的问题,即,且假定,,是与无关的待定常数。设有组样本观测数据:其中表示在第次的观测值,于是有:,(1.2)其中为个待定参数,为个相互独立的且服从同一正态分布的随机变量,(1.2)式称为多元(元)线性回归的数学模型。(1.2)式亦可写成矩阵形式,设,,,,则(1.2)式变为:,(1.3)(1.3)式称为多元线性回归模型的矩阵形式。§2回归系数的最小二乘估计设分别为的最小二乘估计值,于是的观测值,,(2.1)其中为误差的估计值,称为残差或剩余。令为的估计值,则有,(2.2),,(2.3)(2.3)式表示实际值与估计值的偏离程度。欲使估计值与实际值拟合的最好,则应使残差平方和达到最小,为此,我们可以应用微分求极值原理确定,即解下列方程组,(2.4)即,(2.5)整理并化简则得以下正规方程组:,(2.6)如果记(2.6)式的系数矩阵为,右端常数项矩阵记为,则有,(2.7),(2.8)因此正规方程(2.6)的矩阵形式为,(2.9)或,(2.10)其中为正规方程中待定的未知实数向量,如果系数矩阵满秩,则存在,此时有,(2.11)(2.11)式即为多元线性回归模型(1.2)式中参数的最小二乘估计。正规方程组(2.6)亦可表达为下述另一种形式,如果记,,,则由(2.6)式中第一等式可解出,(2.12)再将(2.12)代入到(2.6)其它各式中并经化简整理可得,(2.13)又由,,,,如果记,,(2.14),,(2.15)则(2.13)式可以表示为,(2.16)(2.16)式称为正规方程组,解此方程组可得,再代入到(2.12)式中则得,于是得回归方程,(2.17)(2.17)式称为回归超平面方程。如果记(2.16)式的系数矩阵为,右端常数项向量为,则,,且记,则正规方程组(2.16)的矩阵形式为,(2.18)解(2.18)得,(2.19)再代回到(2.12),则得到。以下是一对多线性回归分析的两个例子。例2.1某养猪场估算猪的毛重,测得14头猪的体长(cm)、胸围(cm)与体重(kg)数据如表1,试建立与及的预测方程。表2.1序号体长()胸围()体重()14149282455839351624145271445596243662745076971518727457978796310808466119085701292947613989180141039581经计算:,,,,,,,,,于是正规方程组为,解此方程组得,,又,因此所求预测回归方程为回归方程中系数与的含义是体长每增加1cm,则猪体重毛重平均增加0.522kg,胸围每增加1cm,则猪体重毛重平均增加0.475kg。例2.2某地区二化螟的第一代成虫发生量与四个因素有关,这四个因素分别如下,已知原始观测数据如表2.2,试建立二化螟发生总量的回归方程。:冬季积雪期限(单位为周),:每年化雪日期(以2月1日为1),:二月份平均气温(℃),:三月份平均气温(℃),:二化螟发生总量(头),经计算:,,表2.2序号110260.23.6921226-1.44.41731440-0.81.734416320.21.44251951-1.40.940616330.22.12777262.72.7487251.04.027912172.23.713101124-0.83.056111216-0.54.915127162.04.181311151.14.7201543474.741.231211.846226.69230.36153.169224,于是,又=24+0.99742×11.8462+1.62581×26.6923+11.19263×0.3615+16.95291×3.1692=136.98554,因此所求二化螟发生总量的预测回归方程为。§3回归方程及回归系数的显著性检验1、回归方程的显著性检验(1)回归平方和与剩余平方和建立回归方程以后,回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定,为此,我们要进一步研究因变量取值的变化规律。的每次取值是有波动的,这种波动常称为变差,每次观测值的变差大小,常用该次观侧值与次观测值的平均值的差(称为离差)来表示,而全部次观测值的总变差可由总的离差平方和,其中:称为回归平方和,是回归值与均值之差的平方和,它反映了自变量的变化所引起的的波动,其自由度(为自变量的个数)。称为剩余平方和(或称残差平方和),是实测值与回归值之差的平方和,它是由试验误差及其它因素引起的,其自由度。总的离差平方和的自由度为。如果观测值给定,则总的离差平方和是确定的,即是确定的,因此大则小,反之,小则大,所以与都可用来衡量回归效果,且回归平方和越大则线性回归效果越显著,或者说剩余平方和越小回归效果越显著,如果=0,则回归超平面过所有观测点;如果大,则线性回归效果不好。(2)复相关系数为检验总的回归效果,人们也常引用无量纲指标,(3.1)或,(3.2)称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”,因此就是这种贡献在总回归平方和中所占的比例,因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近1,回归效果就越好,因此它可以作为检验总的回归效果的一个指标。但应注意,与回归方程中自变量的个数及观测组数有关,当相对于并不很大时,常有较大的值,因此实际计算中应注意与的适当比例,一般认为应取至少为的5到10倍为宜。(3)检验要检验与是否存在线性关系,就是要检验假设,(3.3)当假设成立时,则与无线性关系,否则认为线性关系显著。检验假设应用统计量,(3.4)这是两个方差之比,它服从自由度为及的分布,即,(3.5)用此统计量可检验回归的总体效果。如果假设成立,则当给定检验水平α下,统计量应有≤,(3.6)对于给定的置信度α,由分布表可查得的值,如果根据统计量算得的值为,则拒绝假设,即不能认为全部为O,即个自变量的总体回归效果是显著的,否则认为回归效果不显著。利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中,如表3.1。表3.1方差分析表来源平方和自由度方差方差比回归剩余总计根据与的定义,可以导出与的以下关系:,。利用这两个关系式可以解决值多大时回归效果才算是显著的问题。因为对给定的检验水平α,由分布表可查出的临界值,然后由即可求出的临界值:,(3.7)当时,则认为回归效果显著。例3.1利用方差分析对例2.1的回归方程进行显著性检验。方差分析结果见表3.2。表3.2来源平方和自由度方差方差比回归剩余总计取检验水平α=0.05,查分布表得,而,所以例2.1的回归方程回归效果是显著的。2、回归系数的显著性检验前面讨论了回归方程中全部自变量的总体回归效果,但总体回归效果显著并不说明每个自变量对因变量都是重要的,即可能有某个自变量对并不起作用或者能被其它的的作用所代替,因此对这种自变量我们希望从回归方程中剔除,这样可以建立更简单的回归方程。显然某个自变量如果对作用不显著,则它的系数就应取值为0,因此检验每个自变量是否显著,就要检验假设:,,(3.8)(1)检验:在假设下,可应用检验:,,(3.9)其中为矩阵的对角线上第个元素。对给定的检验水平α,从分布表中可查出与α对应的临界值,如果有,则拒绝假设,即认为与0有显著差异,这说明对有重要作用不应剔除;如果有则接受假设,即认为成立,这说明对不起作用,应予剔除。(2)检验:检验假设,亦可用服从自由度分别为1与的分布的统计量,(3.10)其中为矩阵的主对角线上第个元素。对于给定的检验水平α,从分布表中可查得临界,如果有,则拒绝假设,认为对有重要作用。如果,则接受假设,即认为自变量对不起重要作用,可以剔除。一般一次检验只剔除一个自变量,且这个自变量是所有不显著自变量中值最小者,然后再建立回归方程,并继续进行检验,直到建立的回归方程及各个自变量均显著为止。最后指出,上述对各自变量进行显著性检验采用的两种统计量与实际上是等价的,因为由(3.9)式及(3.10)式知,有(3.11)例3.2对例2.1的回归方程各系数进行显著性检验。经计算:,于是,其中=0.002223,=0.004577。由(3.7)式知,,查分布表得,,因为,,所以两个自变量及都是显著的。又由,说明体长比胸围对体重的影响更大。如果应用检验,查分布表有,又由,,因为,,因此及都是显著的,均为重要变量,应保留在回归方程中。(3)偏回归平方和检验某一自变量是否显著,还可应用偏回归平方和进行检验。个自变量的回归平方和为,如果自个自变量中去掉,则剩下的个自变量的回归平方和设为,并设,则就表示变量在回归平方和中的贡献,称为的偏回归平方和或贡献。可以证明,(3.12)偏回归平方和越大,说明在回归方程中越重要,对的作用和影响越大,或者说对回归方程的贡献越大。因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。例如在例2.1中,和的偏回归平方和分别为,,,说明在回归方程中的作用比大。又如在例2.2中及的偏回归平方和分别为:,,,,的值最小,即在回归方程中所起的作用最小,最大,说明在回归方程中所起的作用最大。§4逐步回归分析1、逐步回归分析的主要思路在实际问题中,人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量,应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程,主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对的作用大小,显著程度大小或者说贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被引人回归方程。另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而需要从回归方程中剔除出去。引人一个变