§6.3线性回归模型6.3.1多元线性回归模型在回归分析中,如果有两个或两个以上的自变量,就称为多元回归或多重回归。在实际的应用中,多元线性回归比一元线性回归用途更广且实用意义更大。在建立多元线性回归模型时,随机变量与一般变量的多元线性回归模型为:12,,,mxxx01122mmyxxx,其中01,,,m是个未知参数,称为回归常数项,称为回归系数;称为被解释变量(因变量),是个可以精确测量并可控制的一般变量,称为解释变量(自变量)。为随机扰动项,1m01,,my12,,,mxxx2k代表主观或客观原因造成的不可观测的随机误差,它是一个随机变量通常假定满足。(1)样本回归模型的建立设,是随机变量与一般变量的n次独立观测值,则此时多元线性模型可表示为:(6.3.1)其中,独立同分布。多元线性回归样本方程为,式中为的估计值。2(0,)N12(,,,,)iiimixxxy1,2,,iny12,,,mxxx01122,1,2,,iiimimiyxxxin2(0,)iN01122ˆˆˆˆˆmmyxxx012,,,,m012,,,m为方便起见,令12nyyyy12ˆˆˆˆnyyyy,12n12ˆˆˆˆn111212122212111mmnnnmxxxxxxxxxx12n则式(6.3.1)可改写为:(6.3.2)且满足,。回归方程可改写为:。多元线性回归方程中回归系数的估计采用最小二乘法。记残差平方和为,根据微积分中求极小值原理,可知残差平方yx()0E2()VarIˆˆyx()()TSSEyxyx和存在最小值,即:011ˆ2()0ˆ2()0(1,2,,)njjjnijjijSSEyySSEyyxim(6.3.3)通过求解这一方程组便可求出的估计值,得。则为残差向量,取(6.3.4)为的估计,也称为的最小二乘估计。可以证明:.进一步可以证明的方差估计为。相应的的标准差为,其中是对角线上第i个元素。ˆ1ˆ()TTxxxyˆˆyx2ˆˆˆ1Tnp2222ˆE21()()TVarxxˆˆˆ(),0,1,,iiisdcimiic1()TCxx(2)显著性检验在多元线性回归分析中,很难用图形来判断E(y)是否随作线性变化,因而显著性检验尤为重要。对多元线性回归方程的拟合程度进行测定、检验回归方程和回归系数的显著性。①拟合优度检验。测定多元线性回归的拟合程度,使用多重判定系数,其定义为:式中SSR为回归平方和,SSE为残差平方和,SST为总离差平方和。12,,,mxxx221ˆˆ11()()()nTiiRSSESSTyxyxyy当的值范围为,越接近1,回归平面拟合程度越高;反之越接近0,回归平面拟合程度越低。②回归方程的显著性检验(F检验)。所谓回归方程的显著性检验就是检验假设:所有回归系数都等于零,即检验:;不全为0。多元线性回归方程的显著性检验一般采用F检验。F统计量定义为回归平方和的平均与残差平方和的平均(均方误差)之比,对于多元线性回归方程,在成立的条件下:2R201R2R2R001:0mH101:,,,mH21ˆ[()](,1)ˆˆ1[()()]1niiTyymSSRmFFmnmSSEnmyyyynm0H式中,SSR为回归平方和,SSE为残差平方和,为样本,为自变量个数。F统计量服从的是第一自由度为,第二自由度为的F分布。从F统计量的定义式可看出,如果F值较大,则说明自变量造成的因变量的变动远远大于随机因素对因变量造成的影响。另外,从另一个角度来看,F统计量也可以反映回归方程的拟合优度。将F统计量的公式与的公式可得。可见,如果回归方程的拟合优度高,F统计量就越显著;F统计量越显著,回归方程拟合优度就越高。利用F统计量进行回归方程显著性检验的步骤总结如下:nmm1nm2R22(1)(1)FRmRnmStep1提出假设:,不全为0。Step2在成立条件下,计算F统计量,由样本观测值计算F值。Step3根据给定的显著性水平确定临界值,或者计算F值所对应的相伴概率值p。如果(或者),就拒绝原假设,接受备择假设,认为所有回归系数同时与零有显著性差异,自变量与应变量之间存在显著性的线性关系,自变量的变化确实能够反映因变量的线性变化,回归方程显著。如果(或者),则接受原假设,自变量与应变量之间不存在显著性的线性关系,回归方程不显著。012:0mH1:jH(1,2,,)jm0H1SSRmFSSEnm(,1)Fmnm(,1)FFmnmp0H1H(,1)FFmnmp0H③回归系数显著性检验(t检验)回归方程的显著性检验是对线性回归方程的一个整体性检验。如果检验的结果是拒绝原假设,则因变量Y线性地依赖于自变量,这个回归自变量的整体。但是,这并不排除Y并不依赖于其中某些自变量。因此,我们还要对每个自变量逐一做显著性检验,即回归系数的显著性检验。回归系数的显著性检验是检验各自变量对因变量的影响是否显著,从而找出哪些自变量对的影响是重要的,哪些是不重要的。对于多元回归方程,回归系数的显著性检验,即检验假设,在假设成立的条件下,T统计量,式中为的对角线上第j个元素。12,,,mxxx12,,,kxxxyy0:0(0,1,2,,)iiHimˆ(1)iiiTctnmjjc1()TCxxt检验步骤如下:Step1提出假设;式中,表示零假设,表示备择假设。如果零假设成立,则说明对没有显著性的影响,反之,则说明对有显著性的影响;Step2在成立的前提下,计算回归系数的T统计量Step3给定的显著性水平,确定临界值,或者计算t值所对应的相伴率值p的大小。应注意的是,t检验的临界值是由显著性水平和自由度决定的,对于双侧检验,临界值为。如果(或者),就拒绝原假设,认为回归系数与零有显著性差异,0:0(0,1,2,,)iiHim1:0(0,1,2,,)iiHim0iH1iHixyixy0iHˆiiic2(1)tnm2(1)tnm2(1)ttnmp0iHi该自变量和应变量之间存在显著的线性关系,它的变动较好地解释说明应变量的变动,应保留在回归方程中;反之,应剔除出去。例6.3.1近年来,高等学校招生规模急剧扩大,在教育产业化的背景下,选取1985-2003年相关数据对影响我国高校招生人数的各因素及其影响程度的大小进行定量分析。首先将数据EXCEL文件存为csv格式。然后编程如下:X-read.csv(d:\\programFiles\\R\\chengxu\\data2.csv,header=TRUE)y-X[,2];x1-X[,3];x2-X[,4];lm.sol-lm(y~x1+x2)summary(lm.sol)运行结果见图6.3.1。从运行结果可以看出,回归系数和回归方程的检验都是显著的,因此,回归方程为:(3)回归系数的区间估计ˆ27516.477105.12554.203yxx由参数的统计性质可知:(6.3.6)因此,的区间估计为:ˆˆ()(1),0,1,2,,.iiiiTsdtnmimi22ˆˆˆˆ[()(1),()(1)],0,1,2,,.iiiisdtnmsdtnmim(4)预测当多元线性回归方程经过检验是显著的,且其中每个系数均显著不为0,则说明回归的结果是合理的,在此基础上可用回归方程作预测。当时,代入回归方程可得.当观测值为时,的置信度为的预测区间为:001020(,,,)Tmxxxx00ˆˆTyx0x0ˆyy11102000200ˆˆˆˆ[(1)1(),(1)1()]TTTTytnmxxxxytnmxxxx如求例6.3.1回归方程中,当x=(900,1300)T时的预测区间。这里即为求x=(900,1300)T时的预测值,和置信程度为0.95的置信区间。•编程如下:•new-data.frame(x1-900,x2-1300)•lm.pred-predict(lm.sol,new,interval=prediction,level=0.95)•lm.pred•fitlwrupr•151668.328980.9574355.66•因此,当x=(900,1300)T时,得到相应的预测值为51668.3,预测区间为[28980.95,74355.66]。6.3.2逐步回归模型逐步回归的实质是在建立多元回归方程的过程中,首先按偏相关系数的大小次序,将自变量逐个引入方程,并且对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内。继续遴选下一个自变量,如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变的不显著,经统计检验后要随时从方程中剔除,只保留效应显著的自变量,直到不再引入和剔除自变量为止,从而得到最优的回归方程。在多元线性逐步回归中,“最优”的含义是指从可供选择的所有变量中选出对Y有显著影响的变量建立方程,且在方程中不含对Y无显著影响的变量。R软件提供了较为方便的“逐步回归”计算函数step(),它是以信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。我们通过一个例子来说明如何通过R软件来实现逐步回归的过程。例6.3.2某水泥在凝固时放出的热量y(单位:卡/克)与水泥中下列四种化学成分有关::3CaO.Al2O3的成分(%);:3CaO.Si2O3的成分(%);:4CaO.Al2O3.Fe2O3的成分(%);:2CaO.SiO2的成分(%)。所测定的数据如表6.3.2所示。用回归分析建立y与四种化学成分的线性回归模型。试验序号172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8表6.3.2水泥中所含化学成分表121166912113.3131068812109.4首先做多元线性回归如下:x-read.csv(d:\\programFiles\\R\\chengxu\\zhubuhuigui.csv,header=F)y-x[,5];x1-x[,1];x2-x[,2];x3-x[,3];x4-x[,4];lms-lm(y~x1+x2+x3+x4)summary(lms)运行结果如下:Call:lm(formula=y~x1+x2+x3+x4)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)62.405470.07100.8910.3991x11.55110.74482.0830.0708.x20.51020.72380.7050.5009x30.10190.75470.1350.8959x4-0.14410.7091-0.2030.8441Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residua