关于一般线性回归方法的计量分析案例摘要:线性回归方法是用来研究两个或两个以上的随机变量之间的相互依存关系的紧密程度。一般采用普通最小二乘法使样本各组数据的残差平方和极小,其前提条件符合高斯5点基本假设。然而,在研究实际问题中,采用的样本数据违反了高斯-马尔柯夫定理的条件,经常存在多重共线性,异方差性,自相关性问题,这些问题的出现导致了在进行数据预测过程中结果出现极大的偏差。本文旨在通过研究影响国内生产总值(GDP)的几个因素,以及其之间的相关关系对这些问题进行检验以及消除,使得实际问题的预测更加准确。关键词:回归分析,相关分析,高斯假设,普通最小二乘法,统计学检验,计量经济学检验引言1.回归分析与相关分析相关分析是研究两个或两个以上随即变量之间相互依存关系的紧密程度。不分自变量与因变量。现象间数量的依存关系不是确定的,有一定随机性。回归分析是研究某一随机变量与其他一个或几个普通变量之间的数量变动的关系。要定出自变量与因变量,且自变量是确定的普遍变量,几个变量间存在相关关系。2.回归分析的一般步骤(1)确定解释变量和被解释变量,数据录入;(2)画回归模型类型:散点图;(3)建立回归方程:(4)检验;(5)预测。3.高斯假设假设1零均值假设2同方差假设3无自相关假设4xt与ut不相关假设5正态性4.最小二乘法(OLS)图1残差ei=预测值与样本值y之差(yi-yi’)当样本各组数据的残差平方和最小时,此线性函数最接近样本中变量关系。按此222var()=E[-E()]=E()=ttttuuuucov(u,u)=0tscov(x,u)=0tt2~(0,)tuN212=,=0ttttyybxx求出待定系数b0和b1:一、问题提出国内生产总值(GDP)指一个国家或地区所有常住单位在一定时期内(通常是一年)生产活动的最终成果,即所有常住机构单位或产业部门一定时期内生产的可供最终使用的产品和劳务的价值,包括全本生产活动的成果,是一个颇为全面的经济指标。对国内生产总值的分析研究,可以充分体现出一个国家的综合实力和竞争力。因此,运用计量经济学的研究方法具体分析国内生产总值和其他经济指标的相关关系,对国民经济的发展态势,制定国家宏观经济政策,保持国民经济平稳地发展具有重要的意义。二、模型变量的选择模型中的被解释变量为国内生产总值Y。影响国内生产总值的因素比较多,根据其影响因素的大小和资料的可比以及预测模型的要求等方面原因,文章选择以下指标作为模型的解释变量:固定资产投资总量(X1)、财政支出总量(X2)、城乡居民储蓄存款年末余额(X3)、进出口总额(X4)、上一期国内生产总值(X5)、职工工资总额(X6)。其中,固定资产投资的增长是国内生产总值增长的重要保障,影响效果显著;财政支出是扩大内需的保证,有利于国内生产总值的增长;城乡居民储蓄能够促进国内生产总值的增长,是扩大投资的重要因素,但是过多的储蓄也会减缓经济的发展;进出口总额反映了一个国家或地区的经济实力;上期国内生产总值是下期国内生产总值增长的基础;职工工资总额是国内生产总值规模的表现。三、数据选择年GDP(y)固定资产投资总量(x1)财政支出总量(x2)城乡居民储蓄存款年末余额(x3)进出口总额(x4)上一期GDP(x5)职工工资总额(x6)199121781.995595.53386.629241.67225.818667.823323.9199226823.4768080.13742.211758.49119.621781.53939.2199335333.92513073.34642.315203.51127126923.484916.2199448197.85617042.15792.6221518.820381.935333.926656.4199560793.72920019.276823.7229662.323499.948197.868100199671176.59222913.57937.5538520.8424133.860793.739080199778973.03524941.129233.5646279.826967.271176.599405.3199884402.2828406.1810798.1853407.4726849.778973.039296.5199989677.05529854.7213187.6759621.829896.284402.289875.45200099214.554.32917.7415886.564332.439273.289677.0510656.192001109655.1737213.4918902.5873762.442183.699214.5511830.852002120332.6943499.9122053.1586910.651378.2109655.213161.072minte2003135822.7655566.6224649.95103617.370483.5120332.714743.512004159878.3470477.4528486.89119555.595539.1135822.816900.172005183084.888773.6133930.28141051116921.8159878.319789.86表1模型样本观测数据资料来源于2006年《中国统计年鉴》四、模型的建立如下所示散点图:图2通过散点图可以发现,被解释变量Y与解释变量:X1、X2、X3、X4、X5、X6之间大致存在线性相关关系。于是可以设该模型的理论方程:Y=b0+b1X1+b2X2+b3X3+b4X4+b5X5+b6X6+u(1)五、模型的参数估计对于理论模型运用OLS进行参数估计,结果如下:图3Y=-2415.668-0.23.43.x1+0.287070x2-0.091536x3+0.264022x4+0.653959x5+3.823169x6(2)T=(-0.892040)(-0.656763)(0.570569)(-0.299800)(1.135115)(3.043956)(3.745742)R2=0.999338D.W=2.186406F=2013.731上述模型(2)中可以看出b10,着表明随着固定资产投资总额的增加,国内生产总值反而减少,这是不符合实际的,因此不能通过经济意义检验,把此变量剔除,再进行OLS法进行参数估计得到:Y=-2551.446+0.378146x2-0.112904x3+0.136533x4+0.626717x5+3.785586x6(3)t=(-0.976283)(0.807812)(-0.384237)(1.100880)(3.071720)(3.837993)R2=0.999303D.W=2.318171F=2579.367六、模型的检验(一)统计学检验取α=0.05,n=15,k=5,查t分布表及F分布表,得临界值:t0.025(9)=2.26216,F0.05(5,9)=3.4817由第二次最小二乘法估计结果看到,常数C、变量X2、X3和X4的t-Statistic值分别为-0.976283、0.807812、-0.384237、1.100880,说明C、X2、X3和X4的系数不显著,P值分别为0.3544、0.44、0.7097和0.2995,都大于0.05,所以接受原假设。X5、X6的P值都小于0.05,则其对应系数显著不为0。回归结果中统计量的P值为0.000000,小于0.05,说明至少有一个解释变量的回归系数不为0。从显著性最小的开始逐个剔除解释变量,剔除C、X2、X3后再用OLS法进行参数估计,得到:Y=0.178680X4+0.648606X5+3.076831X6(4)t=(6.104665)(14.12395)(9.129928)R²=0.999208D.W.=1.929293取α=0.05,n=15,k=3,查t分布表及F分布表,得到临界值:t0.025(11)=2.20099,F0.05(3,11)=3.5874可以看到,所有变量都通过了显著性检验,拟合优度比较好,方程的显著性也非常好,所以式(4)通过了经济意义检验和统计检验。(二)计量经济学检验1.正态性检验(Jarque-Bera检验)图4上述自变量JB=0.4942)7(2=14.067,因此接受原假设,即回归的残差服从正太分布。2.多重共线性检验由普通最小二乘法回归结果只R2=0.999338,修正后的可决系数为0.998842,这说明模型对样本的拟合较好。F值为2013.731,很显著,即“固定资产投资总额”、“财政支出总量”、“城乡居民储蓄存款年末余额”、“进出口总额”、“上一期GDP”、“职工工资总额”六个变量联合起来对“国内生产总值”有显著影响。但是当α=0.05是,t0.025(15-7)=2.3060,x5x6的系数t检验不显著,而且x1和x3的符号与预期相反,这表明很有可能存在严重的多重共线性。查看解释变量相关系数矩阵,如下图(图4),可发现,6个解释变量之间的相关系数都较高,证实存在严重的多重共线性。图5下面用逐步回归的方法对其进行检验:首先找出最简单的回归形式。(1)Y=21663.3009585+2.00692152761*X1图6(2)Y=20706.3718445+4.84380238337*X2图7(3)Y=20064.0328412+1.17124492254*X3图8(4)Y=31656.5922982+1.42877559826*X4图9(5)Y=2847.48164942+1.10475705177*X5图10(6)Y=-14739.3333239+10.1944442106*X6图11由上可见,国内生产总值受职工工资的影响最大,因此选(6)为初始回归模型。接着进行逐步回归。将其他解释变量分别导入上述初始回归模型,寻求最佳回归方程,如下:第一步,引入x1,模型的拟合优度下降,同时x1的参数未能通过t检验。第二步,去掉x1,引入x2,拟合优度虽然提高了,但是参数未能通过t检验。第三步,去掉x2,引入x3,拟合优度虽然提高了,但是参数未能通过t检验。第四步,去掉x3,引入x4,拟合优度提高了,且x4的参数通过了t检验。第五步,引入x5,拟合优度提高了,且所有参数通过了t检验。因此,最终的国内生产总值函数应为:Y=0.178679970839*X4+0.648605564308*X5+3.07683064459*X6(5)这与经统计学检验得到的模型(4)恰好相符。3.异方差性检验(white检验)从多重共线性修正得到以下模型:Y=0.178680X4+0.648606X5+3.076831X6对其进行异方差性检验:图12由输出结果:nR2的p值喂0.0574,大于α=0.05,可知该模型不存在异方差性。4.序列相关性检验从修正多重共线性后的模型看残差图如下:图13D.W检验结果表明,在5%的显著性水平下,n=15,k=4,查表可得:0D.W=1.929293dU,表明存在一阶自相关,上图所示,et呈现有规律的波动,也预示着可能存在自相关性。对模型进行改进(使用科克伦-奥克特迭代法),以消除序列相关:图14得到最终模型为:Y=0.180965764921*X4+0.641342221799*X5+3.13274638954*X6+[AR(1)=-0.217276106776]用偏相关系数对修正后的模型进行检验:图15由上可知,已经消除了一阶自相关性。七、模型的经济分析1、由模型我们发现,进出口额与国内生产总值成正向的关系,根据这种系,我国目前应进一步加强全方位对外开放,和进一步开展跨国区域经济合作,促使经济发展。同时,我们应注意到进出口总额对GDP的贡献相对较小,且随着国际竞争压力的加剧,进出口对GDP的影响必将越来越小。参考文献:[1]孙敬水.计量经济学教程.——北京:清华大学出版社;北京交通大学出版社,2005.7ISBN