应用数理统计大作业一学院:XXXXXXX学号:XXXXXXX姓名:XXX指导老师:XXX2014年12月21日国民生产总值增量的多元线性回归模型摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。关键词:逐步回归法,国民生产总值增量,线性拟合一引言国民生产总值(GrossDomesticProduct)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以1998年至2012年的统计数据为标准,利用SPSS软件作出了多元线性回归分析。二统计分析2.1变量说明因变量Y——国民生产总值增值(亿元);自变量𝑥1——第一产业增加值(亿元)自变量𝑥2——第二产业增加值(亿元)自变量𝑥3——第三产业增加值(亿元)自变量𝑥4——工业增加值(亿元)自变量𝑥5——建筑业增加值(亿元)2.2统计数据训练组国民生产总值增值(亿元)第一产业增加值(亿元)第二产业增加值(亿元)第三产业增加值(亿元)工业增加值(亿元)建筑业增加值(亿元)2012年46366.0552373.63235161.99231934.48199670.6635491.342011年71591.2547486.21220412.81205205.02188470.1531942.662010年60609.9940533.6187383.21173595.98160722.2326660.982009年26857.3835226157638.78148038.04135239.9522398.832008年48235.1233702149003.44131339.99130260.2418743.22007年49495.8828627125831.36111351.95110534.8815296.482006年31377.0624040103719.5488554.8891310.9412408.612005年25059.032242087598.0974919.2877230.7810367.312004年24055.5821412.7373904.3164561.2965210.038694.282003年15490.0717381.7262436.3156004.7354945.537490.782002年10677.5216537.0253896.7749898.947431.316465.462001年10440.6215781.2749512.2944361.6143580.625931.672000年9537.514944.7245555.8838713.9540033.595522.291999年5274.7714770.0341033.5833873.4435861.485172.11998年5429.2514817.6339004.1930580.4734018.434985.76表格2-11998~2012年训练集数据测试组国民生产总值增值(亿元)第一产业增加值(亿元)第二产业增加值(亿元)第三产业增加值(亿元)工业增加值(亿元)建筑业增加值(亿元)2013年49375.1156957249684.4262203.8210689.438995表格2-22013年测试集数据以上数据来自《中国统计年鉴2013》[3]中收录的近15年全国国民生产总值增值数据,考察与各产业间增量趋势变化中关系密切并且直观上有线性关系的因素,因此选取了第一产业增值、第二产业增值、第三产业增值、工业总产值增值、建筑业增值五大因素为自变量。2.3模型建立建立多元线性模型:Y=𝛼1𝑥1+𝛼2𝑥2+𝛼3𝑥3+𝛼4𝑥4+𝛼5𝑥5将以上数据数据录入SPSS。2.3.1自变量与因变量关系利用SPSS统计分析得到各自变量与国民生产总值增值的散点图:图2-1国民生产总值增值与第一产业增加值的散点图图2-2国民生产总值增值与第二产业增加值的散点图图2-3国民生产总值增值与第三产业增加值的散点图图2-4国民生产总值增值与工业增加值的散点图图2-5国民生产总值增值与建筑业增加值的散点图由以上数据我们可以看出各产业的增量与国民生产总值增量的散点图都比较相似,因此无法直观地排除无关变量。下一步,我们用SPSS自带的逐步回归分析法作进一步研究:输入/移去的变量a模型输入的变量移去的变量方法1工业增加值(亿元).步进(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。2第三产业增加值(亿元).步进(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。a.因变量:国内生产总值增值(亿元)图2-6变量排除结果在模型建立中,SPSS将第一产业与第二产业以及建筑业产业增值都剔除了,而保留了工业和第三产业的产业增值,由此可见,在五个自变量因素中,工业与第三产业的增量与国民生产总值增量的关联度较高,为目标函数提供的贡献度较大。因此,在以下的模型建立中,我们保留了这两个因素作为拟合自变量。2.3.2模型方案的建立已排除的变量c模型BetaIntSig.偏相关共线性统计量容差1第一产业增加值(亿元)-2.622a-2.476.029-.581.009第二产业增加值(亿元)-15.202a-3.178.008-.676.000第三产业增加值(亿元)-4.011a-4.118.001-.765.007建筑业增加值(亿元)-2.331a-3.178.008-.676.0152第一产业增加值(亿元).078b.057.955.017.004第二产业增加值(亿元).043b.005.996.0017.779E-5建筑业增加值(亿元).007b.005.996.001.003a.模型中的预测变量:(常量),工业增加值(亿元)。b.模型中的预测变量:(常量),工业增加值(亿元),第三产业增加值(亿元)。c.因变量:国内生产总值增值(亿元)图2-7排除变量的相关性数值系数a模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-2593.8084801.903-.540.598-12967.6897780.073工业增加值(亿元).339.044.9067.699.000.244.4342(常量)-14838.8744380.709-3.387.005-24383.619-5294.128工业增加值(亿元)1.835.3644.9035.035.0001.0412.629第三产业增加值(亿元)-1.303.316-4.011-4.118.001-1.993-.614a.因变量:国内生产总值增值(亿元)图2-8方案设计结果由以上结果我们可以看出,系统提供给我们两个最终拟合方案。方案一:以工业增加值为自变量得到拟合函数Y=𝑥4方案二:以工业增加值和第三产业增加值为自变量得到拟合函数:Y=𝑥3+𝑥4除了模型具体参数值,以下系统还给出了两模型方案的回归、残差分析表格,得出了其残差平方和与均方平方和数值:从结果可以得到,两个回归模型的F值分别为59.268与74.499,根据F分布表格,易查得,方案二的回归显著性更高。因此我们选用模型二的拟合函数作为最终输出结果。下面是回归标准化残差图:Anovac模型平方和df均方FSig.1回归5.177E915.177E959.268.000a残差1.136E91387355376.604总计6.313E9142回归5.842E922.921E974.499.000b残差4.705E81239211809.744总计6.313E914a.预测变量:(常量),工业增加值(亿元)。b.预测变量:(常量),工业增加值(亿元),第三产业增加值(亿元)。c.因变量:国内生产总值增值(亿元)图2-8回归残差结果图2-9回归残差结果我们利用2013年数据进行拟合测试:方案一:Ỹ1=∗6=66方案二:Ỹ2=∗6+∗6=6实际输出为:Y=可以看出,两个模型与实际结果的误差仍然较大,相比之下模型二更接近实际输出,但是仍不满足我们预期的结果,超出误差范围很大。因此此模型建立得不够完善,或者说,模型中自变量与因变量的线性关系仍不明显。三结果分析由于软件所建立模型在测试过程中仍然误差较大,所以可以得出这样的结论:本模型中自变量第一产业增加值、第二产业增加值、第三产业增加值、工业增加值、建筑业增加值与因变量国民生产总值增值之间的线性关系不明显。但综合来看,模型二较为可靠:Y=𝑥3+𝑥4参考文献[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:北京航空航天大学数学系,2014.[2]张建同,孙昌言.以Excel和SPSS为工具的管理统计[M].北京:清华大学出版社,2002.[3]国家统计局.2010年中国统计年鉴[M].中国统计出版社,2013.