应用数理统计论文基于逐步回归法的国家财政收入回归分析学院:专业:姓名:学号:任课教师:基于逐步回归法的国家财政收入回归分析摘要财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。对财政收入的影响因素进行分析,有助于更好的把握财政收入并做出相应的宏观调控。本文采用逐步回归法,基于SPSS统计分析软件建立了国家财政收入的回归模型,研究了一些相关因素对国家财政收入的影响,涵盖了工业、农业、建筑业、第三产业的总产值以及社会商品零售总额、人口、受灾面积、居民消费水平八个因素,同时对回归模型进行了分析、检验和预测,验证了模型的正确性。关键词:SPSS财政收入逐步回归回归模型AbstractThefiscalrevenueisanimportantindexthatevaluatesthefinancialcapabilityofagovernment.Thescaleandamountofpublicfacilitiesandservicesthatthegovernmentoffersinsocialandeconomicactivitiesdependalotontheconditionofitsfiscalrevenue.Theanalysisonthepossiblefactorsthatmayinfluencethefiscalrevenuecancontributetothepropercontrolandarrangementoftherevenue.BasedontheSPSSsoftware,thepaperappliesthestepwiseregressionmethodtobuildtheregressionmodelofthenationalfiscalrevenue.Theinfluencecausedbysomepossiblefactorsarealsoanalyzed,whichincludeindustry,agriculture,architecture,thegrossoutputvalueoftertiaryindustry,totalvolumeofretailsales,population,damageareaandresidentconsumptionlevel.Theregressionmodelisalsoverifiedandestimatedtoensureitsaccuracy.Keywords:SPSS,fiscalrevenue,stepwiseregression,regressionmodel1引言国家财政收入对于国民经济的正常运行以及社会的蓬勃发展有着重要的影响。它是国家各项政策得以实现的物质保证,其规模大小是衡量国家经济实力的重要标志,同时也是国家对经济进行宏观调控的重要经济杠杆。因此对财政收入进行研究显得尤为重要。改革开放以来,随着经济的飞速发展,我国的财政收入也呈快速增长趋势。这其中的影响因素有很多,如国内生产总值、税收、科学教育发展程度、人口状况、城乡就业人数等等,因此,如果仅采用一般的统计模型很难表述其与相关因素之间的相关关系。为了建立财政收入与影响因素之间的数学模型,需要考虑克服模型变量的多重共线性问题,常用的方法主要有:排除引起共线性的变量;差分法;减小参数估计量的方差。由于后两类方法都只能减轻多重共线性对模型的影响,而第一类方法,从根本上寻找引起多重共线性的解释变量,将其排除出原模型,因而第一类方法更为有效。本文将该原理的应用---逐步回归方法引入财政收入模型的建立问题中。2逐步回归分析法的原理及过程在建立数学模型的时候,人们一方面为获取全面信息总希望模型中包含的自变量尽可能多;另一方面,考虑到获取很多自变量的观测时的费用和实际困难,则希望模型中包尽可能少且重要的变量。因此,为使所建立的线性回归模型“最优”,就应满足一下两个条件:(1)模型中要包含所有对y影响显著的自变量,消除对y影响不显著的自变量;(2)模型包含的各自变量之间不存在多重共线即各自变量之间不存在线性相关关系或近似线性相关关系。[1]为了解决以上两个问题,最有效的方法是采用逐步回归分析方法。2.1逐步回归分析法的原理逐步回归的基本思想是:对全部因子按其对影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对作用最大者,检验其显著性,显著者,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。增加或减少某个自变量的准则是用残差平方和的变化量来衡量,一般采用F检验统计量进行检验,因此逐步回归的每一步的前后都要作F检验,以保证每次在引入新的显著变量之前回归方程中只包含显著的变量,直至没有显著的变量可以引入回归方程为止。这样得出来的回归方程剔除了对因变量不重要的自变量,使回归方程更简单。2.2逐步回归分析法的过程逐步回归分析具体步骤如下:步骤1:输入原始样本数据11121212221m212nnmmnnxxxxxxxxxyyy,计算协差阵()ijnmSs,其中:1()()nijjikiikjjkssxxxx;步骤2:计算相关系数矩阵()ijnmRr,其中:ijijjiiijjsrrss;步骤3:计算各个自变量的方差贡献,以1l步为例:(1)(1)(1)(1)mjjmjjjrrVr步骤4:做剔除变量的显著性F检验。检验时,先选定置信度,查表得到F,挑选方差最小的变量,计算(1)(1)min(1)/jFVnlr,若FF则说明该变量对y作用不显著,应予以剔除,并对相关矩阵R作消去变换。步骤5:做引入变量的显著性F检验。检验时,挑选未引入模型中的变量的显著性贡献度最大的计算:(1)(1)(1)min(2)/()jjFVnlrV,若FF则说明该变量对y作用显著,应引入变量,并对相关矩阵R作变换。步骤6:如以上步骤,检验是否接受新变量,引入回归方程后,检验其显著性,判断是否有变量应该剔除,直至无变量可引入和剔除为止,逐步回归结束,将上述所有标准化的量,化成实际回归系数,再求出常数项。3国家财政收入回归模型3.1数据采集本文从《中国统计年鉴2011》中采集并整理了1991~2010年影响我国财政收入的主要因素的相关数据信息,包括工业总产值(亿元)、农业总产值(亿元)、建筑业总产值(亿元)、第三产业总产值(亿元)、社会商品零售总额(亿元)、人口数量(万人)、受灾面积(千公顷)以及居民消费水平(元)。数据如表3.1所示。其中1991~2009年的数据作为模型建立的依据,2010年的数据用作对模型的检验。3.2变量标识为了方便模型的描述,本文对各影响因素做了如表3.2所示的符号约定。并选择财政收入y为因变量,其余8个影响因素X1、X2、X3、X4、X5、X6、X7、X8为自变量。表3.2符号说明符号yX1X2X3X4X5X6X7X8变量财政收入工业总产值农业总产值建筑业总产值第三产业总产值社会商品零售总额人口受灾面积居民消费水平表3.1样本数据年份财政收入工业总产值农业总产值建筑业总产值第三产业总产值社会商品零售总额人口受灾面积居民消费水平19913149.488087.15342.21015.17337.19415.61158235547293219923483.3710284.55866.614159357.3810993.711717151332111619934348.95141886963.82266.511915.7314270.411851748827139319945218.119480.79572.72964.716179.7618622.911985055046183319956242.224950.612135.83728.819978.4623613.812112145824235519967407.9929447.614015.44387.423326.2428360.212238946991278919978651.1432921.414441.94621.626988.1531252.912362653427300219989875.9534018.414817.64985.830580.4733378.1124761501453159199911444.0835861.5147705172.133873.4435647.912578649979.53346200013395.2340033.614944.75522.338713.9539105.7126743546883632200116386.0443580.615781.35931.744361.6143055.412762752214.63887200218903.6447431.3165376465.549898.948135.912845346946.14144200321715.2554945.517381.77490.856004.7352516.312922754505.84475200426396.476521021412.78694.364561.295950112998837106.265032200531649.2977230.82242010133.874919.2867176.613075638818.235573200638760.291310.92404011851.188554.887641013144841091.416263200751321.78107367.22809514014.1111351.958921013212948992.357255200861330.35130260.243370218743.2131339.99114830.113280239990.038349200968518.3135239.953522622398.83147642.09132678.413347447213.699098201083101.5116086736941.1126714.4173087.01156998.4134091374269968(注:2010年的数据用作预测)我们可以建立如下的回归模型[2]:2()0,()nyXEVarI其中,In在本模型中为8阶单位矩阵,),....,ε,ε(εεXXXXXXXXXn2187654321087654321),,,,,,,,(),,,,,,,,1(为了使建立的回归模型达到最佳效果,本文选用上文所描述的逐步回归分析法并利用SPSS19软件求解此线性回归模型。3.3逐步回归分析3.3.1逐步回归分析操作步骤基于上文中搜集到的数据,在SPSS软件中建立数据视图,以8个影响因素为X1-X8,以财政收入为Y,各列数据均为数值类型。在SPSS中进行逐步回归分析的一般步骤如下所示:1.创建数据;2.打开线性回归功能;3.将X1-X8依次选为因变量,Y选为自变量;4.设置统计量,确定置信水平,启用个案诊断;5.设置绘图选项;6.设置使用F的概率;7.完成设置,开始分析;8.得到分析结果图表,分析结果并保存。以下几个小节中,将对本次分析的分析结果进行阐述和总结。3.3.2输入/剔除表表3.3.为分析过程中变量的输入和剔除情况。表3.3输入/移除的变量a模型输入的变量移去的变量方法1X4第三产业总产值.步进(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。2X6人口.步进(准则:F-to-enter的概率=.050,F-to-remo