北京航空航天大学利用逐步回归法建立国家财政收入的回归模型数理统计第一次大作业2015年12月利用逐步回归法建立国家财政收入的回归模型摘要:本文利用SPSS软件采用逐步回归法,建立了2000年至2014年国家财政收入的回归模型。其中,选取了工业增加值、农业总产值、建筑业总产值、社会商品零售总额、人口数和受灾面积作为可能的影响因素对国家的财政收入模型进行了分析。最后得出工业增加值、建筑业总产值是对国家财政收入影响最为显著的因素,并对其进行了分析。关键词:SPSS;逐步回归法;财政收入;回归模型目录1引言.........................................................................................................12建模.........................................................................................................12.1数据收集与整理..............................................................................12.2逐步回归分析..................................................................................32.2.1逐步回归法的基本思想............................................................32.2.2分析过程....................................................................................32.2.3结论..........................................................................................113分析与讨论...........................................................................................11参考文献...................................................................................................1211引言财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务所需要而筹集的一切资金的总和。财政收入表现为政府部门在一个时期内所取得的货币收入,财政收入是衡量一国政府财力的重要指标。政府在社会经济活动中提供的公共物品和服务的范围及数量,在很大程度上决定与财政收入的充裕状况。财政收入对国民经济的运行及社会发展具有重要影响。由于财政收入关系到国家的经济发展和社会进步,因此研究财政收入的增长情况显得尤为重要。为了分析影响财政收入的主要原因,研究财政收入的增长规律,为预测财政收入增减趋势提供依据,就需要建立财政收入的经济模型。本文统计了从2000年至2014年这15年之间的财政收入与工业增加值、农业总产值、建筑业总产值、社会商品零售总额、人口、受灾面积这六个可能影响财政收入的因素之间的关系,利用SPSS软件进行了逐步回归分析,建立了国家财政收入的线性回归模型。2建模2.1数据收集与整理查阅《中国统计年鉴》,选取2000年至2014年之间的财政收入作为因变量,选取工业增加值、农业总产值、建筑业总产值、社会商品零售总额、人口、受灾面积六个可能影响财政收入的因素为自变量,统计结果如表2.1[1]。2表2.1财政收入及其影响因素统计表各变量的符号说明如表2.2。表2.2各变量的符号说明变量符号财政收入Y工业增加值X1农业总产值X2建筑业总产值X3社会商品零售总额X4人口数X5受灾面积X6该问题的线性回归模型为:Y=a+b1X1+b2X2+b3X3+b4X4+b5X5+b6X6。其中,Y为因变量的估计值或预测值,X1、X2……X6为自变量年份财政收入(亿元)工业增加值(亿元)农业总产值(亿元)建筑业总产值(亿元)社会商品零售总额(亿元)人口数(万人)受灾面积(万公顷)200013395.2339931.813873.612497.6039105.71267435468.8200116386.0443469.814462.815361.5643005.41276275221.5200218903.6447310.714931.518527.1848135.91284534694.6200321715.2554805.814870.123083.8752516.31292275450.6200426396.4765044.218138.429021.4559501.01299883710.6200531649.2977034.319613.434522.1068352.61307563881.8200638760.2091078.821522.341557.1679145.21314484109.1200751321.78110253.924658.151043.7193571.61321294899.2200861330.35129929.128044.262036.81114830.11328023999.0200968518.30135849.030777.576807.74132678.41334504721.4201083101.51162376.436941.196031.13156998.41340913742.62011103874.43191570.841988.6116463.32183918.61347353247.12012117253.52204539.546940.5137217.86210307.01354042496.12013129209.64217263.951497.4160366.06242842.81360723135.02014140349.74228122.954771.6176713.40271896.11367822489.132.2逐步回归分析2.2.1逐步回归法的基本思想从所有解释变量中先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,当原引入的变量由于后面变量的引入而变得不再显著时,将其剔除;逐个引入——剔除——引入,反复这个过程,直到既无显著变量引入回归方程,也无不显著变量从回归方程中剔除为止[2][3]。2.2.2分析过程首先利用SPSS软件绘制财政收入与各因变量之间的关系,如图2.1。4图2.1财政收入与各自变量直接的关系由散点图可以看出,财政收入与工业增加值、农业总产值、建筑业总产值和社会商品零售总额的线性关系较为显著。而与人口数呈指数相关性,与受灾面积的相关性并不明显。接下来进行相关性分析,相关性分析见表2.3。5表2.3因变量与自变量的相关性分析表财政收入(亿元)工业增加值(亿元)农业总产值(亿元)建筑业总产值(亿元)社会商品零售总额(亿元)人口数(万人)受灾面积(万公顷)财政收入(亿元)Pearson相关1.994**.999**.997**.997**.959**-.841**显著性(双侧).000.000.000.000.000.000N15151515151515工业增加值(亿元)Pearson相关.994**1.992**.984**.985**.977**-.839**显著性(双侧).000.000.000.000.000.000N15151515151515农业总产值(亿元)Pearson相关.999**.992**1.998**.998**.954**-.849**显著性(双侧).000.000.000.000.000.000N15151515151515建筑业总产值(亿元)Pearson相关.997**.984**.998**1.999**.945**-.843**显著性(双侧).000.000.000.000.000.000N15151515151515社会商品零售总额(亿元)Pearson相关.997**.985**.998**.999**1.947**-.837**显著性(双侧).000.000.000.000.000.000N15151515151515人口数(万人)Pearson相关.959**.977**.954**.945**.947**1-.836**显著性(双侧).000.000.000.000.000.000N15151515151515受灾面积(万公顷)Pearson相关-.841**-.839**-.849**-.843**-.837**-.836**1显著性(双侧).000.000.000.000.000.000N15151515151515**.相关性在0.01水平上双侧显著相关。从上表中可以看出,财政收入与各个自变量之间均具有一定的相关性。进一步进行逐步回归分析。逐步回归在建立多元回归的模型中,按相关性的大小逐个引入自变量,并进行统计检验,效应显著的自变量留在方程内,并循环遴选下一个自变量。利用SPSS计算时,Fin=0.05,Fout=0.10。输出结果如表2.4-表2.9,如图2.2-图2.3。6表2.4已输入/已移除的变量a模型输入的变量移除的变量方法1农业总产值(亿元).逐步(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。2工业增加值(亿元).逐步(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。3建筑业总产值(亿元).逐步(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。4.农业总产值(亿元)逐步(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。5人口数(万人).逐步(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。a.因变量:财政收入(亿元)表2.5模型摘要f模型RR平方调整后R平方标准偏斜误差变更统计资料R平方变更F值变更df1df2显著性F值变更1.999a.998.9982045.63430.9986370.486113.0002.999b.999.9981732.80231.0016.118112.02931.000c.999.9991355.29365.0018.616111.01441.000d.999.9991306.36708.000.149111.70751.000e.999.9991111.37130.0005.580111.038a.预测值:(常数),农业总产值(亿元)b.预测值:(常数),农业总产值(亿元),工业增加值(亿元)c.预测值:(常数),农业总产值(亿元),工业增加值(亿元),建筑业总产值(亿元)d.预测值:(常数),工业增加值(亿元),建筑业总产值(亿元)e.预测值:(常数),工业增加值(亿元),建筑业总产值(亿元),人口数(万人)f.因变量:财政收入(亿元)7表2.6方差分析a模型平方和df平均值平方F显著性1回归26658059061.325126658059061.3256370.486.000b残差54400055.743134184619.673总计26712459117.068142回归26676427870.983213338213935.4914442.216.000c残差36031246.086123002603.840总计26712459117.068143回