2015级研究生《数理统计》课外大作业国家财政收入的多元线性回归模型1《数理统计》案例分析大作业(范例)学号姓名专业成绩国家财政收入的多元线性回归模型摘要:用Excel求解Y与X之间的初步回归模型,得到初步回归直线方程1234567284870.009090.462080.031870.2860660.221980.002920.239963Yxxxxxxx然后对此方程进行线性显著性检验和回归系数显著性检验。由20.999R知Y与X之间存在显著的线性,然而只有自变量27,xx满足通过t值检验,从而回归系数13456,,,,xxxxx与Y之间没有显著的线性关系,说明自变量之间存在多重共线性关系。采用MATLAB逐步回归方法对数据进行处理,根据程序自动提示得到最优回归方程57733410.6606580.241802yxx,此时20.997R,3008F。最后采用2010年的数据对此方程进行验证,得到结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。一、问题提出近年来,随着国家经济水平的飞速发展,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。2015级研究生《数理统计》课外大作业国家财政收入的多元线性回归模型2本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,社会商品零售总额,人口总数等。二、数据描述从《中国统计年鉴2010》查选数据,整理如表2-1所示:表2-1.1990-2009年财政收入及其影响因素统计表工业(亿元)农业(亿元)受灾面积(千公顷)建筑业(亿元)人口(万人)社会商品零售总额(亿元)国民生产总值(亿元)财政收入(亿元)199018689.227662.13847413451143338300.118718.32937.1199122088.688157554721564.31158239415.621826.23149.48199227724.219084.7513332174.411717110993.726937.33483.3719933969310995.5488293253.511851714270.435260.04348.95199451353.0315750.5550434653.311985018622.948108.55218.1199554946.8620340.9458215793.812112123613.859810.56242.2199662740.1622353.7469898282.212238928360.270142.57407.99199768352.6823788.4534299126.512362631252.978060.88651.14199867737.1424541.9501451006212476133378.183024.39875.95199972707.0424519.14998111152.912578635647.988479.211444.08200085673.6624915.85468812497.612674339105.798000.513395.23200195448.9826179.65221515361.512762743055.4108068.216386.042002110776.4827390.847119.118527.112845348135.9119095.718903.642003142271.2229691.854506.323083.812922752516.3135174.021715.252004201722.193623937106.25627745.312998859501159586.726396.472005251619.539450.938818.22534552.013075667176.6185808.631649.292006316588.9640810.841091.4141557.113144876410217522.738760.22007405177.1348892.935972.2351043.713212989210267763.751321.782008130260.233702.056234.2618743.2132802116032316228.861330.352009135239.935226.050223.5122398.813347414894343464.768518.30变量的假设如下表所示:表2-2.自变量假设表项目工业(亿元)农业(亿元)受灾面积(千公顷)建筑业(亿元)人口(万人)社会商品零售总额(亿元)国民生产总值(亿元)财政收入(亿元)变量1x2x3x4x5x6x7xy三、模型建立(1)回归模型的建立:多元回归模型011223344556677iiiiiiiiiYxxxxxxx2015级研究生《数理统计》课外大作业国家财政收入的多元线性回归模型320,iN写成矩阵形式即为:=+YXβε,其中11213141516171122232425262721234567811........................1nnnnnnnnxxxxxxxxxxxxxxxxxxxxxX0123456771β121...nnyyyY121...nnε当残差Tεε最小时,回归系数的解为1TTXXXYβ(2)对回归分析进行参数检验①线性回归模型的显著性检验提出假设0017:...0H采用R检验法,22RTSRS为样本的多元相关系数,R越接近1表示Y与X之间的线性相关越密切;R越接近0表示Y与X之间的线性相关越不显著。对给定的显著水平,当R的样本值1rrnk时(其中n为年份总数20,k为x前系数个数7),认为Y与X之间的线性相关显著;否则认为Y与X之间的线性相关不显著。②回归系数的显著性检验提出假设00:01,2,...,7iiHi,其拒绝域为iic设188TijCXXc,有2,1,2,...,7iiiiNci有0,1iiiiNc而且2ES与i独立,当0iH成立时有2211,11,2,...,7iiiiEnkFFnkicS。对于给定显著性水平,拒绝与的临界值为11,11iiiEcFnkcSnk。如果2015级研究生《数理统计》课外大作业国家财政收入的多元线性回归模型4结果是拒绝0iH,即为0i,表示i与Y之间存在显著的线性关系;如果接受0iH,即为0i,则应将ix从回归方程01717...yxx中剔除,建立新的回归方程*****011171117......iiiiyxxxx,重新用最小二乘法估计回归参数系数。一般而言*jj,但有如下关系:*,,0,1,...,7ijjjjiicjijc。剔除不显著的自变量的时候,考虑到自变量之间的交互作用对Y的影响,每次只剔除一个自变量,如果有几个自变量检验都不显著,则先剔除iF的样本值if中的最小的那个自变量。当剔除ix,重新建立新的回归方程后,还必须对剩下的变量再逐一检验它们的显著性,直至保留下的自变量对Y都有显著的作用为止。(4)MATLAB对模型的逐步回归分析采用MATLAB调用stepwise命令,用逐步回归分析工具箱,根据程序来选择最优变量组合,获得最优回归直线方程。四、计算方法设计和计算机实现采用Excel初步计算回归直线参数,检验线性回归模型的显著性,再检验回归系数的显著性。如果存在部分系数没有通过显著性检验,则采用逐步回归方法对Y与X进行处理。逐步回归可以借助MATLAB的命令工具箱stepwise进行。五、主要的结论(1)采用Excel计算回归直线方程结果05000010000015000020000025000030000035000040000045000001000020000300004000050000600007000080000x1x2x3x4x5x6x72015级研究生《数理统计》课外大作业国家财政收入的多元线性回归模型5图5.1Y与127,,...,xxx之间变化关系用Excel求解Y与127,,...,xxx之间的回归方程,其结果如下所示:表5.1回归统计MultipleR0.999698RSquare0.999396AdjustedRSquare0.999044标准误差617.9686观测值20表5.2方差分析DFSSMSFSignificanceF回归分析77.59E+091.08E+092837.6382.41E-18残差124582622381885.2总计197.59E+09表5.3方差分析Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept2848723619.411.2060840.251027-22975.379949.27-22975.379949.27XVariable1-0.009090.021538-0.421920.68054-0.056010.037839-0.056010.037839XVariable2-0.462080.100447-4.600190.000611-0.68093-0.24322-0.68093-0.24322XVariable3-0.031870.036786-0.866320.403303-0.112020.048281-0.112020.048281XVariable40.2860660.1664761.7183650.111398-0.076650.648785-0.076650.648785XVariable5-0.221980.215922-1.028050.324205-0.692430.248476-0.692430.248476XVariable6-0.002920.009354-0.311860.760501-0.02330.017464-0.02330.017464XVariable70.2399630.0035767.216667.8E-170.2321850.2477420.2321850.247742从而回归直线方程为:1234567284870.009090.462080.031870.2860660.221980.002920.239963Yxxxxxxx其中回归方程的相关系数2R较大,且F显著性水平接近0,故认为财政收入与上述变量之间存在显著的线性关系。但是只有变量27,xx满足通过t值检验,从而可以认为自变量之间存在较强的多重共线性。(2)采用MATLAB计算回归直线方程结果下面采用MAT