多元统计分析-大作业

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多元统计分析大作业班级:数学15-2班组员1:胡汇丰学号1:2015011510组员2:胡明禹学号2:2015011512组员3:刘劭学号3:2015011518指导老师:李晓童完成时间:2018年6月12日摘要本文针对影响财政收入的8个因素:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数,在收集并处理大量数据信息的基础上,研究财政收入的线性回归问题。本文主要依托于SAS软件进行初步的线性回归和变量选择的线性回归。为得到关于财政收入的回归方程,我们对财政收入和8个自变量运用SAS的REG过程进行初步的线性回归,得到的回归方程为式(6.1),方程高度显著,而自变量2467xxxx,,,的p值均大于α,这与回归方程高度显著产生矛盾,基于此我们运用逐步回归法进行变量的选择和删除,结合SAS得到,当逐步回归进行到第六步时,由回归方程显著性检验结果和回归系数显著性检验结果知该回归方程高度显著,因此最终的回归方程为:1358ˆ9702.823220.091400.091320.175431.06277Yxxxx。1一.背景介绍与问题提出1.1背景介绍财政预测[1]是对财政分配过程及其发展趋势预先作出分析、判断和推测的过程。财政预测不是主观意识的先知先觉,而是在正确理论的指导下,通过对大量信息资料的占有、分析和科学测算,来揭示财政分配的变化规律及其发展趋势的。财政预测是现代财政管理的重要环节。通过预测推断未来财政分配规模、结构、形式等的变化,达到提高财政决策水平,增强财政决策的科学性,减少财政分配的盲目性,优化财政分配活动的目的。经查阅资料知,影响财政收入的因素有很多,本文选以下因素作为自变量进行分析:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数。1.2问题的提出在此背景下,我们小组按以下三个个问题建立关于财政收入的回归模型,实现对财政收入的预测。1.查找资料搜集8个自变量和因变量的相关数据,构建财政收入与8个自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。2.对回归方程中的参数和方程本身进行显著性检验。3.评价自变量对因变量的贡献(利用逐步选元法)。4.利用所求得的回归方程对因变量进行预测。二.问题分析本文的目标是基于财政收入的有关数据建立线性回归方程。我们先对所有变量进行常规的回归分析,包括回归系数的最小二乘解,系数的显著性检验等,若每个系数都能通过显著性检验,说明我们建立的模型是合理的,可以用来进行预测,若不然,则使用逐步回归分析的方法对变量进行筛选,最终得到“最优”的回归方程。三.模型假设1.国家统计局有关财政收入的数据是准确可靠的;2.假设因变量Y与各自变量是线性相关的。2四.符号说明表4-1符号说明符号含义符号含义Y因变量SSR回归平方和X自变量SSE残差平方和随机误差MSR回归均方和j回归系数(1,2,jp)MSE均方误差ˆ的参数估计SST总离差平方和五.线性回归模型5.1多元线性回归模型的建立多元线性回归模型[2]为:ppXXXY22110(5.1)如果记12nyyYy,111212122212111ppnnnpxxxxxxXxxx,01p,12n,则方程(3.1)可表示为以下矩阵形式:YXB(5.2)5.1.2多元回归模型的参数估计参数估计回归模型(3.1)式,其参数的最小二乘估计量(OLS)为:1ˆ(')'XXXY(5.3)记ˆˆYX,则:2ˆˆˆ1np(5.4)特别地,对于一元线性回归,其参数的估计量为:3xySSxxyyxxxxxyniiniii101211ˆˆˆ(5.5)其中:niiniiynyxnx111,1;niiixyyyxxS1))((,niixxxxS12)(。则:01ˆˆˆiiyx,从而有:212)ˆ(21ˆniiiyyn(5.6)参数估计量性质在误差项服从正态分布的假定下,估计量1ˆ(')'XXXY是线性无偏最小估计量(BLUE)。且有:12ˆ~(,)NXX,即估计量服从均值为B,协方差阵为12XX的多元正态分布。特别地对于一元线性回归有:),(~ˆ12211niixxN,))1(,(~ˆ212200niixxxnN(5.7)即估计量0ˆ,1ˆ均服从正态分布,且是线性无偏最小估计量。5.1.3多元线性回归模型的检验在估计出了回归方程后,一个很自然的问题是,这个方程拟合得好吗?对于线性回归模型,因变量与自变量之间的关系是线性的吗?方程中的每个自变量都对因变量有显著影响吗?自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以下假设检验进行部分解决。2R检验2R的定义为:21SSRSSERSSTSST(5.8)4其中2()iSSTyy称为总离差平方和;2ˆ()iSSRyy称为回归平方和,它表示来自自变量对总离差的贡献;2ˆ()iiSSEyy称为残差平方和,它表示来自误差项对总离差的贡献。并且有SSTSSRSSE。拟合优度2R表示,因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说,不能由自变量来解释的部分为:21-R。显然2R越大,越接近于1表明拟合就越好。由于2R随着自变量个数的增加而增加,所以在多元回归的情况下,通常要对2R进行调整。调整后的2R用2adjR表示,定义为:22/(1)11(1)/(1)1adjSSEnPniRRSSTnnp,其中当模型中不包含常数项时0i,当模型中包含常数项时1i。自变量与因变量之间线性关系的F检验在线性回归分析中,我们一般假定回归方程有以下形式:01122(|)ppEYXXXX,即()EY与p个自变量之间线性相关,但实际情况怎样呢,这需要通过检验来回答。为此,记SSRMSRp,称为回归均方和,1MSEMSRnp,称为误差均方和,定义:~(,1)MSRFFpnpMSE(5.9)在给定的显著性水平下,若由样本观测值计算的F值大于(,1)Fpnp,则自变量与因变量之间具有显著的线性关系,否则,变量之间不具有显著的线性关系。在SAS系统中,一般通过F值对应的p值来判断变量之间线性关系的显著性。若F值对应的p值小于给定的显著性水平,则因变量与p个自变量存在显著的线性关系,否则线性关系不显著,需用自变量的其它曲线形式来拟合。回归参数的t检验在线性回归方程中,回归参数j表示自变量jX每变动一个单位,因变量Y的平均变动幅度,即jX的单位变动对因变量的影响程度。因此,检验回归参数j是否有显著差异至关重要,实际应用中通常作如下假设:0:0jH,0:1jH5由于12ˆ~(,)NXX,记:ppppppaaaaaaaaaXX1011110001001)((5.10)则有:jjE)ˆ(,2)ˆ(jjjaVar,pjaNjjjj,,2,1,0),,(~ˆ2,从而统计量:)1(~ˆˆ)ˆ(ˆpntastjjjjj,pj,,2,1,0(5.11)当给定显著性水平为下,若由样本观测值计算的t值的绝对值大于)1(2pnt,则参数j与0有显著性差异,否则,参数j与0没有显著差异。在SAS系统中,一般通过t值所对应的p值来判断回归参数与0是否有显著性差异。若t值所对应的p值小于给定的显著性水平,则回归参数j与0有显著性差异。特别地,当自变量个数p=1时,一元线性回归系数1的检验统计量为:)2(~ˆˆ)ˆ(ˆ111ntSstxx(5.12)5.4逐步回归法逐步回归[3]的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。六.问题的求解66.1初步的回归方程的建立和回归系数的显著性检验由国家统计局我们得到以下数据(部分),详细数据见附录表8-1:表6-1财政收入相关数据(部分)年份财政收入(亿元)年末总人口(万人)就业人员(万人)国民总收入(亿元)全社会固定资产投资(亿元)19811175.79100072437254933.796119821212.33101654452955380.51230.419831366.95103008464366043.81430.119841642.86104357481977314.21832.919852004.82105851498739123.62543.219862122.011075075128210375.43120.619872199.351093005278312166.63791.719882357.241110265433415174.44753.819892664.91127045532917188.44410.419902937.11143336474918923.3451719913149.481158236549122050.35594.519923483.371171716615227208.28080.119934348.951185176680835599.213072.319945218.11198506745548548.217042.119956242.21211216806560356.620019.319967407.991223896895070779.622913.5年份财政收入(亿元)工业增加值(亿元)农林牧渔业增加值(亿元)居民消费价格指数(上年=100)各项税收(亿元)19811175.792067.71559.4102.5629.8919821212.3321831777.3102700.0219831366.952399.11978.3102775.5919841642.862815.92316102.7947.3519852004.823478.32564.3109.32040.7919862122.014000.82788.6106.52090.7319872199.354621.33232.9107.32140.3619882357.245814.13865.2118.82390.4719892664.96525.74265.81182727.419902937.16904.75061.8103.12821.8619913149.488138.25341.9103.42990.1719923483.3710340.55866.2106.43296.9119934348.9514248.86963.3114.74255.319945218.119546.99572.1124.15126.8819956242.225023.912135.1117.16038.04在对多元线性回归模型的建立

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功