应用回归分析课程设计报告课程:应用回归分析题目:人均可支配收入的分析年级:11金统专业:金融统计学号:姓名:指导教师:徐州师范大学数学科学学院基于多元线性回归模型对我国城镇居民家庭人均可支配收入的分析摘要:收入分配和消费结构都是国民经济的重要课题居民消费的主要来源是居民收入而消费又是拉动经济增长的重要因素。本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。通过分析找出我国城镇居民收入特点及其中存在的不足。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文根据我国城镇居民家庭人均可支配收入为研究对象,选取可能影响我国城镇居民家庭人均可支配收入的城乡居民储蓄存款年底余额、城乡居民储蓄存款年增加额、国民总收入、职工基本就业情况、城镇居民家庭恩格尔系数(%)5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用方差扩大因子法城乡居民储蓄存款年增加额剔除城镇居民家庭恩格尔系数(%)解决多重共线性,建立最终回归方程432108.0039.0012.0470.5305xxxy标准化回归方程**3*24108.0863.0031.0xxxy以其探究最后进入回归方程的几个变量在影响城镇居民收入孰轻孰重,达到学习与生活结合的效果。分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。关键词:多元线性回归异方差自相关多重共线性逐步回归方差扩大因子(一)引言:改革开放以来我国的国民经济增长迅速居民的收入水平也大幅提高但居民收入分配差距也在不断扩大。2008年的金融危机为我国带来的后遗症还在继续影响着居民正常生活物价上涨和通货膨胀的压力仍然困扰着老百姓收入和消费支出体系的健康发展至关重要。消费是拉动国民经济增长的一架重要马车收入又是决定居民消费的最主要因素。我国人口基数大消费群体众多但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。而且随着中国特色的市场经济体制的建立各种收入分配问题也愈发明显。因此鉴于篇幅限制本文就只针对城镇居民的收入进行分析。中国网北京7月13日讯国家统计局今日发布数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。上半年,城镇居民家庭人均总收入12076元。其中,城镇居民人均可支配收入11041元,同比增长13.2%,扣除价格因素,实际增长7.6%。在城镇居民家庭人均总收入中,工资性收入同比名义增长11.5%,转移性收入增长9.9%,经营净收入增长31.2%,财产性收入增长20.4%。农村居民人均现金收入3706元,同比增长20.4%,扣除价格因素,实际增长13.7%。其中,工资性收入同比名义增长20.1%,家庭经营收入增长21.0%,财产性收入增长7.5%,转移性收入增长23.2%。财政部副部眨楼继伟就调整城镇中低收入居民收入政策符记者问中说:“由于城乡居民收入增长趋缓,居民对未来支出增加的预期增强,消费意愿减弱,导致消费需求不旺。针对有效需求不足这一突出问题,党中央利国务院决定,积极调整收入分配政策,通过提高国有企业下岗职工等低收入者的生活保障水平和增加机关事业单位职工工资等措施,逐步改变居民收入预期下降、支出预期I:列、高收入者消费意愿不强、低收入者消费能力不足的状况,旨在刺激消费需求,健进国民经济持续快速健康发展。”下面通过统计数据对我国城镇居民家庭人均可支配收入的总体现状和发展态势进行分析了解我国居民收入分配情况。(二)问题重述以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。(三)模型分析与建立①多元线性回归模型1.多元线性回归模型的一般形式设随机变量y与一般变量pxxx,,,21的线性回归模型为ppxxxy22110(4.1)其中,p,,,10是1p个未知参数,0称为回归常数,p,,1称为回归系数。y称为被解释变量(因变量),pxxx,,,21是p个可以精确测量并控制的一般变量,称为解释变量(自变量)。是随机误差,与一元线性回归一样,对随机误差项我们常假定2)var(0)(E(4.2)称ppxxxyE22110)((4.3)为理论回归方程。对一个实际问题,如果我们获得n组观测数据),,2,1(),,,(;21niyxxxiipii,则线性回归模型(4.1)式可表示为nnppnnnppppxxxyxxxyxxxy2211022222211021112211101(4.4)写成矩阵形式为Xy(4.5)其中nyyyy21npnnppxxxxxxxxxX212222111211111p210n210(4.6)X是一个)1(pn阶矩阵,称为回归设计矩阵或资料矩阵。2.多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:(1)解释变量pxxx,,,21是确定性变量,不是随机变量,且要求npXrank1)(。这里的npXrank1)(,表明设计矩阵X中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X是一满秩矩阵。(2)随机误差项具有零均值和等方差,即njijijiniEjii,,2,1,,,0,),cov(,,2,1,0)(2(4.7)这个假定常称为高斯—马尔柯夫条件。0)(iE,假设观测值没有系统错误,随机误差项i的平均值为0。随机误差项i的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为相互独立niniN,,,,,2,1),,0(~212(4.8)对于多元线性回归的矩阵模型(4.5)式,这个条件便可表示为),0(~2nIN(4.9)由上述假定和多元正态分布的性质可知,随机变量y服从n维正态分布,回归模型(4.5)式的期望向量XyE)((4.10)nIy2)var((4.11)因此),(~2nIXNy(4.12)②回归参数的普通最小二乘估计线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。对于(4.5)式表示的回归模型Xy,所谓最小二乘法,就是寻找参数p,,,,210的估计值pˆ,,ˆ,ˆ,ˆ210,使离差平方和2221101210)(),,,,(ippiiniipxxxyQ达到极小,即寻找pˆ,,ˆ,ˆ,ˆ210满足2221101210)(),,,,(ippiiniipxxxyQ2122110,,,)(min210niippiiixxxyp(4.13)依照(4.13)式求出的pˆ,,ˆ,ˆ,ˆ210就称为回归参数p,,,,210的最小二乘估计。ppxxxyˆˆˆˆˆ22110(4.14)为经验回归方程。(四)问题分析①数据说明以1991年-2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。数据来源国家统计局网站统计年鉴。②求解分析直接进入法模型汇总模型RR方调整R方标准估计的误差1.999a.999.999212.39403a.预测变量:(常量),家庭恩格尔系数,年增加额,就业情况,国民总收入,年底余额。可以看出调整后的决定系数999.02R,说明回归方程的拟合优度比较好。Anovab模型平方和df均方FSig.1回归6.745E851.349E82990.552.000a残差676668.3531545111.224总计6.752E820a.预测变量:(常量),家庭恩格尔系数,年增加额,就业情况,国民总收入,年底余额。b.因变量:可支配收入方差分析表可以看出,F检验的检验值F=2990.552非常大,再看F检验的P值0.000,可知此回归方程高度显著,即做出5个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。系数a模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-4471.2783126.013-1.430.173-11134.2182191.662储蓄存款年底余额.004.008.060.457.654-.013.020储蓄存款年增加额.011.010.0271.084.296-.010.032国民总收入.036.005.8067.156.000.025.047就业情况.102.021.1274.817.000.057.147家庭恩格尔系数-7.24833.502-.008-.216.832-78.65664.161a.因变量:可支配收入此时得到的回归方程为:43221248.7102.0036.0011.0004.0278.4471xxxxxy复决定系数为0.999,F-检验高度显著(F=2990.552,P=0.000),说明模型整体拟合效果不错。首先看t检验结果,j的t统计量)5,,2,1(jtj及其相应的p值就是上表第五列(Sig.)的结果。我们可以发现显著性水平05.0时只有国民总收入(3x)和就业情况(4x)通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有某些自变量jx(甚至每个jx)对y无显著影响的情况。接着看看回归系数的置信区间除了有国民总收入(3x)系数95%置信区间[0.025,0.047]和就业情况(4x)系数95%置信区间[0.057,0.147]不包含0,这也反映了回归系数的不合理。那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。(1)异方差和自相关在回归模型的基本假设中,假定随机误差性n,,,21具有相同的方差,独立或不相关,即对于所有样本点,有njijijiniEjii,,2,1,,0,),cov(,,2,1,0)(2但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即)var()var(ji,当ji时另一种是自相关性,即0)(covji,,当ji时,异方差带来的问题:当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。当存在异方差时,参数向量ˆ的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估ˆ的真是方差的情况,进一步将导致高估回归系数的t检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。当存在异方差是,普通最小二乘估计存在以下问题:1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。自相关带来的问题: