实验五:残差分析【实验目的】(1)通过残差检验,掌握残差分析的方法(2)异常值检验【仪器设备】计算机、spss软件、何晓群《实用回归分析》表和表的数据【实验内容、步骤和结果】对何晓群《实用回归分析》表的数据进行残差分析原始数据如表1,其中y表示货运总量(亿吨)x1表示工业总产值(亿元)x2表示农业总产值(亿元)x3表示居民非商业支出(亿元)表1.yx1x2x31607035126075402106540226574423240723822068452757842416066362275704425065423对表1数据用spss软件进行分析得以下各表表2.模型汇总模型RR方调整R方标准估计的误差1.898a.806.708a.预测变量:(常量),x3,x1,x2。b.因变量:y由上表可知复相关系数R=,决定系数R方=,由决定系数看出回归方程的显著性不高,接下来看方差分析表3表3Anova模型平方和df均方FSig.1回归3.015a残差6总计9a.预测变量:(常量),x3,x1,x2。b.因变量:y由表3知F值为较小,说明x1、x2、x3整体上对y的影响不太显著。表4系数模型非标准化系数标准系数tSig.B标准误差试用版1(常量).096x1.385.100x2.535.049x3.277.284回归方程为123348.2803.7547.10112.447yxxx表5残差统计量极小值极大值均值标准偏差N预测值10标准预测值.00010预测值的标准误差10调整的预测值10残差.00010标准残差.000.81610Student化残差10已删除的残差10Student化已删除的残差10Mahal。距离.89410Cook的距离.000.486.97610居中杠杆值.099.642.300.17310--------图1.学生化残差-----------图2.回归学生化删除的残差---------------图3.回归删除的残差:对数据用spss进行分析得表6异常值的诊断分析yx1x2x3ZRE_1SRE_1SDR_1COO_1LEV_116070351260754021065402265744230240723822068452757842416066362275704425065423从表6中可以看出,绝对值最大的学生化残差SRE=,小于3,因而根据学生化残差诊断认为数据不存在异常值.绝对值最大的删除学生化残差为SDR=,因而根据学生化删除残差诊断认为第6个数据为异常值.其中中心化杠杆值,cook距离为位于第一大.因此第6个数据为异常值.对何晓群《实用回归分析》表的数据进行残差分析原始数据为:表个啤酒品牌的广告费用和销售量啤酒品牌广告费X/万元销售量Y/万箱A120BCDEF1GHIJ对上表数据进行回归分析得表8.系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量).097广告费/万元.196.036.886.001回归方程为4.0680.196yx回归方程通过了F检验、t检验,只是表明变量x和y之间的线性关系是显著的,但不能保证数据拟合得很好。残差分析可知存在有影响的观测值并且为异值。对表7进行异常值诊断分析得表9:表9.异常值的诊断分析啤酒品牌广告费/万元销售量/万箱ZRE_1SRE_1SDR_1COO_1LEV_1A120BCDEF1GHIJ从表9中可以看出,绝对值最大的学生化残差SRE=,小于3,因而根据学生化残差诊断认为数据不存在异常值.绝对值最大的删除学生化残差为SDR=,因而根据学生化删除残差诊断认为第1个数据为异常值.其中中心化杠杆值,cook距离为位于第一大.因此第1个数据为异常值.从回归标准化残差图4看,y的观测值的方差不相同,而是随着x的增加而增加的。异常值的原因并不是数据的随机误差,而是由于本数据存在异方差,应采用加权最小二乘法进行回归,回归结果会较精确。图4.回归标准化残差图【实验小结】(包括收获、心得体会、存在的问题及解决问题的方法、建议等)通过这次实验,我进一步了解并掌握了运用SPSS软件对数据进行分析和处理,通过残差检验,掌握残差分析的方法和异常值检验,还有EXCEL的表格应用。在老师和同学们的帮助下顺利的解决了处理数据中遇到的问题,希望在以后的学习实践中能熟练运用spss软件进行数据处理与分析。