重庆交通大学学生实验报告实验课程名称应用回归分析开课实验室数学实验室学院理学院年级专业班学生姓名学号开课时间2013至2014学年第2学期评分细则评分报告表述的清晰程度和完整性(20分)程序设计的正确性(40分)实验结果的分析(30分)实验方法的创新性(10分)总成绩教师签名邹昌文2.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班工作时间的数据和签发新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。表2.7y3.5142134.51.535x825215107055048092013503256701215(1)画散点图;(2)x与y之间是否大致呈线性关系?(3)用最小二乘估计求出回归方程;(4)求回归标准误差ˆ;(5)给出0ˆ、1ˆ的置信度为95%的区间估计;(6)计算x与y的决定系数;(7)对回归方程做方差分析;(8)做回归系数1ˆ显著性检验;(9)做相关系数的显著性检验;(10)对回归方程做残差图并作相应的分析;(11)该公司预计下一周签发新保单01000x张,需要的加班时间是多少?(12)给出0y的置信水平为95%的精确预测区间和近视预测区间。(13)给出0()Ey置信水平为95%的区间估计。(1)将数据输入到SPSS中,画出散点图如下:(2)由下表可知x与y的相关系数高达0.949,大于0.8,所以x与y之间线性相关性显著。相关性yxPearson相关性y1.000.949x.9491.000Sig.(单侧)y..000x.000.Ny1010x1010(3)用SPSS进行最小二乘估计得到了如下系数表:系数a模型非标准化系数标准系数tSig.B的95.0%置信区间相关性共线性统计量B标准误差试用版下限上限零阶偏部分容差VIF1(常量).118.355.333.748-.701.937x.004.000.9498.509.000.003.005.949.949.9491.0001.000a.因变量:y由上表可知0、1的参数估计值0ˆ、1ˆ分别为0.118和0.004,所以y对x的线性回归方程为0.1180.004xy(4)由SPSS得到如下模型汇总表:模型汇总模型RR方调整R方标准估计的误差1.949a.900.888.4800a.预测变量:(常量),x。由模型汇总表可知回归标准误差=0.4800(5)由以下系数表可知0ˆ、1ˆ的置信度为95%的区间估计分别为:(-0.701,0.937)和(0.003,0.005)。系数a模型非标准化系数标准系数tSig.B的95.0%置信区间相关性共线性统计量B标准误差试用版下限上限零阶偏部分容差VIF1(常量).118.355.333.748-.701.937x.004.000.9498.509.000.003.005.949.949.9491.0001.000a.因变量:y(6)做出模型汇总表:模型汇总模型RR方调整R方标准估计的误差1.949a.900.888.4800a.预测变量:(常量),x。由以上模型汇总表可知x与y的决定系数为20.900SSRRSST。(7)对回归方程做方差分析;Anovab模型平方和df均方FSig.1回归16.682116.68272.396.000a残差1.8438.230总计18.5259a.预测变量:(常量),x。b.因变量:y由方差分析表可以知道,72.396F,显著性0.000sig,可知其回归方程高度显著。即可说明y对x的线性回归高度显著,这与相关系数的检验结果是一致的!(8)做回归系数1显著性检验;得出系数表如下:系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量).118.355.333.748x.004.000.9498.509.000a.因变量:y从系数表可以看出0的0.748sig,即0.05sig,所以0没有通过显著性检验,所以得出的回归系数0不可用。而1的0.000sig,即0.05sig,所以1通过了显著性检验。(9)做相关系数的显著性检验;相关性yxPearson相关性y1.000.949x.9491.000Sig.(单侧)y..000x.000.Ny1010x1010所以,由以上相关系数表中看到,相关系数0.949R,单侧检验显著性0.000sig,即0.05sig,相关系数通过显著性检验。(10)由EXCLE处理得到如下样本点x对应的残差e:x825215107055048092013503256701215e0.0820.022-0.398-0.318-1.038-0.798-1.0180.0820.2020.022由以上残差图可以看出,所有残差都是在0e附近随机变化,并在变化幅度不大的一条子带内。因此,回归模型满足所给出的基本假设。(11)该公司预计下一周签发新保单01000x张,由已得的最小二乘估计回归方程0.1180.004xy,将01000x带入求得04.118y,所以需要加班4.118个小时。(12)给出0y的置信水平为95%的精确预测区间和近似预测区间。由SPSS得出的精确预测区间和近似预测区间如下:(13)给出0()Ey置信水平为95%的区间估计。因为0()Ey置信水平为1的置信区间为:0/200(2)ytnh查(12)中的表,可知0()Ey置信水平为1的置信区间为为:[3.28373,4.12279]2.16表2.8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元)。表2.8序号yx序号yx序号yx119583334618208163059351953826422202633114191809529673620460312432032535542020939328537214192752426800454221226443914382510634295294704669222462445173922482394762661048882327186434940209692509730678571024339905020412722454408271705536252338235944225892404292585341682620627282143226443402102450035472722795336644246402829112427431592821570292045223412297122714036212922080298046256102932133016837823022250373147260153705142652542473120940285348257884123152736039823221800253349291323608162169035683322934272950414808349172197431553418443230551258453766(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?(2)建立y对x的线性回归;(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。(1).由以上的51组数据用SPSS画出y对x的散点图如下:由下面的相关性表可知y与x之间的相关系数为0.835,大于0.8,单侧检验显著性0.000sig,即0.05sig,因此y与x之间具有高度的线性相关性,故可以用直线回归描述两者之间的关系。相关性yxPearson相关性y1.000.835x.8351.000Sig.(单侧)y..000x.000.Ny5151相关性yxPearson相关性y1.000.835x.8351.000Sig.(单侧)y..000x.000.Ny5151x5151如下图所示:(2).由线性回归统计得到以下系数表:系数a模型非标准化系数标准系数tSig.B的95.0%置信区间相关性共线性统计量B标准误差试用版下限上限零阶偏部分容差VIF1(常量)12109.8791196.94810.117.0009704.52114515.236x3.314.312.83510.630.0002.6883.941.835.835.8351.0001.000系数a模型非标准化系数标准系数tSig.B的95.0%置信区间相关性共线性统计量B标准误差试用版下限上限零阶偏部分容差VIF1(常量)12109.8791196.94810.117.0009704.52114515.236x3.314.312.83510.630.0002.6883.941.835.835.8351.0001.000a.因变量:y可知0、1的参数估计值0ˆ、1ˆ分别为12109.879和3.314,所以y对x的线性回归方程为1209.8793.314xy(3).用线性回归的Plots功能绘制出标准残差的直方图和正态概率图如下:由以下的的残差统计量可知残差值服从正态分布,故通过正态性假设检验。残差统计量a极小值极大值均值标准偏差N预测值19722.5339779.8924354.573490.01951残差-3848.0225523.929.0002298.33351标准预测值-1.3274.420.0001.00051标准残差-1.6572.379.000.99051a.因变量:y通过观察PP图来检验误差的正态性假设的PP图如下:由PP图可以看出所有点分布在直线附近,显然可知通过正态性假设检验。3.11研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民分商品指出x3(亿元)的关系。(1)计算出y,x1,x2,x3的相关系数矩阵;(2)求y关于x1,x2,x3的三元线性回归方程;(3)对所求得的方程作拟合优度检验;(4)对回归方程做显著性检验;(5)对每一个回归系数做显著性检验;(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验;(7)求出每一个回归系数的置信水平为95%的置信区间;(8)求标准化回归方程;(9)求档x01=75,x02=42,x03=3.1时的y0^,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;(10)结合回归方程对问题做一些基本分析。表3.9货运总量y(万吨)工业总产值x1亿元农业总产值x2亿元居民非商品支出x3(亿元)16070351.026075402.421065402.026574423.024072381.222068451.527578424.016066362.027570443.225065423.0(1)计算出y,x1,x2,x3的相关系数矩阵;由得出相关性分析表如下:相关性货运总量y(万吨)工业总产值x1亿元农业总产值x2亿元居民非商品之处x3(亿元)Pearson相关性货运总量y(万吨)1.000.556.731.724工业总产值x1亿元.5561.000.113.398农业总产值x2亿元.731.1131.000.547居民非商品之处x3(亿元).724.398.5471.000Sig.(单侧)货运总量y(万吨)..048.008.009工业总产值x1亿元.048..378.127农业总产值x2亿元.008.378..051居民非商品之处x3(亿元).009.127.051.N货运总量y(万吨)10101010工业总产值x1亿元10101010农业总产值x2亿元10101010居民非商品之处x3(亿元)10101010从上表可以看出,y,x1,x2,x3的相关系数矩阵为:1.0000.5560.7310.7240.5561.0000.1130.3890.7310.1131.0000.5470.7240.3890.5471.000(2)求y关于x1,x2,x3的三元线性回归方程;得出系数表如下:系数