应用回归分析实验报告六学生姓名李梦学号20111315046院系数学与统计学院专业统计学课程名称应用回归分析任课教师尚林二O一三年六月十二日1.Logistic函数常用于拟合某种消费品的拥有率,表8.17是北京市每百户家庭平均拥有的照相机数,试针对以下两种情况拟合Logistic回归函数。tbbuy1011(1)已知,用线性化方法拟合(2)u未知,用非线性最小二乘法拟合。从经济学的意义知道,u是拥有率的上限,初值可取为100;b00,0b11,初值请读者自己选择。表8.17年份ty年份ty197817.519881159.6197929.819891262.21980311.419901366.51981413.319911472.71982517.219921577.21983620.619931682.41984729.119941785.41985834.619951886.81986947.419961987.219871055.5解:(1)u=100时的线性拟合,对tbbuy1011函数线性化得到:10lnln)11ln(btbuy作y1关于t的线性回归分析R2=0.988趋于1,进一步计算得到:768.0,157.010bb,ty768.0*157.010011^由图可知回归效果比较令人满意。(2)u未知,用非线性最小二乘法拟合。从经济学的意义知道,u是拥有率的上限,初值可取为100;b00,0b11,初值请读者自己选择。R2=0.9950.988,得到回归效果比线性拟合要好,u=91.062,b0=0.211,b1=0.727回归方程:ty727.0*211.0062.91112.某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适当的合并。对1391人填写的问卷设计:“一人在家是否害怕生人来”。因变量y=1表示害怕,y=2表示不害怕。2个自变量:x1是年龄,x2是文化程度。各变量的取值含义如表9.10所示。表9.10是否害怕y年龄x1文化程度x2害怕1不害怕016——28岁2229——45岁3746——60岁5361岁以上68文盲0小学1中学2中专以上3现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系呢?调查数据见表9.11。表9.11序号x1x2niy=1y=0pi12203030.12500222111380.2916732223891462430.3756442238326570.3154853704310.700006371271890.6607173724871962910.40266837310327760.2644295309450.45000105316330.5000011532188731150.38889125334718290.38542136802020.166671468110370.3181815682187110.39474166834040.10000其中,pi是根据(9.44)式计算的。(1)把公民的年龄x1、文化程度x2作为数值型变量,建立y对x1、x2的logistic回归。(2)把公民的年龄x1、文化程度x2作为定性型变量,用0-1变量将其数量化,建立y对公民的年龄和文化程度的logistic回归。(3)你对回归的效果是否满意,你认为主要的问题是什么?解:(1)先对Pi进行逻辑变换,令),1ln('iiippp则'ipβ0+β1x1+β2x2F=0.002,P=0.962都大于0.05,所以回归方程不显著。说明回归参数未通过显著性检验。由于logistic回归模型存在异方差,所以采用加权最小二乘法重新拟合wi=nipi(1-pi)回归方程:'ip0.146+0.002x1-0.331x2原回归方程:p=)331.0002.0146.0exp(1)331.0002.0156.0exp(2121^xxxxp由方差分析表结果知:F=4.304,P=0.037,小于5%,说明回归方程显著;x1对应的回归系数相应的P=0.6970.05,说明x1对应的回归系数没有通过检验,不显著;x2对应的回归系数相应的P=0.0130.05,说明x2对应的回归系数通过检显著性验,且该回归系数为-0.331,表明文化程度越高越不害怕。(2)把公民的年龄x1、文化程度x2作为定性型变量,引入6个0-1变量表示年龄x111111121311122221222322222,2237,3753,530,220,370,531,01,11,20,00,10,2xxxxxxxxxxxxxxxxxx,,,,1)直接进行y与6个虚拟变量的未加权的logistic回归,SPSS输出结果如下:由方差分析表知F=2.472,P值=0.106,大于5%,说明回归方程不显著;且除了12x外,其它自变量对应的回归系数都没通过检验。ANOVAb4.74341.1862.472.106a5.27711.48010.02015RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),x13,x2,x12,x11a.DependentVariable:ppib.Coefficientsa-1.044.417-2.505.029-.136.155-.193-.881.397.220.490.120.449.6621.273.490.6972.600.025.969.490.5301.979.073(Constant)x2x11x12x13Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ppia.通过后退法选择变量对上述模型改进ANOVAd4.74341.1862.472.106a5.27711.48010.020154.64731.5493.459.051b5.37412.44810.020154.27422.1374.835.027c5.74613.44210.02015RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123SumofSquaresdfMeanSquareFSig.Predictors:(Constant),x13,x2,x12,x11a.Predictors:(Constant),x13,x2,x12b.Predictors:(Constant),x13,x12c.DependentVariable:ppid.Coefficientsa-1.044.417-2.505.029-.136.155-.193-.881.397.220.490.120.449.6621.273.490.6972.600.025.969.490.5301.979.073-.934.326-2.865.014-.136.150-.193-.912.3801.163.410.6362.838.015.859.410.4702.097.058-1.139.235-4.846.0001.163.407.6362.857.013.859.407.4702.110.055(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x12x13Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ppia.后退法的过程中剔除了211,xx,留下了1312,xx,但是13x对应的回归系数未通过检验,将其剔除,最后留下了12x;而且回归方程显著,2)加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了2x。ANOVAe,f9.97942.4952.475.106a11.090111.00821.069159.52633.1753.301.058b11.54312.96221.069158.87024.4354.726.029c12.19913.93821.069158.23818.2388.989.010d12.83114.91621.06915RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel1234SumofSquaresdfMeanSquareFSig.Predictors:(Constant),x13,x2,x11,x12a.Predictors:(Constant),x13,x2,x12b.Predictors:(Constant),x2,x12c.Predictors:(Constant),x2d.DependentVariable:ppie.WeightedLeastSquaresRegression-Weightedbywif.Coefficientsa,b-.092.425-.217.832-.344.118-.641-2.901.014.263.392.490.671.516.379.389.737.975.351.376.402.570.936.370.131.258.510.619-.332.115-.620-2.902.013.132.122.2571.086.299.129.156.195.826.425.177.248.713.489-.334.113-.623-2.950.011.089.109.173.820.427.220.240.915.375-.335.112-.625-2.998.010(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x2x12(Constant)x2Model1234BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ppia.WeightedLeastSquaresRegression-Weightedbywib.从上表可以看出,最后只保留了变量2x(P值小于0.05),回归方程为:2ˆ0.220.335pxModelSummary.688a.474.2821.00408.672b.452.315.98078.649c.421.332.96870.625d.391.348.95732Model1234RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),x2,x13,x11,x12a.Predictors:(Constant),x2,x13,x12b.Predictors:(Constant),x2,x12c.Predictors:(Constant),x2d.从模型概要表中可以看出模型四的回归方程的拟合优度不佳。(3)满意。变量x1在不同的回归方法下显著性不同,对该变量的显著性判定还有待改进。如果能获得年龄的准确值做Logistic回归的极大似然估计,可能会改进回归效果。3.研制一种新型玻璃,对其做耐冲击试验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记y=1,玻璃未破碎记y=0,试对表9.12数据建立玻璃耐冲击性对高度h的Logistic回归,并且解释回归方程的含义。表9.12序号h(m)y序号h(