应用回归分析-第7章课后习题参考答案第7章岭回归思考与练习参考答案7.1岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(RidgeRegression,简记为RR)。7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D,那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。7.3选择岭参数k有哪几种方法?答:最优k是依赖于未知参数和2的,几种常见的选择方法是:○1岭迹法:选择0k的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;○2方差扩大因子法:11()()()ckXXkIXXXXkI,其对角线元()jjck是岭估计的方差扩大因子。要让()10jjck;○3残差平方和:满足()SSEkcSSE成立的最大的k值。7.4用岭回归方法选择自变量应遵循哪些基本原则?答:岭回归选择变量通常的原则是:1.在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2.当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。7.5对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?答:附5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。解:(1)逐步回归法Coefficientsa715.30990.5747.898.000.179.004.99440.739.0001010.840136.0277.431.000.308.0481.7066.367.000-.405.152-.714-2.665.016865.929103.7258.348.000.639.0863.5417.439.000-.601.119-1.059-5.057.000-.361.086-1.493-4.216.001(Constant)x5(Constant)x5x1(Constant)x5x1x2Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。(2)岭回归法:依题意,对逐步回归法所保留的三个自变量做岭回归分析。程序为:include'C:\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.ridgeregdep=y/enterx1x2x5/start=0.0/stop=1/inc=0.01.岭迹图如下:1.200001.000000.800000.600000.400000.200000.000004.0000003.0000002.0000001.0000000.000000-1.000000-2.000000x5Kx2Kx1Kx5Kx2Kx1KKRIDGETRACE计算结果为:可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:先取k=0.08:语法命令如下:include'C:\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.ridgeregdep=y/enterx1x2x5/k=0.08.运行结果如下:得到回归方程为:123ˆ0.160.080.06738.84yxxx再取k=0.01:语法命令如下:include'C:\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.ridgeregdep=y/enterx1x2x5/k=0.01.运行结果:******RidgeRegressionwithk=0.01******MultR.9931857RSquare.9864179AdjRSqu.9840210SE329.6916494ANOVAtabledfSSMSRegress3.00013420184144733947Residual17.0001847841.9108696.58FvalueSigF411.5487845.0000000--------------VariablesintheEquation----------------BSE(B)BetaB/SE(B)x1.0556780.0615651.0981355.9043751x2.0796395.0218437.32912933.6458814x5.1014400.0108941.56210889.3114792Constant753.3058478121.7381256.00000006.1879205回归方程为:y=753.3058—0.05568x1-0.0796x2+0.1014x5从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。(3)主成分回归对原所有自变量做主成分回归,结果如下:TotalVarianceExplained5.13385.54685.5465.13385.54685.546.69411.56397.109.69411.56397.109.1682.80699.915.1682.80699.915.004.06099.975.004.06099.975.001.02199.996.001.02199.996.000.004100.000Component123456Total%ofVarianceCumulative%Total%ofVarianceCumulative%InitialEigenvaluesExtractionSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixa.991-.124.017-.048.014.985-.134.106.003-.012.983-.143.112.035.021.929.038-.367.009.000.990-.123.067.001-.022.610.790.069-.001.000x1x2x3x4x5x612345ComponentExtractionMethod:PrincipalComponentAnalysis.5componentsextracted.a.由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,作Y与Z1的最小二乘估计,输出结果如下:Coefficientsa3400.443136.43624.923.0001149.09463.348.97218.139.000(Constant)Z1Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.根据上表得到y与第一主成分的线性回归方程为:yˆ=3400.443+1149.094Z1,将主成分回代为原自变量得最终方程为:yˆ=0.1093*x1+0.0463*x2+0.2912*x3+0.0512*x4+0.0347*x5+0.0444*x6-6313.397各自变量的解释意义基本合理。7.6对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。解:(1)普通最小二乘法:Coefficientsa4352.859679.0656.410.0001.438.151.7759.544.000.679.244.2262.784.017(Constant)第二产业增加值第三产业增加值Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:GDPa.根据上表得到y与x2,x3的线性回归方程为:yˆ=4352.859+1.438x2+0.679x3上式中的回归系数得不到合理的解释.3ˆ的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的3ˆ的数值应大于1。这个问题产生的原因仍然是存在共线性,所以采用岭回归来改进这个问题。(2)岭回归法:程序为:include'C:\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.ridgeregdep=GDP/enterx2x3/start=0.0/stop=0.5/inc=0.01.根据岭迹图(如下图)可知,)(ˆ2k和)(ˆ3k很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS输出结果为:MultR.998145,RSquare.996294AdjRSqu.995677,SE2364.837767ANOVAtabledfSSMSRegress2.0001.80E+0109.02E+009Residual12.000671094925592457.7FvalueSigF1613.140715.000000--------------VariablesintheEquation----------------BSE(B)BetaB/SE(B)x2.907990.021842.48906741.571133x31.393800.035366.46364939.410560Constant6552.3059861278.903452.0000005.1233780.600000.500000.400000.300000.200000.100000.000000.80000