第七章岭回归7.1岭回归估计的定义7.2岭回归估计的性质7.3岭迹分析7.4岭参数k的选择7.5用岭回归选择变量7.6本章小结与评注§7.1岭回归估计的定义一、普通最小二乘估计带来的问题当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例7.1假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+ε§7.1岭回归估计的定义给定x1,x2的10个值,如下表7.1的第(2)、(3)两行:表7.1序号12345678910(1)x11.11.41.71.71.81.81.92.02.32.4(2)x21.11.51.81.71.91.81.82.12.42.5(3)εi0.8-0.50.4-0.50.21.91.90.6-1.5-1.5(4)yi16.316.819.218.019.520.921.120.920.322.0§7.1岭回归估计的定义现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:0ˆ=11.292,1ˆ=11.307,2ˆ=-6.591β0=10,β1=2,β2=3看来相差太大。计算x1,x2的样本相关系数得r12=0.986,表明x1与x2之间高度相关。§7.1岭回归估计的定义二、岭回归的定义岭回归(RidgeRegression,简记为RR)提出的想法是很自然的。当自变量间存在复共线性时,|X′X|≈0,我们设想给X′X加上一个正常数矩阵kI,(k>0),那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度小得多。考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示§7.1岭回归估计的定义我们称yXIXXβ-1)k((k)ˆ为β的岭回归估计,其中k称为岭参数。由于假设X已经标准化,所以X′X就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。(7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为β的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)§7.1岭回归估计的定义因为岭参数k不是唯一确定的,所以我们得到的岭回归估计(k)βˆ实际是回归参数β的一个估计族。例如对例7.1可以算得不同k值时的(k)β1ˆ,(k)β2ˆ,见表7.2k00.10.150.20.30.40.51.01.523(k)β1ˆ11.313.482.992.712.392.202.061.661.431.271.03(k)β2ˆ-6.590.631.021.211.391.461.491.411.281.170.98表7.2§7.1岭回归估计的定义§7.2岭回归估计的性质在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。性质1(k)βˆ是回归参数β证明:E[(k)βˆ]=E[(X′X+kI)-1X′y]=(X′X+kI)-1X′E(y)=(X′X+kI)-1X′X显然只有当k=0时,E[(0)βˆ]=β;当k≠0时,(k)βˆ是β的有偏估计。要特别强调的是(k)βˆ不再是β的无偏估计了,有偏性是岭回归估计的一个重要特性。§7.2岭回归估计的性质性质2在认为岭参数k是与y无关的常数时,yXIXXβ-1)k((k)ˆ是最小二乘估计βˆ的一个线性变换,也是y因为yXIXXβ-1)k((k)ˆ=yXXXXXIXX-1-1)()k(=βXXIXXˆ-1)k(因此,岭估计(k)βˆ是最小二乘估计βˆ的一个线性变换,根据定义式yXIXXβ-1)k((k)ˆ知(k)βˆ也是y这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来确定,因而k也依赖于y,因此从本质上说(k)βˆ并非βˆ的线性变换,也不是y的线性函数。§7.2岭回归估计的性质性质3对任意k>0,‖βˆ‖≠0‖(k)βˆ‖<‖βˆ‖这里‖‖是向量的模,等于向量各分量的平方和。这个性质表明(k)βˆ可看成由βˆ进行某种向原点的压缩,从(k)βˆ的表达式可以看到,当k→∞时,(k)βˆ→0,即(k)βˆ化为零向量。§7.2岭回归估计的性质性质4以MSE表示估计向量的均方误差,则存在k>0,使得MSE((k)βˆ)<MSE(βˆ)即p1j2jj))k(ˆ(E<p1jj)ˆ(D§7.3岭迹分析当岭参数k在(0,∞)内变化时,(k)βjˆ是k的函数,在平面坐标系上把函数(k)βjˆ描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k值和进行自变量的选择。在岭回归中,岭迹分析可用来了解各自变量的作用及自变量间的相互关系。下面由图7.2所反映的几种有代表性的情况来说明岭迹分析的作用。§7.3岭迹分析§7.4岭参数k的选择一、岭迹法岭迹法选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。§7.4岭参数k的选择§7.4岭参数k的选择二、方差扩大因子法方差扩大因子cjj度量了多重共线性的严重程度,计算岭估计(k)βˆ的协方差阵,得D((k)βˆ)=cov((k)βˆ,(k)βˆ)=cov((X′X+kI)-1X′y,(X′X+kI)-1X′y)=(X′X+kI)-1X′cov(y,y)X(X′X+kI)-1=σ2(X′X+kI)-1X′X(X′X+kI)-1=σ2(cij(k))式中矩阵Cij(k)的对角元cjj(k)就是岭估计的方差扩大因子。不难看出,cjj(k)随着k的增大而减少。选择k使所有方差扩大因子cjj(k)≤10。§7.4岭参数k的选择三、由残差平方和来确定k值岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)<cSSE(7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。§7.5用岭回归选择变量岭回归选择变量的原则:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。§7.5用岭回归选择变量例7.2空气污染问题。Mcdonald和Schwing在参考文献[18]中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1—Averageannualprecipitationininches平均年降雨量x2—AverageJanuarytemperatureindegreesF1月份平均气温x3—SameforJuly7月份平均气温x4—Percentof1960SMSApopulationaged65orolder年龄65岁以上的人口占总人口的百分比x5—Averagehouseholdsize每家人口数x6—Medianschoolyearscompletedbythoseover22年龄在22岁以上的人受教育年限的中位数§7.5用岭回归选择变量x7—Percentofhousingunitswhicharesound&withallfacilities住房符合标准的家庭比例数x8—Populationpersq.mileinurbanizedareas,1960每平方公里人口数x9—Percentnon-whitepopulationinurbanizedareas,1960非白种人占总人口的比例x10—Percentemployedinwhitecollaroccupations白领阶层人口比例x11—Percentoffamilieswithincome$3000收入在3000美元以下的家庭比例x12—Relativehydrocarbonpollutionpotential碳氢化合物的相对污染势x13—Samefornitricoxides氮氧化合物的相对污染势x14—Sameforsulphurdioxide二氧化硫的相对污染势x15—Annualaverage%relativehumidityat1pm年平均相对湿度y—Totalage-adjustedmortalityrateper100,000每十万人中的死亡人数§7.5用岭回归选择变量计算X′X的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124,0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数396.30918.9230049.0/5275.4/151k注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同§7.5用岭回归选择变量§7.5用岭回归选择变量进行岭迹分析把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.02~0.08时,方差扩大因子小于10,故应建议在此范围选取k。由此也看到不同的方法选取k值是不同的。§7.5用岭回归选择变量在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。再根据第三条原则去掉变量x3和x5。这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。§7.5用岭回归选择变量例7.3Gorman-Torman例子(见参考文献[2])。本例共有10个自变量,X已经中心化和标准化了,X′X的特征根为:3.692,1.542,1.293,1.046,0.972,0.659,0.357,0.220,0.152,0.068最后一个特征根λ10=0.068,较接近于零。§7.5用岭回归选择变量368.7294.54068.0/692.3/101k条件数k=7.368<10。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。关于条件数,这里附带说明它的一个缺陷,就是当X′X所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。§7.5用岭回归选择变量§7.5用岭回归选择变量当k从0上升到0.1时,‖(k)βˆ‖2下降到‖(0)βˆ‖2的59%,而在正交设计的情形只下降17%。这些现象在直观上就使人怀疑最小二乘估计βˆ是否反映了β§7.5用岭回归选择变量另外,因素x5的回归系数的最小二乘估计5ˆ为负回归系数中绝对值最大的,但当k增加时,5ˆ(k)迅速上升且变为正的,与此相反,对因素x6,6ˆ为正的,且绝对值最大,但当k增加时,6ˆ(k)迅速下降。再考虑到x5,x6样本相关系数达到0.84,因此这两个因素可近似地合并为一个因素。§7.5用岭回归选择变量再看x7,它的回归系数估计7ˆ绝对值偏高,当k增加时,7ˆ(k)很快接近于0,这意味着x7实际上对y无多大影响。至于x1,其回归系数的最小二乘估计绝对值看来有点偏低,当k增加时,|1ˆ(k)|首先迅速上升,成为对因变量有负影响的最重要的自变量。当k较大时,|1ˆ(k)|稳定地缓慢趋于零。这意味着,通常的最小二乘估计对x1的重要性估计过低了。§7.5用岭回归选择变量从