1岭回归在财政收入中的应用信息与计算科学2003级母培松指导老师杜世平副教授摘要:本论文介绍了岭回归的统计学原理和方法,阐述了岭回归和最小偏二乘法的差别和关系,总结了评价岭回归的k效应的性质和其确定方法,讨论了岭回归在经济领域中的具体应用,并用matlab软件来实现计算程序。关键词:岭回归,岭迹,病态矩阵,有偏估计RidgeregressionreturnforrevenueMuPeisongInformationandComputationalScience,Grade2003DirectedbyDushiping(AssociateProfessor)Abstract:Thispaperintroducedtheridgeregressionstatisticaltheoryandmethods,Describedthedifferencesandrelationshipsintheridgeregressionandthepartialleasttwomultiplication,RaisedridgeRegressionevaluationofthekeffectofnatureanditsmethod,Moredetaileddiscussionsontheridgeregressionintheeconomicfieldthespecificapplication,usingMatlabsoftwaretoachieveprogram.Keywords:RidgeRegression,RidgeTrace,PathologicalMatrix,BiasedEstimate1引言在回归分析中最小二乘法是最常用的方法,使用最小二乘法的一个前提是'XX不为零,即矩阵XX'非奇异,当所有变量之间有较强的线性相关性时'XX0,或者变量之间的数据变化比较小或者部分变量之间有线性相关性时,矩阵的行列式'XX比较小,甚至趋近于0,一般在实际应用中处理:当'XX0.01时'XX常被称为病态矩阵[1~2],它表明最小二乘法并非在各方面都尽善尽美,因为这种矩阵在计算过程中极易造成约数误差,因此得到的数据往往缺乏稳定性和可靠性。岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子k,从而使回2归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。近年来,它在经济、工业生产、工程技术、环境保护等方面已有一定的应用。本论文介绍了岭回归的相关理论,以及岭回归与常回归的联系与区别,并结合实际例子阐述岭回归的应用。2岭回归的统计基础2.1岭迹的概念线性回归分析的正规方程组可以写成:XXbXY(1)其最小平方解则为:1bXXXY(2)式(1)和(2)中的X为自变量的nm阶矩阵,X为X的转置,()XX为对称的mm方阵,通常XX称为信息矩阵,1()XX为XX的逆阵,Y为因变量的1n向量,b为待解元,即回归系数的1m向量,这里的n为观察值组数,m为待估计的回归系数。当0XX时,矩阵'XX为病态矩阵,这样最小偏二乘法就会产生较大的误差,是的无偏估计,但很不稳定,在具体取值上与真值有较大的偏差,甚至有时会出现与实际经济意义不符的正负号。如果我们在XX的主对角线元素上加上一个非负因子k,即令:()bk=1mXXkIXY(3)(mI为m阶单位矩阵),那么()bk和b有何不同呢(下文在这些统计数后均加标记(k),便于与最小二乘法,即k=0的统计数相区别)?最先研究这一问题的是Hoerl和Kennard以及Marquardt[5],他们的基本结论是:()bk是k的非线性函数;k=0时,()bk=b同为最小平方估计数;而后,随着k的增大,()bk中各元素()ibk的绝对值均趋于不断变小(由于自变数间的相关,个别()ibk可能有小范围的向上波动或改变正、负号),它们对ib的偏差也将愈来愈大;如果k,则()bk0。()bk随k的改变而变化的轨迹,就称为岭迹,参见图1,岭迹图表明,k的加入使()bk成为回归系数的有偏估计数。32.2k的效应实际上,k的加入会影响到回归分析中的许多统计数[3,4,9],而不仅是上述的()bk。其中最重要的还有以下两项:1)随着k的增大,离回归平方和2()()QkYYk和离回归均方2()()1skQknm都将增大,亦即必有QkQ和22sks,这是随着k增大()bk的偏差也愈来愈大的直接反应[3,4,9]。2)随着k的增大,XXkI的逆阵、即1XXkI的主对角元素()(1,2,,)iickim将不断减小[3,4,9],亦即必有iiiickc。由于回归系数的误差均方22biiiscs,所以在k适当可能使22()iiiickskcs和2211()mmbibisks,即回归系数的误差均方之和较k=0时为小,这意味着()bk的估计将比b更稳定。3岭回归程序3.1模型变换通常的线性回归模型为[5]:01122jjjmmjjYXXX(4)具有:112111222212(1)111mmnnmnnmXXXXXXXXXX,01(1)1mm,121nnYYYY该模型中回归系数的最小平方估计为:1bXXXY01(,,,)mbbb(5)岭回归分析通常要先对X变数作中心化和标量化处理[3~4],以使不同自变数处于同样数量级上而便于比较,这就是引入新变数Z,令2(),(1,2,,;1,2,,)ijijiiZXxximjn(6)于是式(4)变为:41122ZZZjjjmmjjYyZZZ(7)进一步有:112111222212mmnnmnnmZZZZZZZZZZ121ZZZZmm,121()nnnYyYyYyIYy上述Z表示回归系数,是由Z变数估计,它们在统计上又称为标准化回归系数。Z的最小平方估计为:1()()ZnbZZZYyI1()ZZZY(由于'0nZI)12(,,,)ZZZmbbb(8)所以在实际分析中,因变数可仍用观察值向量Y而不用中心化向量()YyI,只要最后在回归方程中记:0Zyb(9)这里应注意到,同一资料的式(5)和式(8)是精确对应的,ib和Zi具有关系:2Ziiibbx,01miibybx(10)3.2合适k值(记为*k)的确定3.2.1岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计以及正负号不符合经济意义,则希望能通过采用适当的k来加以一定程度的改善,k值的选择就显得尤为重要。选择k值的一般原则[3,4,6,9]是:(1)各回归系数的岭估计基本稳定。(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号将变得合理。5(3)回归系数没有不合乎经济意义的绝对值。(4)离回归平方和增大不太多。3.2.2方差扩大因子法方差扩大因子jjc度量了多重共线性的严重程度,一般当10jjc时,模型就有严重的多重共线性,如果计算岭估计k的协方差阵[7],得:112covkXXkIXXXXkI=2(())ijck(11)(11)式中矩阵()ijCk的对角元素()jjck就是岭估计的方差扩大因子,不难看出,()jjck随着k的增大而减少。应用方差扩大因子选择k的经济作法是:选择k使所有方差扩大因子()10jjck,一般情况下*k0.5,尤以0.1为多[4,6]。3.3岭回归分析岭回归模型仍用式(7),只是将Z换成*()Zk:****12()(),(),,()ZZZZmkkkk(12)其估计数则为:1**()ZmkZZkIZY***12(),(),,()ZZZmkkk(13)由于*()Zk不满足最小平方条件,故离回归平方和*()Qk和均方2*()sk应由以下式子直接求得:*()Qk=2*()YYk**()()ZZYZbkYZbk(14)2**()()(1)skQknm(15)3.4模型表达岭回归方程可直接表示为:****1122()()()()ZZZjjmmjYkybkZbkZbkZ(16)6如果用原观察单位表达更为适宜,则可写作:*****01122()()()()()jjmmjYkbkbkXbkXbkX(17)式(17)中的**2()()ziiibkbkx,**01()()miibkybkx(18)式(18)即式(10),只是(10)用于ib和*()zibk的变换。4经济背景介绍财政收入是国家筹集财政资金的过程,是国家集中起来的资金,我国财政收入的形式为:税、利、债、费。即税收收入、国有企业上缴的利润、债务收入和其他收入。税收是我国财政收入的主要来源,影响财政收入的主要因素有两方面[10,11](1)经济发展水平:包括经济总规模和生产的技术水平两个方面;(2)分配政策:主要指决定财政集中资金比例的财政分配政策。在社会总产品中扣除已消耗的生产资料余下的那部分净产品,用货币表示就是净产值,称作国民收入。在市场经济条件下,国民收入有两种存在形式,即实物形式和价值形式。工业总产值:是工业企业生产的工业最终产品和提供工业性劳务活动的价值总量。工业总产值包括三部分内容:本期生产成品价值、对外加工费收入、在制品半成品期末期初差额。农林牧渔业总产值:指以货币表现的农、林、牧、渔业全部产品的总量,它反映一定时期内农业生产总规模和总成果。固定资产投资:指建造和购置固定资产的经济活动,社会固定资产投资包括国有经济单位投资、城乡集体经济单位投资、各种经济类型的单位投资和城乡居民个人投资。5岭回归分析实例5.1资料财政收入影响因素分析问题:财政收入(y)与国民收入(1x)、工业总产值(2x)、农业总产值(3x)、总人口(4x)、就业人口(5x)、固定资产投资(6x)等因素有关。下表1列出了1952-1981年的原始数据。7表11952-1981年财政收入、国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资数据情况年份国民收入(亿元)工业总产值(亿元)农业总产值(亿元)总人口(万人)就业人口(万人)固定资产投资(亿元)财政收入(亿元)195219531954195519561957195819591960196119621963196419651966196719681969197019711972197319741975197619771978197919801981598586707737825837102811141079757677779943115213221249118713721638178018331978199321212052218924752702279129273494555205587157981235168118701156964104612501581191116471565210127473156336536843696425443094925559060656592686246147549152955657559850944443446151458463268769768068876779078985589193295597110581150119412735748258796602666146562828646536599467207662076585967295691727049972538745427636878534806718299285229871778921190