1第15章分位数回归模型15.1总体分位数和总体中位数15.2总体中位数的估计15.3分位数回归15.4分位数回归模型的估计15.5分位数回归模型的检验15.6分位数的计算与分位数回归的EViews操作15.7分位数回归的案例分析以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,leastabsolutedeviationsestimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。15.1总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ=P(y≤y(τ))=F(y(τ))其中P()表示概率,F(y(τ))表示y的累积(概率)分布函数(cdf)。比如y(0.25)=3,则意味着y≤3的概率是0.25。且有y(τ)=F-1(y(τ))即F(y(τ))的反函数是y(τ)。当τ=0.5时,y(τ)是y的中位数。τ=0.75时,y(τ)是y的第3/4分位数,τ=0.25时,y(τ)是y的第1/4分位数。若y服从标准正态分布,y(0.5)=0,y(0.95)=1.645,y(0.975)=1.960。另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。对于回归模型,被解释变量yt对以X为条件的第τ分位数用函数y(τ)tX表示,其含义是:以X为条件的yt小于等于y(τ)tX的概率是τ。这里的概率是用yt对X的条件分布计算的。且有y(τ)tX=F-1(y(τ)tX)其中F(y(τ)tX)是yt在给定X条件下的累积概率分布函数(cdf)。则y(τ)tX称作被解释变量yt对X的条件分位数函数。而F'(y(τ)tX)=f(y(τ)tX)则称作分位数概率密度函数。其中F'(y(τ)tX)表示F(y(τ)tX)2对y(τ)tX求导。15.2总体中位数的估计在介绍分位数回归之前,先来看中位数的估计和中位数回归。下面以连续变量为例介绍定理15.1。定理15.1连续变量用y表示,其概率密度函数用f(y)表示,累计概率密度函数用F(y)表示,y的中位数用y(0.5)表示,则y与任一值的离差绝对值的期望)(yE以=y(0.5)时为最小。证明:)(yE=dyyfydyyfy)()()()(--=)()()()(--ydFyydFy(15.1)根据莱布尼兹公式,若dyyfFba),()(,则有dyyfFba),()(。令-),(yyf,则有babadydyyF-)-()(。运用于式(15.1),得)(tyE=dyyfydyyfy)()()()(--=)(-)(-ydFydF=1-)(2))(-(1-)(])(-[1-)(-FFFydFF式(15.1)求极小的一阶条件是)(tyE=0,即1-)(2F=0,0.5)(F。这意味着等于中位数y(0.5)。=y(0.5)与定理15.1等价的表述是y以=y(0.5)(中位数)时为最小。因此,中位数回归估计量可以通过最小绝对离差法(leastabsolutedeviation,LAD)估计。其中X和分别为(k1)阶列向量。同理,对于线性回归模型yt=X+ut,通过求(0.5)ˆβXty最小,估计的中位数回归系数估计量(0.5)ˆβ,从而得到yt的中位数回归估计量(0.5))5.0(ˆ)ˆ(βXXty。15.3分位数回归Koenker和Bassett(1978)证明,若用ty)(ˆ表示yt的分位数回归估计量,则对于以检查函数(checkfunction)w为权数,yt对任意值的加权离差绝对值和tyw只有在=ty)(ˆ时取得最小值。其中tyw=)())(1(::TyttTyitiiyy(15.2)3(0,1)。据此,分位数回归可以通过加权的最小绝对离差和法(weightedleastabsolutedeviation,WLAD)进行估计。根据式(15.2),对于线性回归模型yt=X+ut,求第分位数回归方程系数的估计量)(ˆβ的方法是求下式(目标函数)最小,TutTutttuuQ0ˆ)(0ˆ)()()(ˆˆ)1(TXyttTXyttttyy)()(ˆ:)(ˆ:)()ˆ()ˆ)(1(βXβX(15.3)其中tu)(ˆ表示第分位数回归方程对应的残差。(0,1)。第分位数的回归方程表达式是ty)(ˆ=)(ˆβX其中X,都是k1阶列向量。)(ˆβ称作分位数回归系数估计量,或最小绝对离差和估计量,估计方法称作最小绝对离差和估计法。当=0.5时,式(15.3)变为TttTXyttTXyttyyyQtt1)0.5(ˆ:)0.5(ˆ:)0.5(ˆ0.5)ˆ(0.5)ˆ(0.5)0.5()0.5(βXβXβXty)0.5(ˆ=)0.5(ˆβX称作中位数回归方程,)0.5(ˆβ称作中位数回归系数估计量。一旦得到估计的分位数回归方程,就可以计算分位数回归的残差tu)(ˆ。ttttyyyu)()(ˆˆ-)(ˆβX对一个样本,估计的分位数回归式越多,对被解释变量yt条件分布的理解就越充分。以一元回归为例,如果用LAD法估计的中位数回归直线与用OLS法估计的均值回归直线有显著差别,则表明被解释变量yt的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,则说明被解释变量yt的分布是左偏倚的。反之是右偏倚的。对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。15.4分位数回归模型的估计由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回归方程参数)(ˆβ的一种较好的方法是线性规划方法。基于Barrodale和Roberts(1973,以下简写为BR)提出的单纯形法(simplexalgorithm),Koenker和D’Orey(1987)提出一种估计分位数回归系数的方法。EViews中应用的是上述算法的改进形式。BR算法由于其非有效性和大样本下的一些非优良特性曾备受批评。Koenker和Hallock(2001)以及Portnoy和Koenker(1997)通过模拟证实,与内点法(interiorpointmethod)等替代方法相比,BR算法的估计次数往往较多,大约是样本容量的平方次数。然而,改进的BR算法的估计次数在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。4分位数回归方程的BR算法原理略。下面讨论分位数回归系数估计量的渐近分布。在弱条件下,分位数回归系数渐近服从正态分布(Koenker,2005)。回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:①误差项独立同分布(i.i.d.)假设下的直接估计方法。由Koenker和Bassett(1978)提出。②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。(1)独立同分布假设下的参数渐近分布Koenker和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下:)ˆ()()(n~))1(,0(12)(JsN(15.5)其中)(lim)(limTXXTXXJniiin(15.6)))((/1)(11)(FfFs(15.7)其中s(τ)称为稀疏函数(Sparsityfunction)或分位数密度函数(quantiledensityfunction)。s(τ)是分位数函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。另外,模型误差项独立同分布假设意味着s(τ)与解释变量X无关,因此,分位数方程只和X在局部期间相关,即所有的条件分位数平面互相平行。事实上,式(15.5)中的))1((12)(Js就是误差项独立同分布假设下解释变量的回归系数估计量的渐近方差协方差矩阵表达式,而2)()1(s代表的是一般回归方程中随机误差项的方差。误差项独立同分布假设下,分位数回归参数估计量的渐近方差协方差矩阵表达式中含有s(τ),但s(τ)是未知分布的函数,而且必须要估计。EViews提供了三种估计s(τ)的方法。两种是基于Siddiqui(1960)的方法分别提出的差分商方法(SiddiquiDifferenceQuotient)(Koenker(1994)以及Bassett和Koenker(1982)),一种是核密度(KernelDensity)估计法。简述如下:①Siddiqui差分商法:差分商方法是用实际的分位数函数构造一个简单的差分商,从而求得s(τ)的估计量,表达式如下:nnnhhFhFs2)(ˆ)(ˆ)(ˆ11(15.8)其中带宽hn随着样本容量n→∞而趋向于0。要计算ŝ(τ)需要做两件事,一是得到分位数函数)(ˆ1F在两个点上的值,二是确定带宽。EViews中提供了两种Siddiqui差分商法。计算分位数密度函数的第一种方法由Bassett和Koenker(1982)提出,EViews将其称之为Siddiqui(meanfitted)方法。这种方法需要重新估计两个分位数回归模型在τ-hn和τ+hn上的拟和值,进而用不同的估计参数计算分位数函数的拟和值。最终s(τ)的估计量的数学表达式如下,5对任意X*有:nnnhhhXs2)(ˆ)(ˆ*)(ˆ(15.9)独立同分布假设意味着X*可以取任何值,Bassett和Koenker建议取X的均值,其优点是:估计的精度在该点达到最大;且估计的分位数函数对τ是单调的,因此对一个恰当的hn,ŝ(τ)的值总是正的。另一种Siddiqui差分商法由Koenker(1994)提出。其计算量相对较小,只需计算原分位数回归方程中残差的第τ-hn和τ+hn实际分位数,计算时排除在估计中设为零的k个残差,并插入新值以获得分位数的分段线性形式。EViews中把这种方法叫做Siddiqui(residual)方法。上述两种Siddiqui方法都需要估计带宽hn。EViews提供了三种估计带宽的方法:Bofinger(1975