2008年中国数量经济学会年会论文1第一组计量经济学理论与方法分位数回归模型及其应用研究王桂胜1(首都经济贸易大学,北京,100026)摘要:本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANELDATA模型中的应用作了深入分析,并对不同回归估计方法在PANELDATA模型中的估计效果进行了比较分析。在此基础上,通过分别采取一般最小平方法和分位数回归法对中国15省区的人均消费和人均收入的回归方程估计的统计结果比较,发现分位数回归方法在进行某些特殊的PANELDATA模型估计时具有一定的优势。关键词:分位数回归、面板数据模型、惩罚分位数回归估计一、分位数回归研究介绍1王桂胜:男,1970年生,首都经济贸易大学劳动经济学院副教授,清华大学经管学院博士生。2008年中国数量经济学会年会论文2自Koenker和Bassett(1978)提出线性分位数回归理论以来,分位数回归(QR)即成为近几十年来发展较快、应用广泛的回归模型方法,它不仅深化了对传统回归模型的理解,而且也推广了回归模型的类型和应用,使得回归模型拟合有关统计数据更加准确细致。分位数回归模型是在稳健估计模型基础上发展形成。稳健估计(RobustEstimation)理论包括基于一般凸损失函数的M估计理论、基于样本秩统计量的R估计理论和基于样本次序统计量的L估计理论等。分位数回归强调以解释变量的分位数来估计推断因变量的分位数,通过建立分位数估计方程,并运用线性规划方法或非参数估计等方法来估计相应于不同分位数的解释变量系数或未知参数。分位数回归是中位数回归和均值回归的推广。分位数回归模型具体又分为四分位数回归、十分位数回归、百分位数回归、LOGIT分位数回归、审查分位数回归等模型。关于分位数回归研究的最近发展,主要表现在分位数回归技术方法和方法应用等两方面的研究上。具体包括Koenker和ZhijieXiao(2000)解决分位数回归过程中存在的特定推断问题;Kim和Muller(2000)关于双步分位数回归的渐进特性的研究;Tasche(2001)对最小分位数回归的无偏性研究;Chernozhukov和HanHong(2002)提出对审查分位数回归的三步评估法;吴建南、Bret-schneider等(2002)用蒙特卡罗(MonteCarlo)方法产生100个随机数据集合来比较显著权重分析方法与分位数回归的优劣;Kottas和Krnjaji′c提出分位数回归中的贝叶斯非参数模型;Koenker(2004)将分位数回归方法运用于PANELDATA模型估计中,并提出了PQR估计技术及相关理论证明,在此基础上CARLOSLAMARCHE(2006)对PQR估计方法进一步深入探讨并结合实际数据进行实证分析等等。此外是对分位数回归方法的应用研究。在这一方面,Barnes和W.Hughes(2002)利用分位数回归对跨部门公债市场的回收进行了分析;Buhai(2004)在分析介绍了分位数回归方法的基础上,研究了它在持续时期模型和循环结构等式模型中的应用;Leggett和Craighead利用分位数回归确定了时间分布和特定风险驱动的影响。国内也有很多学者将分位数回归估计方法运用于医学卫生事业研究、公共管理事业等具有极值分布特点的统计数据研究中。具体如教育收益率估计分析、劳工歧视因素分析等等。本文将在系统介绍分位数回归模型的含义和基本原理的基础上,重点分析将分位数回归方法与PANELDATA模型结合分析的主要形式和估计原理以及相关结果。第二节讨论分位数回归方法的一般原理以及PQR估计原理,在此基础上提出关于PANELDATA的分位数回归模型的PQR估计方法;第三节分析分位数回归方法在PANELDATA模型中的应用以及数据模拟;第四节对本文的分析结果进行总结。二、分位数回归模型原理(一)分位数回归的基本原理一般线性回归模型可设定如下:01122,kkyaaxaxaxuu为随机扰动项.在满足高斯-马尔可夫假设前提下,可表示如下:01122kkEyxaaxaxax2008年中国数量经济学会年会论文3其中,01,,,kaaa为待估解释变量系数。上述模型即均值回归模型表达式,是对等式两边取数学期望的结果。类似于均值回归模型,也可设定中位数回归模型如下:01122kkMyxaaxaxaxMu其中,Myx为关于x的条件中位数,Mu为随机扰动项的中位数。以及分位数回归模型如下:01122ykkuQxaaxaxaxQ对于均值回归模型,可采取最小平方法(OLS)估计未知参数;对于中位数回归模型,可采取最小一乘法(或称最小绝对偏差法LAD);而对于分位数回归模型,则可采取线性规划法(LP)估计其最小加权绝对偏差,从而得到解释变量的回归系数。分别可表示如下:OLS法:201122minkkEyaaxaxax求解得:01122ˆˆˆˆˆkkEyxaaxaxaxLAD法:01122minkkEyaaxaxax求解得:01122ˆˆˆˆˆkkMyxaaxaxaxQR法:01122minkkEyaaxaxax求解得:01122ˆˆˆˆˆykkQxaaxaxax其中,0,0,1.ttIt。(二)PANELDATA模型与分位数回归方法考虑一般PANELDATA模型,表达式如下:',1,2,,.1,2,,.ititiityxuiNtT其中,i代表不同的样本个体,t代表不同的样本观察时点,u表示随机误差项,β表示解释变量的系数向量,αi表示第i个样本的不可观察随机效应。'121,,,,ititititpxxxx关于β的估计有两种情形,即固定效应情形和随机效应情形,相应的有两种估计方法。将上述PANELDATA模型写成如下矩阵形式:yXZu固定效应情形下,β的估计量为2008年中国数量经济学会年会论文42,11minˆ,,.yXZXMXXMyMIPPZZZZ随机效应情形下,β的估计量为假设u∼N(0,R),α∼N(0,W),v=Zα+u。则有EvvZWZRV。可以对此情形PANELDATA模型采取GLS估计法、也可采取反映个体影响的惩罚最小二乘法(PLS)估计回归系数β,分别表述如下:GLS法:12minVyXPLS法:1122,minRWyX二者的共同解为:111ˆXVXXVy。对于上述PANELDATA模型也可采取分位数回归法进行参数估计。为此。建立以下条件分位数方程:',ityjitiitjiQxx上述分位数方程假设个体效应是固定的。对此方程,KOENKER(2004)提出了惩罚分位数回归(PQR)方法进行估计。具体如下:'1,11111ˆˆ,,argminjJTNNJNjijititjiiijjtiiwyx其中,wj为相应于各分位数的权数,λ为调节系数。如果λ=0,则为固定效应分位数回归估计量(FEQR);如果λ0,则为惩罚分位数回归估计量(PQR)。此外,KOENKER还对分位数回归和惩罚分位数回归估计量的渐进特性进行了详细的考察。在此基础上,运用蒙特卡罗模拟法在小样本设定下比较分析了不同回归估计方法的效果,如下表所示:表1最小平方法与分位数回归法的估计效果比较误差项分布LSPLSLSFEQRPQRQRFE正态分布偏差0.00310.00480.00560.00480.00670.0047均方误差平方根0.08470.06040.06680.09770.07810.0815T分布偏差-0.0062-0.0054-0.0051-0.0063-0.0101-0.0082均方误差平方根0.13770.10310.11430.12740.08810.0921卡方分布偏差-0.00680.00020.0032-0.00520.00630.0072均方误差平方根0.21550.15030.16500.23620.15060.1513由上表可见,对于某些非正态分布,分位数回归估计效果相对较好一些(如表1中的T分布)。2008年中国数量经济学会年会论文5三、分位数回归方法的应用分位数回归方法对于具有某些非高斯分布的随机误差项和随机效应的回归方程的系数估计具有较好的效果,这已在理论上得到了论证。本文将运用实际经济数据对比最小平方法与分位数回归方法在PANELDATA模型中的估计效果。所用数据来自中国1996-2002年东北、华北和华东15个省、市、自治区的居民人均消费(CP,不变价格)和人均收入(IP,不变价格)2。建立关于人均消费与人均收入关系的PANELDATA模型,分别采取最小平方法和分位数回归法进行估计,由于样本资料原因,本文仅考虑合并数据下和固定效应下的两种估计方法的估计结果,并进行比较分析。1、合并数据下最小平方法估计运用EVIEWS软件对样本数据进行处理,结果如下:129.630.76ititCPIP其中,判定系数为0.98,常数项T统计量值为2.0,回归系数T统计量值为79.7。2、固定效应下最小平方法估计对15个省区设计15个虚拟变量D1,D2,…,D15。其定义为:1,,1,2,...,15.0,.iiD当属于第i个个体其他运用EVIEWS软件,对样本数据进行处理,得到如下结果:215479.31053.714.20.70ititCPDDIP其中,判定系数为0.99,常数项T统计量值为1.6,回归系数T统计量值为55。3、合并数据下分位数回归法估计将15个省区的数据当作一个个体的数据进行分位数回归估计,运用STATA软件运行后,得到如下结果:表2各分位数下合并数据分位数回归估计结果分位数IP常数项判定系数(R2)系数T统计量系数T统计量0.20.724648.63187.25272.730.84440.50.742258.85205.25913.090.87430.750.779229.60139.57041.140.89300.80.798931.3275.44620.620.89684、固定效应下分位数回归法估计与2中固定效应回归一样,可设计15个虚拟变量D1,D2,…,D15,并运用STATA软件进行分析可得如下结果:2注:本数据资料来自张晓峒著《EVIEWS使用指南与案例》,机械工业出版社,2007年,第261页。2008年中国数量经济学会年会论文6表3各分位数下固定效应分位数回归估计结果分位数IP常数项判定系数(R2)系数T统计量系数T统计量0.20.679936.28490.54115.560.90960.50.671519.91597.55093.270.92120.750.732825.23351.14422.220.93290.80.740824.76309.19151.900.9359比较分析上述两种回归方法的统计结果,发现在固定效应情形下两种方法回归效果均比合并数据情形下更好;在同一情形下做回归分析,显然分位数回归分析结果更加稳定,各系数估计显著程度更高。因而,分位数回归估计在PANELDATA模型中可以发挥重要作用。四、结论本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANELDATA模型中的应用作了深入分析,并对不同回归估计方法在PANELDATA模型中的估计效果进行了比较分析。一般而言,分位数估计方法在估计具有非正态分布的误差项或不可观察的随机效应时具有一定优势。本文在理论分析之后,提供了一个应用案例分析,通过对我国人均收入和人均消费的各种回归分析,充分证明了分位数回归的较好效果。当然,由于样本数据的不足,缺乏对在随机效应情形下两种回归方法估计的