基于夏普里值过程的农村居民收入差距分解王瑜汪三贵(中国人民大学农业与农村发展学院,北京100872)摘要:识农村居民收入差距现状并研究引致收入差距的因素,对缩小收入差距的政策制定有重要意义。本文利用内蒙古和甘肃2个省1500户农户的截面数据,采用夏普里值过程对Gini系数、Theil指数、Atkinson指数这三个不平等指标进行回归分解。分解结果稳健地发现,以县域为代理变量的外部环境因素对收入差距具有重要影响,非农劳动力、培训比和家庭男劳动力比对收入差距的相对贡献度较大,而平均年龄、家庭人口和平均教育对收入差距的相对贡献较小。作为社会网络的人情收支和作为物质资本的人均土地面积对收入差距的贡献极小。从缓解中国西部农村地区间的不平等的角度看,长期而言,支持和促进地区经济发展,增加非农就业机会,提供平等的教育和培训机会,有利于缓解收入不平等。而在城市化进程中,处理好土地问题,避免作为物质资本的土地成为引致不平等的因素,对于未来控制不平等状况有重要意义。关键词:村居民;收入不平等;夏普里值过程;回归分解农村收入不平等状况如何?哪些因素对农村收入不平等具有何种程度的贡献?长期以来,收入的不平等问题受到社会普遍关注,通讯作者:汪三贵,教授,博导,主要研究方向为贫困问题与农村发展。基金项目:国家自然科学基金项目(编号:70603031);国家自然科学基金项目(编号:71073164);中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目。也是经济领域研究的一个重要课题。自20世纪70年代末以来,中国农村居民的收入虽然整体上有了较大的提高,但是中国农村收入分配不平等有不断恶化的趋势。这种收入分配不平等状况如果持续恶化,会对经济和社会发展发展带来严重的后果。认识农村居民收入差距现状并研究引致收入差距的因素,对缩小收入差距的政策制定有重要意义。本文以2004年内蒙古和甘肃两省的横断面数据为基础,测算农村居民人均纯收入的不平等程度,在此基础上利用不平等分解研究领域较新的回归分解方法,分析引致农村居民收入不平等的因素及其贡献度。1文献综述1.1中国农村收入差距的既有研究围绕中国农村收入分配问题,在国内外已有很多研究。谢伏瞻分析了中国农村居民家庭的收入分配格局在农村经济体制改革以后发生的重大变化,认为农村剩余劳动力从传统农业中转移出来,促进了农村生产力的流动和重组,导致农村产业结构的演化与升级,而生产力水平和产业结构的变动,在提高农村居民收入总水平的同时,也引起了不同地区之间、不同家户之间收入差距的扩大[1]。对于农村收入不平等的状况,Wan等人指出,自20世纪70年代末以来,中国农村收入分配不平等有不断恶化的趋势,这种趋势将对中国经济和社会发展产生严重后果,并且如果这种收入分配不平等持续恶化,将影响社会和政治的稳定[2]。从农村内部居民收入分配的Gini系数从1981年的0.25上升到了2002年的0.38[3],在20年时间里,增长超过50%,已逼近国际公认警戒线0.4。在收入差距的影响方面,不断扩大的农户内部收入差距会诱致各种负面效应,比如它会引致农村贫困问题的加剧[4],并且削弱农户收入的增长[1,5]。关于农村收入差距的因素,已有研究主要分为外部环境因素和家庭自身因素两方面。外部环境因素主要有地理区位因素、政治因素、市场条件等,这种外部环境差距造成了农村居民内部的收入差距,谢伏瞻分析得出农户家户所处的地理环境和自然条件对农民收入的影响具有重要意义[1],万广华以乡镇企业为地区因素的代理变量,得出其是显著的构成区域间不平等的因素。从家庭自身因素方面来看,主要涉及了收入决定要素中的物质资本、政治资本、人力资本和社会网络资本等因素[6]。在物质资本方面,许庆等发现家庭联产承包责任制所引起的上地细碎化是农户间收入差距扩大的一个原因[7]。谢伏瞻提出农民家户对生产要素占有的多寡也是造成分配差距的重要原因[1],但是高梦滔和姚洋分析得出,物质资本,包括土地,对于农户收入的差距没有显著影响[8]。在人力资本方面,大量的文献通过的中国农村农户收入差距的分析发现,教育等主要的人力资本变量对于收入差距具有重要的影响[6,8-10]。在社会网络资本方面,赵剑治研究了关系对收入差距的贡献及在地区之间的差异,结果发现,社会网络对中国农村居民间的收入差距贡献达到12.1%-13.4%[11]。在政治资本方面,Morduch和Sicular年发现党员和干部等政治因素对于农户收入的决定具有正的效应,并对于农村家庭收入不平等的贡献为正[12]。1.2收入不平等的测量及不平等的分解模型收入不平等的测量方法主要有变差系数法、相对平均偏差法、Gini系数、Theil指数法、对数方差法等。不平等指标的选择主要由常用性决定,也与可分解情况有关系。Gini系数、Theil指数、Atkinson指数等是比较常用的指标。从收入差距的分解方法来看,己有的文献对于收入差距的研究主要集中于从实证角度分析收入不平等的决定因素。总体来看主要有以下几类:(1)用半参数和非参数方法来分析收入差距的决定、基于人群特征而对于收入差距的分解以及基于收入决定方程的分解。(2)通过人群特征对收入差距的原因进行分解的方法,主依据研究者的目标变量对总体样本进行分组,然后再估计组内收入差距和组间收入差距来分该目标因素对于收入差距的影响。Morduch和Sicular指出这种方法主存在的缺陷[12]:这种方法无法对一些连续变量的贡献作分解,当需要对某几个目标变量行考察时,人群的分组数量将会呈几何级数上涨,这样无法处理解释变量和被解释变量之间的联立内生性问题,因为这种方法先验的认为目标变量是外变量,当对样本进行分组后该变量并不记入收入决定方程。(3)基于收入决定方程而对收入差距进行分解。这是近年来比较流行的分解方法,但是基于收入决定方程,不同的学者又有不同的分解方法。与其他几种方法相比,Shorrock年提出的夏普里值(ShapleyValue)分解法[13]有比较优势。这种方法的好处在于它适用于任何收入决定函数和任何度量收入差距的指标,并且能够很好处理常数项和残差项对收入差距的贡献的问题[14]。1.3文献评述已有研究对农村收入不平等的分解的角度是多样的,模型的选择也是多样的。不过Wan[14]对各种分解方法进行研究之后,认为基于收入决定函数的夏普里值过程的回归分解方法是有效的并且受限较少的模型。经过比较,基于收入决定函数的夏普里值过程的回归分解方法,是本文将选择的分析方法。采用的不平等指标为常用的Gini系数、Theil指数、Atkinson指数。涉及到收入决定函数拟合方面,目前已有文献涉及了收入决定因素方方面面,但是就单个文献本身而言,或多或少地在某些因素上未加考虑,对收入函数的影响因素的涵盖是不够全面的,在收入决定模型中可能存在遗漏变量偏误等问题。因此,本文整合了已有文献中相关的方面,对各方面因素都加以考虑。本文将对已有文献中涵盖的微观方面的各因素系统地进行考虑,并控制区位因素,进行回归分解和比较。2数据来源、方法及变量2.1数据来源及处理数据来源于世界银行联合中国国家统计局农调队于2004年在甘肃、内蒙古两省做的农户家计调查数据。数据以国家统计局农调队每年具体进行的入户调查获得,调查样本采取分层随机抽样。调查选取了甘肃和内蒙古两省7个县(或县级行政区域)、15个乡(或乡级行政区域),每个乡抽取100户农户,共1500户农户。在选取农户时,根据该地区的经济发展状况、农户收入的主要来源等基本情况,将农户大致分为最低收入家庭、低收入边缘家庭、中等收入家庭和富裕家庭4类,然后,在每一类中进行随机抽样,使样本覆盖不同收入状况的家庭,尤其是最低收入家庭。此次调查得到的1500份数据均为有效研究数据。本文以家庭为基本样本单位,部分数据不能直接获取,而是通过进一步计算得到。具体在变量描述中详细给出。2.2不平等指标选取、回归方法和分解方法选择2.2.1指标选择不同的不平等指标包括Gini系数、变异系数平方、阿肯森(Atkinson)系数、泰尔指数等。对应于不同的福利函数,并且赋予洛伦兹曲线的不同部分以不同的权数[6]。由于不同的不平等指标会给出不同的测量结果,而产生不同的分解结果。为保持稳健性,将常用的不平等指标进行分解并进行对比是比较可行的。本文选取了Gini系数、泰尔指数和阿肯森指数来衡量不平等状况。2.2.2回归方法使用的软件为Stata10.0版。采用对数线性模型拟合收入决定函数,使用最小二乘估计法(OLS)估计系数。通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。在系数估计中,采用了异方差稳健的标准误。2.2.3分解方法在分解方法选择上,本文采用基于收入决定方程的夏普里值分解方法。由Shorrocks发展的基于回归的夏普里值(ShapleyValue)方法[13]进行收入差距分解包含两个步骤:第一,首先设定一个收入决定方程,并估计出各个自变量的系数;第二,将收入差距的计算指标运用到该方程的两端,从而得出各自变量对于收入差距指标的贡献度。在收入差距的形成过程中,一个因素对于收入差距的贡献主要取决于两个方面:一是该因素与收入差距的相关系数,即该因素对于收入的偏效应,在给定该因素的分布下,系数越大,该因素对收入差距的贡献越大;二是该因素自身的分布状况,在给定该因素对收入的相关系数不变的情况下,它的分布越不平均,那么该变量对于收入差距的贡献也更大,反之亦然。极端地讲,当一个因素的对收入的偏效应接近于0或者它的分布完全平等时,那么该因素对于收入差距的贡献为零[11],这就是基于回归分析的收入差距分解方法的基本原理。2.3变量描述本文涉及的变量的名称及定义如表1所示。需要说明的是,本文的应变量为家庭人均收入的对数,呈正态分布。人均收入指家庭总收入与家庭人口数的比值,其中家庭总收入包括了工资性收入、家庭经营收入、财产性收入、转移性收入。模型自变量包括已有文献涉及的社会网络资本、物质资本、人力资本、家庭特征、地区特征五大方面因素。社会网络资本中,人情收入指城市亲友赠送收入和亲友赠送收入之和,人情支出指赠送农村亲友和赠送城市亲友的支出之和。物质资本方面,土地面积为人均土地面积,0.5×(期初土地面积+期末土地面积)/家庭人口。人力资本方面,平均年龄为家庭平均年龄,其中1=6岁及以下,2=7-15,3=16-18,4=19-22,5=23-25,6=26-30,7=31-40,8=41-50,9=51-60,10=60以上;平均教育取家庭劳动力的平均受教育年数,将教育程度替换为受教育年限并以各教育水平劳动力人数进行加权平均;培训比为受过专业培训的劳动力人数占家庭劳动力总数之比。家庭特征方面,家庭人口为在家居住6个月以上的常住人口;男劳动力比为家庭男劳动力占家庭劳动力总数之比;非农劳动力为家庭非农劳动力占就业劳动力总数之比。表1收入决定方程的估计结果3收入决定模型和实证结果分析3.1收入决定方程收入函数的回归方程为Y=F(X,μ),为了应用夏普里值分解,首先需确定收入决定方程。根据假设,将社会网络资本、实物资本、人力资本、家庭特征、地域固定效应的变量或者代理变量引入收入决定函数,如下:Lnyij=α0+β1SCij+β2OCij+β3HCij+β4FCij+βnFix+μ(1)在(1)式中,下标i表示家庭,j表示地域。上式中LnY指对家庭人均收入的对数,SC是家庭的社会网络资本,OC是家庭的实物资本,HC是家庭劳动力的人力资本,FC是样本家庭的特征,R是地域的固定效应。对于模型设定,使用的回归方程是半对数模型,没有使用其他模型主要是基于以下几点原因:①考虑到OLS回归对于残差项正态分布的要求,我们在对收入的原值和对数值进行了分布检验,发现取了对数之后,收入的分布更趋近于正态分布,这也很正常,因为如收入这样都为正值的数据,常常符合对数正态分布。样本收入对数的分布图如图1所示。②考虑到收入决定方程的半对数模型在以往的文献