1教育与居民收入差距——北京市城镇居民教育收益率研究北京市统计局、国家统计局北京调查总队1队作者:李优亮、冯艳、申涛内容提要:有关居民收入差距一直是社会各界关注的热点。本文利用住户调查数据,研究北京市城镇居民的教育收益率对居民收入的影响,即分析在其他条件不变下,个人多接受一年教育引起的收入差距。研究所得主要结论如下:(1)基于明瑟(Mincer)收入函数,估计出2008年北京市城镇居民教育收益率约为8%,与世界平均水平(9.7%)相比存在一定差距。(2)基于明瑟函数,发现2008年教育收益率比2003年大幅提高2.2个百分点,表明近年来教育收益率提高趋势显著。(3)通过分位回归法发现随着收入水平的提高,教育收益率先上升后下降,即呈倒U型趋势,表明投资教育对中等收入人群增收的效果最大。关键词:居民收入教育收益率分位回归一、引言改革开放以来,尤其是上世纪九十年代以来,居民收入差距迅速扩大,导致许多社会问题产生,因而受到社会各界的关注。但是在结论一面倒的关于收入差距的讨论中,容易导致矫枉过正,把改革开放以来适当拉开收入差距的成果模糊了,忽视了差距背后的那些合理因素,例如受教育程度高低的影响。其实一般来说,个体间的收入差距受到多方面因素影响,如学历、性别、家庭背景、职务、所属行业等等。微观经济理论认为,市场经济条件下,雇主所愿意支付的工资主要取决于劳动者的边际生产力。教育作为一项重要的人力资本投资,对提高个体职业技能水平与生产能力具有决定性影响。从这个角度上说,受教育程度是收入差距的重要来源之一,估计居民教育收益率对研究收入差距问题及相应政策制定具有重要意义。目前,学术界对教育收益率的研究一般都基于美国经济学家Mincer(1974)提出的人力资本收入函数:uxxsy23210ln其中y表示收入,s为受教育年限,x为工作经验(本文用工龄代替)。该函数提出后,取得了巨大的成功,广泛应用于现代劳动经济学,但同时也存在一些2问题(Griliches,1977)。问题主要集中在七个方面,例如如何界定收入,如何界定教育等,其中最重要的一个问题是估计方程中缺少对能力(ability)的度量。由于高能力者通常倾向于接受更高的教育,导致Mincer方程中的u和s相关,教育收益率1出现偏误和不一致(大多数学者认为会出现高估(Willis,1986))。针对能力难以度量的问题,一些学者采用工具变量法(IV)、使用双胞胎数据固定效应等减少由此带来的偏误,但也有学者认为,这些方法通常无效(李雪松、赫克曼,2004)。根据Card(1999)的研究,一些情况下,OLS估计量也能得到一致性的结果。基于这一研究成果,本文不打算在此对估计方法过多讨论,而是直接应用传统的OLS方法对北京市的教育收益率进行估计。孙志军(2004)对2002年之前的国内研究进行了详细的综述,他在总结时发现,我国20世纪80年代的教育收益率在3%左右,20世纪90年代的教育收益率在5%左右。张车伟(2006)对2003年-2005年之间的研究进行了详细的综述,发现使用OLS方法估计的教育收益率基本在5%-8%之间,并指出教育收益率存在所谓的“马太效应”,即最高收入人群(95%分位)的教育收益率是最低收入人群(5%分位)的2倍多。罗楚亮(2007)却发现教育收益率随收入的提高而下降(即高收入人群的教育收益率相对较低)。本文的改进主要体现在两个方面:(1)在控制变量中引入“计算机”变量,在一定程度上考虑了个体能力因素,减少了由于省略能力带来的偏误。(2)利用混合横截面数据考察了教育收益率在2003年到2008年间的变化,估计结果的检验更加稳健。本文主要内容如下:第一部分为引言,第二部分为数据说明,第三部分估计2008年北京的教育收益率,第四部分考虑教育收益率随时间的变化,第五部分估计教育收益率随收入的变化,第六部分为主要结论。二、数据说明本文使用国家统计局北京调查总队2003年和2008年城镇住户抽样调查数据。样本采用分层等距法抽取。住户调查单位为城镇住户,包括(1)户口在本地区的常住非农业户;(2)户口在本地区的常住农业户;(3)户口在外地,居住在本地区半年以上的非农业户;(4)户口在外地,居住在本地区半年以上的农业户。也包括单身户和一些具有固定住宅的流动人口。本文主要考虑正常情况下教育对收入的影响,排除了一些非正常的情况,例如具有一定学历却没有工资性收入的个体。具体对数据进行了下列处理:(1)剔除没有工资性收入的记录,剔除工资性收入低于当年职工最低工资标准1的记录。因为这些样本不能正确显示教育与收入的联系,因为能力可能在其12003年北京职工最低工资标准为年收入5580元,2008年北京职工最低工资标准为年收入9600元。3中起到了更重要的作用。(2)剔除文化程度为小学及以下的记录,因为样本中受教育程度在小学及以下的个体较少(两年均低于30人),在本文中不具有统计上的意义。(3)剔除离退休再就业的人员。原始数据中只提供了被调查者的文化程度,如初中、高中、中专等。按照本类研究的惯例,定义各种学历的人均受教育年限分别为:初中9年,高中12年,中专14年,专科15年,本科16年,研究生19年。经过上述处理后,2003年样本量为1220,2008年样本量为5835,包含的指标有工资及补贴收入、受教育年限、工龄、性别、婚姻状况、就业情况、职业情况、是否拥有接入互联网计算机2等。对这些样本数据的一个简单描述在表1中给出。表1对样本数据的基本描述年份样本量人均年收入(元)人均受教育年限(年)平均工龄(年)2003122020170(10567)13(2.5)21.7(10.8)2008583536831(24386)14(2.5)21(11.2)注:括号内数据为标准差。2003年和2008年对数工资分布的密度函数分别如图1、图2所示。本文使用核密度方法估计数据分布的密度函数。核密度估计方法是一种非参数方法,不对数据分布附加任何假定,是一种从数据本身出发研究数据分布特征的方法,与传统的参数方法相比更能直观反映数据的分布特征。从密度函数图来看,2003年工资对数的分布基本呈现出正态的特征。2008年工资对数的分布略微左偏,但是根据大样本的中心极限定理,这并不影响估计量的一致性。图1:2003年对数工资分布的密度.0.1.2.3.4.5.6.7.8.98.08.59.09.510.010.511.011.512.02仅2008年数据包含此属性。4图2:2008年对数工资分布的密度.0.1.2.3.4.5.6.7.88.89.29.610.010.410.811.211.612.012.412.813.2三、教育收益率的估计本部分采用2008年数据,利用扩展的明瑟方程对教育收益率进行估计。模型形式如下:uXagePCexpersqexpereduwage543210ln其中,wageln表示工资收入的对数,edu表示受教育年限,exper表示工龄、expersq表示工龄的平方,PC是虚拟变量,如果个人拥有接入互联网的计算机则取1,否则取0,age表示年龄3,X表示其他的控制变量集,包括性别(男性取1,用male表示)、婚姻(已婚取1,用married表示)、户口情况(具有北京户口取1,用BJ表示)、就业类型(包括国有经济单位职工、集体经济单位职工及其他)、职业类型(包括国家机关党群组织、企事业单位负责人,专业技术人员,办事人员,商业、服务业人员及其他)。将方程右边的变量划分为两类,一类是人力资本变量,另一类为控制变量,其中受教育情况是人力资本变量,控制变量包括是否拥有接入互联网的计算机、性别、就业和职业情况等。引入计算机变量,是因为其在一定程度上也反映了个体的生产效率,在目前国内的相关研究中还未看到有文献使用该变量4。引入就业和职业类型,主要目的是在一定程度上消除劳动力市场分割的问题,因为不同的职业(如领导和办事员),在不同经济类型中就业(国有、集体和其他)5,可以在一定程度上消除由于劳动力市场分割带来的不一致性。在运用回归方程进行相关估计时,很多研究采用逐步增加控制变量的方法,以便考察所关注变量的参数变化情况。本文认为,既然能够控制更多的变量,并且也认为这些变量应该加入到模型中,就没必要再去估计一些设定不足的模型。3本文所使用的工作经验变量是直接测量得到的实际工作经验(即工龄),非年龄减去受教育年限,所以年龄加入到控制变量中。4Krueger(1993)研究了使用计算机对美国工资结构产生的影响。5由于数据原因本研究未考虑行业情况。目前我国的行业包括20类,北京有其特殊的产业结构(服务业比重超过七成),而且具有中央单位、总部单位多等特点,因此考虑就业类型和职业类型更能反映北京市劳动力市场分割的情况。5并且,根据回归方程的设定原理,如果认为控制变量(如就业和职业情况)的存在确实影响了所关注变量(如教育收益率)的估计,那么不考虑这些控制变量就进行估计参数,就应是模型设定错误6。因此,本文仅直接报告包含所有控制变量后的最小二乘(OLS)估计结果,见表2。表22008年北京城镇居民教育收益率的估计结果因变量:wageln自变量系数标准差P值EDU0.0797530.0030380.0000PC0.1040150.0136230.0000MALE0.2021630.0136060.0000BJ-0.1259670.0251560.0000MARRIED0.0489160.0218760.0254EXPER0.0142940.0031740.0000EXPERSQ-0.0002455.89E-050.0000AGE0.0043830.0022350.0499常数项9.0442990.0865900.0000解释变量中还控制了就业和职业类型7n=5835,2749.0,2767.022RR从表中可以看出,2008年北京市城镇居民的教育收益率约为8%,并通过显著性检验,表明教育因素对居民收入确实有显著影响。同时,8%的收益率和国内学者运用OLS方法对全国教育收益率的估计结果相近8,处于合理范围内,但与世界平均9.7%的教育收益率相比,仍存在一定差距(见表3)。表3世界主要地区及不同收入水平教育收益率情况世界亚洲欧洲/中东/北非拉美/加勒比OECD高收入国家低收入国家中等收入国家教育收益率9.79.97.1127.57.410.910.7数据来源:引自Psacharopoulos,2002从估计结果看,计算机、性别、户口和婚姻等变量也都具有显著意义9。在其他变量保持不变条件下,如果个体拥有接入互联网的计算机,那么其工资收入将比没有接入互联网的计算机的个体显著高出10.4%;男性的工资收入比女性显著高出20.2%;拥有北京户口的个体工资收入显著低于没有户口的个体12.6%;已6关于模型设定错误的详细讨论可参见李子奈(2008)。7模型在设定就业和职业情况两组虚拟变量时,就业情况以国有单位职工为基准,职业情况以国家机关党群组织、企事业单位负责人为基准。8国内学者运用OLS方法对全国教育收益率的估计结果一般在5%-8%之间,见张车伟(2006)。9在考虑计算机等其他虚拟变量时,本文不再详细区分不同就业和职业,仅考虑在同样就业和职业情况下,虚拟变量对工资收入的影响。6婚者的工资收入显著高于未婚者4.9%10。四、教育收益率随时间的变化情况本部分利用2003年和2008年的混合横截面数据,估计教育收益率的变化情况。具体方法为在扩展的明瑟方程中引入虚拟变量08y,如果数据来自2008年则该变量取1,如果来自2003年则取0。具体形式如下:uXmaleymaleexpersqexpereduyeduywage080808ln44321100变量含义与上节一致,其中控制变量集X仅包括就业情况和职业情况。根据引入的虚拟变量08y的定义,系数1表示2003年的教育收益率,系数1表示与2003年相比,2008年教育收益率的变化情况。系数4