·经济理论与模型方法·Tobit模型估计方法与应用*周华林 李雪松内容提要:Tobit模型从最初的结构式模型扩展到时间序列模型、面板数据模型以及非参数模型等形式,无论Tobit模型的结构形式如何变化,现有的估计方法基本上都是在Heckman(1976)两步法的基础上扩展的。本文结合一些经典文献,介绍了不同类型的Tobit模型的结构形式、估计方法、估计结果的性质等,为做实证分析的研究者们提供一个分析此类问题的基本方法。关键词:Tobit模型 Heckman两步法 面板Tobit模型 Tobit GARCH/ARCH模型一、引言自从Tobin(1958)研究了被解释变量有上限、下限、或者存在极值等问题以来,这类研究受到学者们的广泛关注。人们为了纪念Tobin对这类模型的贡献,把被解释变量取值有限制、存在选择行为的这类模型称之为Tobit模型。这类模型实际上包含两种方程,一种是反映选择问题的离散数据模型;一种是受限制的连续变量模型。第二种模型往往是文献中人们更感兴趣的部分。为什么这种研究方法越来越受到人们的关注?以1974年Heckman研究女性工资率问题为例。在研究问题时,作者感兴趣的往往不是女性是否选择去工作的问题,而是女性工资率的变化受哪些因素的影响,但是只有当女性选择工作时,人们才能观测到她的工资信息。如果女性工作,则y1=1;如果女性不工作,则y1=0;y1=1 if y*100 if y*1<烅烄烆0,也就是说只有当表示选择状态的潜变量y*10时,才能观测到工资信息y2,所以工资变量实际上是一种受限因变量。婚姻状态、小孩数量、小孩年龄等变量并不是决定女性工资多少的因素,因而在工资方程模型中不会出现这些变量,但是这些因素影响女性是否决定参加工作的选择,当然如果她不工作,那么根本就不会有她的工资信息,因而也就无法了解她的工资受哪些因素的影响。这些选择性因素导致工资方程y2=X2β2+ε2的均值变成:E y2y*1()0=X2β2+δλ(X1β1/σ1),其中,λ(X1β1/σ1)就是选择性偏差对工资变量的影响。如果不考虑选择因素对工资率的影响,那么用OLS估计工资方程得到的结果将是有偏的(Heckman,1974)。研究中遇到的很多问题实际上是受限因变量的问题,如工资的问题、受教育问题、提供对外援助的问题、用电消费量问题、香烟消费问题、工厂选址问题、保险消费问题等等都是这类问题。Tobit模型不同于离散选择模型和一般的连续变量选择模型,它的特点在于因变量是受限变量,模型实际上由两类方程组成,主要研究在某些选择行为下,连续变量如何变化的问题。当前,这种模型已经引入了更复杂的形式,面板数据、半参数等形式的Tobit模型在研究中广泛应用。国外这种模型已经陆续在各领域内广泛使用,国内也有一些实证分析的论文用到了这种模型。但是人们在应用这些模型分析问题时还存在一些误区,如误认为离散选择模型就是Tobit模型,无法解释样本选择性偏差的经济含义,不区分所建立的模型是否是联立方程,对估计结果的性质不进行检验等。本文所介绍的经典文献,概括了Tobit模型的起源、结构形式、估计方法、适用的研究问题、自身缺陷等方面,这些经典文献中提到的一些细节问题在实证分析中很重要,然而现在已有的教材或者引文并没有摘录出来,可能导致一些作者在实证分析中对该模型有种种误解。—501—《经济学动态》2012年第5期*周华林,中国社会科学院研究生院,邮政编码:102488,电子邮箱:zhimadexin009@163.com;李雪松,中国社会科学院数量经济与技术经济研究所,邮政编码:100732,电子邮箱:xsli@cass.org.cn。本文试图从一些经典文献著作的简单介绍中,向有兴趣用这个方法分析这类问题的研究者们提供一个参考,为做实证分析的研究者们提供一个分析此类问题的方法。本文的结构安排如下:第二部分介绍Tobit模型的分类与结构,概括了Tobit模型的特点以及其与两部模型的区别,按照不同的特征对Tobit模型进行了分类;第三部分介绍Tobit模型的估计与应用,按照Tobit模型的特征从三个方面介绍了每种模型的估计:一是关于非联立方程的Tobit模型估计;二是关于联立方程的Tobit模型的估计,这两类文献的估计方法主要是针对截面数据或者时间序列数据;三是关于面板Tobit模型的估计;第四部分是简要的结论,指出Tobit模型的发展方向。二、Tobit模型:概念与分类Tobit模型也称为样本选择模型、受限因变量模型,是因变量满足某种约束条件下取值的模型。这种模型的特点在于模型包含两个部分,一是表示约束条件的选择方程模型;一种是满足约束条件下的某连续变量方程模型。研究感兴趣的往往是受限制的连续变量方程模型,但是由于因变量受到某种约束条件的制约,忽略某些不可度量(即:不是观测值,而是通过模型计算得到的变量)的因素将导致受限因变量模型产生样本选择性偏差。两部模型(two-part model)与Tobit模型有很大的相似之处,也是研究受限因变量问题的模型;但是这两种模型在模型结构形式、估计方法、假设条件等方面也存在一定的区别。Tobit模型的估计方法与模型结构形式有密切关系,不同类型的模型估计方法存在较大的差异,本文按照三种属性特征对Tobit模型进行了分类。(一)Tobit模型与两部模型1.Tobit模型与两部模型的区别。(1)结构不同。Tobit模型的第一部分表示是否选择的方程是单一条件离散选择模型,两部模型的第一部分表示是否选择的方程是多条件离散选择模型(Cragg(1971));Tobit模型的第二部分表示选择多少的方程需要考虑样本选择偏差,两部模型的第二部分表示选择多少的方程无需考虑选择性偏差的影响。以van de Ven &van Praage的调整TobitⅡ模型为焦点的样本选择模型结构如下:I=x1α+μ1 m=x2β+μ2 ln()y=m if I>0-! if I{0其中μ1,μ2独立于回归因子x1和x2,服从双变量正态分布:(μ1,μ2)~N()00,1ρσρσσ()()2。对这类问题的估计,通常的估计方法是先用Probit模型估计选择方程,对连续变量模型用FIML或者Heckman两步法估计。与样本选择模型较为相似的两部模型结构如下:I=x1α+μ3 , μ3~N(0,1) ln y|I>()0=x2β+μ4 Eμ4|I>()0=0不要求服从正态分布,y=m>0 if I>00 if I{0(2)β表示的含义不同。两部模型不涉及到样本选择或者选择性偏差的问题,第二部的连续变量模型表明Eln(y)I>[]0=x2β,是一个基于先验信息下的方程,在样本选择模型中Eln(y)I>[]0=x2β+ρσλ(x1α),其中λx1()α=φ(x1α)/Ψ(x1α),这个方程是一个假设方程,不存在先验条件的问题。(3)目的不同。两部模型的设计主要是预测实际连续变量值y,以实际观测值为基础计算E()y=P(y>0)E y|y>()0;而样本选择模型是基于选择方程的P(y>0)预测实际连续变量值y,得到的均值是E y|y>()0。Duan(1983,1984,1985)等认为基于这个目的,潜变量的结果和非条件方程的参数值不重要,Heckman(1990)指出识别潜变量在经济含义上非常重要。(4)误差项的假设不同。样本选择模型假设Eμ()2=0,所以才有Eμ2I>()0=ρσλ(x1α);两部模型假设Eμ4|I>()0=0。(5)估计方法不同。由于两种模型的两个方程的误差项之间的关系不同,估计方法上也存在差别。估计两部模型,第一步先用ML法估计选择方程,第二步对连续变量方程中的变量y直接对所有满足I>0的x2回归;估计样本选择模型一般都是采用Heckman两步法,第一步先用ML法估计选择方程,第二步对连续变量方程用OLS法估计,因为方差假设中μ2~N(0,1)。2.Tobit模型与两部模型的应用。Cragg(1971)是最早使用两部模型的文献,20世纪70年代和80年代早期在健康经济学的实证分析中经常用到两部模型,如:Manning et al(1981、1984、—601—1985),Newhouse et al(1981)等。Dudley &Mont-marquette(1976)、Grossman &Joyce(1990)、McLaughlin(1991)等文献虽然没有明确指出他们在研究中使用了两部模型,但是他们的研究都是两部模型在实证分析中的应用。Dudley(1984)指出样本选择模型的内生性缺陷,此后有一些研究用蒙特卡洛方法,试图证明两部模型优于样本选择模型,即使真实的模型是样本选择模型。Free &Sun(2009)用多变量两部模型分析了家庭寿险需求的问题,认为寿险需求多少取决于人们对定期寿险和终身寿险的联合选择的结果。梁兆晖(Leung,1996)用GUASS程序生成了1000个随机样本数据,对每个实验重复100次,对样本选择模型与纯两部模型进行对比。实证分析的结论表明,在不同仿真程序下两种模型的效果都运行得较好,对两种模型应该持一种平等的观点,选用哪种模型部分依赖于人们想识别什么参数和什么结果。样本选择模型估计中使用Heckman两步法时,Ψ(x1α)与x2之间的共线性程度对估计结果可能有一定的影响,半参数模型在识别时需要强加一些外生条件以避免共线性的问题,但是参数方法的识别不需要外生的约束条件。因此Leung(1996)不支持两部模型优于样本选择模型的观点,也不认为样本选择模型优于两部模型,认为两种模型在不同的条件下都可以有好的表现形式。Heckman两步法的适用条件是模型中不存在共线性,此时可采用条件数法(condition number)对模型的共线性问题进行检验。(二)Tobit模型的分类与结构Lee(1976)与Amemiya(1984)按照似然函数的特点,对Tobit模型进行了分类,应用中一般是按照Amemiya的分类法对模型进行区分的。Lee(1976)将受限因变量模型分成五类:简单的受限因变量模型、审查因变量模型、样本可分割的转换回归模型、包含指标内生变量的迭代模型、非市场均衡模型。表1 五类Tobit模型的似然函数类型似然函数1 P(y1<0)·P(y1)2 P(y1<0)·P(y1>0,y2)3 P(y1<0)·P(y1,y2)4 P(y1<0,y3)·P(y1,y2)5 P(y1<0,y3)·P(y1>0,y2)Amemiya(1984)根据Tobit模型似然函数的不同将Tobit模型分成五类,第一类模型是标准的Tobit模型,根据数据类型的不同,可建立审查数据模型或者截断数据模型,其余四类模型也称为是广义Tobit模型,适用于样本选择模型,各模型的似然函数如表1所示。1.第一类Tobit模型。(1)审查数据模型。当因变量被审查时,某一特定范围内的值全部变成一个单一值,下审查(或左审查)数据的一般结构为:y=max L,y()*=y* if y*>LL if y*烅烄烆L被审查数据回归模型的常用结构为:y*=xβ+ε,ε服从某种分布。y=max 0,y()*=y* if y*>0L if y*烅烄烆0根据误差项的分布特征构造似然函数:L=∏yi=0Pr(ε<-xiβ)·∏yi>0f(yi-xiβ)上审查(或右审查)模型与此相反。(2)截断数据模型。左截断数据的一般结构为:y=y*, if y*>L左截断随机变量的密度分布为:f y|y>()L=f(y)Pr(y>L)=f(y)1-F(y)被截断数据回归模型的常用形式为:y*=xβ+ε; y=y*, if y*>L,ε服从某种分布。根据误差项的分布特征构造似然函数:L=∏yi>0f(yi-xiβ)例如:Adams(1980)研究了遗产的问题,Wig-gins(1981)研究了每年销售的新药的问题。2.第二类Tobit模型。y*1i=x'1iβ1+μ1i, y*2i=x'2iβ2+μ2iy2i=y*2i