Tobit模型估计方法与应用-周华林

angelbully
1 ℃
2020-04-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

·经济理论与模型方法·Ｔｏｂｉｔ模型估计方法与应用＊周华林　李雪松内容提要：Ｔｏｂｉｔ模型从最初的结构式模型扩展到时间序列模型、面板数据模型以及非参数模型等形式，无论Ｔｏｂｉｔ模型的结构形式如何变化，现有的估计方法基本上都是在Ｈｅｃｋｍａｎ（１９７６）两步法的基础上扩展的。本文结合一些经典文献，介绍了不同类型的Ｔｏｂｉｔ模型的结构形式、估计方法、估计结果的性质等，为做实证分析的研究者们提供一个分析此类问题的基本方法。关键词：Ｔｏｂｉｔ模型　Ｈｅｃｋｍａｎ两步法　面板Ｔｏｂｉｔ模型　Ｔｏｂｉｔ　ＧＡＲＣＨ／ＡＲＣＨ模型一、引言自从Ｔｏｂｉｎ（１９５８）研究了被解释变量有上限、下限、或者存在极值等问题以来，这类研究受到学者们的广泛关注。人们为了纪念Ｔｏｂｉｎ对这类模型的贡献，把被解释变量取值有限制、存在选择行为的这类模型称之为Ｔｏｂｉｔ模型。这类模型实际上包含两种方程，一种是反映选择问题的离散数据模型；一种是受限制的连续变量模型。第二种模型往往是文献中人们更感兴趣的部分。为什么这种研究方法越来越受到人们的关注？以１９７４年Ｈｅｃｋｍａｎ研究女性工资率问题为例。在研究问题时，作者感兴趣的往往不是女性是否选择去工作的问题，而是女性工资率的变化受哪些因素的影响，但是只有当女性选择工作时，人们才能观测到她的工资信息。如果女性工作，则ｙ１＝１；如果女性不工作，则ｙ１＝０；ｙ１＝１　　ｉｆ　　ｙ＊１００　　ｉｆ　　ｙ＊１＜烅烄烆０，也就是说只有当表示选择状态的潜变量ｙ＊１０时，才能观测到工资信息ｙ２，所以工资变量实际上是一种受限因变量。婚姻状态、小孩数量、小孩年龄等变量并不是决定女性工资多少的因素，因而在工资方程模型中不会出现这些变量，但是这些因素影响女性是否决定参加工作的选择，当然如果她不工作，那么根本就不会有她的工资信息，因而也就无法了解她的工资受哪些因素的影响。这些选择性因素导致工资方程ｙ２＝Ｘ２β２＋ε２的均值变成：Ｅ　ｙ２ｙ＊１（）０＝Ｘ２β２＋δλ（Ｘ１β１／σ１），其中，λ（Ｘ１β１／σ１）就是选择性偏差对工资变量的影响。如果不考虑选择因素对工资率的影响，那么用ＯＬＳ估计工资方程得到的结果将是有偏的（Ｈｅｃｋｍａｎ，１９７４）。研究中遇到的很多问题实际上是受限因变量的问题，如工资的问题、受教育问题、提供对外援助的问题、用电消费量问题、香烟消费问题、工厂选址问题、保险消费问题等等都是这类问题。Ｔｏｂｉｔ模型不同于离散选择模型和一般的连续变量选择模型，它的特点在于因变量是受限变量，模型实际上由两类方程组成，主要研究在某些选择行为下，连续变量如何变化的问题。当前，这种模型已经引入了更复杂的形式，面板数据、半参数等形式的Ｔｏｂｉｔ模型在研究中广泛应用。国外这种模型已经陆续在各领域内广泛使用，国内也有一些实证分析的论文用到了这种模型。但是人们在应用这些模型分析问题时还存在一些误区，如误认为离散选择模型就是Ｔｏｂｉｔ模型，无法解释样本选择性偏差的经济含义，不区分所建立的模型是否是联立方程，对估计结果的性质不进行检验等。本文所介绍的经典文献，概括了Ｔｏｂｉｔ模型的起源、结构形式、估计方法、适用的研究问题、自身缺陷等方面，这些经典文献中提到的一些细节问题在实证分析中很重要，然而现在已有的教材或者引文并没有摘录出来，可能导致一些作者在实证分析中对该模型有种种误解。—５０１—《经济学动态》２０１２年第５期＊周华林，中国社会科学院研究生院，邮政编码：１０２４８８，电子邮箱：ｚｈｉｍａｄｅｘｉｎ００９＠１６３．ｃｏｍ；李雪松，中国社会科学院数量经济与技术经济研究所，邮政编码：１００７３２，电子邮箱：ｘｓｌｉ＠ｃａｓｓ．ｏｒｇ．ｃｎ。本文试图从一些经典文献著作的简单介绍中，向有兴趣用这个方法分析这类问题的研究者们提供一个参考，为做实证分析的研究者们提供一个分析此类问题的方法。本文的结构安排如下：第二部分介绍Ｔｏｂｉｔ模型的分类与结构，概括了Ｔｏｂｉｔ模型的特点以及其与两部模型的区别，按照不同的特征对Ｔｏｂｉｔ模型进行了分类；第三部分介绍Ｔｏｂｉｔ模型的估计与应用，按照Ｔｏｂｉｔ模型的特征从三个方面介绍了每种模型的估计：一是关于非联立方程的Ｔｏｂｉｔ模型估计；二是关于联立方程的Ｔｏｂｉｔ模型的估计，这两类文献的估计方法主要是针对截面数据或者时间序列数据；三是关于面板Ｔｏｂｉｔ模型的估计；第四部分是简要的结论，指出Ｔｏｂｉｔ模型的发展方向。二、Ｔｏｂｉｔ模型：概念与分类Ｔｏｂｉｔ模型也称为样本选择模型、受限因变量模型，是因变量满足某种约束条件下取值的模型。这种模型的特点在于模型包含两个部分，一是表示约束条件的选择方程模型；一种是满足约束条件下的某连续变量方程模型。研究感兴趣的往往是受限制的连续变量方程模型，但是由于因变量受到某种约束条件的制约，忽略某些不可度量（即：不是观测值，而是通过模型计算得到的变量）的因素将导致受限因变量模型产生样本选择性偏差。两部模型（ｔｗｏ－ｐａｒｔ　ｍｏｄｅｌ）与Ｔｏｂｉｔ模型有很大的相似之处，也是研究受限因变量问题的模型；但是这两种模型在模型结构形式、估计方法、假设条件等方面也存在一定的区别。Ｔｏｂｉｔ模型的估计方法与模型结构形式有密切关系，不同类型的模型估计方法存在较大的差异，本文按照三种属性特征对Ｔｏｂｉｔ模型进行了分类。（一）Ｔｏｂｉｔ模型与两部模型１．Ｔｏｂｉｔ模型与两部模型的区别。（１）结构不同。Ｔｏｂｉｔ模型的第一部分表示是否选择的方程是单一条件离散选择模型，两部模型的第一部分表示是否选择的方程是多条件离散选择模型（Ｃｒａｇｇ（１９７１））；Ｔｏｂｉｔ模型的第二部分表示选择多少的方程需要考虑样本选择偏差，两部模型的第二部分表示选择多少的方程无需考虑选择性偏差的影响。以ｖａｎ　ｄｅ　Ｖｅｎ　＆ｖａｎ　Ｐｒａａｇｅ的调整ＴｏｂｉｔⅡ模型为焦点的样本选择模型结构如下：Ｉ＝ｘ１α＋μ１　　ｍ＝ｘ２β＋μ２　　ｌｎ（）ｙ＝ｍ　　　ｉｆ　　Ｉ＞０－!　　ｉｆ　　Ｉ｛０其中μ１，μ２独立于回归因子ｘ１和ｘ２，服从双变量正态分布：（μ１，μ２）～Ｎ（）００，１ρσρσσ（）（）２。对这类问题的估计，通常的估计方法是先用Ｐｒｏｂｉｔ模型估计选择方程，对连续变量模型用ＦＩＭＬ或者Ｈｅｃｋｍａｎ两步法估计。与样本选择模型较为相似的两部模型结构如下：Ｉ＝ｘ１α＋μ３　，　μ３～Ｎ（０，１）　　ｌｎ　ｙ｜Ｉ＞（）０＝ｘ２β＋μ４　　Ｅμ４｜Ｉ＞（）０＝０不要求服从正态分布，ｙ＝ｍ＞０　ｉｆ　　Ｉ＞００　　　ｉｆ　　Ｉ｛０（２）β表示的含义不同。两部模型不涉及到样本选择或者选择性偏差的问题，第二部的连续变量模型表明Ｅｌｎ（ｙ）Ｉ＞［］０＝ｘ２β，是一个基于先验信息下的方程，在样本选择模型中Ｅｌｎ（ｙ）Ｉ＞［］０＝ｘ２β＋ρσλ（ｘ１α），其中λｘ１（）α＝φ（ｘ１α）／Ψ（ｘ１α），这个方程是一个假设方程，不存在先验条件的问题。（３）目的不同。两部模型的设计主要是预测实际连续变量值ｙ，以实际观测值为基础计算Ｅ（）ｙ＝Ｐ（ｙ＞０）Ｅ　ｙ｜ｙ＞（）０；而样本选择模型是基于选择方程的Ｐ（ｙ＞０）预测实际连续变量值ｙ，得到的均值是Ｅ　ｙ｜ｙ＞（）０。Ｄｕａｎ（１９８３，１９８４，１９８５）等认为基于这个目的，潜变量的结果和非条件方程的参数值不重要，Ｈｅｃｋｍａｎ（１９９０）指出识别潜变量在经济含义上非常重要。（４）误差项的假设不同。样本选择模型假设Ｅμ（）２＝０，所以才有Ｅμ２Ｉ＞（）０＝ρσλ（ｘ１α）；两部模型假设Ｅμ４｜Ｉ＞（）０＝０。（５）估计方法不同。由于两种模型的两个方程的误差项之间的关系不同，估计方法上也存在差别。估计两部模型，第一步先用ＭＬ法估计选择方程，第二步对连续变量方程中的变量ｙ直接对所有满足Ｉ＞０的ｘ２回归；估计样本选择模型一般都是采用Ｈｅｃｋｍａｎ两步法，第一步先用ＭＬ法估计选择方程，第二步对连续变量方程用ＯＬＳ法估计，因为方差假设中μ２～Ｎ（０，１）。２．Ｔｏｂｉｔ模型与两部模型的应用。Ｃｒａｇｇ（１９７１）是最早使用两部模型的文献，２０世纪７０年代和８０年代早期在健康经济学的实证分析中经常用到两部模型，如：Ｍａｎｎｉｎｇ　ｅｔ　ａｌ（１９８１、１９８４、—６０１—１９８５），Ｎｅｗｈｏｕｓｅ　ｅｔ　ａｌ（１９８１）等。Ｄｕｄｌｅｙ　＆Ｍｏｎｔ－ｍａｒｑｕｅｔｔｅ（１９７６）、Ｇｒｏｓｓｍａｎ　＆Ｊｏｙｃｅ（１９９０）、ＭｃＬａｕｇｈｌｉｎ（１９９１）等文献虽然没有明确指出他们在研究中使用了两部模型，但是他们的研究都是两部模型在实证分析中的应用。Ｄｕｄｌｅｙ（１９８４）指出样本选择模型的内生性缺陷，此后有一些研究用蒙特卡洛方法，试图证明两部模型优于样本选择模型，即使真实的模型是样本选择模型。Ｆｒｅｅ　＆Ｓｕｎ（２００９）用多变量两部模型分析了家庭寿险需求的问题，认为寿险需求多少取决于人们对定期寿险和终身寿险的联合选择的结果。梁兆晖（Ｌｅｕｎｇ，１９９６）用ＧＵＡＳＳ程序生成了１０００个随机样本数据，对每个实验重复１００次，对样本选择模型与纯两部模型进行对比。实证分析的结论表明，在不同仿真程序下两种模型的效果都运行得较好，对两种模型应该持一种平等的观点，选用哪种模型部分依赖于人们想识别什么参数和什么结果。样本选择模型估计中使用Ｈｅｃｋｍａｎ两步法时，Ψ（ｘ１α）与ｘ２之间的共线性程度对估计结果可能有一定的影响，半参数模型在识别时需要强加一些外生条件以避免共线性的问题，但是参数方法的识别不需要外生的约束条件。因此Ｌｅｕｎｇ（１９９６）不支持两部模型优于样本选择模型的观点，也不认为样本选择模型优于两部模型，认为两种模型在不同的条件下都可以有好的表现形式。Ｈｅｃｋｍａｎ两步法的适用条件是模型中不存在共线性，此时可采用条件数法（ｃｏｎｄｉｔｉｏｎ　ｎｕｍｂｅｒ）对模型的共线性问题进行检验。（二）Ｔｏｂｉｔ模型的分类与结构Ｌｅｅ（１９７６）与Ａｍｅｍｉｙａ（１９８４）按照似然函数的特点，对Ｔｏｂｉｔ模型进行了分类，应用中一般是按照Ａｍｅｍｉｙａ的分类法对模型进行区分的。Ｌｅｅ（１９７６）将受限因变量模型分成五类：简单的受限因变量模型、审查因变量模型、样本可分割的转换回归模型、包含指标内生变量的迭代模型、非市场均衡模型。表１　五类Ｔｏｂｉｔ模型的似然函数类型似然函数１　Ｐ（ｙ１＜０）·Ｐ（ｙ１）２　Ｐ（ｙ１＜０）·Ｐ（ｙ１＞０，ｙ２）３　Ｐ（ｙ１＜０）·Ｐ（ｙ１，ｙ２）４　Ｐ（ｙ１＜０，ｙ３）·Ｐ（ｙ１，ｙ２）５　Ｐ（ｙ１＜０，ｙ３）·Ｐ（ｙ１＞０，ｙ２）Ａｍｅｍｉｙａ（１９８４）根据Ｔｏｂｉｔ模型似然函数的不同将Ｔｏｂｉｔ模型分成五类，第一类模型是标准的Ｔｏｂｉｔ模型，根据数据类型的不同，可建立审查数据模型或者截断数据模型，其余四类模型也称为是广义Ｔｏｂｉｔ模型，适用于样本选择模型，各模型的似然函数如表１所示。１．第一类Ｔｏｂｉｔ模型。（１）审查数据模型。当因变量被审查时，某一特定范围内的值全部变成一个单一值，下审查（或左审查）数据的一般结构为：ｙ＝ｍａｘ　Ｌ，ｙ（）＊＝ｙ＊　ｉｆ　ｙ＊＞ＬＬ　　ｉｆ　　ｙ＊烅烄烆Ｌ被审查数据回归模型的常用结构为：ｙ＊＝ｘβ＋ε，ε服从某种分布。ｙ＝ｍａｘ　０，ｙ（）＊＝ｙ＊　　ｉｆ　　ｙ＊＞０Ｌ　　ｉｆ　　ｙ＊烅烄烆０根据误差项的分布特征构造似然函数：Ｌ＝∏ｙｉ＝０Ｐｒ（ε＜－ｘｉβ）·∏ｙｉ＞０ｆ（ｙｉ－ｘｉβ）上审查（或右审查）模型与此相反。（２）截断数据模型。左截断数据的一般结构为：ｙ＝ｙ＊，　ｉｆ　ｙ＊＞Ｌ左截断随机变量的密度分布为：ｆ　ｙ｜ｙ＞（）Ｌ＝ｆ（ｙ）Ｐｒ（ｙ＞Ｌ）＝ｆ（ｙ）１－Ｆ（ｙ）被截断数据回归模型的常用形式为：ｙ＊＝ｘβ＋ε；　ｙ＝ｙ＊，　ｉｆ　ｙ＊＞Ｌ，ε服从某种分布。根据误差项的分布特征构造似然函数：Ｌ＝∏ｙｉ＞０ｆ（ｙｉ－ｘｉβ）例如：Ａｄａｍｓ（１９８０）研究了遗产的问题，Ｗｉｇ－ｇｉｎｓ（１９８１）研究了每年销售的新药的问题。２．第二类Ｔｏｂｉｔ模型。ｙ＊１ｉ＝ｘ＇１ｉβ１＋μ１ｉ，　ｙ＊２ｉ＝ｘ＇２ｉβ２＋μ２ｉｙ２ｉ＝ｙ＊２ｉ