计量经济学模型对数据的依赖性

huanghshq
1 ℃
2020-02-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

计量经济学模型对数据的依赖性李子奈【内容提要】伴随着计量经济学模型方法的广泛应用，错误也屡屡发生，重要原因之一是没有正确理解模型对数据的依赖性。本文从计量经济学模型类型选择、总体回归模型设定、模型估计和模型应用等方面分析了数据的作用，指出了容易出现的错误和产生错误的原因。【关键词】计量经济学模型/模型类型选择/总体回归模型设定/数据依赖性一、引言在我国，计量经济学模型在经济理论研究和经济问题分析中已经被广泛采用，成为一种主流的实证研究方法。在一些社会问题的研究中，采用计量经济学模型方法也已经成为一种趋势。同时，模型对数据的依赖性愈发突出，数据的数量和质量成为计量经济学应用研究的一个重要制约因素。计量经济学的创始人弗里希(R.Frisch)为计量经济学下了如下定义：“经验表明，统计学、经济理论和数学这三者对于真正了解现代经济生活的数量关系来说，都是必要的，但本身并非是充分条件。三者结合起来，就是力量，这种结合便构成了计量经济学。”1984年诺贝尔经济学奖授予著名的统计学家斯通(RichardStone)是因为他“在发展国民核算体系方面做出了基础性贡献，并因此极大地改善了经验经济分析(即计量经济分析)的基础”。2000年获得诺贝尔经济学奖的赫克曼(J.Heckman)和麦克法登(D.McFaddan)的贡献是发展了微观计量经济学模型的理论方法，在瑞典皇家科学院发布的新闻公报中着重指出，他们“已经解决了对微观数据进行统计分析中出现的基本问题”。创立动态计量经济学的亨德里(DavidHendry)认为，计量经济分析的过程就是发现客观的数据生成过程的过程。这些足以说明，计量经济学与统计学密不可分，统计学的发展催生了计量经济学，计量经济学的发展带动了统计学。具体表现于计量经济学模型和数据之间的紧密联系。在计量经济学模型的应用研究中，经常有人提出类似于“鸡生蛋还是蛋生鸡”的问题，即究竟是根据数据设定模型，还是根据模型选择数据？不同的是，鸡与蛋的关系问题是没有答案的，而模型与数据的关系问题是有答案的。计量经济学应用研究中模型与数据之间的关系可以用图1表示。图中①表示计量经济学应用模型的类型依赖于表征研究对象状态的数据类型，不同类型的数据，必须选择不同类型的模型。在模型类型确定之后，依据对研究对象的系统动力学关系的分析，设定总体模型。在这个过程中，必须对在经济理论指导下所分析的系统动力学关系进行统计必要性检验，如图中②所示。当总体模型被正确设定后，接下来的任务是进行模型参数的估计，毫无疑问，模型估计必须得到样本数据的支持，模型估计结果依赖于样本数据的质量，即为图中③所示。模型经过估计和检验后进入应用，根据应用目的的不同，需要不同的数据支持，例如用于预测，必须首先给出预测期的外生变量的数据，这就是图中④所表示的步骤。图1模型与数据之间的关系图计量经济学模型对数据的依赖性的一个人所共知的例子是关于我国广义技术进步对经济增长的贡献的测算。国内外许多学者进行了经验研究，结果差异极大，技术进步对GDP增长的贡献率,最低的估计为0，最高估计达到40％。甚至所建立的模型都是C-D型总量生产函数模型，选择的投入要素都是资本和劳动,甚至选择的样本区间也是相同的,数据都来自于中国统计年鉴，仍然会得到不同的结论。为什么？关键是不同的研究者对资本投入的数据或者未进行任何处理，或者进行了不同方式的处理，以消除价格因素的影响。请注意，在统计中，固定资产原值(或者净值)数据是以资产形成年的价格计量的资产简单相加得到的。最近几年，我们对农户借贷需求进行了较为广泛的调查，采集了青海、新疆、甘肃、河北、黑龙江、吉林、山西、湖南、湖北、河南、安徽、江西、陕西、山东、辽宁、内蒙古等16省区的72个县、440多个村庄的5100家农户的数据。其中，在一年中发生借贷行为的农户占55.3％(包括向亲友借贷)，为2820户，其余2280户没有发生借贷。对于这一宝贵的数据资源，当然要充分利用。于是，为了对农户借贷行为进行因素分析，不同的研究者建立了不同的计量经济学模型。有人利用2820户发生借贷的农户的借贷额为被解释变量，建立经典的回归模型；有人认为应该将没有发生借贷的农户信息加以利用，其借贷额为0，于是利用5100农户为样本，建立经典的回归模型；有人认为不应该将没有发生借贷的农户的借贷额统统视为0，而应该视为小于等于0(≤0)，于是利用5100农户为样本，建立了归并(censoring)数据模型(Tobit模型)。有人认为不应该将没有发生借贷的农户的借贷额统统视为小于等于0，因为其中一部分农户有借贷需求，只是因为各种原因(例如提出借贷被拒绝，担心借不到而不敢提出借贷要求等)而没有发生实际借贷。所以，应该按照Heckman两步法建立模型，即首先利用全部样本信息建立借贷是否发生的二元选择模型，然后再利用2820户发生借贷的农户为样本，建立借贷额的因素分析回归模型。显然，最后一种模型是正确的，其他都是不正确的。那么，为什么会发生这些现象？上述例子从不同的角度反映了计量经济学模型与数据之间的关系。前者反映了计量经济学模型估计结果对数据质量的依赖性；后者反映了计量经济学模型类型对数据类型的依赖性。正如李子奈(2007)指出的，在我国计量经济学应用研究广泛开展的今天，问题和错误也普遍存在。重要的原因之一是对计量经济学模型方法论基础缺乏正确的理解，其中包括计量经济学模型的数据基础问题。①下面将着重就当前计量经济学应用研究中有关模型与数据之间关系的几个迫切、重要的问题进行讨论。最后对“数据陷阱”问题进行简单的讨论。二、模型类型设定对数据的依赖性在经济、社会问题研究中，当研究对象确定之后，表征该经济、社会活动结果的数据自然地被确定了。例如，研究我国经济增长的影响因素以及各个因素对增长的贡献，那么表征经济增长结果的GDP时间序列自然地成为模型研究的对象；研究学生在本科4年内不及格的课程门数与什么因素有关，那么表征不及格门数的计数数据0、1、2、…自然地成为模型研究的对象；研究农户的借贷方式由哪些因素决定，那么表征农户向各种正规金融和非正规金融机构借贷的选择结果的离散选择数据0、1、2、…自然地成为模型研究的对象；等等。计量经济学应用研究的第一步，就是根据表征所要研究的经济、社会活动结果的数据类型确定应该建立什么类型的计量经济学模型，在这一步骤中，数据的类型决定了计量经济学模型的类型。李子奈(2008)指出，一个成功的计量经济学应用研究，最重要的是设定正确的总体回归模型；并且提出了总体模型设定的若干原则，包括惟一性、一般性、现实性、统计检验必要性和经济系统动力学关系导向原则。②但是这些是在模型类型确定之后的任务，确定模型类型仍然是首要的任务。用于宏观和微观计量经济分析的数据分为三类：截面数据(Cross-sectionalData)、时间序列数据(Time-seriesData)和面板数据(PanelData，也译为平行数据、综列数据)。对于截面数据，只有当数据是在截面总体中由随机抽样得到的样本观测值，并且变量具有连续的随机分布时，才能够将模型类型设定为经典的计量经济学模型。经典计量经济学模型的数学基础是建立在随机抽样的截面数据之上的。但是，在实际的经验实证研究中，面对的截面数据经常是非随机抽样得到的，或者是离散的，如果仍然采用经典计量经济学的模型设定，错误就不可避免了。事实上，20世纪70年代以来，针对这些类型数据的模型已经得到发展并建立了坚实的数学基础。例如在前述的农户借贷的实例中，如果只利用2820户发生借贷的农户为样本，建立经典的回归模型，被称为“截断数据”(TruncationData)。这类数据在实际经济分析中十分常见，特别在微观经济社会问题研究中大量存在。人们抽取的样本经常是“掐头”或者“去尾”的。对于这类数据，因为抽取每个样本的概率发生了变化，如果仍然采用经典计量经济学模型，其估计结果就产生了“选择性偏误”，应该建立截断数据模型，在这方面J.J.Heckman(1974，1979)做出了基础性贡献。③④例如，如果我们分析学生的学习成绩与相关影响因素之间的关系，学习成绩的最高分为100，最低分为0。处于0与100之间的得分，是学习成绩的真实反映；而表现为100分和0分的学生，实际学习成绩是不同的，所以应该将100分看为大于等于100分的归并，将0分看为小于等于0分的归并。这类数据被称为“归并数据”(CensoredData)。它们在经济分析中也是常见的，例如受到供给限制条件下的商品需求量、尚处于失业状态下的失业时间。类似地，因为抽取处于归并点的每个样本的概率发生了变化，如果仍然采用经典计量经济学模型，其估计结果也会产生“选择性偏误”，应该建立归并数据模型，在这方面，J.J.Heckman(1974，1979)同样做出了基础性贡献。例如，我们研究的对象是选择的结果，或者是二元选择问题，或者是多元选择问题。作为模型被解释变量的观测值只能是0、1或者0、1、2、……这类问题人们几乎每时每刻都面临着。选择结果受哪些因素的影响？各个因素的影响程度有多大？当然可以通过建立计量经济学模型来分析。但是，经典计量经济学模型显然是不适用的，应该建立专门的离散选择模型，在这方面，D.L.McFadden(1974)做出了基础性贡献。⑤再如，我们经常要研究表现为计数数据(CountData)的社会、经济活动结果受哪些因素的影响。例如，汽车一个月内发生事故的次数、学生本科4年内不及格的课程门数、大学毕业生参加工作前5年内调换工作的次数、个人一年内到医院就诊的次数，等等。这些数据都是离散的非负整数，在随机抽取的一组样本中，零元素和绝对值较小的数据出现得较为频繁，重复抽样的正态分布假设不再适用。显然，对于这样的问题，不可以建立以正态性假设为基础的经典计量经济学模型，应该建立专门发展的计数数据模型，Gilbert(1979)提出了泊松回归模型，Hausman，Hall&Griliches(1984)提出了负二项回归模型。再如，以某项活动持续时间作为研究对象的经济问题，例如研究失业持续时间与影响因素之间的关系。在这类问题中，仅从数据方面看存在两个问题：一是失业已经持续的时间并不是失业持续时间的真实反映，不能作为失业持续时间的观测值；二是取得部分解释变量的样本观测值存在困难，因为它们在持续时间内是变化的。毫无疑问，持续时间数据(DurationData)问题也不能建立经典的计量经济学模型，诸如风险比率模型等得到了发展和应用。对于时间序列数据，经典计量经济学模型只能建立在平稳时间序列基础之上，因为只有对满足渐进不相关的协方差平稳序列，才可以适用基于截面数据的统计推断方法，建立时间序列模型。协方差平稳性和渐进不相关性为时间序列分析适用大数定律和中心极限定理创造了条件，替代了截面数据分析中的随机抽样假定(Wooldridge，2003)。否则，数据的时间序列性破坏了随机抽样假定，取消了样本点之间的独立性，样本点将发生序列相关。如果序列相关性不能足够快地趋于零，在统计推断中发挥关键作用的大数定律、中心极限定理等极限法则缺乏应用基础。很可惜，实际的时间序列很少是平稳的。由于宏观经济仍然是我国学者进行经验实证研究的主要领域，而宏观时间序列大量是非平稳的，于是出现了大量的错误。只有经济行为上存在长期均衡关系，在数据上存在协整关系的非平稳时间序列，才能够建立经典的结构模型，C.W.Granger(1974，1987)等的贡献解决了非平稳时间序列模型设定的数学基础问题。⑥⑦至于面板数据，截面数据和时间序列数据存在的问题同时存在，并且还提出了模型设定的专门问题，例如变截距和变系数问题、随机影响和固定影响问题等，已经发展形成了一套完整的模型方法体系(见ChengHsiao，1986，2003)。⑧依据新的模型方法体系设定总体理论模型，才能进行可靠的经验实证。三、总体回归模型设定对数据关系的依赖性李子奈(2008)曾经用图2描述数据在总体回归模型设定中的作用。在经济学理论指导下，通过经济主体动力学关系分析，得到了对研究对象(在单方程计量经济学