1第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。本章主要介绍以下内容:1、为什么会有离散选择模型。2、二元离散选择模型的表示。3、线性概率模型估计的缺陷。4、Logit模型和Probit模型的建立与应用。第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据2来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。下面是几个离散数据的例子。例5.1研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即1,0Y购买,不购买我们希望研究买房的可能性,即概率(1)PY的大小。例5.2分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即1,0Y跳槽,不跳槽例5.3对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即1,23Y支持,反对,弃权研究投票者投什么票的可能性,即(),1,2,3PYjj。从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)二、线性概率模型3对于二元选择问题,可以建立如下计量经济模型。1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示12iiiYXu其中,iX为家庭的收入水平,iY为家庭购买住房的选择,即10Y家庭已购买住房家庭无购买住房由于Y是取值为0和1的随机变量,并定义取Y值为1的概率是p,则Y的分布为即随机变量Y服从两点分布。根据两点分布,可得Y的数学期望为()0(1)1EYppp显然(1|)(|)()iiPYXpEYXEY从而12(|)iiEYXXp(5-1)上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p,并且这时对应p的表示是一线性关系,因此,Y在给定iX下的条件期望()iEYX可解释为在给定iX下,事件(家庭购买住房)将发生的条件概率为(1)iiPYX,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。我们称这一关系式为线性概率函数。由于,Y服从两点分布,所以,Y的方差为()(1)VarYpp2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS估计,会存在以下困难。Y01概率1-pp4(1)随机误差项的非正态性表现1212121,10,iiiiiiiiiuYXYuXYuX表明iu服从两点分布。而在经典计量经济学中,假定iu服从正态分布。(2)iu的异方差性。事实上,根据iu服从两点分布则iu的方差为()(1)iiiVarupp。表明ip随着i的变动是一个变量,则iu的方差不是一个固定常数。(3)利用加权最小二乘法修正异方差取权数为121212(1)()(1)iiiiiiiiiiwppXXYXu可以证明iiuw具有同方差。在具体估计线性概率模型时,用ˆiY作为p的估计来计算权数w的估计wˆ。3、可决系数2R的非真实性。由于,被解释变量Y只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R会比1小许多,在大多数例子中,2R介于0.2与0.6之间。4、0≤()iiEYX≤1不成立。克服这一问题可直接从对线性概率模型的估计,求出ˆiY,用人工的方法定义当ˆiY1时,取ˆiY=1;当ˆiY0时,取ˆiY=0。但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit模型和Probit模型。iu121iX12iX概率ip1ip56第二节Logit模型一、Logit模型的产生1、产生Logit模型的背景由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。(1)古典假定不再成立,如存在异方差性,可用加权OLS方法加以弥补。(2)在线性概率模型中,对于不满足0≤()iiEYX≤1的情况,用人工的方法处理,即当ˆiY1时,取ˆiY=1当ˆiY0时,取ˆiY=0虽然能够弥补不足,但仍然具有较强的主观因素。(3)经济意义也不能很好地得到体现。在线性概率模型12(|)iiEYXXp中,概率(1)PY会随着iX的变化而线性变化,但这与实际情况通常不符。例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。2、Logit模型的含义综合上述讨论,我们所需要的是具有如下二分性质的模型。(1)随着iX的减小,ip趋近0的速度会越来越慢;反过来随着iX的增大,ip接近1的速度也越来越慢,而当iX增加很快时,ip的变化会比较快。故ip与iX之间应呈非线性关系。(2)并且由概率的属性,ip的变化应始终在0和1之间。因此,一个很自然的想法是采用随机变量的分布函数来表示ip与iX的这种非线性关系。从几何图形看,所需要的模型有点像图5.1那样,概率位于0与1之间,并随着iX非线性地变化。7图5.1一个累积分布函数的图形形如图5.1所示的S型曲线,就是随机变量的一个累积分布函数(CDF)。因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量iX之间有上述变化特征,则可用CDF去建立回归模型。在二分被解释变量的研究中可使用多种分布函数(Cox,1970)来表示。但最常用的是Logistic分布函数和标准正态分布函数,前者导出Logit模型,后者导出Probit模型。(3)Logistic分布函数设12()11()11iiiizXpFzee(5-2)式中,12iiZX。并且在该表达式中,有如下变动规律,当iZ时,1ip;当iZ时,0ip;当0iZ时,12ip。称(5-2)式为Logistic分布函数,它具有明显的S型分布特征。(4)Logit模型以下是由Logistic分布函数导出Logit模型。12111,11111111ln()(53)1iiiiiiiiZZZZZiZiiiiippeeepeepepZXpXp8其中,1iipp为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。称(5-3)式为Logit模型。3、Logit模型的特点(1)随着P从0变到1,ln()1pp从变到(亦即iZ从变到)。可以看出,在LPM中概率必须在0与1之间,但对Logit模型并不受此约束。(2)ln()1pp对iX为线性函数。(3)当ln()1pp为正的时候,意味着随着iX的增加,选择1的可能性也增大了。当ln()1pp为负的时候,随着iX的增加,选择1的可能性将减小。换言之,当机会比由1变到0时,ln()1pp会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1pp为正,并且也会越来越大。4、Logit模型与线性回归模型的区别(1)Logit模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。(2)线性回归模型研究被解释变量Y的均值(|)iEYX与解释变量iX之间的依存关系,而Logistic分布函数研究的是事件发生的概率(1|)iPYX与解释变量iX的依存关系。(3)线性回归模型中包含随机误差项iu,对iu的要求是要满足基本假定,而Logistic分布函数没有出现随机误差项,对模型没有这样的要求。(4)在估计Logit模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。9此外,Logit模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。二、Logit模型的估计为了估计Logit模型,除了iX外,我们还应有ln()1pp的数值。由于ip只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1pp无意义,通常情况下,ip没有具体的数据,所以直接对Logit模型进行估计有困难。这时,可有以下估计方法。1、根据数据类型选用OLS方法可通过市场调查获得分组或重复数据资料,用相对频数ˆiiirpn作为ip的估计。以购买住房为例,将购买住房的情况分组,假设第i组共有in个家庭,收入为iX,其中有ir个家庭已购买住房,其余未购买。则收入为iX的家庭,购买住房的频率为ˆiiirpn将其作为ip的估计,并代入对数机会比,有ˆln()ln()ˆ11iiiipppp于是,样本回归函数为12ˆˆˆln()ˆ1iiipXp对上式可直接运用OLS法估计未知参数了。具体应用可参见DamodarN.Gujarati《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年。第559页-第560页。2、最大似然估计方法在线性回归中估计总体未知参数时主要采用OLS方法,这一方法的原理是10根据线性回归模型选择参数估计,使被解释变量的观测值与模型估计值之间的离差平方值为最小。而最大似然估计方法则是统计分析中常用的经典方法之一,它是建立在由联合密度函数所导出的似然函数,并对其求极值而得到参数估计的一种方法。在线性回归分析中最大似然估计法可以得到与最小二乘法一致的结果。但是,与最小二乘法相比,最大似然估计法既可以用于线性模型,又可以用于非线性模型,由于Logit回归模型是非线性模型,因此,最大似然估计法是估计Logit回归模型最常用的方法。下面,以单变量为例,说明该方法的运用。假设有n个样本观测数据(,),1,2,,iiXYin,由于样本是随机抽取,所以,在给定iX条件下得到的1iY和0iY的概率分别是ip和1ip。于是,一个