11Logit模型的原理及应用2017年3月3日21.问题的提出如果回归模型的解释变量中含有定性变量,则可以用虚拟变量来处理。在实际经济问题中,被解释变量也可能是定性变量。因变量取值是离散的,这类回归模型称为离散选择模型或“定性反应模型”。例如通过一系列解释变量的观测值观察人们对某项提议的态度,某件事情的成功和失败等。这类模型被称为“离散选择模型”:二值选择模型、多值选择模型、计数模型。35.1线性概率模型线性概率模型的形式如下,yi=+xi+ui(1)其中ui为随机误差项,xi为定量解释变量。yi为二元选择变量。如利息税、机动车的费改税(燃油税)问题等。设若是第二种选择若是第一种选择,0,1iy2.线性概率模型(Tobit)4对yi=+xi+ui取期望,E(yi)=+xi(2)下面研究yi的分布。因为yi只能取两个值,0和1,所以yi服从两点分布。把yi的分布记为,iiiipyPpyP1)0()1(则E(yi)=1(pi)+0(1-pi)=pi(3)由(2)和(3)式有pi=+xi(yi的样本值是0或1,而预测值是概率。)(4)以pi=-0.2+0.05xi为例,说明xi每增加一个单位,则采用第一种选择的概率增加0.05。2.线性概率模型(Tobit)5假设用模型(4),pi=-0.2+0.05xi,进行预测,当预测值落在[0,1]区间之内(即xi取值在[4,24]之内)时,则没有什么问题;但当预测值落在[0,1]区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是[0,1],所以此时必须强令预测值(概率值)相应等于0或1(见图1)。线性概率模型常写成如下形式,-0.20.00.20.40.60.81.01.2051015202530XY0,010,1,1iiiiixxxxp(5)此模型由JamesTobin1958年提出,因此称作Tobit模型(JamesTobin1981年获诺贝尔经济学奖)。2.线性概率模型(Tobit)6然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量xi所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的xi,当xi增加时,希望yi也单调增加或单调减少。显然累积概率分布函数F(zi)能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。-4-202400.20.40.60.8105101520253000.20.40.60.81Pobit模型Logit模型2.线性概率模型(Tobit)775.2.2logit模型该模型是McFadden于1973年首次提出。其采用的是logistic概率分布函数。其形式是pi=F(yi)=F(+xi)=iye11=)(11ixe(7)其中pi表示概率,F(yi)表示logistic累积概率密度函数。对于给定的xi,pi表示相应个体做出某种选择的概率。yi称作隐(潜)变量,yi的取值范围是(-,),yi通过logistic函数被转换为概率。Probit曲线和logit曲线很相似。两条曲线都是在pi=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。利用(6)和(7)式得到的概率值见表1。3.Logit模型---提出8对logit曲线作如下变换,pi(1+iye)=1(8)对上式除以pi,并减1得iye=ip1-1=iipp1取倒数后,再取对数,yi=log(iipp1)所以log(iipp1)=yi=+xi(9)由上式知回归方程的因变量是对数的某个具体选择的机会比。logit模型的一个重要优点是把在[0,1]区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit累积概率分布函数的斜率在pi=0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于pi=0.5附近的解释变量xi的变化对概率的变化影响较大,而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小。3.Logit模型---提出ln93.Logit模型----分类103.Logit模型----二分类如果影响ln1pp的因素有12,,,pxxx,则多元logit线性回归方程为01122ln1pppxxxp多元logit线性回归方程还有以下等价形式01122011221kkkkxxxxxxepe113.Logit模型----二分类若将看成是因变量,则logit线性回归模型与多元线性回归模型的形式是一致的,且有很多共性。不同的是:1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分布,而是二项分布,且所有的分析均建立在二项分布的基础上。2、由于上述原因,logit回归系数的估计不能再用最小二乘法,而要用极大似然估计法。回归模型和回归系数的检验也不是F检验和t检验,而要用Wald检验、似然比检验等。123.Logit模型----二分类例:讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄、婚姻状况的关系。试建立死亡率关于年龄和婚姻状况的logit模型。其中,A表示年龄(取中值),M1、M2、M3表示婚姻状况其中112233ln1pAMMMp1pp就是患病概率与不患病概率之比,称1pp为优势..(odds),记为1pODoddsp因此,优势OD的统计意义是:“患病概率”相对于“不患病概率”的倍数。当1OD时,“患病概率”大于“不患病概率”;当1OD时,“患病概率”小于“不患病概率”;当1OD时,“患病概率”等于“不患病概率”。133.Logit模型----多分类前面讨论的logit模型为二分数据的情况,有时候响应变量有可能取三个或更多值,即多类别的属性变量。根据响应变量类型的不同,分两种情况:响应变量为定性名义变量;响应变量为定性有序变量;当名义响应变量有多个类别(即名义、无序)时,多项logit模型应采取把每个类别与一个基线类别配成对,通常取最后一类为参照,称为基线-类别logit.143.Logit模型----多分类有些协变量为定量数据,logistic回归模型的协变量可以是定性名义数据。这就需要对名义数据进行赋值。通常某个名义数据有k个状态,则定义变量代表前面的k-1状态,最后令k-1变量均为0或-1来代表第k个状态。如婚姻状况有四种状态:未婚、有配偶、丧偶和离婚,则可以定义三个指示变量M1、M2、M3,用(1,0,0)、(0,1,0)、(0,0,1)、(0,0,0)或(-1,-1,-1)来对以上四种状态赋值。11,,kMM153.Logit模型----多分类16【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表:其中,三个学校对应两个哑变量x1和x2(学校一(1.0)学校二(0.1)学校三(0.0)),两个课程计划为常规(M=1)和附加(M=0),学习方式分为:自修(y=1)、小组(y=2)、上课(y=3)从题目可以看出,响应变量是学习方式有三类,属于多项逻辑斯蒂回归问题。于是,建模为:11011112213332202112222333lnlnpxxxppxxxp3.Logit模型----多分类(名义)173.Logit模型----多分类(有序)对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示有序变量的logistic回归模型定义为1log()hiiiiitPyixx,1,2,,1ik等价于11()1exphiiiiPyixx实际上是将k个等级人为地分为两类:1,2,,i和1,,ik,在这两类定义的logit表示:属于后1k个等级的累积概率与前i个等级的累积概率的比数之对数,故该模型称为累积比数模型......(cumulativeoddsmodel)。183.Logit模型----多分类(有序)在探讨影响智力因素的研究中,调查了875名小学一年级学生的智商与母亲的文化程度,结果见下表。试分析两者间的关系。这里,儿童智商是多分类定性有序变量,宜建立累积比数logistic回归。影响因素母亲文化程度亦是多分类定性有序变量,可直接进入方程。回归模型见表。变量回归系数标准误差ZPx0.63730.09346.8240.0011.45780.1454常数项21.22540.135833.56300.1935模型为:log()0.6373iitPyixx193.Logit模型----多分类(有序)这里:1,2,3i,11.4578,21.2254,33.5630。0.63731.89ORe,解释为:当母亲的文化程度提高一个等级时,儿童智力提高一个或一个以上等级的可能性将增加0.89倍。常数项又称为分割系数,因为它们将logit分布进行了分割,以对应于不同类的概率:11111()1exp1exphhiiiiiiiiPyixxx在此,0,k。例如,当1x时:1y的概率为:1.45780.63731(1)0.10961Pyxe2y的概率为:1.22540.63731.45780.637311(2)0.533311Pyxee3y的概率为:3.56300.63731.22540.637311(3)0.306211Pyxee4y的概率为:3.56300.63731(4)10.05091Pyxe实际上,1x时,1,2,3,4y的观察频率为:574540.1256,2364540.5198,1354540.2974,264540.0573。理论概率与实际频率很接近。