7.5二值因变量:线性概率模型在迄今为止的所有模型中,因变量y都具有定量的含义(比如美元数量、一项考试的分数、一种百分比,或这些变量的对数)。那现在我们想要用多元回归来解释一个定性的事件,应该怎么做呢?7.5二值因变量:线性概率模型•在实践中,我们想要解释的事件(因变量)是二值结果,即只取0或1两个值。•例如:我们可以定义y表示:•一个成年人是否受过高中教育?•已婚妇女是否在某年度参加过家庭以外的工作?•一个人在某年间是否被拘捕过?•案例中我们可以令y=1表示一种结果(肯定)•y=0表示另一种结果(否定)则有:uxxxykk...221107.5二值因变量:线性概率模型•当y取两个值时,对的解释:定y是一个取值0和1的二值变量时,•P(y=1|x)=E(y|x)——“成功”的概率即y=1的概率等于y的期望值。总是成立的。因此有:•(7.27)•他说明成功的概p(X)=P(y=1|x)是的一个线性函数。方程7.27是二值响应模型的一个例子,而P(y=1|x)又被称为响应概率。•由于概率和等于1,所以1-P(y=1|x)=P(y=0|x)也是•的一个线性函数。jkkxxx...22110x)|1=P(yixix7.5二值因变量:线性概率模型•因为这个响应概率是参数的线性函数,所以这种带有二值因变量的多元线性回归模型,又被称为线性概率模型(LPM).•在LPM中,保持其他因素不变的情况下,度量了的变化导致的成功概率的变化:jjixijxx)|1=P(y7.5二值因变量:线性概率模型•根据以上分析,我们就能使用多元回归模型;爱估计各个解释变量对定性信息的影响。因此得出估计方程为:•就是预计的成功概率,就是在每个Xj都等于0时预计的成功概率。斜率系数的度量是:当X1提高一个单位,成功概率的预期变化。kkxxxˆ...ˆˆˆyˆ22110yˆ0ˆ7.5二值因变量:线性概率模型•教材案例分析:P2437.5二值因变量:线性概率模型7.5二值因变量:线性概率模型•为了解释这些估计值,我们必须记住,自变量的变化改变了inlf=1的概率。•如:•1.Educ的系数表示,保持式子中其他所有的因素不变,多受一年教育使参加劳动市场的概率提高0.038.那多受10年教育会使参与劳动市场的概率提高0.038×10=0.38.•教材P244页图7.3描述了参与劳动市场的概率与educ的关系。7.5二值因变量:线性概率模型•2.Nwifeinc的系数表示△Nwifeinc=10(丈夫收入提高10000美元),这位妇女参与劳动市场的概率就下降了0.034.•3.工作经历是以二次式出现,使得过去的工作经历对参与劳动市场概率具有递减的影响。由于两个系数分别是正、负。因此保持其他因素不变,根据公式-b/2a,算出过去的工作经历对参与劳动市场的概率没有影响的点为0.039/0.0012=32.57.5二值因变量:线性概率模型•4.与较年长子女的个数不同,年幼子女的个数对参与劳动市场具有巨大的影响。在给定的青铜变量水平下,多一个不足6岁子女,会使参与劳动市场的概率减少0.262.7.5二值因变量:线性概率模型•LPM的某些缺点:•1.概率估计值可能落在0—1之外•2.X的边际效应不变•1.我们在得出的式子中带入自变量的某些特征组合数字,就能得到小于0或大于1的预测值。但是这样的预测值都是概率,必须介于0到1之间,所以比较尴尬。7.5二值因变量:线性概率模型•2.X的边际效应不变•概率不可能与自变量所有的可能值线性相关。•如从式子中,我们可以知道从0个子女增加到1个年幼子女的影响使得母亲参与劳动市场的概率下降0.262.•如果这个妇女从1个年幼子女增加到2个,那么概率预期也会下降这么多。这与实际情况不一定相符合。第一个小孩使参与劳动市场概率下降很多以后增加的子女影响是越来越小的。•再者4×0.262=1.048,大于1是不可能的。7.5二值因变量:线性概率模型•即使有这些问题,线性概率模型仍然很有用,常用于经济学中。•一般解决方法:•照常,令表示拟合值,它不一定介于0-1之间。定义预测值,在》0.5时取值1,并在0.5时取值0.现在,我们便得到一组预测值,这些预测值与一样,取值不是0便是1.iyˆiyˆiyˆiyˆiyˆiyˆ7.5二值因变量:线性概率模型7.5二值因变量:线性概率模型•例7.12拘捕的一个线性概率模型•令arr86为一个二值变量,若一个人在1986年间曾被拘捕过则取值1,否则取值0.总体是1960年或1961年在加利福利亚出生并在1986年前至少被拘捕过一次的青年人群。•Pcnv——为以前被捕后定罪的比例。•Avgsen——为以前定罪后关进监狱的平均时间长度•Tottime——从18岁到1986年坐牢的总月数。•Ptime86——为1986年坐牢的总月数。•Qemp86——为此人1986年合法就业的季度数。7.5二值因变量:线性概率模型•1.Avgsen和Tottime都不显著,在此不做详细讨论。•且Avgsen的正号说明,以前更长期的判刑是增加拘捕概率,而和常规的更长期判刑可阻止犯罪相反。•2.Pcnv:定罪概率的提高可以降低拘捕概率,但是影响很小。7.5二值因变量:线性概率模型•3.Ptime86,一个人在监狱多呆6个月,会使拘捕概率减少0.022×6=0.132.•但是当0.441-0.022×12=0.177,而不等于0时,不成立。•4.Qemp86,就业会显著降低拘捕率7.5二值因变量:线性概率模型•同理,在含有虚拟因变量的模型中可以引入虚拟自变量。其系数度量了虚拟变量相对基组而导致成功的概率的预期变化。•在上式中加入两个种族虚拟比变量black和hispan7.6对政策分析和项目评价的进一步讨论•如同在使用回归中一样,我们必须知道,项目参与或其他某个具有政策含义的二值回归元,都可能会与那些观测不到而又影响因变量的因素相关,从而导致通常的变量遗漏偏误。7.6对政策分析和项目评价的进一步讨论7.6对政策分析和项目评价的进一步讨论•上式中,grant的点估计值-0.052表示,在其他两个变量固定时,得到津贴的企业的废品率比没有得到津贴的企业约低5.2%,再通过横截面的分析,知道津贴对企业的生产力没有影响。•因此,即便在政策分析没有涉及将各个单位指派到对照组和处理组的情形中,我们也要警惕包含了那些可能与所关心二值自变量系统相关的因素。•EG:对种族歧视的检验P247-2487.6对政策分析和项目评价的进一步讨论•政策和项目中另一个问题:•自选择__来自个人自己选择加入某种行动或项目的事实:参与并不是随机决定的.这个术语一般用于参与的二值指标可能与无法观察因素系统相关的情况.•案例:•y为一个结果变量,partic为一个二值变量,如果一个人或企业参与一个项目,这个二值就取1.•问题:误差项所包含的与partic相关的因素,可能包含在一个多元回归方程中。且我们无法观察他们,从而导致多元回归出现有偏误的估计量。不能发现项目参与的真正影响.•Theend•Thankyou!