第9讲二元结果模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第9讲离散选择模型之二元结果模型参考书目:1.Long,J.S.,andJ.Freese.2006.RegressionModelsforCategoricalDependentVariablesUsingStata.2nded.CollegeStation,TX:StataPress教学视频:Logisticregression,part1:BinarypredictorsLogisticregression,part2:ContinuouspredictorsLogisticregression,part3:Factorvariables一、离散被解释变量的例子二元结果模型:考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;医药实验中的生或死。多元结果模型:对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。这类模型被称为“离散选择模型”(discretechoicemodel)。考虑到离散被解释变量的特点,通常不宜用OLS进行回归。假设个体只有两种选择,比如y=1(考研)或y=0(不考研)。是否考研,取决于研究生毕业后的预期收入、个人兴趣、本科毕业后直接就业的收入前景等。所有解释变量都包括在向量x中。2二、二元结果模型的微观基础对于二元选择行为,可通过“潜变量”(latentvariable)概括该行为的净收益(收益减去成本)。如果净收益大于0,则选择做;否则,选择不做。y*=x′β+ε其中,净收益y*为潜变量,不可观测。选择规则为y=1,若y*0y=0,若y*≤0如果ε为正态分布,则为Probit;如果ε为逻辑分布,则为Logit。logistic—Logisticregression,reportingoddsratios(Logistic回归,报告优势比/比值比)对于Logit模型,记p=P(y=1|x),则1-P=P(y=0|x)。p/(1-p)称为“几率比/优势比/比值比”(oddsratio)。那么什么是几率比?3举例说明,假设在检验药物疗效的随机实验中,“y=1”表示“生”,“y=0”表示“死”;则几率比为2意味着存活的概率是死亡概率的两倍。命令语法:logisticdepvarindepvars[if][in][weight][,options]命令logistic拟合logistic回归模型,其中depvar是一个0/1变量(更准确地说,是一个0/非0变量)。logistic显示的估计结果是优势比;要想查看系数,运行logistic后,输入logit。一、概述logistic替代logit命令,通常是拟合最大似然logit模型的首选方法。Stata使用logit和logistic意味着同样的事情:最大似然估计。并且两种命令会得到相同的结果。logistic命令通常优于logit命令,原因是logistic提供优势比而不是系数的估计结果。对于logistic回归的介绍,请参阅Lemeshow&Hosmer(2005),Pagano&Gauvreau(2000,470–487),或Pampel(2000);一个完整的,非数学的讨论,请参阅Kleinbaum&Klein(2010);一个更深入的讨论,请参阅Hosmer,Lemeshow,&Sturdivant(2013)。Gould(2000)讨论了关于logistic回归的解释。Dupont(2009)和Hilbe(2009)用Stata实例讨论了logistic回归。Vittinghoffetal.(2012)重点讨论了模型设定问题。Stata有一系列命令用来估计二分类或多分类因变量模型。Long和Freese(2014)专门论述了如何使用Stata拟合此类模型。下面是一些常用估计命令的列表。helpestimationcommands提供了Stata全部估计命令的完整列表。asclogit[R]麦克法登离散选择模型(McFadden’schoice)asmprobit[R]多项式probit模型asroprobit[R]排序probit模型binreg[R]二项式的广义线性模型4biprobit[R]二元probit模型blogit[R]分组数据的logit模型bprobit[R]分组数据的probit模型clogit[R]条件(固定效应)logistic回归cloglog[R]互补重对数模型exlogistic[R]精确logistic回归glm[R]广义线性模型glogit[R]分组数据的加权最小二乘logistic回归gprobit[R]分组数据的加权最小二乘probit回归heckoprobit[R]有序probit的样本选择模型heckprobit[R]probit的样本选择模型hetprobit[R]异方差probit模型ivprobit[R]具有连续内生变量的probit模型logit[R]Logistic回归分析,报告系数mecloglog[ME]多层次混合效应互补双对数回归meglm[ME]多层次混合效应广义线性模型melogit[ME]多层次混合效应logistic回归meprobit[ME]多层次混合效应probit回归mlogit[R]多分类因变量logistic回归mprobit[R]多分类因变量probit回归nlogit[R]嵌套logit回归ologit[R]有序logistic回归oprobit[R]有序probit回归probit[R]Probit回归rologit[R]有序秩logistic回归scobit[R]Skewedlogisticregressionslogit[R]Stereotypelogisticregressionsvy:cmd[SVY]svyestimation命令的svy版xtcloglog[XT]随机效应和总体平均cloglog模型xtgee[XT]GEE总体平均广义线性模型xtlogit[XT]固定效应、随机效应和总体平均logit模型xtologit[XT]随机效应有序logistic模型xtoprobit[XT]随机效应有序probit模型xtprobit[XT]随机效应和总体平均probit模型例:估计决定美国妇女就业与否的二元结果模型。数据集包括以下变量:虚拟变量work(1=就业),age(年龄),虚拟变量married(1=已婚),children(子女数),5education(受教育年限)。考虑以下模型:worki=β0+β1agei+β2marriedi+β3childreni+β4educationi+εi作为对照,首先使用OLS进行线性概率模型(LPM)估计:usewomenwk1,clear(原数据是womenwk.dta)regworkagemarriedchildreneducationprobitworkagemarriedchildreneducation,nologmfx(计算probit模型在样本均值处的边际效应,与OLS估计的回归系数进行比较)estatclassification(计算预测准确的百分比)logitworkagemarriedchildreneducation,nologmfxestatclassificationhetprobworkagemarriedchildreneducation,het(agemarriedchildreneducation)nolog(p值为0.78,所以接受“同方差”的原假设。)generateage2=age*agegenerateagemari=age*marriedgenerateagechr=age*childrenquietlylogitworkagemarriedchildreneducationage2agemariagechrtestage2agemariagechr(接受零假设)quietlylogitworkagemarriedchildreneducationestimatesstoreblogitquietlyprobitworkagemarriedchildreneducationestimatesstorebprobitquietlyregressworkagemarriedchildreneducationestimatesstorebolsquietlylogitworkagemarriedchildreneducation,vce(robust)estimatesstoreblogitrquietlyprobitworkagemarriedchildreneducation,vce(robust)6estimatesstorebprobitrquietlyregressworkagemarriedchildreneducation,vce(robust)estimatesstorebolsrestimatestableblogitblogitrbprobitbprobitrbolsbolsr,tb(%7.3f)stfmt(%8.2f)例子:航天飞机数据useshuttle,clear(美国航天飞机25次飞行数据,包括1986年挑战者号最后一次升空失败的飞行)describe(distress:助推结点一处或多处受损;temp:助推结点的温度;date:从1960.1.1起的消逝天数)generatedate=mdy(month,day,year)tabulatedistresstabulatedistress,nolabelgenerateany=distressreplaceany=1ifdistress==2(建立虚拟变量any,0代表无损坏,1代表有1处或更多损坏)logisticanydate(logistic提供优势比,e^b。它的意义是,自变量每增加一个单位时,事件(y=1)的发生比的变化倍数(如有其他自变量,则以其他自变量保持不变为条件))predictphat(取得预测概率)labelvariablephat“PredictedP(distress=1)”graphtwowayconnectedphatdateestatclassification(默认应用0.5的概率作为分割点)。几种符号的含义:D:一个观测中所关注的事件确实发生(y=1)。在本例中,D表示结点损7坏发生了~D:一个观测中所关注的事件没有发生(y=0)。在本例中,~D表示结点损坏没发生+:模型预测概率值大于等于分割点。本例中,+表示模型预测的事故发生概率为0.5或更高-:模型预测概率值小于分割点。Pr(D|+)=12/16=75%(准确预测)Pr(-D|+)=4/16=25%Pr(~D|-)=5/7=71.43%(准确预测)Pr(D|-)=2/7=28.57%logisticanydatetemp(加入助推结点温度temp)根据拟合模型,结点温度每1度增量将使助推结点损坏发生比乘以0.84,也就是说温度每提高1度减少损坏发生比16%。卡方检验更有确定性。estatclassification(分类正确率提高到78.26%)三、条件效应标绘图(条件效应标绘图有助于理解logistic模型在概率方面意味着什么)quietlylogitanydatetempgenerateL1=_b[_cons]+_b[date]*8569+_b[temp]*tempgeneratephat1=1/(1+exp(-L1))(date的第25百分位数为8569;L1是预测的logit值;phat1为相应的distress=1的预测概率)labelvariablephat1“P(distress=1)|date=8569”generateL2=_b[_cons]+_b[date]*9341+_b[temp]*tempgeneratephat2=1/(1+exp(-L2))(date的第75百分位数为934

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功