二元离散选择模型•1962年,Warner首次将它应用于经济研究领域,用以研究公共交通工具和私人交通工具的选择问题。•70、80年代,离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。•从1987年出版的专著《EconometricAnalysisofDiscreteChoice》(Börsch-Supan,Springer)所引用的文献可以看出,模型的估计方法主要发展于80年代初期。•McFadden因为在离散选择模型领域的贡献而获得2000年诺贝尔经济学奖。•我们经常想知道日常生活中的一些事件发生的概率!•经济学家想知道一些概率发生的原因是什么?二元离散选择模型的经济背景二元离散选择模型的经济背景•例如:公共交通工具和私人交通工具的选择问题。选择利用公共交通工具还是私人交通工具,取决于两类因素:一类是公共交通工具和私人交通工具所具有的属性,诸如速度、耗费时间、成本等;一类是决策个体所具有的属性,诸如职业、年龄、收入水平、健康状况等。•从大量的统计中,可以发现选择结果与影响因素之间具有一定的因果关系。揭示这一因果关系并用于预测研究,对于制定交通工具发展规划无疑是十分重要的,就需要建立计量经济模型。•例如:对某种商品的购买决策问题。决定购买与否,取决于两类因素。一类是该商品本身所具有的属性,诸如性能、价格等;一类是消费者个体所具有的属性,诸如收入水平、对该商品的偏好程度等。•从大量的统计中,可以发现选择结果与影响因素之间具有一定的因果关系。•揭示这一因果关系并用于预测研究,对于生产厂家无疑是十分重要的,这也需要建立计量经济模型。•例:求职者对某种职业的选择问题。决定接受或者拒绝该职业,同样取决于两类因素。一类是该职业本身所具有的属性,诸如工作环境、工资水平、对求职者文化水平的要求等;一类是求职者个体所具有的属性,诸如年龄、文化水平、对职业的偏好等。•从大量的统计中,可以发现选择结果与影响因素之间具有一定的因果关系。揭示这一因果关系并用于预测研究,对于用人单位如何适应就业市场,显然是十分有益的,这也需要建立计量经济模型。二元离散选择模型的基本要素潜变量Z:这是一个观察不到的连续变量(如成功的实力或者就业的可能性),它将当(Z0)D=1,否则D=0(Z0)区分开来;确定了二值结果但有观察不到的概括性变量Z称为潜变量iiixZ10•解释变量,包括选择对象所具有的属性和选择主体所具有的属性。1.二元响应模型(Binaryresponsemodel)•我们往往关心响应概率zGxxGxyxykk...1110线性概率模型(Linearprobabilitymodel,LPM)对数单位模型(logit)概率单位模型(probit)三种模型估计的系数大约有以下的关系:LPMprobitprobitit5.2,6.1log2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:dzzdGzgxgxxpjj,0偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。kxkckckkkkcxGcxG...1...110110(2)如果解释变量是一个离散性变量,则从变化到+1时对概率的影响大小为:上面的其他解释变量的取值往往取其平均值。估计方法:极大似然估计例子•设甲箱中有99个白球,1个黑球;乙箱中有1个白球,99个黑球.现随机取出一箱,再从中随机取出一球,结果是黑球,这时我们自然更多地相信这个黑球是取自乙箱的.•因此极大似然估计法就是要选取这样的数值作为参数的估计值,使所选取的样本在被选的总体中出现的可能性为最大.•定义.若总体X的密度函数为p(x;θ1,θ2,…,θk),其中θ1,θ2,…,θk是未知参数,(X1,X2,…,Xn)是来自总体X的样本,••为θ1,θ2,…,θk的似然函数.其中x1,x2,…,xn为样本观测值.若有使得成立,则称为θj极大似然估计值(j=1,2,…,k).特别地,当k=1时,似然函数为:根据微积分中函数极值的原理,要求使得上式成立,只要令其中L(θ)=L(x1,x2,…,xn;θ).解之,所得解为极大似然估计,上式称为似然方程.由于与的极值点相同,所以根据情况,也可以求出的解作为极大似然估计.若总体X为离散型随机变量,其概率分布为:P(X=x)=p(x;θ1,θ2,…,θk)已知总体X服从泊松分布(λ0,x=0,1,…)x1,x2,…,xn)是从总体X中抽取的一个样本的观测值,试求参数λ的极大似然估计.解.参数λ的似然函数为两边取对数:式对λ求导,并令其为0,即从而得即样本均值是参数λ的极大似然估计.估计方法—极大似然法(MLE).,(0)())(1)(()()(log))(1log()1()(log)(log)(),(|1111局凹函数且迭代收敛保证了极大似然函数全线性假设自变量没有多重共阵二阶导数矩阵为负定矩iNiiiiiiNiiiiNiiiiiiXXfXFXFXFYLXFYXFYLXFXGXYPProbitmodel估计系数的含义:.,,]ˆ)ˆˆ([)|1(ˆ)()|1(;.10将会变化多少个单位会导致事件发生的概率单位平均意义上每提高一个指的是取样本均值一般影响边际的对响应概率估计连续型自变量XXXXXYPXYPXXjjj.;0,ˆˆ...ˆˆ)1(ˆˆ...ˆˆ1;.21111011110变量代入其平均值一般都是对大致连续的则取为二值变量如果变化导致的预测响应概率的增加到从估计离散型自变量mmmmmmmmmmmmmcXcXXGcXXGccXX例1.数据:美国1988年的CPS数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp、经验的平方项potexp2、受教育年限grade、婚否married、工会化程度high);•解释变量:Potexp=年龄-受教育年限-5;•grade=完成的受教育年限;•married:1表示婚,0未婚;•high:1表示高度工会化的行业,否则为0。估计的结果unionCoef.Std.Err.zPz[95%Conf.Interval]potexp.0835091.01560875.350.000.0529166.1141016potexp2-.0015308.0003179-4.820.000-.0021538-.0009078grade-.042078.0189089-2.230.026-.0791388-.0050171married.0622516.11258360.550.580-.1584083.2829115high.5612953.0996625.630.000.3659613.7566292_cons-1.468412.2958112-4.960.000-2.048192-.8886332probitunionpotexppotexp2grademarriedhighdprobitunionpotexppotexp2grademarriedhigh给出了ˆˆ0xg如果要求偏效应还需要对其乘以估计的系数beta;uniondF/dxStd.Err.zPzx-bar[95%C.I.]potexp.0226964.00415295.350.00018.884.014557.030836potexp2-.000416.000085-4.820.000519.882-.000583-.00025grade-.0114361.0051379-2.230.02613.014-.021506-.001366married*.0167881.03011370.550.580.641-.042234.07581high*.1470987.02470055.630.000.568.098687.195511obs.P.216pred.P.1904762(atx-bar)uniondF/dxStd.Err.zPzx-bar[95%C.I.]potexp.0226964.00415295.350.00018.884.014557.030836potexp2-.000416.000085-4.820.000519.882-.000583-.00025grade-.0114361.0051379-2.230.02613.014-.021506-.001366married*.0167881.03011370.550.580.641-.042234.07581high*.1470987.02470055.630.000.568.098687.195511obs.P.216pred.P.1904762(atx-bar)如果存在异方差,可采用稳健估计,在上面命令后面加上robust。例:持有付息资产的决策•美国仅有59%的家庭除了雇主掌控的养老金和个人退休金账户,未持有任何付息金融资产。•为什么呢?只要持有付息资产的净收益大于零,个人会愿意持有付息资产。持有H=1,否则H=0.INF为个人金融总资产的对数P是虚拟变量,表示是否拥有公司退休金i是虚拟变量,表示到最近金融机构的距离变量系数标准误Z统计量概率inf0.630.023227.440.000PiLR统计量Porb(LR)_cons.0654024.12006710.540.586-.1699249.3007297gdprate1.5713464.2128540.370.709-6.6856969.828388area.6112531.11502655.310.000.3858052.8367009type-.0491338.0905516-0.540.587-.2266117.1283442capital-6.78e-122.48e-12-2.730.006-1.16e-11-1.91e-12effectCoef.Std.Err.zP|z|[95%Conf.Interval]Loglikelihood=-521.21768PseudoR2=0.0322Probchi2=0.0000LRchi2(4)=34.73ProbitregressionNumberofobs=861Iteration6:loglikelihood=-521.21768Iteration5:loglikelihood=-521.21768Iteration4:loglikelihood=-521.21773Iteration3:loglikelihood=-521.2189Iteration2:loglikelihood=-521.22793Iteration1:loglikelihood=-521.29429Iteration0:loglikelihood=-538.5827.probiteffectcapitaltypeareagdprate•房地产政策的影响效应?.zandP|z|correspondtothetestoftheunderlyingcoefficientbeing0(*)dF/dxisfordiscretechangeofdummyvariablefrom0to1pred.P.6862338(atx-bar)obs.P.6817654gdprate.55726361.4924710.370.709.00309-2.367933.48245area*.2305463.04448135.310.000.819977.143365.317728type-.0174248.0321173-0.540.587.51335