2-计数模型的理论与应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1专题2:计数模型的理论与应用张晓峒(2011-11-19)南开大学数量经济研究所所长、博士生导师中国数量经济学会常务理事天津市数量经济学会理事长nkeviews@yahoo.com.cn以观测值服从poisson分布为假定条件,介绍计数模型。首先介绍poisson分布。若随机变量Yi的概率函数是P{Yi=yi}=P{yi}=eyiyi!,yi=0,1,...其中0,则称Yi服从poisson分布。观察由=3的poisson分布随机数生成的200个值的序列图与频数分布图。EViews操作:在generatereries窗口键入:y_possion=@rpoisson(3)。观察200个poisson分布值的序列图和频数分布图。seriesy1=@rpoisson(3)seriesy2=@rpoisson(5)seriesy3=@rpoisson(9)用级数公式xkkekx0!推导服从poisson分布随机变量全部取值结果的概率和等于1。1!!}{000eeyeeyyPiiiiiyiyyiyyipoisson分布随机变量Yi的期望是E(Yi)=11110)!1()!1(!iiiiiiyiyyiyyiyieyeyeyy求poisson分布随机变量Yi的方差。分成两步。先求(Yi2)的期望。E(Yi2)=E[Yi(Yi-1)+Yi]=E[Yi(Yi-1)]+E(Yi)2=2220)!2()!)(1(iiiiyiyyiyiieyeyyy2222)!2(iiyiyey则(Yi)的方差是Var(Yi)=E(Yi2)–[E(Yi)]2=2+-2=服从poisson分布随机变量的期望与方差相同。在计数模型中假定Yi=yi服从poisson分布。而Yi的值与解释变量Xi和回归系数有关系。E(Yi)=的最常见表达式是对数线性的。Ln=Xi,或者E(Yi)==β'Xie所以E(Yi∣Xi)=Var(Yi∣Xi)==β'Xieβ'XiXXeYEiii)(当Yi已知,未知时,似然函数为NiiiyYPL1)()(=Niiyeyi1!其中N表示观测值个数。对数似然函数是LnL()=NiiiNiiyNiiyylnlnyylnelnlneyLnii111)!()()!()()(!NiiXiiyLneXyi1)!('似然方程是)(LnL=iNiiNiiXiiXyXeXyi11=0海塞矩阵是)(2LnL=iNiiiNiiXNiiXiiXXXXeXeXyii111--海塞矩阵对所有Xi和都是负定的,所以有极大值存在。3检验Xi是否有解释作用的LR检验统计量定义是LR=NiPLnPLn1ˆ~2其中PLnˆ表示非约束模型极大似然函数值(解释变量Xi存在时的极大似然函数值,即对不加约束的极大似然函数值。概率取对数的和的极大值)。PLn~表示约束模型极大似然函数值(解释变量Xi不存在时的极大似然函数值,即对约束为零的极大似然函数值)。如果条件均值函数定义正确,Yi的分布属于poisson分布,那么的极大似然估计量具有一致性、有效性和渐近正态性。假定服从泊松分布的Yi的均值与方差是相等的,称数据是等离散的,但实际计数数据的方差通常远大于均值,称这一特征为过离散(over-dispersion)。数据的过离散是由于截面数据的异质性决定的。为了更好的描述数据的过离散特征,即数据的异质性,在假定随机计数yi服从poisson分布P{yi}=eyiyi!,yi=0,1,...(其中0)的同时,还假定参数不再是一个常数,不再是一个仅由Xi决定的量,而是一个随机变量。比如用=ivi表示。其中i=β'Xie,而vi0,是一个以g(vi)为密度函数的独立同分布随机变量,为未知参数。如果E(vi)=1,则E()=i,退化为原来(等离散)的poisson分布。若=ivi,则yi基于i和vi的分布是以ivi为均值和方差的poisson分布。f(yiXi,vi)=!)(iyivyveii则对于vi为无条件分布,对于Xi,为有条件分布的f(yiXi)是有条件分布f(yiXi,vi)在vi上的期望,f(yiXi)=iiiyiivdvvgyveiii0)(!)(其中g(vi)称为混合分布,表示观测不到的异质性。即不同的观测值yi,有可能来自不同的poisson分布,这种不同部分来自于随机变量vi。为未知参数。上式表示了平均分布(因有条件vi0。期望E(X)=dxxxf-)()。g(vi)相当于求期望公式中的概率密度函数。在积分式中,若把g(vi)定义为伽玛(Gamma)分布密度函数((,)),4g(vi)=)(1ivvei其中0,β0。称为形状参数(shapeparameter),β称为尺度参数(scaleparameter)。()=(-1)!。01)(ivvei=1。E(vi)=/β,Var(vi)=/β2。012345678925050075010001250150017502000GAMMA伽玛分布密度函数gamma(1,1)分布随机数令E(vi)=1,(则=β),Var(vi)=1/=1/β。则得到yi的负二项(NegativeBinomial)分布的混合概率密度函数表达式f(yiXi)=iiviyiivdvveyveiii01)(!)(=iyiviyidvveyiiii01)()(!=iyiviyidvveyiiii01)()()1(=iiyiiiyiyy))(()1()(=iiyiyiiiyy)()()1()(=)()()()1()(iyiyiiiiiyy=iyiiiiiyy)()1()(服从负二项分布的yi的期望和方差分别是E(yii,)=i,Var(yii,)=2)1(ii,其中0,i0。因为0,i0,服从负二项分布的yi的方差一定大于期望。所以,可以用来描述yi分布的异质性。5由Var(yii,)=2)1(ii知,yi分布的方差是期望i的2次函数。有时也可以把yi分布的方差设定为i的1次(线性)函数。Var(yii,)=(1+)i通常把服从负二项分布的yi,并有i的二次函数方差的模型称作NB2(NegativeBinomial2)模型。把服从负二项分布的yi,并有i的线性函数方差的模型称作NB1模型。实际中NB2模型的用途更广些。数据等离散的计数模型采用极大似然估计法估计模型参数。数据过离散的服从负二项分布(NB)计数模型采用模拟极大似然估计法估计模型参数。下面以NB2模型为例介绍模拟极大似然估计法(MSL,maximumsimulatedlikelihood)原理。yi的负二项分布的混合概率密度函数f(yiXi)=iiviyiivdvveyveiii01)(!)(可以近似表示为KjiyjivyveKij1!)(1。vj,(j=1,...,K)是按g(vi)的分布生成的伪随机数。比如g(vi)代表均值为1,方差为1/的伽玛分布。K表示模拟次数。令uj表示均匀分布的随机变量,并令vj=-Lnuj,则模拟算子表示为!)]([),,(~)(iyjiLnujiyLnuevyfij则模拟极大似然函数是KjijiiNiuXyfKLn11),,(~1其中i=β'Xie。当K,N,NK0,模拟极大似然估计量与极大似然估计量渐近相等。注意:由于poisson分布能够很好地用来描述计数模型,所以混合poisson分布也常用来描述计数模型。g(vi)设定为负二项分布只是选择之一。有时也可以选择对数正态分布或者逆高斯分布。观察由=3的指数分布随机数生成的200个值的序列图与频数分布图。EViews操作:在generatereries窗口键入:y_exp=@rexp(3)。观察200个指数分布值的序列图和频数分布图。观察由参数(1,.2)的负二项分布随机数生成的200个值的序列图与频数分布图。EViews操作:在generatereries窗口键入:y_negbin=@rnegbin(1,.2)。6观察200个负二项分布值的序列图和频数分布图。计数模型案例:(count-model01)个人特征、健康状态、医疗保险状态如何影响看医生次数。数据取自RAND公司19741982年数据。本研究的目的评价患者使用医疗服务如何受随机签署的健康保险(包括免费服务、健康维护组织)影响。数据取自覆盖整个国家的6个地点的2823个家庭的8000个入会者。每个家庭都签署了14个35年的健康保险之一。保险的范围是从免费到95%共保。关键的问题是保单是随机签的,不是自由挑选的。所以不存在内生处理效应问题。本研究的数据只取自“免费服务计划”。数据由利用、花费、人口统计特征、健康状况、健康保险状况等变量组成。样本共包括20186组数据。每组数据都是一个给定年的数据。MDU表示看医生次数。看医生次数以及相应频率如下表:看医生次数相应频率(%)看医生次数相应频率(%)看医生次数相应频率(%)031.272.6140.4118.982.0150.3213.891.4160.339.3101.0。。。46.7110.922771.054.8120.663.4130.5看病次数(MDU)的频率分布如下:输入命令“mdu.freq”(按回车键)得在序列窗口,点击View,选onewaytabulation。点击OK。TabulationofMDUDate:10/06/09Time:18:35Sample:120186Includedobservations:201867Numberofcategories:59CumulativeCumulativeValueCountPercentCountPercent0630831.25630831.251381518.901012350.152279513.851291863.99318849.331480273.33413456.661614779.9959684.801711584.7966893.411780488.2075312.631833590.8384082.021874392.8592871.421903094.27102061.021923695.29111900.941942696.24121180.581954496.82131090.541965397.3614820.411973597.7715590.291979498.0616560.281985098.3417330.161988398.5018370.181992098.6819350.171995598.8620260.131998198.9821220.112000399.0922190.092002299.1923190.092004199.2824130.062005499.352580.0420

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功