§4.3离散计数模型(Countdatamodels)•离散计数模型的提出•计数事件的概率模型•泊松回归模型•离散计数模型的扩展一、离散计数模型的提出1、经济社会研究中的离散计数问题•计数变量是取值为非负整数的变量•许多经济、社会问题的描述变量都为计数变量–一定时间内发生事故的次数–一年中公司申请的专利数量–一定时间内变换工作的次数–一定时间内到医院就诊的次数–家庭生育孩子的数量–学生在本科4年中不及格课程门数•以这些变量为被解释变量,研究它们的影响因素,构成了计量经济学的一类问题。2、计量经济学中的离散计数数据模型•假设y是计数变量,x是一组解释变量•常见的建模方法是选用线性模型,用OLS进行回归–由于,应该对所有x都非负,矛盾。•选用自然对数变换–在计数数据应用中难以实现,因为相当比例的y取值为0。()Eyxx0y()Eyxlog()y•当y没有上界时,最常用的模型是指数函数•非线性最小二乘方法(NLS)可以用于估计离散计数模型,但效果不理想–NLS估计量是无效的,除非是常数–所有计数数据的标准分布都意味着异方差•因此,非负整数和异方差特征决定,有必要引进描述非负整数特征的概率分布分析离散计数模型。()exp()Eyxx()Varyx•七十年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,包括:–Gilbert(1979)提出了泊松回归模型,–Hausman,Hall和Griliches(1984)提出了负二项回归模型和Panel方法,–Gourier,Monfort和Trogonon(1984)提出了仿最大似然法。•其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。二、计数事件的概率模型1、计数过程•计数过程的定义–随机过程被称为计数过程,如果N(t)表示t时间前发生的事件总量•平稳性(Stationary)–在任何时间区间上,事件发生数量的分布只由时间区间的长度决定(),0Ntt..2121()()()()idNtsNtsNtNt2、单变量泊松过程•在时间区间上,事件发生1次的概率与t时间前事件发生的数量无关•在时间区间上,事件发生1次和0次的概率分别为–其中,(,)ttt(,)ttt(,)1()PNttttot(,)01()PNttttot0()lim0tott•可以看出,在一个足够短的区间上,事件发生两次以上的概率趋近于0(,)1()PNtttot(0,)()kPNttkptt1()()(1)()()kkkpttpttpttot1()()(()())()kkkkpttptptptott1()(()())kkkdptptptdt0t•使用初始条件求解以上微分方程•利用概率生成函数得到泊松分布0(0)1P()0(,)()()NtkkkPstEspts011()(,)(()())()(,)kkkkkkkdptsdPstptptssPstdtdt(,)exp[()]Pstst10()exp()()(!)()!kkskdPttPXkkdsk3、泊松分布(Poissondistribution)•在泊松过程中,标准化时间区间长度为t=1,则可以得到参数为的标准泊松分布•泊松分布的一个重要特征是均值和方差相等,称为equidispersion。•如果方差大于均值,称为overdispersion;如果方差小于均值,称为underdispersion。()EX()VarX()!kePXkk•定理令,。当且仅当X与Y独立时,随机变量Z=X+Y是泊松分布。–当X与Y独立时,Z的概率生成函数为–则Z服从泊松分布,参数为()XPo()YPo()()()()()XYXYsssEsEsEseee4、二项分布(Binomialdistribution)•随机变量X服从参数为n和p的二项分布,0p1,如果•则均值和方差为–E(X)=np,Var(X)=np(1-p)•Underdispersion()()(1)knknPXkppk•X服从参数为和的负二项分布,即令•overdispersion(,)XNB()1()()()()(1)11kkPXkk/()()()()()(1)kkPXkk()EX()(1/)VarX10()rxrxedx5、对数分布(Logarithmicdistribution)其中方差和均值为()/kPXkk1[log(1)]1()(1)EX2()(1)(1)VarX6、计数数据分布特征•如果以泊松分布作为标准,二项分布更集中于均值,而负二项分布更为分散•所有分布都向左侧倾斜(skewedtotheleft),说明在计数分布中,数值较小的数据出现的概率较高。7、Katz分布族•非负整数分布可以用递归概率比表示•Katz分布族定义为–其中,,且当,1()(,)(1)kkpPXkfkPXkp1(1)kkpkpk0/k0()1EX2()(1)VarX•当,分布为泊松分布•当,分布为二项分布•当,分布为负二项分布•当,分布为对数分布,0,11npppp11(),110,三、泊松回归模型1、泊松回归模型(Poissonregressionmodel)•假设1:•假设2:•假设3:独立同分布()exp()iiiEYxx()iiiYxPo(,)iiyx•从模型假设可以发现:–非负整数特征–取值为0的概率不可忽略–可以预测事件发生概率–不对称分布(skeweddistribution)–异方差exp(exp())exp()()!iiiixkxPYkxk()exp()iiiVarYxx2、极大似然估计(MLE)•对数似然函数•最大化似然函数,一阶条件:•Hessian矩阵:1(;,)[exp()ln(!)]niiiiilyxxyxy'1(;,)[exp()]0niiiilyxyxx2''1(;,)(;,)exp()niiiilyxHyxxxx•由于Hessian矩阵是负定的,对数似然函数是凹函数,估计值的二阶条件满足•利用迭代算法,可以求解一阶条件–例如,Newton-Raphson方法g(.)是梯度向量ˆ11ˆˆˆˆ(())()ttttHg(;,)()lyxg3、例题:本科不及格门数的原因分析•变量–Unpass—不及格门数–Score—高考成绩–Stime—平均每周于用学习的时间–Dsa—理、文科虚变量–Dbody—健康状况虚变量•数据•数据•经典模型(OLS)•Poisson回归模型多余变量检验剔除不显著变量例题☆•轮船事故次数(accidents)与轮船型号(typea、b、c、d、e)、制造年份(year60、65、70、75)、投入使用年份(yearop60、75)和实际服务时间(servmonth)的关系研究。•样本:34注意入选的解释变量部分参数的经济意义缺乏合理解释。只作为试例。ACCIDENTS=@EXP(1.645572184*TYPEA+2.353413299*TYPEB+0.4488787812*TYPEC+0.8131627072*TYPED+1.401045748*TYPEE-0.6726004217*YEAR60+0.3731874354*YEAR65+0.7675535312*YEAR70-0.6994767419*YEAROP60+6.388715642e-05*SERVMONTH)•预测结果与观测值的比较010203040506051015202530ACCIDENTSACCIDENTSF4、估计量的性质•模型正确设定,当且仅当存在满足假设模型正确设定,围绕对进行Taylor展开由一阶条件可知,00011(,)()nniiiiiifyxfyxˆ()g0000ˆˆ()()()()ggHˆ()0g100011ˆ()(())()nHgnn根据iid假设和大数定律,–I为Fisher信息矩阵根据中心极限定理因此,00111()()npniiHHInn01()(0,)dngNIn10ˆ()(0,)dnNI'000[()][()()]iiiiiEHxEggxI•以上结果表明,是的一致估计量由于大样本方差矩阵达到Cramer-Rao下界,估计量是大样本有效的因此,正确设定的泊松回归模型满足ˆ0'101ˆ()(0,[exp()])ndiiiinNnxxx5、模型设定偏误的原因☆•柏松回归模型设定偏误的三个来源–均值函数假设–分布假设–独立样本假设•回归模型、方差函数和分布函数联系紧密–在泊松假定下,条件均值和方差相等–比通常的最小二乘回归模型少1个自由度均值函数设定偏误•无法观测的异质性(Unobservedheterogeneity)–解释变量不足以解释所有的个体差异•可以通过如下方法引入,–其中,u独立于xuuIRexp()x•泊松参数变化的来源有两个–解释变量x引起的系统性因素–独立于x的个体随机影响令,则无法观测的异质性可以看成由省略独立于x的变量造成的E(u)标准化为1loguexp()x()iiE22()iiuVar•定理–X、Y都为随机变量,Y有有限的均值和方差,那么:根据定理,overdispersion()[()]EYEEYx()[()][()][()]VarYEVarYxVarEYxVarEYx()[(,)]uEYxEEYxu22()()()uVarYxExVarx分布函数设定偏误•Gourieroux,MonfortandTrognon(1984)证明,当均值正确设定时,当且仅当概率分布函数族为线性指数族(linearexponentialfamily)时,PMLE(pseudomaximumlikelihoodestimator)是的一致估计量。0•定义:概率测度族被称为线性指数族,如果–每个关于y的概率密度函数都可以表示为–m是概率密度为l(y,m)的随机变量y的均值(,)exp()()()lymAmByCmy根据Kullback不等式,可以得到等号成立,当且仅当000log(,)(,)log(,)(,)lymlymdylymlymdy0,mmM0000()()()()AmCmmAmCmm0mm•的PMLE最大化当l(y,m)为线性指数族,均值函数正确设定时,最大化因此,的PMLE是一致估计量•因为泊松分布函数属于线性指数族,所以当均值函数正确设定时,泊松回归模型得到参数的一致估计量。01log[,(,)]Ttttlymx0(,)mx0log[(,(,))]ttElymx6、模型设定检验•在更一般的参数模型中检验泊松模型的参数约束条件是否成立–LRtest(likelihoodratiotest)–Waldtest–LMtest(Lagrangemultipliertest)•基于回归检验equidiversion是否成立•拟合优度检验LR检验•表示最大化的泊松对数似然函数•表示有一个额外参数的更一般模型的对数似然函数•在泊松假设下:ˆ()l()altl2ˆ2[()()](1)altllWal