4.3-离散计数数据模型

flatpeach
1 ℃
2020-04-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

§4.3离散计数模型（Countdatamodels）•离散计数模型的提出•计数事件的概率模型•泊松回归模型•离散计数模型的扩展一、离散计数模型的提出1、经济社会研究中的离散计数问题•计数变量是取值为非负整数的变量•许多经济、社会问题的描述变量都为计数变量–一定时间内发生事故的次数–一年中公司申请的专利数量–一定时间内变换工作的次数–一定时间内到医院就诊的次数–家庭生育孩子的数量–学生在本科4年中不及格课程门数•以这些变量为被解释变量，研究它们的影响因素，构成了计量经济学的一类问题。2、计量经济学中的离散计数数据模型•假设y是计数变量，x是一组解释变量•常见的建模方法是选用线性模型，用OLS进行回归–由于，应该对所有x都非负，矛盾。•选用自然对数变换–在计数数据应用中难以实现，因为相当比例的y取值为0。()Eyxx0y()Eyxlog()y•当y没有上界时，最常用的模型是指数函数•非线性最小二乘方法（NLS）可以用于估计离散计数模型，但效果不理想–NLS估计量是无效的，除非是常数–所有计数数据的标准分布都意味着异方差•因此，非负整数和异方差特征决定，有必要引进描述非负整数特征的概率分布分析离散计数模型。()exp()Eyxx()Varyx•七十年代末以来，许多学者在计数数据模型的处理方法方面作出了较大贡献，包括：–Gilbert（1979）提出了泊松回归模型，–Hausman,Hall和Griliches（1984）提出了负二项回归模型和Panel方法，–Gourier，Monfort和Trogonon（1984）提出了仿最大似然法。•其中，最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。二、计数事件的概率模型1、计数过程•计数过程的定义–随机过程被称为计数过程，如果N(t)表示t时间前发生的事件总量•平稳性（Stationary）–在任何时间区间上，事件发生数量的分布只由时间区间的长度决定(),0Ntt..2121()()()()idNtsNtsNtNt2、单变量泊松过程•在时间区间上，事件发生1次的概率与t时间前事件发生的数量无关•在时间区间上，事件发生1次和0次的概率分别为–其中，(,)ttt(,)ttt(,)1()PNttttot(,)01()PNttttot0()lim0tott•可以看出，在一个足够短的区间上，事件发生两次以上的概率趋近于0(,)1()PNtttot(0,)()kPNttkptt1()()(1)()()kkkpttpttpttot1()()(()())()kkkkpttptptptott1()(()())kkkdptptptdt0t•使用初始条件求解以上微分方程•利用概率生成函数得到泊松分布0(0)1P()0(,)()()NtkkkPstEspts011()(,)(()())()(,)kkkkkkkdptsdPstptptssPstdtdt(,)exp[()]Pstst10()exp()()(!)()!kkskdPttPXkkdsk3、泊松分布（Poissondistribution）•在泊松过程中，标准化时间区间长度为t=1,则可以得到参数为的标准泊松分布•泊松分布的一个重要特征是均值和方差相等，称为equidispersion。•如果方差大于均值，称为overdispersion；如果方差小于均值，称为underdispersion。()EX()VarX()!kePXkk•定理令，。当且仅当X与Y独立时，随机变量Z=X+Y是泊松分布。–当X与Y独立时，Z的概率生成函数为–则Z服从泊松分布，参数为()XPo()YPo()()()()()XYXYsssEsEsEseee4、二项分布（Binomialdistribution）•随机变量X服从参数为n和p的二项分布，0p1,如果•则均值和方差为–E(X)=np,Var(X)=np(1-p)•Underdispersion()()(1)knknPXkppk•X服从参数为和的负二项分布，即令•overdispersion(,)XNB()1()()()()(1)11kkPXkk/()()()()()(1)kkPXkk()EX()(1/)VarX10()rxrxedx5、对数分布（Logarithmicdistribution）其中方差和均值为()/kPXkk1[log(1)]1()(1)EX2()(1)(1)VarX6、计数数据分布特征•如果以泊松分布作为标准，二项分布更集中于均值，而负二项分布更为分散•所有分布都向左侧倾斜（skewedtotheleft），说明在计数分布中，数值较小的数据出现的概率较高。7、Katz分布族•非负整数分布可以用递归概率比表示•Katz分布族定义为–其中，，且当，1()(,)(1)kkpPXkfkPXkp1(1)kkpkpk0/k0()1EX2()(1)VarX•当，分布为泊松分布•当，分布为二项分布•当，分布为负二项分布•当，分布为对数分布,0,11npppp11(),110,三、泊松回归模型1、泊松回归模型（Poissonregressionmodel）•假设1：•假设2：•假设3：独立同分布()exp()iiiEYxx()iiiYxPo(,)iiyx•从模型假设可以发现：–非负整数特征–取值为0的概率不可忽略–可以预测事件发生概率–不对称分布（skeweddistribution）–异方差exp(exp())exp()()!iiiixkxPYkxk()exp()iiiVarYxx2、极大似然估计（MLE）•对数似然函数•最大化似然函数，一阶条件：•Hessian矩阵：1(;,)[exp()ln(!)]niiiiilyxxyxy'1(;,)[exp()]0niiiilyxyxx2''1(;,)(;,)exp()niiiilyxHyxxxx•由于Hessian矩阵是负定的，对数似然函数是凹函数，估计值的二阶条件满足•利用迭代算法，可以求解一阶条件–例如，Newton-Raphson方法g(.)是梯度向量ˆ11ˆˆˆˆ(())()ttttHg(;,)()lyxg3、例题：本科不及格门数的原因分析•变量–Unpass—不及格门数–Score—高考成绩–Stime—平均每周于用学习的时间–Dsa—理、文科虚变量–Dbody—健康状况虚变量•数据•数据•经典模型（OLS）•Poisson回归模型多余变量检验剔除不显著变量例题☆•轮船事故次数（accidents）与轮船型号（typea、b、c、d、e）、制造年份（year60、65、70、75）、投入使用年份（yearop60、75）和实际服务时间（servmonth）的关系研究。•样本：34注意入选的解释变量部分参数的经济意义缺乏合理解释。只作为试例。ACCIDENTS=@EXP(1.645572184*TYPEA+2.353413299*TYPEB+0.4488787812*TYPEC+0.8131627072*TYPED+1.401045748*TYPEE-0.6726004217*YEAR60+0.3731874354*YEAR65+0.7675535312*YEAR70-0.6994767419*YEAROP60+6.388715642e-05*SERVMONTH)•预测结果与观测值的比较010203040506051015202530ACCIDENTSACCIDENTSF4、估计量的性质•模型正确设定，当且仅当存在满足假设模型正确设定，围绕对进行Taylor展开由一阶条件可知，00011(,)()nniiiiiifyxfyxˆ()g0000ˆˆ()()()()ggHˆ()0g100011ˆ()(())()nHgnn根据iid假设和大数定律，–I为Fisher信息矩阵根据中心极限定理因此，00111()()npniiHHInn01()(0,)dngNIn10ˆ()(0,)dnNI'000[()][()()]iiiiiEHxEggxI•以上结果表明，是的一致估计量由于大样本方差矩阵达到Cramer-Rao下界，估计量是大样本有效的因此，正确设定的泊松回归模型满足ˆ0'101ˆ()(0,[exp()])ndiiiinNnxxx5、模型设定偏误的原因☆•柏松回归模型设定偏误的三个来源–均值函数假设–分布假设–独立样本假设•回归模型、方差函数和分布函数联系紧密–在泊松假定下，条件均值和方差相等–比通常的最小二乘回归模型少1个自由度均值函数设定偏误•无法观测的异质性（Unobservedheterogeneity）–解释变量不足以解释所有的个体差异•可以通过如下方法引入，–其中，u独立于xuuIRexp()x•泊松参数变化的来源有两个–解释变量x引起的系统性因素–独立于x的个体随机影响令，则无法观测的异质性可以看成由省略独立于x的变量造成的E(u)标准化为1loguexp()x()iiE22()iiuVar•定理–X、Y都为随机变量，Y有有限的均值和方差，那么：根据定理，overdispersion()[()]EYEEYx()[()][()][()]VarYEVarYxVarEYxVarEYx()[(,)]uEYxEEYxu22()()()uVarYxExVarx分布函数设定偏误•Gourieroux,MonfortandTrognon(1984)证明，当均值正确设定时，当且仅当概率分布函数族为线性指数族（linearexponentialfamily）时，PMLE（pseudomaximumlikelihoodestimator）是的一致估计量。0•定义：概率测度族被称为线性指数族，如果–每个关于y的概率密度函数都可以表示为–m是概率密度为l(y,m)的随机变量y的均值(,)exp()()()lymAmByCmy根据Kullback不等式，可以得到等号成立，当且仅当000log(,)(,)log(,)(,)lymlymdylymlymdy0,mmM0000()()()()AmCmmAmCmm0mm•的PMLE最大化当l(y,m)为线性指数族，均值函数正确设定时，最大化因此，的PMLE是一致估计量•因为泊松分布函数属于线性指数族，所以当均值函数正确设定时，泊松回归模型得到参数的一致估计量。01log[,(,)]Ttttlymx0(,)mx0log[(,(,))]ttElymx6、模型设定检验•在更一般的参数模型中检验泊松模型的参数约束条件是否成立–LRtest(likelihoodratiotest)–Waldtest–LMtest(Lagrangemultipliertest)•基于回归检验equidiversion是否成立•拟合优度检验LR检验•表示最大化的泊松对数似然函数•表示有一个额外参数的更一般模型的对数似然函数•在泊松假设下：ˆ()l()altl2ˆ2[()()](1)altllWal