次数依变量模型(ModelsforCountOutcomes)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

次数依变量模型(ModelsforCountOutcomes)2ModelsforCountOutcomes(计次变量模型)Countvariablesindicatehowmanytimessomethinghashappened.美国总统否决法案的次数某教授发表论文的篇数非洲国家发生政变的次数3•Estimatesfromthelinearregressionmodelsareinefficient,inconsistent,andbiased–Functionalform–Nonsensicalpredictions4–Afrequentlyadoptedremedyforlinearregressionmodelistomakeanaturallogarithmictransformationofthedependentvariablesothatalog-linearfunctionisacquired–Becausezeroisoneoftheobservedvalues,aconstantcisoftenaddedtothedependentvariableYi,i.e.,ln(Yi+c)5•Example:ArticleCounts(论文篇数)example(filename:couart2):thedataonthenumberofpublicationsproducedbyPh.D.biochemistsareused6•CountModelsPoissonRegressionModel(PRM泊松模型)NegativeBinomialRegressionModels(负二项模型)泊松分布(PoissonDistribution)—若依变数y是计数(count)在某个时段内感兴趣的事件(event)共发生了几次,,其值为包含0在内之正整数,且在学理上并无上限,这类型变量的分布属于泊松分布(Poissondistribution)70,1,2,y—泊松分布的一大特色是:期望值,其变异量亦为—泊松分布的连接函数为对数函数(loglink)8VYYE—泊松分布的变异量是随平均数之大小而定,此一特性常称为「变异量与期望值相等」(equidispersion)9PoissonRegressionModel(PRM泊松回归模型):将GLM之「系统部分」设为自变数的线性组合后,代入连接函数中:10iixβiikkiiiiyVxxxyE...expexp22110βxx•InterpretationofPRM–theexpectedvalueofthecountvariable(rateofoccurrence):listcoef,prchange–theprobabilityofcounts:prvalue–predictedcount:prtab1112•InterpretationofPRM1.Changeinforchangesintheindependentvariables–factor(orpercent)changeinexpectedcountusinglistcoef–在其他变数固定不变的情形下,女性科学家的平均论文数是男性科学家的女性科学家的0.8倍(或,少20%))|(xyE13–在其他变数固定不变的情形下,指导教授的论文数增加一个标准差,科学家的平均论文数会增加27%Forastandarddeviationincreaseinthementors’productivity,ascientist'smeanproductivityincreasesby27percent,holdingallothervariablesconstant14–MarginalandDiscretechangein(predictedrate)usingprchange在一般情形下(其他变数保持在平均值),女性科学家的平均论文数会比男性少0.36篇)|(xyE152.creatingidealtypeswithprvalueandprtab:16NegativeBinomialModel(负二项模型)•变异量过大问题—泊松回归在理论模型中均设定变异量等于期望值)exp()|(βxxiiiiyEiiyV)(—实际上,经验资料的变异量往往大于理论的预期,即,称为变异量过大(overdispersion)问题—若不校正,系数之标准误会被低估,使得检定比实际更容易在统计上显著,造成推论上的误判17yEyV—造成变异量过大的诸多原因之一,就是事件发生率除了受已观测到的引数影响之外,还有研究者「未观测到的异质」(unobservedheterogeneity)18i处理方式有二:—不采用泊松回归本身的标准误,而另行计算不会低估的变异量及共变数矩阵(variance-covariancematrixoftheestimator,VCE),以估计强韧标准误(robuststandarderror)19—设定事件发生率本身亦为随机变数,呈迦玛(gamma)概率分布,将之代回泊松分布后,二者合成新的「负二项」概率模型20i重估泊松回归之强韧标准误—在Stata,于poisson指令后,加上vce(robust)之次指令,即可估算系数强韧之标准误:poissonyx1x2x3,vce(robust)21•两个「负二项」回归模型–(Negbin2或NB2)上式显示负二项分布的条件期望值与泊松回归模型相同;但条件变异量则不同221,exp,yVyExβ–(Negbin1或NB1)上式显示负二项分布的条件期望值与泊松回归模型相同;但条件变异量则不同231,exp,yVyExβ—检定:当时,负二项分布的变异量等于泊松分布本身的变异量,则泊松模型适用但只要是,负二项分布的变异量就大于泊松分本身的变异量(过度离散),则负二项模型适用240025•Stata内建负二项回归模型指令:nbregyx1x2x3•在报表下方有变异量参数(alpha)的估计值及LR的检定值。如拒斥H0,表示变异量在统计上显著地大于期望值,故应采负二项回归。26•Stata之nbreg指令是设为NB2模型。若要以NB1模型估计,则需在加上dispersion(constant)的次指令•InterpretationofNBM–theexpectedvalueofthecountvariable(rateofoccurrence):listcoef,prchange–theprobabilityofcounts:prvalue–predictedcount:prtab2728•InterpretationofNBR1.Changeinforchangesintheindependentvariables–factor(orpercent)changeinexpectedcountusinglistcoef在其他变量固定不变的情形下,女性科学家的平均论文数是男性科学家的0.8倍(或,少20%))|(xyE29–MarginalandDiscretechangein(predictedrate)usingprchange在一般情形下(其他变量保持在平均值),女性科学家的平均论文数会比男性少0.34篇)|(xyE

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功