解释概率模型主讲人:xxx2018.12.171目录4123876549介绍广义线性模型和对其系数的解释二分的logit和probit模型序列logit和probit模型有序logit和probit模型多类别logit模型条件logit模型泊松回归模型总结2一、介绍在社会学家的工具箱里,最基本的统计方法就是对一个连续的线性的因变量(或者可以转化成线性的)进行回归分析。然而很多社会科学家研究的对象是无法用经典的回归模型来分析的,因为很多的态度、行为、特点,决定以及事件(无论本质上是连续的或者不连续的)是用离散的.虚拟的、序列的或者简单来说,非连续的方法来测量的。划分处理此类数据的一些统计模型常常根据数据的种类来代表和讨论,比如“二分数据分析”、“序列数据分析”、“类别数据分析”或者“离散选择分析”,或者作为一个特别的模型,比方说logit或者probit模型。这些相关联的统计方法的共同特点就是它们都是对某事件的概率来建模。因此,在本书里,我将所有分析事件概率的统计模型统一称为“概率模型”。我们讨论的概率模型包括二分的,序列的,有序的logit和probit,多类别logit,条件logit,以及泊松回归模型。由于解释上的一些困难,有些社会学家对于这些概率模型存有疑虑,由此导致他们逃避选择这种概率模型,转而选择一些更加熟悉却未必合适的方法,比如线性回归。本书的目的就是展示如何解释从各种概率模型中得出的结果。3二、广义线性模型和对其系数的解释为了创建一个通用的模型,我们引入变量𝜂,将函数𝛽𝑘𝐾𝑘=1𝑥𝑘与我们所关心的变量𝜇联系在一起,但并不一定是一个线性的关系。我们指定𝜂是从𝑥1,𝑥2,⋯𝑥𝑘得出的一个线性的预测变数。不考虑模型的种类,这一系列解释变量总是线性地产生𝜂,𝜂和𝑥变量的关系是:𝜂=𝛽𝑘𝐾𝑘=1𝑥𝑘[2.2]目前还没有指定𝜂与𝜇之间的关系函数。不同的模型就是靠𝜂与𝜇的关联区分开广义线性模型里的不同成员。𝜂与𝜇之间有许多可能的关系函数。我们下文仅仅关注与本书涉及的模型有关的函数:1.线性:𝜂=𝜇2.Logit:𝜂=log𝜇1−𝜇3.Probit:𝜂=𝛷−1𝜇4.对数:𝜂=log𝜇5.多类别logit:𝜂𝑗=log𝜇𝑗𝜇𝐽4从等式2.2,我们可以看出,每一个𝑥在𝜂上造成的影响是线性的。因此对于参数估计的线性效应的解释必定适用于所有的广义线性模型。只是这样的解释未必直观,我们从广义线性模型的角度出发,给出五个解释概率的方法。参数估测的符号和他们的显著性给定一系列自变量后预测的η值或转化后的η值对η或者转化后的η产生的边际效应给定一系列自变量值后预测的概率对事件概率的边际效应5三、二分的logit和probit模型作为最简单的概率模型,二分logit和probit模型在因变量上只有两个分类----事件A或非事件A。这种模型在社会科学里广为应用。描述二分因变量的模型可以使用第二章的广义线性模型。首先,先假设一个潜在变量𝑦∗这个潜在变量由以下的回归关系定义:𝑦∗在实际生活中是观察不到的,𝜀以零为平均值系统的分布,它的累计分布函数(CDF)定义为𝐹𝜀。我们可以观察到的是一个二分变量𝑦,针对这些关系我们得出:其中𝐹是𝜀的一个累计分布函数。𝑦∗=𝛽𝑘𝐾𝑘=1𝑥𝑘+𝜀𝑦=0,其他1,𝑦∗0proby=1=prob𝛽𝑘𝑥𝑘+𝜀0𝐾𝑘=1=prob𝜀−𝛽𝑘𝑥𝑘𝐾𝑘=1=1−𝐹−𝛽𝑘𝑥𝑘𝐾𝑘=16当我们假设数据里的某个反映随机成分服从二分分布时,进一步假设ε服从logistic分布,因此数据可以运用logit模型,关系函数变为:𝜂=log𝜇1−𝜇当模型用事件概率表示时模型变为:[3.4]即logit模型log𝑃𝑦=11−𝑃𝑦=1=𝛽𝑘𝐾𝑘=1𝑥𝑘𝑃𝑦=1=1−𝐿−𝛽𝑘𝐾𝑘=1𝑥𝑘=𝐿𝛽𝑘𝐾𝑘=1𝑥𝑘=𝑒𝛽𝑘𝐾𝑘=1𝑥𝑘1+𝑒𝛽𝑘𝐾𝑘=1𝑥𝑘𝑃𝑦=0=𝐿−𝛽𝑘𝐾𝑘=1𝑥𝑘=𝑒−𝛽𝑘𝐾𝑘=1𝑥𝑘1+𝑒−𝛽𝑘𝐾𝑘=1𝑥𝑘=11+𝑒𝛽𝑘𝐾𝑘=1𝑥𝑘7解释logit模型我们基于这样一个例子做解释对η或转化后的η的边际效应给定自变量值后的预测概率发生某事件概率的边际效应8对η或转化后的η的边际效应我们对关系函数的两边都取一下指数,得出现在左边就是比数,右边就是边际效应。1.比数:表3.1是来自1988年全国儿童调查的数据。研究者感兴趣的是青少年(15岁和16岁)到受访年份为止进行性行为(有、没有)的报告。对白人男性来说,有过性行为的比数是𝑂𝑤𝑚=43/134=0.321,对白人女性来说是𝑂𝑤𝑓=26/149=0.174,对黑人男性来说是𝑂𝑏𝑚=29/23=1.261,对黑人女性是𝑂𝑏𝑓=22/36=0.611。这些比数的信息量很大。对每一千个没有进行过性行为的白人男性,就有321个白人男性有过性行为;对每一千个没有进行过性行为的白人女性来说,就有174个白人女性有过性行为;对每一千个没有进行过性行为的黑人男性,就有1261个黑人男性有过性行为;对每一千个没有进行过黑人女性,就有611个黑人女性有过性行为。这也说明,对于这些在同一个年龄层的人来说,进行过性行为的可能性最低的是白人女性,有过性行为的可能性最高的是黑人男性,白人男性有过性行为的可能性比白人女性高而且比黑人女性低。2.比数比:不考虑性别因素,白人进行过性行为的比数都比黑人低,𝑂𝑤=0.244,𝑂𝑏=0.864,𝑂𝑤𝑂𝑏=0.2440.864=0.282,白人进行过性行为的比数是黑人进行过性行为比数的0.282倍。𝑃𝑦=11−𝑃𝑦=1=𝑒𝜂=𝑒𝛽𝑘𝑥𝑘𝐾𝑘=1=𝑒𝛽𝑘𝑥𝑘𝐾𝑘=19对η或转化后的η的边际效应3.Logit模型估计:将𝛽∧取指数,得到右图最后一列的内容。这一列里面的值给出的就是在控制了其他因素后,一个解释变量上一个单位的变化对转化后的η上期待的值造成的改变,即某个事件发生相对于它没有发生的比数上的改变。在种族或者性别上一个单位的变化(从0变到1)即在被命名为“白人”的虚拟变量里面黑人换为白人,或者“女性”这个虚拟变量里男人换为女人。因此,解释某事件发生比数的边际效应等于解释在每一组里面发生的比数的比数比。利用这种解释,控制了其他条件后,白人发生性行为的比数是黑人的0.269倍。这个估计值比我们之前计算出来的观察到的比数比0.282略低。如果在模型里包括了性别和种族的相互作用的话,观察到的和估计出来的两者之间的比数比的差就会消失。10给定自变量后的预测概率因为某事情发生的概率非常容易理解,我们也非常希望能在给定了一系列自变量𝑥后,把某事件发生的概率计算出来。在当前性行为的例子里面,我们可以分别计算出白人女性,白人男性,黑人女性,黑人男性有过性行为的预测概率。如下所示:𝑃𝑤𝑓=0.146𝑃𝑤𝑚=0.246𝑃𝑏𝑓=0.388𝑃𝑏𝑚=0.548这些预测的概率告诉我们每一组里面有多少成员有过性行为,给出了一个简单、直观的理解。基于logit模型,预测大约55%的黑人男性有过性行为,白人女性青少年有过性行为仅为大约15%。11发生某事件概率的边际效应我们去看解释变量对发生某事件的概率所带来的边际效应。可以用下面的等式来表示:𝜕Pr𝑜𝑏𝑦=1𝜕𝑥𝑘=𝑃1−𝑃𝛽𝑘对于这个例子,我们可以利用前面算出的四个分组里面预测的概率来得出边际效应。具体来说,白人和黑人女性有过性行为概率的差就是-0.242即0.146-0.388=-0.242。如果我们用黑人女性的概率来计算偏导数,种族的边际效应就是大约-0.312即𝑃1−𝑃𝛽𝑘=0.388(1一0.388)(一1.314)=-0.312。这个估计比实际上概率的差要多出了0.07。同理,可以得出性别的边际效应,仍然会有一定的偏差。这种边际效应意味着:我们会说在控制了其他变量之后,给定𝑥𝑘上一个单位的改变(或者增加),对事件概率带来的期待的改变大约为𝑃1−𝑃𝛽𝑘。缺点:对于虚拟变量取偏导数会导致对边际效应的夸大,这个值与真实值有出入。12Probit模型𝑃𝑦=1=1−𝐹−𝛽𝑘𝐾𝑘=1𝑥𝑘=𝐹𝛽𝑘𝐾𝑘=1𝑥𝑘=Probit关系模型:𝜂=𝛷−1𝜇概率表示:𝛷𝛽𝑘𝐾𝑘=1𝑥𝑘13解释Probit模型在η上的边际效应给定自变量值后的预测概率发生某事件概率的边际效应14给定自变量后的预测概率𝑃𝑤𝑓=0.145𝑃𝑤𝑚=0.247𝑃𝑏𝑓=0.393𝑃𝑏𝑚=0.542与logit模型进行对比,预测概率基本相同,结论相似。对某事件的边际效应𝜕Pr𝑜𝑏𝑦=1𝜕𝑥𝑘=𝛽𝑘𝜙𝛽𝑘𝐾𝑘=1𝑥𝑘与logit模型解释类似,并且对于二分变量来讲,仍然会夸大边际效应。probit模型计算的预测概率如下:15对比两个模型有很多相似之处,在大部分情况下,这两个都能给出一样的结论。实际上,我们可以把从一个模型得出的估计结果转换到另外一个模型得出的估计结果。如果我们把probit估计乘以一个数,就可以得出一个对应着logit估计值的近似。这个数值一般被认为是π/3=1.814(Aldrich&Nelson,1984)。雨宫(Amemiya,1981)认为,值为1.6更接近真实数值。最准确的值其实是在这两个值之间或接近这两个值。在一些特殊情况logit和probit模型得出的估计是差得非常远的,这样就一定要去考虑使用最合适的模型了。对于尾端比重很大的分布来说,我们更应该考虑logit模型。16四、序列logit和probit模型有时,一些因变量的结果是多样的,但它们并不是一些完全离散的毫无关联的类别。这些反应的类别可以看做一系列阶段。晚期的响应是嵌套在早期的响应里面的。例如,结婚的决定是分两个阶段的:一个人是否计划结婚,然后就是这个婚姻是否会在结束了某种教育程度之前开始(例如完成高中或者大学学历)。人完成高中教育的未完成大学教育的完成大学教育的有职业学历没有职业学历没有完成高中教育的y=1,如果某个人没有完成高中教育y=2,如果某个人完成高中但没有完成大学教育y=3,如果某个人完成了大学教育但没有一个专业学历y=4,如果某个人拥有一个专业学历17𝑃1=𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘1𝑃2=1−𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘1𝐹𝛽𝑘2𝑥𝑘2𝐾2𝑘2𝑃3=1−𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘11−𝐹𝛽𝑘2𝑥𝑘2𝐾2𝑘2𝐹𝛽𝑘3𝑥𝑘3𝐾3𝑘3𝑃4=1−𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘11−𝐹𝛽𝑘2𝑥𝑘2𝐾2𝑘21−𝐹𝛽𝑘3𝑥𝑘3𝐾3𝑘3相对应的概率:18有时候,所得的结果并不仅仅是很有序地分布在决策树的某一个分支上。马达拉(Maddala,1983)讨论了克拉格和尤勒(Cragg&Uhler,1975)关于私家车需求的研究模型,提供了另外一种做决定的次序。模型包括了一系列二分的选择:19y1=1,如果此人购买了一辆新车y1=2,如果此人没有购买新车y2=1,如果此人购买了一辆新车去代替原来的旧车y2=2,如果此人购买了一辆新车还保留原来的旧车y3=1,如果此人没有购买新车但卖掉了旧车y3=2,如果此人既没有购买新车也没有卖掉旧车20这里有四个值得关注的概率:P1=换了一辆车的概率P2=增加一辆车的概率P3=卖掉一辆车的概率P4=没有任何改变的概率有车一族购买新车替代旧车保留旧车未购买新车卖掉旧车未卖掉旧车相对应的概率𝑃1=𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘1𝐹𝛽𝑘2𝑥k2𝐾2𝑘2𝑃2=𝐹𝛽𝑘1𝑥𝑘1𝐾1𝑘11−�