第十章logitic回归本章导读:Logitic回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。10.1logit模型和原理Logistic回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是:因变量必须是二分类变量,若令因变量为y,则常用y=1表示“yes”,y=0表示“no”。[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。自变量可以为虚拟变量也可以为连续变量。从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:事情未发生事情发生01y我们可以采用多种方法对取值为0、1的因变量进行分析。通常以P表示事件发生的概率(事件未发生的概率为1-P),并把P看作自变量x的线性函数。由于y是0-1型Bernoulli分布,因此有如下分布:P=P(y=1|x):自变量为x时y=1的概率,即发放现金股利公司的概率1-P=P(y=0|x):自变量为x时y=0的概率,即不发放现金股利公司的概率事件发生和不发生的概率比成为发生比,即相对风险,表现为PPodds1.因为是以对数形式出现的,故该发生比为对数发生比(logodds),表现为)1ln(PPodds。对数发生比也是事件发生概率P的一个特定函数,通过logistic转换,该函数可以写成logistic回归的logit模型:)1(log)(logPPPiteLogit一方面表达出它是事件发生概率P的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到xPyE10)(因此,从以上分析可以看出,当因变量的取值为0、1时,均值xyE10)(总是代表给定自变量时y=1的概率。虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。kkxxxitPyE22110log)(β0为常数项,β1,β2,…,βk分别为k个自变量的回归系数。因此,logistic模型为:kkkkxxxxxxPPeeeePf221102211011)(10.2模型的stata程序Stata有两个命令可进行二元logistic回归分析:logit和logistic。其分析的结果的实质是一样的。但输出的结果的表现形式有所不同。前者提供参数估计,后者提供发生比。Logit命令:Logit因变量变量1变量2…变量m/*二元非线性回归的基本命令,输出回归系数*/Logistic命令:logistic因变量变量1变量2…变量m/*二元非线性回归的基本命令,输出发生比*/lfit/*lfit是模型适定性诊断命令*/clogit因变量变量1变量2…变量m,strata(配对编号变量)[or]/*clogit是条件logistic回归命令*/10.3关于股利政策的logit模型及解释useE:\stata\logit.dta/*打开stata数据集*/(1)logit命令.logitcashdumroatdsizelagcashdumgrowthcg12firstIteration0:loglikelihood=-753.6759Iteration1:loglikelihood=-464.64549Iteration2:loglikelihood=-413.47149Iteration3:loglikelihood=-384.32824Iteration4:loglikelihood=-376.73079Iteration5:loglikelihood=-376.20593Iteration6:loglikelihood=-376.20303LogisticregressionNumberofobs=1116LRchi2(7)=754.95Probchi2=0.0000Loglikelihood=-376.20303PseudoR2=0.5008------------------------------------------------------------------------------cashdum|Coef.Std.Err.zP|z|[95%Conf.Interval]-------------+----------------------------------------------------------------roa|36.271633.9993949.070.00028.4329644.11029td|-.3322466.4976051-0.670.504-1.307535.6430414size|.1079257.08394931.290.199-.0566119.2724633lagcashdum|2.815261.200675514.030.0002.4219443.208578growth|.4252429.26862941.580.113-.1012611.9517469cg12|.1585007.04777053.320.001.0648722.2521292first|1.665727.58318522.860.004.52270542.80875_cons|-6.4457651.332788-4.840.000-9.057982-3.833548这里,loglikelihood即对数似然值,乘以2即为-2LL,是模型的估计方法。在进行逐步回归时,通过比较不同模型的-2LL,判断模型的拟合程度。取值越小,模型的适应性越好;取值越大,模型的效果越差。Numberofobs是我们所使用的样本量。LRchi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量,其中的(7)为自由度,Probchi2是模型无效假设检验对应的P值。这两个指标与线性回归的F统计量和其P值的功能大体一致。0.0000数值表明,该模型是显著的。另一个统计量PseudoR2是伪决定系数R2。虽不完全等于R2,但大致提供模型中自变量对因变量变异的解释能力。Coef.是每个自变量对应的系数估计。在logistic回归分析中,该系数为对数;Std.Err即系数对应的标准误;OLS通过t检验来判断自变量对因变量的影响是否显著,logistic模型使用z检验来达到该目的。因此,z是单个系数检验的统计量;P|z|是系数检验的P值;最后两列为系数95%的置信区间。二元logit回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi表示,xi改变一个单位时,logitP的平均变化量。Logit回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。Logit回归中的回归系数(βi)表示,某一自变量改变一单位时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(OddsRatio)的对数值。由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。只有将其转换为风险比后,系数才更有明确的意义。比如,分析结果显示,size(单位为千元)的回归系数为0.11。但我们不能将系数解释为size每增加一单位,发放股利的概率增加11%。事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。就变量lagcashdum来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。当自变量为连续性变量时(如size),e(βi)表示xi增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum),发生/是=1,不发生/否=0,则logistic回归中的系数即为是/否的对数值。若上面的系数转化为风险比(OddsRatio),则可直接比较组间差异以及自变量对因变量的影响程度。转化公式为:)1/()1/(0011ppppOR(2)logistic命令Stata另外一个命令可以直接输出风险比:.logisticcashdumroatdsize2lagcashdumgrowthcg12firstLogisticregressionNumberofobs=1116LRchi2(7)=754.95Probchi2=0.0000Loglikelihood=-376.20303PseudoR2=0.5008------------------------------------------------------------------------------cashdum|OddsRatioStd.Err.zP|z|[95%Conf.Interval]-------------+----------------------------------------------------------------td|.7173104.3569373-0.670.504.27048611.902258size2|1.113965.09351661.290.199.94496081.313195lagcashdum|16.697533.35078614.030.00011.2677424.74386growth|1.529962.41099281.580.113.9036972.590231cg12|1.171753.05597523.320.0011.0670231.286762first|5.289523.084772.860.0041.68658416.58916roa|5.66e+152.26e+169.070.0002.23e+121.44e+19------------------------------------------------------------------------------OddsRatio为自变量各自对应的风险比;Std.Err.即相应的风险比的标准差;z是单个风险比=1检验的z统计量;P|z|是耽搁风险比=1检验的P值;最后两列为95%的置信区间。由风险比(OddsRatio)可知,样本的资产负债率(td)没增加1单位,公司发放股利的概率降低71%;上一期发放股利的公司本期发放股利的概率是上一期未发放股利的16倍。最后,需要指出的是,多因素logistic回归分析时,对回归系数的解释都是指在其他所有变量固定的情况下的风险比。当模型包括自变量的交互项时,logistic回归系数的解释变得更为复杂。