第三讲二项逻辑回归——以上市企业特别处理ST为例一、二项逻辑(BinaryLogisitic)回归二项逻辑斯蒂回归是可以用来预测具有两分特点的因变量概率的统计方法,它适用于判断一些事情将是发生还是不发生,某个候选人将当选还是不当选,某个人容易患某种病还是不容易患该病等等。与前面线性回归和方差分析中因变量为数值型变量不同,二项逻辑回归中的因变量具有两分特点。即:因变量只有两个值——发生(是)或不发生(否)。数据要求因变量应具有二分特点,保证因变量的取值为0或1;自变量可以是分类变量或数值变量,如果为分类变量,应为二分变量或被重新编码的指示变量,如果为数值变量,最好为多元正态分布。Logistic模型预测观测量相对于某一事件的发生概率:某一事件不发生的概率:prob(noevent)=1-prob(event)ppppxxxxeeeventprob1101101)(Logistic回归系数模型回归使用极大似然比法和迭代方法评价模型——判断拟合的优劣1.模型的拟合度2.系数检验3.影响点的查找4.交互项ppxxnoeventprobeventprob110))()(log(ppxxenoeventprobeventprob110)()(二、案例背景介绍特别处理(specialtreatment,ST)政策是我国股市持有的一项旨在保护投资者利益的政策。被特别处理的股票每日涨跌幅度是受到限制的,对被特别处理的股票证监会要求在原股票名称之前加上“ST”,以作提醒。《上海证券交易所股票上市规则》关于特别处理的详细规定:相关参考文献ST政策的后果股票涨跌幅度被限制在5%以内;持续亏损可能会被退市;误导投资者影响企业正常经营我们更关心:企业怎么避免由于被ST面临着的退市风险?投资者怎么能察觉什么样的企业更有可能被ST?三、数据介绍我国股市的ST状况大股东占款行为同企业ST的关系数据说明数据来源于某商业数据库;ST的样本是在第t年被ST的深沪两市公司;相应的财务指标(解释变量)取自于第t-3年,即被ST之前第三年的数据因变量为该企业的ST状态,即ST或非ST。(二分特点)定义Y=0表示非ST,定义Y=1表示ST。如果因变量是取值多个的定性变量,逻辑回归不再适用,应该考虑多分变量的逻辑斯谛回归。四、指标设计1.ARA(X1)应收账款与总资产的比例,反映盈利质量;2.ASSET(X2)对数变换后的资产规模,反映公司规模;3.ATO(X3)资产周转率,量化一个企业对资产的利用效率;4.ROA(X4)资产收益率,反映每单位资产能够给企业带来的利润如何;5.GROWTH(X5)销售收入增长率,反映企业的增长速度;6.LEV(X6)债务资产比率,也称杠杆比率。反映企业总资产中来自于债权人的比率;7.SHARE(X7)企业第一大股东的持股比率,反映该企业的股权结构。统计数据五、描述分析单变量描述分析变量分组对比的描述分析(盒状图)0100.20.40.60.8ARAST分类表(a)(,)(b)ST已观测0步骤0ST0648136报告STARAASSETATOROAGROWTHLEV0均值9.06034667762E-22.0773459460E1.5254105.66334496049E-21.23044284216E-14.01843469995E-1N648648648648648648标准差.0867357096138.32429628045E-1.3676712.037417359210.299471209170.164487412034中值6.63429700000E-22.0688101150E1.4345505.20196415000E-21.06396773000E-14.02690387000E-1极小值.00000000018.66070036.0028.000081700-.950727316.018431070极大值.63468424924.017610753.1513.311129979.998556503.9803217521均值1.75077078583E-12.0856945577E1.4183144.21299924167E-2-2.49055246111E-24.82025133222E-1N363636363636标准差.1420789105518.61102914854E-1.2424995.054591871362.400322588476.172601603908中值1.39242836500E-12.0816099460E1.3911002.56733655000E-2-1.18810779000E-15.04284161500E-1极小值.01191061519.07363796.0824.001052306-.816703929.138105086极大值.53359089323.48809660.9212.235083859.899764378.793781313总计均值9.50494463450E-22.0777853466E1.5197745.58701097529E-21.15257452173E-14.06063557534E-1N684684684684684684标准差.0922893115688.33523222911E-1.3628265.038593910305.307020050078.165763968255中值6.83271815000E-22.0700502790E1.4334005.12579800000E-21.02282637500E-14.06739738000E-1极小值.00000000018.66070036.0028.000081700-.950727316.018431070极大值.63468424924.017610753.1513.311129979.998556503.980321752六、统计模型ST概率似然函数方程中的变量BS.E,WalsdfSig.步骤1aARA4.8801.49210.6901.001ASSET.247.2241.2111.271ATO-.507.657.5961.440ROA-.6376.224.0101.919GROWTH-.833.5672.1601.142LEV2.3541.2013.8401.050SHARE-.011.011.9931.319常量-8.8694.6363.6601.056a.在步骤1中输入的变量:ARA,ASSET,ATO,ROA,GROWTH,LEV,SHARE.统计学推断全局检验:离差(DEV),似然比检验(卡方分布)局部检验:0:,0:~1~0HH0:,0:10jjHH七、预测评估预测模型预测评估最优预测规则分类表a已观测已预测ST百分比校正01步骤ST0647199.813512.8总计百分比94.7a.切割值为0.5TPR和FPR如何平衡不是一个容易的问题,需要根据实际工作需要选取适当的临界值,使得总损失最小化分类表a已观测已预测ST百分比校正01步骤ST046418471.61112569.4总计百分比71.5a.七、分析报告课后练习移动通信客户流失规律分析1.研究目的通过对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。2.数据介绍某年度随机抽取的1000个移动通信客户。因变量时他们来年的流失行为。采集指标:客户等级:1,2,3,4;主叫次数(%):7日内日均主叫次数/90日内日均主叫次数;被叫次数(%);通话时长(%);费用(%)3.作业要求理解客户流失对企业的重大意义,做完整的逻辑回归分析,汇总成简短研究报告