0-1变量的回归模型0-1变量实际工作中我们经常需要研究某种事物状态变量的影响因素。如:通过财务信息预测公司是否破产通过驾驶纪录预测驾驶员是否会出事故通过购物和还款记录预测信用卡持卡人是否诚信这类变量都具有如下特征变量值只有0和1两种状态变量值没有任何数量意义0和1分别代表了事物的两种状态案例介绍什么是STST是特殊处理(SpecialTreatment)的缩写,是我国股票市场一项特有的,旨在保护投资者利益的政策。如果上市公司的财务数据出现异常,则证监会将对其进行特殊处理,以便对投资者进行警示。其表现特征就是在其股票名称前冠以“ST”字样上海证券交易所股票上市规则(二00一年六月八日)第九章特别处理第一节基本原则9.1.1上市公司出现财务状况或其他状况异常,导致投资者难于判断公司前景,权益可能受到损害的,本所将对公司股票交易实行特别处理。9.2.1上市公司出现以下情形之一的,为财务状况异常:(一)最近两个会计年度的审计结果显示的净利润均为负值;(二)最近一个会计年度的审计结果显示其股东权益低于注册资本,即每股净资产低于股票面值;(三)注册会计师对最近一个会计年度的财务报告出具无法表示意见或否定意见的审计报告;(四)最近一个会计年度经审计的股东权益扣除注册会计师、有关部门不予确认的部分,低于注册资本;(五)最近一份经审计的财务报告对上年度利润进行调整,导致连续两个会计年度亏损;9.2.2上市公司出现9.2.1条所列情形之一的,应当在收到审计报告之日起两个工作日内向本所报告,并提交上市公司董事会书面意见。9.2.3本所收到上市公司上述报告后五个工作日内,或者在报请中国证监会认可的期限内,决定是否对该公司股票实行特别处理。上市公司应当按照本所的要求在其股票交易实行特别处理之前一交易日作出公告,其股票在公告日停牌一天,公告后第一个交易日复牌并实行特别处理。连续两年亏损与ST1.连续两年亏损不是ST的充分条件:交易所可以继续观察第三年是否亏损再做ST的决定2.连续两年亏损也不是ST的必要条件:净资产低于股票面值也可以成为ST的理由3.但是,连续两年亏损条款是大多数公司被ST的原因,或潜在ST公司的最重要担忧ST对上市公司的影响股票报价的日涨跌幅限制为5%第3年如继续亏损,很有可能被退市研究问题与因变量从投资人角度来看,财务报表分析能否帮助预测什么特点的公司容易被ST,从而避免投资损失?因变量ST:三年以后是否被宣布ST感兴趣的问题哪些公司更容易被ST哪些财务指标与公司是否被ST相关我们能够给出某个特定公司被ST可能性的定量化估计么?自变量共包含1430个样本,其中684个来自1999年,746个来自2000年。数据获取注意,此时的最后一列ST代表的意思为“在2002年公司是否被ST”描述统计图形选择在面对0-1类型的变量时,散点图没有任何意义,而盒图则最为适用。下页的图就显示了被ST和没有被ST的公司在应收账款与总资产比率(ARA)上的差异。同样方法,还可以对其他自变量进行研究,从而找出差异较大的变量。我们有理由怀疑这些差异较大的变量即是因变量ST的主要影响因素。描述分析结论被ST的公司其应收账款与总资产比率(ARA)明显高于没有被ST的公司公司规模(ASSET)与是否被ST没有太大关系资产周转率(ATO)与是否被ST没有太大关系被ST的公司平均销售增长率(GROWTH)明显低于没被ST的公司被ST的公司负债水平(LEV)明显高于没被ST的公司被ST的公司盈利能力(ROA)明显低于没被ST的公司被ST的公司第一大股东持股比率(SHARE)明显低于没被ST的公司单变量逻辑回归为什么要用逻辑回归?如果用线性回归的话,应该是这样子:这时右边是连续型,左边是离散型,因此在实际数据中,左右两边几乎永远不可能相等。那么,能不能将ST这样的指标转化成为一个连续型指标呢?STLEV为什么要用逻辑回归?假设存在一个名为“ST可能性”的概念性指标,用来表示公司被ST的可能性当“ST可能性”大于某一阈值时,公司就会被ST我们可以推测,如果有两个公司的经营状况非常接近,那么其“ST可能性”也应该非常接近因此可以假设“ST可能性”为一个连续型指标,取值在正负无穷之间令Z=“ST可能性”,则模型变为ZLEV为什么要用逻辑回归?但是问题出来了:根本不存在“ST可能性”这种数据呀,因此可以作如下变换:010101ST=1LEVLEVLEVST=1LEV==PPzcPcPcFPFcc其中,为阈值,,。那么,是什么形式呢?Ft为什么要用逻辑回归?对于分布函数有两种选择exp1expFtttFtt为什么要用逻辑回归?从而形成了两种模型:010101ProbitRegressionModel:ST=1LEVLogisticRegressionModel:expLEVST=11expLEVPP为什么要用逻辑回归?经过Probit变换和Logit变换,两种模型可以写成:101ST=1LEVP01ST=1logitST=1log1ST=1LEVPPP我们如何估计模型的参数呢?参数估计与统计推断参数估计建立样本的似然函数,并对其进行估计:01ST01011011-ST010101,expLEV,1expLEV11expLEVˆˆ,argmax,iiniiiiLL显著性检验根据中心极限定理,有:对样本的标准差进行估计,可以得到:ˆˆ0,1,0,1ˆˆvarjjjjjjNj。ˆˆj显著性检验构造检验统计量:只要样本容量足够大,我们就可以计算这一检验的P值如果是多变量情况,可以使用似然比检验0:0ˆ~0,1,ˆˆjjjjTNH似然比检验0010101,01LR2maxlog,02maxlog,DevianceDevianceLL在原假设下,LR近似服从自由度为DF的卡方分布,而DF是包含在中的变量个数。101多变量逻辑回归多变量逻辑模型将所有影响因素带入模型,得到如下方程:01234567logitST=1ARAASSETATOGROWTHLEV+ROASHAREP。广义线性回归语句glm先介绍一下R中的广义线性回归语句glm语法为:glm(formula,family=gaussian,data,weights,subset,na.action,start=NULL,etastart,mustart,offset,control=glm.control(...),model=TRUE,method=glm.fit,x=FALSE,y=TRUE,contrasts=NULL,...)与lm不同之处就在于参数family这个参数的作用在于定义一个族以及连接函数,使用该连接函数将因变量的期望与自变量联系起来下页语句中的family=binomial(link=logit)表示引用了二项分布族binomial中的logit连接函数logit模型整体显著性的检验比较下面两个模型:空模型和全模型,对其进行方差分析:probit模型整体显著性的检验参数估计:Logistic参数估计:Probit参数估计从变量的显著性检验中可以得到如下结论:应收账款与总资产比例(ARA)和被ST与否高度相关,且其值越高,被ST可能性越大;债务资产比率(LEV)和被ST与否高度相关,且其值越高,被ST可能性越大;在probit模型中,销售收入增长率(GROWTH)和被ST与否高度相关,其值越低,被ST可能性越大。没有证据表明其他因素对ST与否有显著影响。变量选择:logit剔除掉不显著的变量,得到:变量选择:probit剔除掉不显著的变量,得到:模型的选择模型的选择012log,2AICLdf012log,logBICLndflog1log22RSSAICnpnlog1log2logRSSBICnnpn对比线性模型下的AIC和BIC函数:使用step函数自动选择:logit使用step函数自动选择:logit使用step函数自动选择:probit使用step函数自动选择:probit预测与评估未来被ST的概率为:01234567ARAASSETATOGROWTHLEV+ROASHAREF,exp1exptFttlogit模型:Fttprobit模型:前面估计出的参数:8.869244.879740.19230.2466019.85610.507380.00520.833350.95072.354150.44590.636610.08770.0111126.891.5496。exp1.5496ST=10.1751exp1.5496P。将某样本值代入得:该公司被ST的概率为:使用该模型对a2中所有数据预测从该表中可以看出,共有699+47个样本,其中699个成功被预测成为ST=0,47个被错误的预测成为ST=0。所以预测精度达到93.7%。但是注意,所有的预测值都为0,也就是说没有预测出任何一家公司被ST,显然这不是我们需要的。定义两种不同的分类错误P(ST=1|X)0.4TrueResponse01Predict-ion069746121FalsePositiveRate(FPR)=2/(697+2)=0.29%TruePositiveRate(TPR)=1/(46+1)=2.12%定义两种不同的分类错误P(ST=1|X)0.3TrueResponse01Predict-ion069245172FalsePositiveRate=7/(692+7)=1.00%TruePositiveRate=2/(45+2)=4.25%定义两种不同的分类错误P(ST=1|X)0.1TrueResponse01Predict-ion06553614411FalsePositiveRate=44/(655+44)=6.29%TruePositiveRate=11/(36+11)=23.40%回头看我们的数据:训练样本:Year=1999(ST时间=2002)样本容量:684ST案例:36/684=5.26%检验样本:Year=2000(ST时间=2003)样本容量:746ST案例:47/746=6.30%RCodeglm1=glm(ST~ARA+ASSET+ATO+GROWTH+LEV+ROA+SHARE,family=binomial(link=logit),data=a1)glm2=glm(ST~ARA+ASSET+ATO+GROWTH+LEV+ROA+SHARE,family=binomial(link=probit),data=a1)LogisticRegressionProbitRegressionBestLogitModel(AIC)BestLogitModel(BIC)BestProbitModel(AIC)BestProbitModel(BIC)FormaPredictionRuleWhenev