应用回归分析厦门大学经济学院郭鹏辉年厦门大学经济学院4.22011第四章0-1变量的回归模型案例介绍基本描述单变量逻辑回归参数估计与统计推断多变量逻辑回归模型选择预测与评估简单分析报告程序及注释厦门大学经济学院4.32011教学目的通过股票特殊处理(ST)的实际案例,详细介绍logit和probit统计回归模型。通过本章学习,能够了解:什么情况下使用logit或probit回归;0-1变量回归分析的基本统计学理论;相关理论在统计学软件R中的应用;相应的统计分析报告的撰写。本章所涉及的概念有0-1变量、logit回归、probit回归、极大似然估计等。厦门大学经济学院4.42011第一节案例介绍前面三章所涉及的数据类型,因变量都是连续的。但是,现实生活中有很多因变量不是连续型的。例如,银行希望通过公司财务信息预测其破产的可能性,从而决定是否应该发放贷款,那么因变量将是(破产、不破产);保险公司希望通过驾驶员的驾驶记录预测其来年出险的可能性,并以此确定其相应的保险费用,那么因变量将是(出险、不出险);信用卡经理希望通过会员的消费记录预测其是否会购买某项新产品,因变量将是(购买、不购买)。厦门大学经济学院4.52011由上述实例可知,它们的因变量都没有任何数值意义,都代表着某个事件的两种可能结果。为了数学讨论方便,我们可以简单定义其中任何一种可能结果为1(如破产、出险、购买),而定义另一种可能结果为0(如不破产、不出现、不购买)。这里,0和1只是符号,没有任何数值意义。对于这样的数据,我们同样希望能够给出回归模型。具体地说,我们希望知道哪些因素能够影响0-1因变量?影响程度如何?给定一些解释性变量,能否预测因变量的未来取值?本章将以我国股票市场的特殊处理(ST)政策作为案例,全面讨论这一问题。厦门大学经济学院4.62011特殊处理政策是我国股票市场一项特有的、旨在保护投资者利益的政策。根据相关规定,如果某上市公司出现财务状况或其他状况异常,以至于投资者难以判断公司前景,并且投资者权益可能受到损害时,证监会将考虑对该公司股票的交易实行特殊处理。为了起到警示作用,该股票的名称前将冠以“ST”字样。根据相关规定,有可能导致特殊处理的典型原因是“最近两个会计年度的审计结果显示的净利润均为负值”。此外,如果公司在下一个会计年度还不能取得正盈利,那么其股票将面临退市的风险。显然,股票的特殊处理会给上市公司和投资者带来巨大的经济损失。ST简介厦门大学经济学院4.72011与公司是否被特殊处理相关的财务指标:ARA-应收账款与总资产的比例,衡量盈利质量;ASSET-对数变换后的资产规模,反映公司规模;ATO-资产周转率,度量资产的利用效率;GROWTH-销售收入增长率,反映公司成长潜力;LEV-负债资产比率,反映债务状况;ROA-资产收益率,度量盈利能力;SHARE-最大股东持股比例,反映股权结构。厦门大学经济学院4.82011上述指标体系的设计虽然不是很完美,但是,该指标体系大体上能够全面反映一个公司最重要的一些方面,从而足以为案例演示服务。最后说明,我们的数据共包含1430个完整的观测。其中,684个观测来自1999年,即解释性变量来自1999年,我们用这部分数据建立模型。剩下的746个观测来自2000年,我们用这部分数据检验模型的预测效果。因变量是什么呢?如果解释性变量来自1999年,那么因变量ST就反映该公司在三年以后(即2002年)是否被宣布ST。如果解释性变量来自2000年,那么因变量ST就反映该公司在三年以后(即2003年)是否被宣布ST。厦门大学经济学院4.92011按照惯例,我们首先对数据作简要描述以获得初步的认识,并明确下一步的分析。我们首先读入数据,并将1999年和2000年的数据分离如下:a=read.csv(“D:/PracticalBusinessDataAnalysis/case/CH4/st.csv”,header=T)a1=a[a$year==1999,-1]a2=a[a$year==2000,-1]a1[c(1:5),]ARAASSETATOGROWTHLEVROASHAREST10.1923096319.856050.0052-0.95072730.44588010.08770980226.89020.2201199620.910860.0056-0.94265630.39868640.01682038339.62030.3252916919.352620.0166-0.93744040.30334810.04246833226.46040.0257286821.438930.0028-0.85299530.75825020.01815163060.16050.5335908921.613340.2552-0.81670390.72687530.00414660754.241第二节基本描述厦门大学经济学院4.102011从输出结果的第一行我们可以看到,某公司在1999年应收账款与总资产的比例约为0.19,对数总资产为19.86,资产周转率为0.52%,销售收入增长率为-0.95.债务资产比为0.45,资产收益率为0.088,第一大股东持股比例为26.89%。该公司在三年后(即2002年)没有被特殊处理(ST=0)。而从上面的数据第五行可以看到,还有一家公司在1999年应收账款与总资产的比例约为0.53,对数总资产为21.61,资产周转率为25.52%,销售收入增长率为-0.82,债务资产比为0.73,资产收益率为0.004,第一大股东持股比例为54.24%。该公司在三年后(即2002年)被特殊处理(ST=1)了。厦门大学经济学院4.112011由于我们的因变量是一个离散的0-1变量,因此传统的散点图无法有效地表示因变量(ST与否)同各个解释性变量的相互关系。而此时,盒状图却非常有效。我们首先对应收账款与总资产比例(ARA)分析如下(参见图4-1):boxplot(ARA~ST,data=a1,main=ARA)厦门大学经济学院4.122011图4-1应收账款与总资产比例的盒状图010.00.20.40.6ARA厦门大学经济学院4.132011从图4-1可以发现一个重要的规律,那就是被特殊处理的那组样本所反映出来的平均ARA值(以中位数计)要明显高于没有被特殊处理的那组样本。因此,我们可以猜测较高的应收账款与总资产比例很可能产生较大的被特殊处理的可能性。下面,我们对其他六个解释性变量作类似的分析(参见图4-2):par(mfrow=c(3,2))boxplot(ASSET~ST,data=a1,main=ASSET)boxplot(ATO~ST,data=a1,main=ATO)boxplot(GROWTH~ST,data=a1,main=GROWTH)boxplot(LEV~ST,data=a1,main=LEV)boxplot(ROA~ST,data=a1,main=ROA)boxplot(SHARE~ST,data=a1,main=SHARE)par(mfrow=c(1,1))厦门大学经济学院4.142011图4-2盒状图01192123ASSET010.01.02.03.0ATO01-1.00.00.51.0GROWTH010.00.40.8LEV010.000.100.200.30ROA0120406080SHARE厦门大学经济学院4.152011从图4-2我们可以得到以下重要结论:公司规模(ASSET)同被特殊处理与否没有太强的关系;公司资产周转率(ATO)同被特殊处理与否没有明显关系;被特殊处理的公司的平均销售增长率(GROWTH)明显低于没有被特殊处理的公司;被特殊处理的公司的负债水平(LEV)明显高于没有被特殊处理的公司;被特殊处理的公司的盈利能力(ROA)明显低于没有被特殊处理的公司;被特殊处理的公司的第一大股东持股比例(SHARE)明显低于没有被特殊处理的公司。厦门大学经济学院4.162011以上都是对数据进行初步的描述性分析。对于所得到的结论:第一,没有控制其他因素的影响;第二,没有经过严格的统计检验。而这些问题将是我们下面章节所要研究的重要内容。厦门大学经济学院4.172011对于普通线性模型(只考虑一个解释变量,如负债资产比LEV):请注意,这是一个充满矛盾的等式。一方面,等号的右边是一个连续型的实数,理论上讲,可取正负无穷之间的任意实数。而另一方面,等号的左边是一个取值必须为0或1的整数。实际数据中,左右两边几乎不可能相等。也正是由于这样的矛盾,线性模型无法用来预测0-1变量。因此,需要一种特殊的回归模型来处理0-1变量的回归模型。第三节单变量逻辑回归ST=LEV厦门大学经济学院4.182011我们可以看到,之所以普通线性模型不能够用来处理0-1型因变量主要是因为0-1变量不连续。这说明,只要能够将其转换成连续型因变量,那么普通线性回归的很多概念以及技术手段就可以直接套用。我们假设,对于每一个上市公司都有一个度量其被ST的可能性大小的综合指标。为简便起见,我们称此指标为“ST可能性”。那么,什么样的公司会被ST呢?我们再假设,一旦某公司的ST可能性指标大于某一阈值,那么该公司就会被ST。这里的ST可能性指标只是一个概念,在现实中并不存在。厦门大学经济学院4.192011既然我们假设一个公司的ST与否完全由这个ST可能性指标确定,因此,与其直接拟合ST与否同财务指标的关系,不如先探讨一下这个ST可能性指标同财务指标的关系。注意,ST可能性指标是一个取值任意的连续变量。此时,我们完全可以采用以下的普通线性模型:其中,Z就代表了这个ST可能性指标。现实中,我们并不知道Z的具体取值,那么上面这个线性模型对我们有什么用处呢?Z=LEV厦门大学经济学院4.202011根据这个线性模型以及一个给定的债务水平(LEV),我们可以判断某公司被ST的可能性为:其中,c就是前面所提到的阈值,,而是的分布函数。如果我们可以对的具体形式予以合理的假设,那么我们就获得了一个关于0-1变量的回归模型,即:01(1)()(LEV){()LEV}(LEV)PSTPzcPcPcF01,c()()FtPt()Ft01(1)(LEV)PSTF厦门大学经济学院4.212011的具体函数形式应该如何假设才合理?为了方便,我们假设是一个标准正态分布函数。为什么我们认为这个假设方便呢?因为这个假设等同于假设服从标准正态分布,这是第一章普通线性回归模型中讲到的一个非常常见的标准假设。因此,如果我们作此假设,相应的统计模型就变为:其中,代表了标准正态随机变量的分布函数。该模型被称为probit模型。大家可以看到,probit模型是一个理论上具有吸引力,而且实际中表现良好的统计模型,非常有用()Ft()Ft01(1)(LEV)PST()t厦门大学经济学院4.222011并且已经在各种统计软件中得以实现。但是,在几十年前,当计算机技术还没有普及的时候,估计该模型却非常困难,其主要原因是标准正态分布函数没有显示解。因此,人们假定的具体函数形式为下面这种容易计算的函数形式:这就是逻辑分布,而相应的0-1变量回归模型就是逻辑回归模型(logitregression)。更详细地说,该模型隐含着下面的等式:()Ftexp()()1exp()tFtt0101exp(LEV)(1)1exp(LEV)PST厦门大学经济学院4.232011那么,在实际应用中,到底应该采用probit回归还是logit回归?答案是:不确定。对于某些实际数据,有可能probit回归的预测精度高:而对于另外一些数据,有可能logit回归的预测精度高。但是,