线性回归分析

cxyhn
1 ℃
2020-02-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

69第七章线性回归分析管理中经常要研究变量与变量之间的关系，并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系，但是如果检验说明两个变量之间存在着某种关系，我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础，并在某种精确度下，预测未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类：一类是变量之间存在着完全确定的关系，即一个变量能被一个或若干个其他变量按某种规律唯一地确定，例如，在价格P确定的条件下，销售收入Y与所销售的产品数量之间的关系就是一种确定性的关系：Y＝P·X。另一类是变量之间存在着某种程度的不确定关系。例如，粮食产量与施肥量之间的关系就属于这种关系。一般地说，施肥多产量就高，但是，即使是在相邻的地块，采用同样的种子，施相同的肥料，粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因，确定性关系在实际中往往通过相关关系表现出来；另一方面，通过对事物内部发展变化规律的更深刻的认识，相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的，但是我们可以通过对现象的不断观察，探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有：确定变量之间的相关关系和相关程度，建立回归模型，检验变量之间的相关程度，应用回归模型进行估计和预测等。第一节一元线性回归分析一、问题的由来和一元线性回归模型例7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1所示。现要求确定两者之间是否存在相关关系。表7-1年份1987198819891990199119921993199419951996人均收入1.61.82.33.03.43.84.54.85.25.4销售额(百万元)4.75.97.08.210.5121313.51415如果作一直角坐标系，以人均收入xi为横轴，销售额yi为纵轴，把表7-1中的数据画在这个坐标系上，我们可以看出两者的变化有近似于直线的关系，因此，可以用一元线性回归方程，以人均收入为自变量，以销售额为因变量来描述它们之间的关系。即：yi=a+bxi+eiin12,,,其中：yi是因变量Y的第i个观察值，xi是自变量X的第i个观察值a与b是回归系数，70n是样本容量，ei为对应于Y的第i个观察值的随机误差，这是一个随机变量。在上述线性模型中，自变量X是个非随机变量，对于X的第i个观察值xi，Y的观察值yi是由两个部分所组成的：bxi和ei，前者是一个常数，后者是一个随机变量，所以也是一个随机变量。对于上述回归模型中的随机误差ei要求满足如下的假设条件：1、应当是服从正态分布的随机变量，即ei满足“正态性”的假设。2、ei的均值为零，即E(ei)＝0，我们称ei满足“无偏性”的假设。3、ei的方差等于2ei=ei2，这就是说，所有的ei分布的方差都相同，即满足“共方差性”的假设。4、各个ei间相互独立，即对于任何两个随机误差ei和ejij其协方差等于零，即，Cov(ei,ej)=0,ij)这称之为满足“独立性”的假设。综上所述，随机误差必须服从独立的相同分布。基于上述假定，随机变量的数学期望和方差分别是：E(yi)=a+bxi2ei=ei2由此：yi～N(a+bxi,ei2)这就意味着，当X=xi时，yi是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项，我们就得到简单的式子：yi=a+bxi这一式子称为Y对X的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。二、模型参数的估计和估计平均误差1、回归参数的估计回归模型中的参数a与b在一般情况下都是未知数，必须根据样本数据(xi，yi)来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好，即要使得偏差最小。为此，可以采用“最小二乘法”的办法来解决。对应于每一个xi，根据回归直线方程(7-1)可以求出一个yi，它就是yi的一个估计值。估计值和观察值之间的偏差eyyiii。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好，就是说要使n个偏差的总和最小。但为了计算方便起见，我们以误差的平方和最小为标准来确定回归模型。这就要求Qyyyabxiiniiin1212是个极小值。根据微积分中的极值定理，要使上式取极值，其对a与b所求的偏导数应为0，即71QayabxQbyabxxiiiii2020经整理后可得：ynabxxyaxbxiiiiii2解上式，可得：bxynxyxnxaynbxniiiiiiii1122记XxnYynii,。SxxxnxSxxyyxynxySyyynyXXiiiXYiiiiiiYYiii222222111于是，得到参数a与b的简单表达形式如下：bSSaybxXYXX求出参数a与b以后，就可以得到回归模型yabx由此，只要给定了一个xi值，就可以根据回归模型求得一个yi来作为实际值yi的预测值。2、估计平均误差的计算对于给定的xi，根据回归模型就可以求出yi的预测值。但是用yi来预测y的精度如何，产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量回归方程的可靠性，对回归方程进行评价。估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义：Snyyeiiin1221值得注意的是上式中分母是用n2而不是n1或n去除，这是因为n个观察值的数据点用于计算参数a与b时失去了2个自由度，还余下n2个自由度。运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直72线服从正态分布，且方差相等，则有68.27%的点落在Se的范围内，有95.45%的点落在2Se的范围内，有99.73%的点落在3Se的范围内。三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系，因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容：一是线性回归方程的显著性检验，二是对回归系数进行统计推断。下面我们分别讨论这两个问题。（一）线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y与X之间的线性相关关系的估计模型yabx来估计y时所产生的误差和所减少的误差，这称为回归中的方差分析。若没有利用Y与X之间的相关关系来估计总体的均值，我们就会选择yi的平均值y作为总体的估计值。由此而产生的误差是yyii2，我们称之为“总离差平方和”，记为SST。若利用Y与X之间的线性相关关系的估计模型去估计总体均值，则所产生的误差是:yyii2，我们称之为残差平方和，记为SSE。为了说明SST与SSE之间的关系，我们对SST进行分解。SSTyyyyyyyyyyyyyyyyyyyyyyiiiiiiiiiiiiiiii2222222220若记SSR=yyii2SSE=yyii2则SST=SSR+SSE图7-1：三种误差之间的关系SSR反映了由于利用Y和X之间的线性回归模型yi来估计Y的均值时，而不是简73单地利用y来估计Y的均值时，使得总误差SST减少的部分，因此统计上称之为“可解释误差”。SSE是利用Y与X之间的线性回归模型来估计Y的均值时仍然存在的误差，因此称之为“不可解释误差”。于是，上式实际上就表示：总误差＝可解释误差＋不可解释误差图7-1直观地表示了三种误差之间的相互关系。2、相关分析对于任何给定的一组样本(xiyi)(i=1,2,…n)都可以用最小二乘法建立起一个线性回归模型，相应地就可以得到一条回归直线。但是，这样的一条回归直线并不是总有意义的。只有当变量X与Y之间确实存在某种因果关系时，其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关，通常利用相关系数来检验。相关系数记作r或r2，它能够较精确地描述两个变量之间线性相关的密切程度。相关系数可以定义为可解释误差SSR和总误差SST之比，即：r2=SSR／SST=1-SSE／SST它反映了由于使用了Y与X之间线性回归模型来估计yi的均值而使离差平方和SST减少的程度，从而表明Y与X之间线性相关程度及拟合模型的优良程度。r2与SSR成正比。r2越大，说明Y与X之间的线性相关程度越高，也就说明模型的拟合性能较优；r2越小，说明Y与X之间的线性相关程度越低，说明模型的拟合性能较差。当相关系数用r来表示时不仅可以测定Y与X之间的相关程度，而且也可以表示相关的方向。事实上，相关系数r也可以定义为：rSSSXYXXYY从上述两个公式计算所得到的结果完全相同，意义也相同。但从r2计算r时为：rr2要确定r的符号，就需要利用以下的关系：rSSSbSSXYXXYYXXYY由此可见，r与b同号，可以根据b的符号来决定r的符号。从r2的计算公式可以看出：r2总是界于0与1之间的，即0r21。如果yyii，则SST=SSR，SSE=0，此时，r2=1。这时称为完全线性相关，模型的拟合程度最优。用Y与X之间的线性回归模型来估计yi时的总离差和完全可以用SSR来解释。如果yyi，则SST=SSE，SSR=0，因此，r2=0。这时，使用Y与X之间的线性回归模型没有能对任何的总离差平方和SST作出任何解释，说明Y与X之间事实上无线性相关，模型的拟合程度最差。对r的不同的具体值，Y与X之间的相关关系分析如下：1）当r=1时，称为完全线性正相关；当r=-1时，称为完全线性负相关。2）当0r1时，Y与X存在一定的线性相关。当r0时称Y与X正相关。当r0时称Y与X是负相关。一般地说,r209.时，估计模型为＂优＂；0.8r20.9时，估计模型为＂良＂；0.6r20.8时，估计模型为＂一般＂。r205.时估计模型为＂差＂。但是，要精确地说明两个变量是否确实具有线性相关关系，一般还需要作其他的一些检验。3、F检验法74在一元线性回归模型中，若b=0，则X的变化不会引起Y的变化，即Y与X不具有线性相关关系。因此，线性回归方程的显著性检验可以通过回归方程的F检验来完成。我们提出H0：b=0，H1：b0，则在H0成立，即Y与X之间不存在线性相关的条件下，统计量FyyyynSSRSSEn22122rrn2212服从自由度为1，n-2的F分布。在给定了检验的显著性水平以后，可由F分布表得到H0成立时的临界值F0，如果对于一组样本计算得出的统计量F的值大于F0，则否定H0，即b0，说明X与Y之间确定存在线性相关关系。因此，对回归方程的相关性检验可按下列步骤作F检验：1）提出假设H0：b=0，H1：b0，2）在H0成立时，统计量SSRSSEnFn212~,对于给定的显著性水平，查F分布表得到检验的临界值F0。3）对于一组样本计算SSR和SSE，并由此得到F值。4）比较F与F0的值，若FF0，则拒绝零假设。我们认为X与Y之间存在线性相关关系，否则接受H0，认为X与Y之间没有线性相关关系。4、t检验尽管相关系数r是对变量Y与x之间的线性关系密切程度的一个度量，但是相关系数r是根据样