1第8章相关与回归分析本章的主要目的:理解相关与回归的基本思想。掌握一元线性回归分析技术。掌握相关分析技术。了解多元线性回归和非线性回归技术。8.1相关与回归分析的基本概念1.相关关系与函数关系客观现象之间的数量联系存在着两种不同的类型:函数关系与相关关系。当一个或几个变量取一定值时,另一个变量有确定的值与之对应,我们称这种关系为确定性的函数关系。自变量与因变量。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定范围内变化,变量间的这种相互关系,称之为具有不确定性的相关关系。函数关系与相关关系在一定条件下是可以相互转化的。2.相关关系的种类按不同的标志可以对相关关系进行分类:相关程度:完全相关、不完全相关和不相关。相关方向:正相关与负相关。相关形式:线性相关与非线性相关。变量多少:单相关、复相关与偏相关。相关性质:真相关与虚相关。3.相关关系与回归分析相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关分析就是用一个指标来表明现象间相互依存关系的密切程度,研究的是变量间相关的方向和相关的程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系,研究的是变量间相关关系的具体形式,即确定一个相关的数学方程式。只有当变量间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。定量分析必须在定性分析的基础上进行,二者必须有机结合。相关分析和回归分析只是从数量上反映现象间的联系形式及密切程度;现象间内在联系的判断和因果关系的确定必须以专业知识和实践经验来进行分析研究。4.相关表与散点图相关表是反映变量间相关关系的统计表。表8-2是表8-1原始数据的表。相关图即散点图,将两变量间相对应的变量值在坐标图上描绘出来,用来两变量间的相关关系的图形。图8-1。这是一个常用的基本工具。8.2相关分析⑴假设:我们所研究的数据总是成对的,(x,y)组成的样本是一个随机样本;成对数据(x,y)满足二元正态分布。⑵散点图。在进行相关分析之间我们总是对成对数据的散点图进行考察。看一些实例。实例一:散点图。⑶相关系数计算。我们只讨论单线性相关系数,即通常所说的相关系数。一般用ρ表示总体的相关系数,用r代表样本的相关系数。ρ=Cov(X,Y)/(VAR(X)VAR(Y))总体相关系数反映两变量之间线性相关程度的一种特征值,表现为一个常数。2r的定义公式见8.82和8.86。))(()(()()())((222222ttttttttttttYYnXXnYXYXnYYXXYYXXr样本相关系数是根据样本观察值计算的,抽取的样本不同,其具体数值也不同,样本相关系数是总体相关系数的一致估计量。实例二:下表6次上餐馆的成对数据:账单(元)33.4650.6887.9298.8463.60107.34小费(元)5.505.008.0817.0012.0016.00⑷r的解释。样本线性相关系数r代表什么含意?先看r的基本性质:-1≤r≤1。若某个变量的所有值都转化为一个不同的尺度,r的值不改变。r的值不受x或y选择的影响,交换所有x和y的值,r不变。r度量的是线性相关性的强度,并不是为了度量一种非线性的关系而设计的。如果r接近于0,就认为在x和y之间不存在显著的线性相关,但如果r接近-1或1,就认为存在显著的线性相关。一般有一个临界值表可供查询。如上例中查得对于n=6,临界值分别是0.811(对α=0.01)和0.917(对α=0.05),其解释是:对于6对数据以及在x和y之间不存在线性相关的情况,有5%的可能性算出的线性相关系数r的绝对值将大于0.811;对于n=6和没有线性相关的情况,r的绝对值将大于0.917的可能性为1%。我们说有低于5%的可能性不存在线性相关,也就是说,在账单和小费之间存在显著的线性相关。⑸关于相关的普遍错误。在解释相关的结果中常出现的三种普遍的错误来源:认为相关就意味着因果关系。基于平均的数据所引起的。相关的性质,也就是说既使不存在显著的线性相关,它们之间也可能存在另一种关系。⑹相关系数的检验。要明确我们是用样本r来估计总体的ρ,所以要进行检验。这里有两种方法来检验,以确定两个变量之间是否存在一种显著的线性相关性。检验线性相关的具体步骤见图。方法一:检验统计量是t。t=r/((1-r2)/(n-2))½自由度是n-2。方法二:检验统计量r。实例三:对上例中的样本数据检验假设:在账单和小费数额之间存在线性相关。8.3一元线性回归分析本节我们只考察线性关系,成对数据满足二元正态分布。1.标准的一元线性回归模型⑴总体回归函数。在回归分析中,最简单的模型就是只有一个因变量和一个自变量的线性回归模型,一元线性回归模型。该模型假定因变量Y主要受自变量X的影响,它们之间存在近似的线性函数关系:Yt=β1+β2Xt+ut式中β1和β2是回归系数,也是未知的参数。Yt和Xt分别是Y和X的第t次观测值。ut是随机误差项,反映未列入方程式的其他各种因素对Y的影响。3实例四:消费函数。看图8-2:总体回归线与随机误差项。⑵样本回归函数。总体回归函数事实上是未知的,需要我们利用样本的信息对其进行估计。根据样本数据拟合的直线,称之为样本回归直线。样本回归曲线。yt=b1+b2xt式中的yt是样本回归线上与xt相对应的y值,可作为E(Yt)的估计;b1是截距系数,b2是样本回归函数的斜率系数,它们是对总体回归系数β1和β2的估计。⑶残差。实际观测到的因变量Yt值,并不完全等于yt,若用et表示二者之间的差,即et=Yt-yt。这就是残差。也就有式:Yt=b1+b2xt+et。⑷样本回归函数与总体回归函数的区别。总体回归线是未知的,只有一条;样本回归线由样本数据而定,不同样本有不同的样本回归线。β1和β2是未知的参数,表现为常数;而样本回归线中的b1和b2是随机变量。总体回归线中的ut是Yt与未知回归线之间的纵向距离,是不可直接观测的;而样本回归线中的et是Yt与样本回归线之间的纵向距离,可计算出来。样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是采用适当的方法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。⑸误差项的标准假定。P148。高斯假定、标准假定。标准的一元线性回归模型。2.一元线性回归模型的估计⑴回归系数的估计。根据样本资料来确定样本回归方程时,一般总是希望Y的估计值从整体上来看尽可能地接近其实际观测值。也就是说残差的et总量越小越好。我们根据最小二乘法来做这事。Q=∑et2=∑(Yt-b1-b2xt)2最终我们得到式8.15与8.16式。XbYbXXnYXYXnbtttttt21222)(实例五:例8-1。实例六:在例二数据的基础上算出x和y联系在一起的回归直线方程。⑵总体方差的估计。我们知道随机误差项的方差是常数,即Var(ut)=σ2。从数学上已经证明,σ2的无偏估计S2可由下式给出:S2=∑et2/(n-2)。一般由8.19式计算残差平方和。tttttYXbYbYe2122实例七:例8-2。练习:计算实例六中的方差。⑶最小二乘估计量的性质。在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:E(β1)=b1和E(β2)=b2各自的方差见式8.21和8.22。4))1()(221XXXnbVart222)()(XXbVart3.一元线性回归模型的检验⑴回归模型检验的种类。三类检验:理论意义的检验;统计学检验:拟合程度评价和显著性检验;计量经济学检验。⑵拟合程度评价。指样本观测值集聚在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的指标就是可决系数r2。这个指标建立在对总离差平方和进行分解的基础上算出的。因变量的实际观测值与其样本均值的离差即总离差(Yt-Ÿ)可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差(yt-Ÿ),这部分可以看成是能够由回归直线解释的部分,称之为可解释离差。另一部分是实际观测值与理论回归值的离差(Yt-yt),它不能由回归直线加以解释的残差et。看8.23式。最终有8.24式:SST=SSR+SSE实例八:看图。假设我们有很大的一个成对数据的集合,从中可以得到如下结果:存在显著的线性相关;回归直线方程为y=3+2x;y的均值为Ÿ=9;其中一个成对样本数据是x=5和y=19。可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高;越小则越差。可决系数是相关系数的平方,具有以下特征:r2非负。0≤r2≤1.可决系数是样本观测值的函数,也是一个统计量。实例九:例8-3。这就意味着食品支出的总离差的88.63%可以由食品支出与可支配收入的线性关系来解释,其他的11.37%则不能解释。⑶显著性检验。回归分析中的显著性检验包括两个方面:一是对各回归系数的显著性检验,常用的是t检验;二是对整个回归方程的显著性检验,常用的是F检验。所谓回归系数的显著性检验就是根据样本估计的结果对总体回归系数的有关假设进行检验。根据我们的假定知道β1和β2服从正态分布。由于总体方差是未知的,当样本容易较上时我们采用t分布,自由度是n-2。实例十:例8-4。4.一元线性回归模型的预测⑴回归预测的基本公式。建立回归模型的重要目的之一就是为了预测。如果所拟合的样本回归方程经过检验,被认为具有经济意义,同时被证明有较高的拟合程度,就可以利用其来进行预测。预测公式见8.34式。内插预测或事后预测。外推预测或事前预测。5⑵预测误差。发生误差的原因主要有四类。模型本身中的误差因素所造成的误差。用总体随机误差的方差σ2来评价。回归系数的估计值同其真值不一致所造成的误差。用各回归系数的最小二乘估计量的方差来评价。X的设定值与其实际值不同所造成的误差。未来时期总体回归系数发生变化所造成的误差。式8.35--8.38。))()(11()(0)(222XXXXneVareEtfff⑶区间预测。我们也可以在上面的基础上对Y进行置信区间估计。ef满足正态分布,在小样本情况下我们采用t分布。看图8-3。得到四点结论:P159—160。实例十一:例8-5。练习:利用实例六的数据,我们说明了下列结论:存在显著性线性相关(α=0.05);回归方程y=-0.347+0.149x;当x=100元时,y的预测值是14.55元。已知账单数额是100元,构建小费的一个95%的预测区间。它将使们认识到小费的预测值实际上有多么精确。为了使同学们对一元回归模型有更清楚的理解,这里再介绍两个实例。实例十二:表中数据是新加坡1981-1993年间实际GDP(X)与进口额(Y)的变化。⑴对进口函数Y=α+βX+u的回归系数进行OLS估计。这里β0。⑵计算决定系数R2。⑶计算残差方差S2和回归方程的标准误差S。⑷计算回归系数的标准差Sα和Sβ。⑸计算t值,并在1%水平下,对回归系数进行显著性检验。年份实际GDP(X)实际进口额(Y)1981315119823354198336561984396119853859198639651987437319884793198952101199056116199160126199264134199370157计算表:6年份XYXYX2Y2Yuu2198131511581961260143.761427.2385852.39701982335417821089291649.391684.6083221.23661983365620161296313657.83707-1.837073.37481984396123791521372166.28246-5.2824627.94041985385922421444348163.46733-4.4673319.957019863965