最小二乘法和线性回归及很好的总结分解

546852
1 ℃
2020-01-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第二章最小二乘法（OLS）和线性回归模型2本章要点最小二乘法的基本原理和计算方法经典线性回归模型的基本假定BLUE统计量的性质t检验和置信区间检验的原理及步骤多变量模型的回归系数的F检验预测的类型及评判预测的标准好模型具有的特征3第一节最小二乘法的基本属性一、有关回归的基本介绍金融、经济变量之间的关系，大体上可以分为两种：（1）函数关系：Y=f(X1,X2,….,XP)，其中Y的值是由Xi（i=1,2….p）所唯一确定的。（2）相关关系:Y=f(X1,X2,….,XP)，这里Y的值不能由Xi（i=1,2….p）精确的唯一确定。4图2-1货币供应量和GDP散点图5图2-1表示的是我国货币供应量M2（y）与经过季节调整的GDP（x）之间的关系（数据为1995年第一季度到2004年第二季度的季度数据）。6但有时候我们想知道当x变化一单位时，y平均变化多少，可以看到，由于图中所有的点都相对的集中在图中直线周围，因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线，我们就可以用直线的斜率来表示当x变化一单位时y的变化程度，由图中的点确定线的过程就是回归。7对于变量间的相关关系，我们可以根据大量的统计资料，找出它们在数量变化方面的规律（即“平均”的规律），这种统计规律所揭示的关系就是回归关系（regressiverelationship）,所表示的数学方程就是回归方程（regressionequation）或回归模型（regressionmodel）。8图2-1中的直线可表示为（2.1）y=x根据上式，在确定α、β的情况下，给定一个x值，我们就能够得到一个确定的y值，然而根据式（2.1）得到的y值与实际的y值存在一个误差（即图2-1中点到直线的距离）。9如果我们以ｕ表示误差，则方程（2.1）变为：y=ux即：tttuxy其中t（=1,2,3,…..,T）表示观测数。（2.2）（2.3）式（2.3）即为一个简单的双变量回归模型（因其仅具有两个变量x,y）的基本形式。10其中yt被称作因变量（dependentvariable）、被解释变量（explainedvariable）、结果变量（effectvariable）；xt被称作自变量（independentvariable）、解释变量（explanatoryvariable）、原因变量（causalvariable）11α、β为参数（parameters）,或称回归系数（regressioncoefficients）；ｕt通常被称为随机误差项（stochasticerrorterm）,或随机扰动项（randomdisturbanceterm）,简称误差项，在回归模型中它是不确定的，服从随机分布（相应的，yt也是不确定的，服从随机分布）。12为什么将ｕt包含在模型中？（1）有些变量是观测不到的或者是无法度量的，又或者影响因变量yt的因素太多；（2）在yt的度量过程中会发生偏误，这些偏误在模型中是表示不出来的；（3）外界随机因素对yt的影响也很难模型化，比如：恐怖事件、自然灾害、设备故障等。13二、参数的最小二乘估计(一)方法介绍本章所介绍的是普通最小二乘法（ordinaryleastsquares,简记OLS）;最小二乘法的基本原则是：最优拟合直线应该使各点到直线的距离的和最小，也可表述为距离的平方和最小。假定根据这一原理得到的α、β估计值为、，则直线可表示为。ˆˆˆˆttyx14直线上的yt值，记为，称为拟合值（fittedvalue）,实际值与拟合值的差，记为，称为残差（residual），可以看作是随机误差项的估计值。根据OLS的基本原则，使直线与各散点的距离的平方和最小，实际上是使残差平方和（residualsumofsquares,简记RSS）最小，即最小化：ˆtyˆtutuT21ˆttuT21ˆ()tttyyT21ˆˆ()tttyxRSS==（2.4）15根据最小化的一阶条件，将式2.4分别对、求偏导，并令其为零，即可求得结果如下:22ˆxTxxyTyxtttˆˆyx（2.5）（2.6）16（二）一些基本概念1.总体（thepopulation）和样本（thesample）总体是指待研究变量的所有数据集合，可以是有限的，也可以是无限的；而样本是总体的一个子集。2、总体回归方程（thepopulationregressionfunction，简记PRF），样本回归方程（thesampleregressionfunction，简记SRF）。17总体回归方程（PRF）表示变量之间的真实关系，有时也被称为数据生成过程（DGP），PRF中的α、β值是真实值，方程为：ttxy+tu（2.7）样本回归方程（SRF）是根据所选样本估算的变量之间的关系函数，方程为：注意：SRF中没有误差项，根据这一方程得到的是总体因变量的期望值txyˆˆˆ（2.8）18于是方程（2.7）可以写为：（2.9）总体y值被分解为两部分：模型拟合值（）和残差项（）。yˆˆtuˆˆˆtttyxu193.线性关系对线性的第一种解释是指：y是x的线性函数，比如，y=。对线性的第二种解释是指：y是参数的一个线性函数，它可以不是变量x的线性函数。比如，y=就是一个线性回归模型，但则不是。在本课程中，线性回归一词总是对指参数β为线性的一种回归（即参数只以一次方出现），对解释变量x则可以是或不是线性的。x2xxy20有些模型看起来不是线性回归，但经过一些基本代数变换可以转换成线性回归模型。例如，tutteAxy（2.10）可以进行如下变换：tttuxAylnlnln（2.11）令、、，则方程（2.11）变为：ttyYlnAlnttxXlntttuXY（2.12）可以看到，模型2.12即为一线性模型。214.估计量（estimator）和估计值（estimate）估计量是指计算系数的方程；而估计值是指估计出来的系数的数值。22三、最小二乘估计量的性质和分布（一）经典线性回归模型的基本假设（1），即残差具有零均值；（2）var∞,即残差具有常数方差，且对于所有x值是有限的；（3）cov，即残差项之间在统计意义上是相互独立的；（4）cov，即残差项与变量x无关；（5）ｕt~N,即残差项服从正态分布0tEu2tu0,jiuu0,ttxu2,023（二）最小二乘估计量的性质如果满足假设(1)－(4)，由最小二乘法得到的估计量、具有一些特性，它们是最优线性无偏估计量（BestLinearUnbiasedEstimators，简记BLUE）。ˆˆ24估计量（estimator）：意味着、是包含着真实α、β值的估计量；线性（linear）：意味着、与随机变量y之间是线性函数关系；无偏（unbiased）：意味着平均而言，实际得到的、值与其真实值是一致的；最优（best）：意味着在所有线性无偏估计量里，OLS估计量具有最小方差。ˆˆˆˆˆˆˆ25(三)OLS估计量的方差、标准差和其概率分布1.OLS估计量的方差、标准差。给定假设(1)－(4)，估计量的标准差计算方程如下:22222ˆxTxTxsxxTxsSEtttt22211ˆxTxsxxsSEtt2ˆ2Tust其中，是残差的估计标准差。（2.21）（2.22）26参数估计量的标准差具有如下的性质：（1）样本容量T越大，参数估计值的标准差越小；（2）和都取决于s2。s2是残差的方差估计量。s2越大，残差的分布就越分散，这样模型的不确定性也就越大。如果s2很大，这意味着估计直线不能很好地拟合散点；ˆSEˆSE27（3）参数估计值的方差与成反比。其值越小，散点越集中，这样就越难准确地估计拟合直线；相反，如果越大，散点越分散，这样就可以容易地估计出拟合直线，并且可信度也大得多。比较图2－2就可以清楚地看到这点。2xxt2xxt28图2－2直线拟合和散点集中度的关系29（4）项只影响截距的标准差，不影响斜率的标准差。理由是：衡量的是散点与y轴的距离。越大，散点离y轴越远，就越难准确地估计出拟合直线与y轴的交点（即截距）；反之，则相反。2tx2tx2tx302．OLS估计量的概率分布给定假设条件(5)，即～，则也服从正态分布系数估计量也是服从正态分布的：tu2,0Ntyvar,~ˆN（2.30）var,~ˆN（2.31）31需要注意的是：如果残差不服从正态分布，即假设(5)不成立，但只要CLRM的其他假设条件还成立，且样本容量足够大，则通常认为系数估计量还是服从正态分布的。其标准正态分布为：1,0Nvarˆ～－1,0~varˆN（2.32）（2.33）32但是，总体回归方程中的系数的真实标准差是得不到的，只能得到样本的系数标准差（、）。用样本的标准差去替代总体标准差会产生不确定性，并且ˆSEˆSE、将不再服从正态分布，而服从自由度为T-2的t分布，其中T为样本容量ˆˆSEˆˆSE即：ˆˆSE~(2.34)ˆˆSE2Tt2Tt~(2.35)333.正态分布和t分布的关系图2-3正态分布和t分布形状比较34从图形上来看，t分布的尾比较厚，均值处的最大值小于正态分布。随着t分布自由度的增大，其对应临界值显著减小，当自由度趋向于无穷时，t分布就服从标准正态分布了。所以正态分布可以看作是t分布的一个特例。35第二节一元线性回归模型的统计检验一、拟合优度(goodnessoffitstatistics)检验拟合优度可用R2表示：模型所要解释的是y相对于其均值的波动性，即（总平方和，thetotalsumofsquares，简记TSS），这一平方和可以分成两部分：2yyt36=+（2.36）是被模型所解释的部分，称为回归平方和（theexplainedsumofsquares，简记ESS）；是不能被模型所解释的残差平方和（RSS）,即=2ˆyy2ˆtu2ˆtu2ˆttyy2yyt2ˆyyt2ˆtu37TSS、ESS、RSS的关系以下图来表示更加直观一些：图2－4TSS、ESS、RSS的关系38拟合优度＝因为TSS=ESS+RSS所以R2＝（2.39）2RTSSESS（2.37）（2.38）TSSRSSTSSRSSTSSTSSESS11,02RR2越大，说明回归线拟合程度越好；R2越小，说明回归线拟合程度越差。由上可知，通过考察R2的大小，我们就能粗略地看出回归线的优劣。39但是，R2作为拟合优度的一个衡量标准也存在一些问题：（1）如果模型被重新组合，被解释变量发生了变化，那么R2也将随之改变，因此具有不同被解释变量的模型之间是无法来比较R2的大小的。40（2）增加了一个解释变量以后，R2只会增大而不会减小，除非增加的那个解释变量之前的系数为零，但在通常情况下该系数是不为零的，因此只要增加解释变量，R2就会不断的增大，这样我们就无法判断出这些解释变量是否应该包含在模型中。（3）R2的值经常会很高，达到0.9或更高，所以我们无法判断模型之间到底孰优孰劣。41为了解决上面第二个问题，我们通常用调整过的R2来代替未调整过的R2。对R2进行调整主要是考虑到在引进一个解释变量时，会失去相应的自由度。调整过的R2用来表示，公式为：其中T为样本容量，K为自变量个数2R22111RKTTR（2.40）42二、假设检验假设