计量经济学第三版-潘省初-第3章 双变量线性回归模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三章双变量线性回归模型(简单线性回归模型)(SimpleLinearRegressionModel)第一节双变量线性回归模型的估计第二节最小二乘估计量的性质第三节拟合优度的测度第四节双变量回归中的区间估计和假设检验第五节预测第六节有关最小二乘法的进一步讨论第一节双变量线性回归模型的估计一.双变量线性回归模型的概念设Y=消费,X=收入,我们根据数据画出散点图Y*这意味着*Y=+X(1)*写出计量经济模型*Y=+X+u(2)*其中u=扰动项或误差项Y为因变量或被解释变量图1XX为自变量或解释变量和为未知参数设我们有Y和X的n对观测值数据,则根据(2)式,变量Y的每个观测值应由下式决定:Yi=+Xi+ui,i=1,2,...,n(3)(3)式称为双变量线性回归模型或简单线性回归模型。其中和为未知的总体参数,也称为回归模型的系数(coefficients)。下标i是观测值的序号。当数据为时间序列时,往往用下标t来表示观测值的序号,从而(3)式变成Yt=+Xt+ut,t=1,2,...,n(3’)为何要在模型中包括扰动项u我们在上一章中已初步介绍了为什么要在模型中包括扰动项u,下面进一步说明之:(1)真正的关系是Y=f(X1,X2,…),但X2,X3,…,相对不重要,用u代表之。(2)两变量之间的关系可能不是严格线性的,u反映了与直线的偏差。(3)经济行为是随机的,我们能够用Y=α+βX解释“典型”的行为,而用u来表示个体偏差。(4)总会出现测量误差,使得任何精确的关系不可能存在。XX二.普通最小二乘法(OLS法,OrdinaryLeastsquares)1.双变量线性回归模型的统计假设我们的模型是:Yt=+Xt+ut,t=1,2,...,n这里和为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估计和的总体值,常用的估计方法就是最小二乘法。为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件,这些统计假设是:双变量线性回归模型的统计假设(1).E(ut)=0,t=1,2,...,n即各期扰动项的均值(期望值)为0.(2).E(uiuj)=0ij即各期扰动项互不相关.(3).E(ut2)=2,t=1,2,...,n即各期扰动项方差是一常数.(4).解释变量Xt为非随机量即Xt的取值是确定的,而不是随机的.(5).ut~N(0,2),t=1,2,...,n即各期扰动项服从正态分布。下面简单讨论一下上述假设条件。(1)E(ut)=0,t=1,2,…,n即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。(2)E(uiuj)=0,i≠j即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于:cov(ui,uj)=0,i≠j这是因为:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根据假设(1)(3)E(ut2)=2,t=1,2,…,n即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。实际上该假设等同于:Var(ut)=2,t=1,2,…,n这是因为:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根据假设(1)(4)Xt为非随机量即Xt的取值是确定的,而不是随机的。事实上,我们后面证明无偏性时仅需要解释变量X与扰动项u不相关,但不容易验证之,因而通常采用非随机量的假设。(5)ut~N(0,2),t=1,2,...,n即扰动项服从正态分布。满足条件(1)—(4)的线性回归模型称为古典线性回归模型(CLR模型)。2.最小二乘原理我们的任务是,在给定X和Y的一组观测值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情况下,求出Yt=+Xt+ut中和的估计值和,使得拟合的直线为最佳。直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。ˆˆ*****et************YXXt图2YttYˆXYˆˆˆ残差拟合的直线称为拟合的回归线.对于任何数据点(Xt,Yt),此直线将Yt的总值分成两部分。第一部分是Yt的拟合值或预测值:,t=1,2,……,n第二部分,et,代表观测点对于回归线的误差,称为拟合或预测的残差(residuals):t=1,2,……,n即t=1,2,……,ntYˆttXYˆˆˆtttXYeˆˆtttYYeˆXYˆˆˆ15残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即22)ˆ(tttYYe最小二乘法最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择和,使得ˆˆ222)ˆˆ()ˆ(tttttXYYYeS达到最小值。运用微积分知识,使上式达到最小值的必要条件为:即)2(0)ˆˆ)((2ˆ)1(0)ˆˆ)(1(2ˆ0ˆˆtttttXYXSXYSSS整理,得:此二式称为正规方程。解此二方程,得:其中:样本均值离差)4(ˆˆ)3(ˆˆ2ttttttXXYXXnY)6(ˆˆ)5()())((ˆ22XYxyxXXYYXXttttttYYyXXxnXXnYYtttttt,,(5)式和(6)式给出了OLS法计算和的公式,和称为线性回归模型Yt=+Xt+ut的参数和的普通最小二乘估计量(OLSestimators)。这两个公式可用于任意一组观测值数据,以求出截距和斜率的OLS估计值(estimates),估计值是从一组具体观测值用公式计算出的数值。一般说来,好的估计量所产生的估计值将相当接近参数的真值,即好的估计值。可以证明,对于CLR模型,普通最小二乘估计量正是这样一个好估计量。ˆˆˆˆ3例子例1对于第一段中的消费函数,若根据数据得到:n=10,=23,=20XY(),()()XXXXYY26437则有()()()..()...XXYYXXYXYXiiiii237640582005823670670058因而例2设Y和X的5期观测值如下表所示,试估计方程Yt=+Xt+ut序号12345Yt1418232530Xt1020304050解:我们采用列表法计算。计算过程如下:Σ54321YYyttXXxttttyx2txtYtX50304025302320181014225110nYY305150nXX831-4-81603004016039.01000390ˆ2tttxyx3.103039.022ˆˆXYttXY39.03.10ˆ11015020100-10-200039010004001000100400估计方程为0)(XnXnXXXXxttt第二节最小二乘估计量的性质一.和的均值ˆˆ2222)(ˆtttttttttttxxYxYxxYYxxyx22)(ˆtttttttxuXxxYx由于从而)(12ttttttuxXxxx)(12tttttuxXxx)(122tttttuxxXxx)(122ttttuxxx22)(ˆtttttttxuXxxYx即两边取期望值,有:——假设(4)=β——假设(1)这表明,是β的无偏估计量。在证明无偏性的过程中,我们仅用到(1)和(4)两条假设条件。2)()ˆ(tttxuExEˆˆ2ˆtttxux由,我们有:XYˆˆ)ˆ()ˆ(XYEE)ˆ(XuXE)ˆ()(EXuEXXXˆ即是的无偏估计量。二.和的方差——根据定义——由无偏性ˆˆ由上段结果:2ˆtttxux即2ˆtttxux22ˆˆˆ(){[()]}ˆ()VarEEEˆ()E我们有:222)()ˆ(tttxux2221122)...()(1nntuxuxuxx22221()()iiijijijtxuxxuux两边取期望值,得:222221ˆ()[()()]()iiijijijtExEuxxEuux由于——根据假设(3)——根据假设(2)所以2222222)0()(1)ˆ(titxxxE22)ˆ(txVar22(),1,2,......,()0,tijEutnEuuij即与此类似,可得出222)ˆ(ttxnXVar22)ˆ,ˆ(txXCov三.高斯--马尔柯夫定理(Gauss--MarkovTheorem)对于满足统计假设条件(1)--(4)的线性回归模型Yt=+Xt+ut,,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE,TheBestLinearUnbiasedEstimator)。或对于古典线性回归模型(CLR模型)Yt=+Xt+ut,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)。我们已在前面证明了无偏性,此外,由于:——由上段结果,=其中这表明,是诸样本观测值Yt(t=1,2,…,n)的线性函数,故是线性估计量。剩下的就是最佳性了,即的方差小于等于β的其他任何线性无偏估计量的方差,我们可以证明这一点,但由于时间关系,从略。有兴趣的同学请参见教科书P46-47。ttYk2tttxxk2ˆtttxYxˆˆˆ四、和的分布我们在前面列出的假设条件(5)表明,ut~N(0,2),t=1,2,...,n即各期扰动项服从均值为0、方差为2的正态分布。考虑到假设条件(4),即Xt为非随机量,则由前面结果:=其中,ttuk2tttxxkˆˆ2ˆtttxux这表明,是N个正态分布变量u1,u2,…,un的线性函数,因而亦为正态分布变量,即~类似的有:~),(22txN),(222ttxnXNˆˆˆ第三节拟合优度的测度一、拟合优度(Goodnessoffit)的概念用最小二乘法得到的回归直线至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线。它是对Y和X之间关系的一种描述,但该直线是不是Y和X之间关系的一种恰当的描述呢?如果各观测点紧密地聚集在这条直线的周围,则表明该直线对Y和X之间关系的描述是好的;否则,用直线来描述这两个变量之间的关系就未必恰当,如下图所示:ttXYˆˆˆ(a)恰当描述(b)不恰当描述图2-3应该指出,对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题。拟合优度是两变量之间关系强度的测度。在这里,指的是两变量间线性关系强度的测度。如果所有观测值都落在回归直线上,则称为“完全拟合”,这种情况是罕见的。在一般情况下,总会出现正负残差(et),通过对这些残差的分析,有助于衡量回归直线拟合样本数据点的程度。二、Y的变差的组成让我们来考察一下Y的变差的组成情况。我们有Y的N个观测值,Y的总变差的一个测度是,Y的变差()中有一部分是可以由X的取值变动所解释的。还有一部分是不能由X所

1 / 78
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功