第二章经典单方程计量经济学模型:一元线性回归模型线性回归模型的特征历史渊源:皮尔逊(KarlPearson)搜集了一千多个家庭成员身高的记录,发现身体高的父亲一组,儿子们身高平均低于他们父亲的身高,身体矮的父亲一组,儿子们平均身高高于他们父亲的身高,这样,儿子的高矮趋向所有人的平均身高,即“回归到普通人”。在同族中抽取n对父-子的身高,即有n对数据:(X1,Y1),(X2,Y2),…,(Xn,Yn).Yka+bXk,1kn.Yk~a+bXk,1kn--男人平均身高.由上式得Yk-~a+bXk-~a+(b-1)+b(Xk-)~c+b(Xk-)(注意=(1-b)+b,c=a+(b-1),0b1)§2.1回归分析概述一、回归分析基本概念1.变量之间的相互关系2.相关分析与回归分析两个变量总体相关系数公式两个变量的样本相关系数公式回归分析是研究一个变量关于另一个变量的依赖关系的计算方法和理论。目的在于通过后者的已知或者设定值,去顾及或预测前者的均值。分为解释变量(自变量)和被解释变量(因变量)。回归分析包含的内容:(1)根据样本进行模型参数估计,得回归方程;(2)对回归方程、参数估计值的显著性检验;(3)利用回归方程进行分析、评价、预测。表2.1.1某社区家庭每月可支配收入与消费支出统计表每月家庭可支配收入X800110014001700200023002600290032003500每月家庭消费Y5616388691023125414081650196920902299594748913110013091452173819912134232162781492411441364155117492046217825306388479791155139715951804206822662629935101212101408165018482101235428609681045124314741672188121892486287110781254149616831925223325521122129814961716196922442585115513311562174920132299264011881364157317712035231012101408160618042101143016501870211214851716194722002002共计242049501149516445193052387025025214502128515510支出随收入变化的简单散点图如下:回归的现代解释研究某一变量(被解释变量)与另一个或多个变量(解释变量)间的因果关系。用解释变量的已知值来估计和预测因变量的总体平均值。)|(10XYEYXY•由于客观经济现象的复杂性随机误差项主要包括以下因素的影响•未知因素的影响;•残缺数据的影响;•众多细小因素的影响•变量观测值的观测误差的影响;•模型关系的设定误差的影响;•变量内在随机因素的影响。样本回归函数总体回归函数现实中未知,需通过抽样,得到总体样本,通过样本信息估计总体回归函数其中e被称为样本残差。ˆˆˆ10xyˆˆ10exy§2.2一元线性回归模型的基本假设1.对模型设定的假设假设1:回归模型是正确设定的2.对解释变量的假设假设2:解释变量是确定的变量,不是随机变量,解释变量之间互不相关。假设3:解释变量X在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X的样本方差趋于一个非零的有限常数,,2,110nixyiii3.对随机干扰项的假设假设4:随机误差项具有给定X的条件下的0均值、同方差以及不序列相关性。即在如此假设条件下,可以推出,0),|,Cov(,,2,1)|Var(,,2,10)|(ji2ijiiiiXXniXniXE)Var(0)(2iiE假设5:随机误差项与解释变量之间不相关,即假设6:随机误差项服从0均值、同方差的正态分布。即0),(iixCovniNXii,,2,1),0(~|2§2.3一元线性回归模型的参数估计一、普通最小二乘原理OLS(ordinaryleastsquare)给定一元线性回归模型设由获得的样本观测值去估计计量经济模型中的未知参数,),,2,1(),(nixyiiiiiXY10结果为其能够很好的拟合样本数据。为对解释变量的估计值,它是由参数估计量和解释变量的观测之计算得到的。那么,被解释变量的估计值与观测值应该在总体上最为接近。iiXY10ˆˆˆiYˆ根据被解释变量的估计值于观测值应该在总体上最接近的原则,给出判断标准是二者之差的平方和最小,即由于)1.3.2()ˆ(min12ˆ,ˆ10niiiYYQ))ˆˆ(-()ˆ(121012niiniiiXYYYQ是待估参数的二次非负函数,因此其极小值总存在。易得0010QQ)2.3.2(0)(0)(1010iiiiiXYXYX)3.3.2(21010iiiiiiXXXYXnY解得:其中若再记则有ininYyXx11,22222)(11)(0ˆˆˆiiiiiiiiiiiiiXXnXYXYnXXnXYXYXXyYYYXXXiii,iiiXXYxy2110ˆˆˆ二、最大似然法(ML,MaximumLikelihood)考虑在一组分布中使得样本出现的可能性最大的分布为我们所求。对于则对随机抽取的样本在获得参数估计值时,应服从如下的正态分布),,2,1(10niXYiiininiEi,,2,1D,,2,102iniNi,,2,1),0(~2),ˆˆ(~210iiXNY则其概率密度为联合密度(似然函数)或对数似然函数极大化上式nixyyfiii,2,1})ˆˆ(exp{)(21021212})ˆˆ(exp{),,(),ˆ,ˆ(21021)2(111022/iinxyyyfLnn21021*)ˆˆ()2ln()ln(2iixynLL22222)(11)(0ˆˆˆiiiiiiiiiiiiixxnxyxynxxnxyxyxxy0)ˆˆ(0)ˆˆ(210ˆ210ˆ10iiiixyxy则解得模型的参数估计量为可见其与用最小二乘估计方法获得的估计量相同,因此有相同的性质。关于方差的最大或然估计为满足下式的量可得0*2L21012)ˆˆ(ˆiinxy三、参数估计的矩法(MM)矩估计(MethodofMoment)思想:由使用相应的样本矩条件可写成整理后可得与正规方程组(2.3.2)相同的组式,故矩估计法与普通最小二乘法及极大似然法有相同的结果。0iE0)(),(iiiixExCov0)ˆˆ(0)ˆˆ(101101iiiniinXXYXY四、最小二乘估计的统计性质衡量估计好坏的准则1.线性性,线性是指参数估计量是被解释变量的线性函数,可以从参数估计表达式直接看出。2.无偏性,指参数估计量的均值等于模型参数值。即221100ˆˆEˆEE3.有效性:所有无偏估计量中具有最小方差;4.渐近无偏性,随着样本容量增加,估计量均值收敛于总体真值;5.一致性:随着样本容量的增加,估计量依概率收敛于总体真值;6.渐进有效性:随着样本容量的增加,估计量在所有一致估计量中是否具有最小的方差。在经典线性回归假设下,最小二乘估计量是具有最小方差的线性无偏估计量,也就是具有所有有限样本性质。证明:1线性性由有其中。同样可证明另一个参数估计量的线性性。2无偏性其中用到。对同理。3.有效性iiixxy21ˆiiYk1ˆ2iixxik0ˆ11101))(())(()ˆ(iiiiiEkXkEE0,0iiiXkk0ˆ2012222)ˆ(,)ˆ(iiixnXxVarVar五、参数估计量的概率分布及随机干扰项方差的估计1.参数估计量和的概率分布在随机干扰正态分布的假定下,有2.随机干扰项的方差的估计记为第个样本观测点的残差,则随机误差项方差的最小二乘、极大似然和MM估计量分别为iiiyyeˆineneneiii2222222ˆ,ˆ,ˆ0ˆ1ˆ2211,~ˆixN22200,~ˆiixnXNi2§2.4一元线性回归模型的统计检验一、拟合优度检验1.总离差平方和的分解。样本回归直线Y的观测至于样本均值的离差可分解为ˆYi=ˆb0+ˆb1Xi)ˆ()ˆ()ˆ(YYeYYYYYYiiiiiiYiYˆ.则所有样本点与样本均值的离差平方和为三者分别被成为总离差平方和、残差平方和和回归平方和。上公式可被解释为:Y的观测值围绕围绕其均值的总离差平方和可分解成两部分:一部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的回归平方和占Y的总离差平方和的比例来判断样本回归线与样本观测值的拟合优度。(Yi-Y)å2=(Yi-ˆYi)å2+(ˆYi-Y)å2=ei2å+(ˆYi-Y)å22。可决系数统计量二、变量的显著行检验推断模型中被解释变量与解释变量之间的线性关系是否显著成立。通过拟合优度检验可看出,拟合优度越高,解释变量对被解释变量的解释能力越大,线性影响就越强。但不能给出严谨的结论。检验线性R2R2=ESSTSS=1-RSSTSS0£R2£1性主要使用假设检验。1。假设检验2。变量的显著行检验由于对一元线性回归模型已知而且未知时可用其无偏估计量替代,构造统计量ˆb1~Nb1,s2xi2åæèççöø÷÷s2ei2å/n-2()1ˆ1221ˆ/ˆˆSxit该统计量服从自由度为n-2的t分布,因此可用该统计量作为显著性检验的t统计量。原假设与被择假设分别为给定一个显著性水平,得到拒绝域或者。三、参数的置信区间由得到的置信区间为同样处理另一个参数。还需要关注置信区间和置信水平样本容量之间的关系。b1H0:b1=0H1:b1¹0a22ntt22ntt)2(~1ˆ1ˆnttSb1)ˆ,ˆ(1212ˆ1ˆ1StSt§2.4一元线性回归模型的统计检验一、拟合优度检验检验模型对样本观测值的拟合程度。可决系数与调整的可决系数总离差平方和:回归平方和:残差平方和:则TSS=ESS+RSSESS=(ˆYi-Y)2å2)ˆ(YYRSSi即总离差平方和可分解为回归平方和与残差平方和两部分。回归平方和反映了总离差平方和中可由样本回归线解释的部分,它越大,残差平方和越小,表明样本回归限于样本观测值的拟合程度越高。因此,可用回归平方和占总离差平方和的比重来衡量样本回归线对样本观测值的拟合程度:TSSRSSTSSESSR12调整的可决系数且有)1/()1/(21nTSSknRSSR1122)1(1knnRR§2.5一元线性回归分析的应用:预测问题考虑回归模型得到点预测意义:一、预测值是条件均值或个别值的一个无偏估计由于总体回归函数为样本回归函数为总体个别值得到时的拟合值为进一步且这说明在时,样本估计值是总体条件均值或个别值的无偏估计,因此可用作为和的预测值。XXYE10)|(XY