1[计量经济学]第二章:双变量线性回归分析§1经典正态线性回归模型(CNLRM)一、一些基本概念1、一个例子XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191总计32546244570767875068510439661211条件分布:以X取定值为条件的Y的条件分布条件概率:给定X的Y的概率,记为P(Y|X)。例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。条件期望(conditionalExpectation):给定X的Y的期望值,记为E(Y|X)。例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65总体回归曲线(PopularRegressionCurve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。2、总体回归函数(PRF)E(Y|Xi)=f(Xi)当PRF的函数形式为线性函数,则有,E(Y|Xi)=1+2Xi其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。3、PRF的随机设定将个别的YI围绕其期望值的离差(Deviation)表述如下:ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+uiPRF:Yi=1+2Xi+ui=E(Y|Xi)+ui其中ui是一个不可观测的可正可负的随机变量,称为随机扰动项或随机误差项。4、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。本课“线性”回归一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。模型对参数为线性?模型对变量为线性?是不是是LRMLRM不是NLRMNLRM注:LRM=线性回归模型;NLRM=非线性回归模型。25、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的:(1)理论的含糊性(2)数据的欠缺(3)核心变量与周边变量(4)内在随机性(5)替代变量(6)省略原则(7)错误的函数形式6、样本回归函数(SRF)(1)样本回归函数iYˆ=1ˆ+2ˆiX其中Yˆ=E(Y|Xi)的估计量;1ˆ=1的估计量;2ˆ=2的估计量。估计量(Estimator):一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计值。样本回归函数的随机形式为:SRF:iY=1ˆ+2ˆiX+iuˆ=iYˆ+iuˆ其中iuˆ表示(样本)残差项(residual)。(2)样本回归线的几何意义二、经典线性回归模型(CLRM)的基本假定:假定1:干扰项的均值为零。即,E(ui|Xi)=0假定2:同方差性或ui的方差相等。即,Var(ui|Xi)=2假定3:各个干扰项无自相关。即,Cov(ui,uj|Xi,Xj)=0假定4:ui和Xi的协方差为零。即,Cov(ui,Xi)=E(uiXi)=0假定5:在重复抽样中X的值是固定的(非随机)XiXPRF:E(Y|Xi)=1+2XiSRF:iYˆ=1ˆ+2ˆiXiuˆiuYiYiYˆE(Y|Xi)3§2估计问题(和2)一、普通最小二乘法1、问题:PRF:Yi=1+2Xi+uiSRF:iY=1ˆ+2ˆiX+iuˆ=iYˆ+iuˆiuˆ=iY-iYˆ=iY-(1ˆ+2ˆiX)minf(1ˆ,2ˆ)=miniuˆ2=min[iY-(1ˆ+2ˆiX)]22、正规方程(Normalequation)由1ˆf=0,以及2ˆf=0得到的方程组称为正规方程。即,iY=n1ˆ+2ˆiXiYiX=1ˆiX+2ˆiX2二、的估计1、公式:解上述正规方程组得到1ˆ和2ˆ估计值:222)())((ˆiiiiiixyxXXYYXXXY2ˆ1ˆ其中X和Y是X和Y的样本均值。定义离差:ix=iX-X,iy=iY-Y。用小写字母表示对均值的离差。2、对OLS估计量的说明(1)OLS估计量可由观测值计算;(2)OLS估计量是点估计量;(3)一旦从样本数据得到OLS估计值,就可画出样本回归线。3、样本回归线的性质:(1)通过Y和X的样本均值:Y=1ˆ+2ˆX;(2)估计的Y的均值等于实际的Y的均值:Yˆ=Y;(3)残差iuˆ的均值为零:E(iuˆ)=0;(4)残差iuˆ与iYˆ不相关:iuˆiyˆ=0;4(5)残差iuˆ与iX不相关:iuˆix=0。三、2的估计2ˆ22nui22222222)(ˆ)ˆ(ˆiiiiiiiiiixyxyxyYYu四、最小二乘法估计的精度或标准误差222)ˆvar(ix2221)ˆvar(iixnX五、OLS的性质(高斯-马尔可夫定理)OLS估计量1ˆ和2ˆ是BLUE(BestLinearUnbiasedEstimator)的。(1)线性:它是一个随机变量,如因变量Y的线性函数。(2)无偏:它的均值等于真值,E(2ˆ)=2(3)最小方差:在所有线性无偏估计量中OLS下的估计量有最小方差。注:有最小方差的无偏估计量叫有效估计量。§3拟合优度检验拟合优度检验是指样本回归线与样本观测值之间拟合程度的检验。度量拟合程度的指标是判定系数R2。一、平方和公式总平方和(TSS):22)(YYyii=实测的Y值围绕其均值的总变异;解释平方和(ESS):22)ˆˆ(ˆYYyii=估计的Y值围绕其均值的总变异;YYiiYˆYOXiXiuˆ=来自残差(Yi-Y)=总离差(iYˆ-Y)=来自回归SRF:1ˆ+2ˆiX5残差平方和(RSS):22)ˆ(ˆiiiYYu=未被解释的围绕回归线的Y值的变异。二、R2公式22222)()ˆ(ˆYYYYyyTSSESSRiiii,或222ˆ1iiyuTSSRSSR性质:102R;三、R2与相关系数r不同在回归分析中,R2是一个比r更有意义的度量,因为前者告诉我们在因变量的变异中由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量。§4置信区间本节要解决的问题:OLS估计值2ˆ是一个点估计值,它离真实值2有多近?一、区间估计的一些基本概念为了回答上述问题,我们试求两个正数和,位于0与1之间,使得随机区间(2ˆ-,2ˆ+)包含2的概率为1-。用符号表示,Pr(2ˆ-22ˆ+)=1-这样的一个区间如果存在的话,就称为置信区间(Confidenceinterval);1-称为置信系数(Confidencecoefficient);(01)称为显著(性)水平(Levelofsignificance);置信区间的端点称为置信限(Confidencelimits);2ˆ-为置信下限(LowerConfidencelimit);2ˆ+为置信上限(UpperConfidencelimit)。二、回归系数1和2的置信区间在ui的正态性假定下,OLS估计量1ˆ和2ˆ本身就是正态分布的,),0(~2Nui),(ˆ2222ixN~)1,0(~/ˆ2222NxZi但是2很少能知道,在实践中用无偏估计量2ˆ来代替,则统计量t服从自由度为n-2的t分布:)2(~/ˆˆ)ˆ(ˆ2222222ntxseti6其中222/ˆ)ˆ(ixse表示估计量2ˆ的标准差(22/ix)的估计值。由1)Pr(22ttt得:2的显著水平为的置信区间为:)]ˆ(ˆ),ˆ(ˆ[222222setset同样,1显著水平为的置信区间为:)]ˆ(ˆ),ˆ(ˆ[121121setset三、2的置信区间在正态性的假设下,变量222ˆ)2(n服从自由度为n-2的2分布。故可以用其来建立2的置信区间。由1)Pr(22/222/1得,2显著水平为的置信区间为:]ˆ)2(,ˆ)2[(22/1222/2nn§5假设检验(t)问题:某一给定的观测或发现是否与某一声称的假设(statedhypothesis)相符?此处用“相符”一词表示观测的值与假设的值“足够相近”,因而我们不拒绝所声称的假设。虚拟假设(Nullhypothesis):一种信以为真的、意在维护的或理论上的假设,并用H0表示。与之对立的假设称为对立假设(alternativehypothesis),记为H1。对立假设可以是简单的或复合的。例如,H1:2=1是一个简单假设,但是H1:21则是一个复合假设。方法:有显著性检验和置信区间两种方法。一、显著性检验1、t检验(检验系数)方法:H0:*22;H1:*22如果H0为真,则因为)2(~/ˆˆ)ˆ(ˆ2222222ntxseti所以有,1)/ˆˆPr(222*222txti从而,)]ˆ(),ˆ([ˆ22*222*22setset检验2ˆ的估计值是否在此区间,如果在则接受H0假设,否则拒绝H0假设。2、置信区间方法7H0:*22;H1:*22构造一个2的显著水平为的置信区间为:)]ˆ(ˆ),ˆ(ˆ[222222setset。若2在假设H0:*22之下落入此区间,就不要拒绝H0假设,但落在区间之外,就拒绝H0假设。3、t检验方法的直接计算:H0:*22;H1:*22。计算2222222/ˆˆ)ˆ(ˆixset比较|t|与2t:|t|2t(t值大)“统计量的值落入临界域上统计量是统计上显著的拒绝H0假设Pr(t)(P值小)。二、2检验的显著性(2检验)H0:22*;H1:22*。构造2显著水平为的置信区间:]ˆ)2(,ˆ)2[(22/1222/2nn检验2的检验值2*是否在此区间内,在则接受,不在就拒绝。三、假设检验中的两类错误第一类错误:拒绝真实;第二类错误:接受错误。两类错误之间存在一种替代关系(Trade-off)。§6F检验(总显著水平))2,1(~ˆˆ2/ˆˆ)(/)(/222222nFxnuxRSSdfRSSESSdfESSRSSofMSSESSofMSSFiii算出F的估计值,与F分布表在选定显著水平上读出的F临界值相比较;或查找F统计量的估计值的P值。§7预测1-接受域-t/2Ot/2t8样本回归函数的一个用途是“预测”或“预报”对应于给定X的未来的Y值。包括两种预测:一、均值预测(meanprediction)对应于选定的X比方说X0,预测Y的条件均值E(Y0)。1、点估计0210ˆˆˆXY2、区间估计2202/002202/0)(1ˆ)()(1ˆiixXXntYYExXXntY二、个值预测(individualprediction)1、点估计0210ˆˆˆXY2、区间估计2202/002202/0)(11ˆ)(11ˆiixXXntYYxXXntY三、比较1、